728x90


이상치? 극단치?

 

이상치

정상 범주에서 벗어난 값으로 논리적으로 존재 할 수 없는 수치.
예를 들어 남자를 1, 여자를 2로 표현한다면 3이라는 수치는 논리적으로 존재할 수 없다. 따라서 3은 이상치임을 확인하고 결측치로 변환 후 데이터 분석을 진행한다.

극단치

 논리적으로는 존재 할 수 있지만 극단적으로 크거나 작은 수치.
예를 들어 아시아인 중 키가 2.21m인 사람이 있다고 한다면, 논리적으로는 존재 할 수 있지만, 드문 케이스에 속하므로 극단치로 분류한다.

극단치를 제거하려면 어디까지 정상 범위에 대한 기준이 필요한데,
1) 논리적으로 판단하거나 2) 통계적인 기준(boxplot)으로 판단한다.


boxplot

 

boxplot(데이터프레임명$변수명)으로 상자 그림을 만들어 극단치 판단 기준을 세운다.

A, E : 극단치 경계 

B : 3사분위수(Q3), 하위 75% 위치 값

C : 2사분위수(Q2), 하위 50% 위치 값으로 중앙값을 의미

D : 1사분위수(Q1), 하위 25% 위치 값

1 : 하위 75~100% 내에 해당하는 값

2 : 하위 0~25% 내에 해당하는 값


boxplot 통계치 출력

 

boxplot(데이터프레임명$변수명)$stats로 상자 그림 통계치를 콘솔 창에 출력.

[1] 아래쪽 극단치 경계(E)

[2] 1사분위수(D)

[3] 중앙값(C)

[4] 3사분위수(B)

[5] 위쪽 극단치 경계(A)

 순으로 출력되며, 출력된 값을 갖고 극단치 기준을 정한다.


극단치 정제

 

1. 극단치를 결측치로 변환

df$column <- ifelse(df$column < 극단치 | df$column > 극단치, NA, df$column )

2. 결측치 제외

df %>% summarise(smean_column= mean(column, na.rm = T))

 


 

728x90

+ Recent posts