이상치? 극단치?
이상치
정상 범주에서 벗어난 값으로 논리적으로 존재 할 수 없는 수치.
예를 들어 남자를 1, 여자를 2로 표현한다면 3이라는 수치는 논리적으로 존재할 수 없다. 따라서 3은 이상치임을 확인하고 결측치로 변환 후 데이터 분석을 진행한다.
극단치
논리적으로는 존재 할 수 있지만 극단적으로 크거나 작은 수치.
예를 들어 아시아인 중 키가 2.21m인 사람이 있다고 한다면, 논리적으로는 존재 할 수 있지만, 드문 케이스에 속하므로 극단치로 분류한다.
극단치를 제거하려면 어디까지 정상 범위에 대한 기준이 필요한데,
1) 논리적으로 판단하거나 2) 통계적인 기준(boxplot)으로 판단한다.
boxplot
boxplot(데이터프레임명$변수명)으로 상자 그림을 만들어 극단치 판단 기준을 세운다.
A, E : 극단치 경계
B : 3사분위수(Q3), 하위 75% 위치 값
C : 2사분위수(Q2), 하위 50% 위치 값으로 중앙값을 의미
D : 1사분위수(Q1), 하위 25% 위치 값
1 : 하위 75~100% 내에 해당하는 값
2 : 하위 0~25% 내에 해당하는 값
boxplot 통계치 출력
boxplot(데이터프레임명$변수명)$stats로 상자 그림 통계치를 콘솔 창에 출력.
[1] 아래쪽 극단치 경계(E)
[2] 1사분위수(D)
[3] 중앙값(C)
[4] 3사분위수(B)
[5] 위쪽 극단치 경계(A)
순으로 출력되며, 출력된 값을 갖고 극단치 기준을 정한다.
극단치 정제
1. 극단치를 결측치로 변환
df$column <- ifelse(df$column < 극단치 | df$column > 극단치, NA, df$column )
2. 결측치 제외
df %>% summarise(smean_column= mean(column, na.rm = T))
'# Programming Language > R' 카테고리의 다른 글
[Data Analysis] R 패키지_ggplot2/dplyr (0) | 2021.03.21 |
---|---|
[Data Analysis] R 기본_패키지/외부파일/데이터프레임/함수 (0) | 2021.02.22 |
[Data Analysis] R 스튜디오 UI구성 / 환경설정 (0) | 2021.02.11 |
[Data Analysis] RStudio 설치 (0) | 2021.02.03 |
[Data Analysis] R 설치 (0) | 2021.02.03 |