빅데이터(big data)/통계학 필기

Average와 Median 그리고 4분위수(Quantile)을 벗어나는 Outlier

에스도비91 2021. 6. 11. 20:55
반응형

회사에서 일할 때 Average(평균)야 자주 사용하고, 데이터에 noise가 많다 싶으면 Median(중간값)을 쓰는건 습관화되어있는데 엑셀 수식으로만 쓰다보니 Median의 산출방식에 대해서 정확히 생각해본 적이 없는 것 같습니다. 

 

개인적으로 뭔가를 정리할 땐 예시를 드는 것은 별로 안좋아합니다만(예외가 많으니까요...) 이해를 돕는데는 예시만한게 없죠. 

표본예시 2 3 5 9 13 14 17 99
Median(중간값)

각 수치와 상관없이 크기 순 정렬하고 딱 중간값을 지칭합니다. 그래서 평균처럼 noise(비정상적으로 크거나 작은쪽으로 데이터가 튀는 것)에 의한 결과 왜곡이 적죠. 근데 표본이 홀수개라면 딱 중간이 나오는데 위 예시처럼 짝수개면 중간이 9인지 13인지? 답은 중간 2개 숫자의 평균입니다. 11이 되겠네요. 뒤에서 설명하겠지만 noise는 outlier(이상점)라고 합니다. outlier들이 평가 목적과 별개인 외압(계측 장비의 고장 등..)에 의해 특정할 수 있다면 median을 쓰는게 맞지만 원인 파악이 안되고 반복해서 나온다면 outlier까지 고려한 Average를 쓰는게 맞습니다.

 

Quantile(4분위수)

Median에 이어 설명하기 딱 좋네요. 위에서 구한 Median(중간값)을 Q2라 하고, 미만 값 쪽에 2,3,5,9 표본이 4개니까 그 중간 또 3과 5 두개가 나오네요. 그 중간값인 4가 Q1, 초과 값 쪽에 13,14,17,99에서도 마찬가지로 15.5가 Q3이 됩니다.

outlier(이상점)

4분위수에서 Q1, Q2(Median), Q3를 정의했고, IQR(Inter Quartile Range)=Q3-Q1으로 계산하며 outler는 Q3+1.5*IQR보다 크고 Q1-1.5*IQR보다 작은 값들로 규정합니다. 

 

주저리주저리 설명은 했지만 그냥 감만 잡으시고 엑셀, Spotfire등으로 수식만 잘 쓸줄 알면 됩니다.