회사에서 일할 때 Average(평균)야 자주 사용하고, 데이터에 noise가 많다 싶으면 Median(중간값)을 쓰는건 습관화되어있는데 엑셀 수식으로만 쓰다보니 Median의 산출방식에 대해서 정확히 생각해본 적이 없는 것 같습니다.
개인적으로 뭔가를 정리할 땐 예시를 드는 것은 별로 안좋아합니다만(예외가 많으니까요...) 이해를 돕는데는 예시만한게 없죠.
표본예시 | 2 | 3 | 5 | 9 | 13 | 14 | 17 | 99 |
Median(중간값)
각 수치와 상관없이 크기 순 정렬하고 딱 중간값을 지칭합니다. 그래서 평균처럼 noise(비정상적으로 크거나 작은쪽으로 데이터가 튀는 것)에 의한 결과 왜곡이 적죠. 근데 표본이 홀수개라면 딱 중간이 나오는데 위 예시처럼 짝수개면 중간이 9인지 13인지? 답은 중간 2개 숫자의 평균입니다. 11이 되겠네요. 뒤에서 설명하겠지만 noise는 outlier(이상점)라고 합니다. outlier들이 평가 목적과 별개인 외압(계측 장비의 고장 등..)에 의해 특정할 수 있다면 median을 쓰는게 맞지만 원인 파악이 안되고 반복해서 나온다면 outlier까지 고려한 Average를 쓰는게 맞습니다.
Quantile(4분위수)
Median에 이어 설명하기 딱 좋네요. 위에서 구한 Median(중간값)을 Q2라 하고, 미만 값 쪽에 2,3,5,9 표본이 4개니까 그 중간 또 3과 5 두개가 나오네요. 그 중간값인 4가 Q1, 초과 값 쪽에 13,14,17,99에서도 마찬가지로 15.5가 Q3이 됩니다.
outlier(이상점)
4분위수에서 Q1, Q2(Median), Q3를 정의했고, IQR(Inter Quartile Range)=Q3-Q1으로 계산하며 outler는 Q3+1.5*IQR보다 크고 Q1-1.5*IQR보다 작은 값들로 규정합니다.
주저리주저리 설명은 했지만 그냥 감만 잡으시고 엑셀, Spotfire등으로 수식만 잘 쓸줄 알면 됩니다.
'빅데이터(big data) > 통계학 필기' 카테고리의 다른 글
[Overview-Big data statistics] 빅데이터와 통계학 개론(비정형을 정형화해 확률과 통계로 유의성 검정까지) 귀무, 대립가설의 유의수준비교 (0) | 2021.06.09 |
---|