Average와 Median 그리고 4분위수(Quantile)을 벗어나는 Outlier

빅데이터(big data)/통계학 필기

Average와 Median 그리고 4분위수(Quantile)을 벗어나는 Outlier

에스도비91 2021. 6. 11. 20:55

회사에서 일할 때 Average(평균)야 자주 사용하고, 데이터에 noise가 많다 싶으면 Median(중간값)을 쓰는건 습관화되어있는데 엑셀 수식으로만 쓰다보니 Median의 산출방식에 대해서 정확히 생각해본 적이 없는 것 같습니다.

개인적으로 뭔가를 정리할 땐 예시를 드는 것은 별로 안좋아합니다만(예외가 많으니까요...) 이해를 돕는데는 예시만한게 없죠.

표본예시

Median(중간값)

각 수치와 상관없이 크기 순 정렬하고 딱 중간값을 지칭합니다. 그래서 평균처럼 noise(비정상적으로 크거나 작은쪽으로 데이터가 튀는 것)에 의한 결과 왜곡이 적죠. 근데 표본이 홀수개라면 딱 중간이 나오는데 위 예시처럼 짝수개면 중간이 9인지 13인지? 답은 중간 2개 숫자의 평균입니다. 11이 되겠네요. 뒤에서 설명하겠지만 noise는 outlier(이상점)라고 합니다. outlier들이 평가 목적과 별개인 외압(계측 장비의 고장 등..)에 의해 특정할 수 있다면 median을 쓰는게 맞지만 원인 파악이 안되고 반복해서 나온다면 outlier까지 고려한 Average를 쓰는게 맞습니다.

Quantile(4분위수)

Median에 이어 설명하기 딱 좋네요. 위에서 구한 Median(중간값)을 Q2라 하고, 미만 값 쪽에 2,3,5,9 표본이 4개니까 그 중간 또 3과 5 두개가 나오네요. 그 중간값인 4가 Q1, 초과 값 쪽에 13,14,17,99에서도 마찬가지로 15.5가 Q3이 됩니다.

outlier(이상점)

4분위수에서 Q1, Q2(Median), Q3를 정의했고, IQR(Inter Quartile Range)=Q3-Q1으로 계산하며 outler는 Q3+1.5*IQR보다 크고 Q1-1.5*IQR보다 작은 값들로 규정합니다.

주저리주저리 설명은 했지만 그냥 감만 잡으시고 엑셀, Spotfire등으로 수식만 잘 쓸줄 알면 됩니다.

'빅데이터(big data) > 통계학 필기' 카테고리의 다른 글

[Overview-Big data statistics] 빅데이터와 통계학 개론(비정형을 정형화해 확률과 통계로 유의성 검정까지) 귀무, 대립가설의 유의수준비교 (2)	2021.06.09

현재글Average와 Median 그리고 4분위수(Quantile)을 벗어나는 Outlier

S-dobby의 자기계발

S전자 도비의 블로그 입니다. 경제적 자유의 양말을 받는 그날까지 열심히 자기계발을...

정적html, 실무로배우는파이썬, url scrap, 컬러코드, python, JavaScript, MBCFET, paginate, 엑셀, css, pandas, 앱개발, Calculated Column, finfet, 구글서치콘솔, 파이썬, 프로그래밍, sdobbyapp, 게시글url, Spotfire,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

S-dobby의 자기계발