반응형

빅데이터(big data) 9

[Spotfire] Over함수, Column category별로 그룹지어 계산하기, 엑셀보다 강력한 수식 2번째

목표 : Lot(소대명) 그룹별로 나눠 각각의 Average, Max값 구하기 Lot(소대명) Wafer(대원 번호) Value(능력치) Time(평가시점) Average over Lot Max over Lot Alpha 2 72 2021.03.29 74.5 77 Delta 1 80 2021.06.25 64.5 80 Gamma 2 80 2021.01.09 69 80 Delta 5 63 2021.03.27 64.5 80 Beta 7 99 2021.01.21 99 99 Gamma 5 58 2021.03.29 69 80 Delta 7 52 2021.02.20 64.5 80 Delta 10 63 2021.04.19 64.5 80 Alpha 13 77 2021.02.20 74.5 77 계속해서 사용 중인 예시 테..

엑셀의 꽃, 빅데이터 활용을 위한 기본 함수 VLOOKUP

엑셀을 이용한 빅데이터에의 활용에 있어 VLOOKUP함수는 그 시작이라고 할 수 있습니다. 방대한 양의 Rawdata에서 조건에 맞는 값들을 가져오는 기능으로 엑셀을 다루는 현직자라면 누구나 알고 있는 기본이자 꼭 알아야하는 함수이죠. https://s-dobby.tistory.com/19 엑셀 업무 효율을 위한 기본 꿀팁 3가지, 복붙 형식 지정 & 중복 항목 제거 &일괄 열너비 맞추기 엑셀 사용시 알아두면 편한 깨알같은 기능들을 소개합니다. 예시를 위해 네이버증권에서 골든크로스 종목들을 Rawdata로 퍼왔습니다. 1. 복사 후 붙여넣기 형식 지정 대부분의 경우 엑셀에 복붙을 s-dobby.tistory.com 이전 포스팅에서 네이버증권 골든크로스 주식 종목들을 긁어 데이터를 정리했었고, 추가적인 주..

엑셀 업무 효율을 위한 기본 꿀팁 3가지, 복붙 형식 지정 & 중복 항목 제거 &일괄 열너비 맞추기

엑셀 사용시 알아두면 편한 깨알같은 기능들을 소개합니다. 예시를 위해 네이버증권에서 골든크로스 종목들을 Rawdata로 퍼왔습니다. 1. 복사 후 붙여넣기 형식 지정 대부분의 경우 엑셀에 복붙을 하고나면 거슬리는 하이퍼링크, 색색깔의 표시형식들이 거슬릴 때가 많습니다. 그럴 땐 붙여넣기 후 대게 우하단 쪽에 "클립보드 아이콘(Ctrl)" 버튼이 생기는데요. 이걸 클릭하면 뜨는 2개의 아이콘 중에 오른쪽 "주변 서식에 맞추기"를 클릭해 줍니다. 그러면 깔끔한 Text들만 붙여넣기가 됩니다. 2. 중복 항목 제거 주변서식에 맞춰 데이터는 깔끔해졌는데 중간중간 빈 칸들이 많네요. 이것도 거슬리니 삭제해주려합니다. 빈 칸들이 많이 중복되었으니 중복된 데이터 제거 기능을 쓰겠습니다. 열(column)중에 빈칸만 ..

[Spotfire] Rank함수, 그룹별 순위 산출과 중복 없는 denseRank, 엑셀보다 강력한 수식 1번째

목표 : 그룹 별 Rank 구하기 Lot(소대명) Wafer(대원 번호) Value(능력치) Time(평가시점) Rank_in_Lot denseRank_in_Lot Alpha 2 72 2021.03.29 2 2 Delta 1 80 2021.06.25 1 1 Gamma 2 80 2021.01.09 1 1 Delta 5 63 2021.03.27 2 2 Beta 7 99 2021.01.21 1 1 Gamma 5 58 2021.03.29 2 2 Delta 7 52 2021.02.20 4 3 Delta 10 63 2021.04.19 2 2 Alpha 13 77 2021.02.20 1 1 이전 포스팅에서 정리한 예시 테이블에서 Lot(소대)별 Wafer(대원)의 능력치를 내림차순으로 위와 같이 Rank(순서정렬)을..

[Spotfire] 스팟파이어의 꽃, Calculated Column, Replace로 data 업뎃 시 자동 재산출, 데이터 예시 만들기

https://s-dobby.tistory.com/13 [Overview] Spotfire(by TIBCO)의 소개, 강력한 Graph Visualization 소프트웨어, 추적 분석과 데이터 비교에 독 요즘 회사에서 아주 미친듯이 쓰고 있는 Tool입니다. 미국 매사추세츠 주 소머빌에 한 인텔리전스 회사에서 개발된 것으로 2007년에 TIBCO(팁코) 소프트웨어에 인수되었네요. Big data를 다루는 직업 s-dobby.tistory.com Calculated Column과 Replace Spotfire에서 Calculated column은 수식을 사용해 기존 데이터들을 조합, 변형해 새로운 열(Column)을 만들어주는 기능으로 필수로 알아야할 기능 중 하나입니다. 앞서 배운대로 새로운 데이터로 R..

[Overview] Spotfire(by TIBCO)의 소개, 강력한 Graph Visualization 소프트웨어, 추적 분석과 데이터 비교에 독보적인 강점

요즘 회사에서 아주 미친듯이 쓰고 있는 Tool입니다. 미국 매사추세츠 주 소머빌에 한 인텔리전스 회사에서 개발된 것으로 2007년에 TIBCO(팁코) 소프트웨어에 인수되었네요. Big data를 다루는 직업이라면 무조건 써야한다고 해도 과언이 아닐정도로 Powerful하고 여러가지 프레젠테이션 용 그래프 등, Visualization하는데 성능이 아주 좋습니다. 선형, 원형, 꺽은선, Histogram, Scatter 등.. 이걸 써보시면 엑셀에서의 그래프 기능은 초보 수준에 아주 불편하다고 느끼시게 될겁니다. 그리고 Spotfire를 써야하는 이유이자 최고의 강점은 추적 분석, 데이터 비교가 용이하다. Visuallization이 강점인 소프트웨어답게 여러가지 형태의 Graph를 그릴 수가 있는데 한..

Average와 Median 그리고 4분위수(Quantile)을 벗어나는 Outlier

회사에서 일할 때 Average(평균)야 자주 사용하고, 데이터에 noise가 많다 싶으면 Median(중간값)을 쓰는건 습관화되어있는데 엑셀 수식으로만 쓰다보니 Median의 산출방식에 대해서 정확히 생각해본 적이 없는 것 같습니다. 개인적으로 뭔가를 정리할 땐 예시를 드는 것은 별로 안좋아합니다만(예외가 많으니까요...) 이해를 돕는데는 예시만한게 없죠. 표본예시 2 3 5 9 13 14 17 99 Median(중간값) 각 수치와 상관없이 크기 순 정렬하고 딱 중간값을 지칭합니다. 그래서 평균처럼 noise(비정상적으로 크거나 작은쪽으로 데이터가 튀는 것)에 의한 결과 왜곡이 적죠. 근데 표본이 홀수개라면 딱 중간이 나오는데 위 예시처럼 짝수개면 중간이 9인지 13인지? 답은 중간 2개 숫자의 평균입..

[Overview-Big data statistics] 빅데이터와 통계학 개론(비정형을 정형화해 확률과 통계로 유의성 검정까지) 귀무, 대립가설의 유의수준비교

인터넷에 정보들이 넘쳐나면서 빅데이터 분석은 이제 필수가 되었습니다. 제각각의 텍스트들 중에 키워드를 뽑아내서 트랜드를 읽기도 하고 이미지조차 색상코드와 벡터값들을 뽑아 정형 데이터로 만들어 비교를 합니다. 게다가 제가 일하는 반도체 회사에서는 원래도 데이터가 많았지만 기술이 나날이 발전하면서 scaling을 통한 집적도의 고도화로 인해 뽑히는 데이터도 천문학적으로 늘어나는데다 variation도 계속해서 증가하기에 빅데이터를 통한 통계적 분석은 필수가 되었습니다. 일단 데이터는 2가지로 분류가 되는데 정형과 비정형 정형(政形): 숫자로 데이터 분석이 용이한 것, 정량적인 것(+정제된 키워드) 비정형(非政形): 텍스트, 이미지 등 정해진 형태가 아니라 분석이 어려운 것, 정성적인 것 비정형에서 unifo..