Computer Science/etc

[빅데이터 분석기사] 실기 요약본 (4) - 빅데이터 결과 해석

비소_ 2022. 6. 24.

평가지표

편향 : 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차

분산 : 훈련 데이터에 내재된 작은 변동으로 발생하는 오차

 

종속변수가 범주형 혼동 행렬 / 연속형 RMSE

분류 모형 평가는 혼동 행렬, ROC 곡선, AUC 사용

 

카파 통계량 : 우연히 나온 결과가 아니라는 것을 설명

혼동 행렬 평가 지표

  1. 정확도 : $\frac{TP + TN}{TP + TN + FP + FN}$, 전체 예측에서 실제 맞춘 정도
  2. 오차 비율 : $\frac{FP + FN}{TP + TN + FP + FN}$, 전체에서 잘못 분류한 비율
  3. 참 긍정률(TPR), 재현율, 민감도 : $\frac{TP}{TP + FN}$, 실제 긍정에서 긍정으로 예측해서 맞춘 비율
  4. 특이도 : $\frac{TN}{TN + FP}$, 실제 부정에서 부정으로 예측해서 맞춘 비율
  5. 거짓 긍정률(FPR) : $\frac{FP}{TN + FP}$, 1 - 특이도, 실제 부정에서 긍정으로 잘못 예측한 비율
  6. 정밀도 : $\frac{TP}{TP + FP}$, 긍정으로 예측한 비율 중 실제로 긍정인 비율
  7. F1-Score : 정밀도와 민감도를 하나로 합한 성능평가(조화평균)
  8. 카파 통계량 : 두 관찰자가 측정한 범주 값에 대한 일치도를 측정하는 방법

ROC 곡선 : xFPR, yTPR

AUC : ROC 곡선 아래 면적

이익 도표 : 목표 범주에 속하는 개체들이 등급별로 얼마나 분포하고 있는지를 시각화


교차 검증

  1. 홀드 아웃 교차 검증 : 비복원 추출 방법을 이용해 훈련/평가 데이터 나눔
  2. K-Fold CV : 동일 크기를 갖는 K개의 부분집합으로 나누고, K – 1개 훈련, 1개는 평가
  3. LOOCV : 데이터 1개의 샘플만 평가데이터에 사용, 나머지는 전부 훈련
  4. LpOCV : 데이터 p개의 샘플만 평가데이터에 사용, 나머지는 훈련
  5. 부트스트랩 : 단순 랜덤 복원 추출 방법을 활용하여 동일 크기 표본을 여러 개 생성

모수 유의성 검정

  1. Z-검정 : 모집단 평균 알고 있음, 표본이 동일 모집단에 속하는지 가설 검증, 모분산 알고있음
  2. T-검정 : 모집단 평균 알고 있음, 두 집단 간의 평균을 비교, 모분산을 모름
  3. ANOVA : 두 개 이상의 집단을 F-분포를 이용하여 가설 검정 수행
    1. One-way ~ Multi-way ANOVA : 독립변수 1개 ~ 독립변수 3개 이상, 종속변수 1개
    2. MANOVA : 종속변수 2개 이상
  4. 카이제곱 검정 : 분산을 알고 있음, 관찰된 빈도가 기대되는 빈도와 유의미하게 다른지 검정
  5. F-검정 : 두 모집단 분산 간의 비율에 대한 검정, 표본분산에 대한 차이가 유의한지 판별

적합도 검정

  1. 카이제곱 검정
  2. 정규성 검정
    1. 샤피로-윌크 검정 : 정규분포를 따르는지 검정, 표본 수가 작을 때 사용
    2. K-S 검정 : 어떤 특정 분포를 따르는지 검정, 표본 수가 많을 때(2000개 이상) 사용
    3. Q-Q Plot : 대각선 참조선을 따라 분포하면 정규성을 만족

과대 적합 방지방안

  1. 데이터 증강 : 충분한 데이터 세트를 확보할 수 있도록 데이터를 변형해서 늘려줌
  2. 모델의 복잡도 감소 : 모델의 수용력을 낮춤
  3. 가중치 규제 : 개별 가중치 값을 제한하여 모델을 간단하게 만듦. ex) L1, L2, 엘라스틱 넷
  4. 드롭아웃 : 학습 과정에서 신경망 일부를 사용하지 않는 방법. ex) 초기, 공간적, 시간적

매개변수 최적화

손실 함수의 값을 최대한 작게 하도록 하는 가중치와 편향을 찾는 것

가중치 : 각 입력값에 각기 다르게 곱해지는 수치

편향 : 하나의 뉴런에 입력된 모든 값을 더한 값(가중합)에 더해주는 상수

  1. SGD : 손실 함수의 기울기를 구하여 가장 작은 지점에 도달하도록 하는 알고리즘
  2. 모멘텀 : SGD에 속도라는 개념을 적용, 경로의 변위가 줄어들어 빠르게 최적점으로 수렴
  3. AdaGrad : 최적점에 가까워질수록 학습률을 줄여 나가는 기법 이용
  4. Adam : AdaGrad + 모멘텀

분석 모형 융합

  1. 다수결 : 결과를 종합하여 다수결로 나온 모형을 최종 모형으로 결정
  2. 배깅 : 부트스트랩으로 훈련 데이터 세트를 나누어 학습
  3. 페이스팅 : 비복원 추출 방법 (↔ 홀드 아웃 교차 검증과 유사주의)
  4. 랜덤 서브스페이스 : 다차원 독립변수 중 일부 차원만을 선택, 데이터는 모두 사용
  5. 랜덤 패치 : 훈련 데이터와 독립변수 모두 일부만 사용
  6. 랜덤 포레스트 : 의사결정나무를 개별 모형으로 사용하는 모형 결합 방법
  7. AdaBoost : 잘못 예측한 데이터에 가중치를 부여하여 오류를 개선
  8. GBM : 경사 하강법을 이용하여 가중치를 업데이트

비즈니스 기여도 평가

  1. 총 소유 비용(TCO) : 주어진 기간 동안 모든 연관 비용을 고려할 수 있도록 확인하기 위해 사용
  2. 투자 대비 효과(ROI) : 자본 투자에 따른 순 효과의 비율을 의미
  3. 순 현재가치(NPV) : 특정 시점의 투자금액과 매출금액의 차이를 이자율을 고려하여 계산한 값
  4. 내부 수익률(IRR) : 순 현재차기를 0으로 만드는 할인율(연 단위 기대수익 규모)
  5. 투자 회수 기간(PP) : 누계 투자금액과 매출금액의 합이 같아지는 기간

데이터 시각화

시간 시각화

: 시간 흐름에 따른 변화를 통해 트렌드를 파악

  1. 막대 그래프
  2. 누적 막대 그래프
  3. 선 그래프
  4. 영역 차트 : y축은 0부터 시작, 시간에 따라 크기 변화를 보여줌
  5. 계단식 그래프 : 변화가 생길 때까지 x축과 평행하게 일정한 선 유지
  6. 추세선 : 변화하는 경향성을 보여주는 직선 또는 곡선

분포 시각화

: 변화를 최대/최소/전체 분포 등으로 구분. 전체에서 부분 간 관계를 설명

  1. 파이 차트 : 데이터가 차지하는 비율에 따라 여러 조각으로 나누어 나타낸 시각화
  2. 도넛 차트 : 파이 차트와 비슷하지만, 중심 부분이 비어있음
  3. 트리맵 : 트리 구조 데이터를 표현, 사각형을 겹쳐 놓음으로써 대분류와 소분류를 나타냄
  4. 누적 영역 그래프 : 여러 개의 영역 차트를 겹겹이 쌓아놓은 모양

관계 시각화

: 집단 간의 상관관계를 확인하여 다른 수치의 변화를 예측

  1. 산점도 : 두 변숫값의 순서쌍을 한 점으로 표시
  2. 산점도 행렬 : 다변량 변수를 갖는 데이터에서 모든 변수 쌍에 대한 산점도를 행렬로 표현
  3. 버블 차트 : 산점도에서 데이터값에 여러 가지 의미를 부여하여 확장된 차트
  4. 히스토그램 : 특정 변수에 대해 구간별 빈도수를 나타냄
  5. 네트워크 그래프 : 개체 간 논리적인 관계를 표현

비교 시각화

: 데이터 간의 차이점과 유사성 관계를 확인하는 방법

  1. 플로팅 바 차트 : 막대가 가장 낮은 값부터 높은 값까지 걸쳐있게 표현한 차트
  2. 히트맵 : 칸 별로 색상을 구분하여 데이터 값 표현
  3. 체르노프 페이스 : 데이터를 얼굴로 표현
  4. 스타 차트 : 변수를 연결선을 통해 그림, 변수가 늘어나면 축도 늘어남
  5. 평행 좌표 그래프 : 다변량 데이터를 2차원 평면에 표현

공간 시각화

: 지도를 통해 시점에 따른 경향, 차이 등을 확인하는 방법

  1. 등치 지역도 : 지리적 단위로 색상을 구분
  2. 등치선도 : 같은 값을 가지는 지점을 선으로 이음
  3. 도트맵 : 좌표점에 산점도와 같이 점을 찍어 표현
  4. 버블맵 : 해당 지역에 서로 다른 크기의 원형으로 표시
  5. 카토그램 : 지리적 형상 크기를 조절해 왜곡된 화면으로 표기

인포그래픽

: 중요 정보를 하나의 그래픽으로 표현

댓글