평가지표
편향 : 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차
분산 : 훈련 데이터에 내재된 작은 변동으로 발생하는 오차
종속변수가 범주형 – 혼동 행렬 / 연속형 – RMSE
분류 모형 평가는 혼동 행렬, ROC 곡선, AUC 사용
카파 통계량 : 우연히 나온 결과가 아니라는 것을 설명
혼동 행렬 평가 지표
- 정확도 : $\frac{TP + TN}{TP + TN + FP + FN}$, 전체 예측에서 실제 맞춘 정도
- 오차 비율 : $\frac{FP + FN}{TP + TN + FP + FN}$, 전체에서 잘못 분류한 비율
- 참 긍정률(TPR), 재현율, 민감도 : $\frac{TP}{TP + FN}$, 실제 긍정에서 긍정으로 예측해서 맞춘 비율
- 특이도 : $\frac{TN}{TN + FP}$, 실제 부정에서 부정으로 예측해서 맞춘 비율
- 거짓 긍정률(FPR) : $\frac{FP}{TN + FP}$, 1 - 특이도, 실제 부정에서 긍정으로 잘못 예측한 비율
- 정밀도 : $\frac{TP}{TP + FP}$, 긍정으로 예측한 비율 중 실제로 긍정인 비율
- F1-Score : 정밀도와 민감도를 하나로 합한 성능평가(조화평균)
- 카파 통계량 : 두 관찰자가 측정한 범주 값에 대한 일치도를 측정하는 방법
ROC 곡선 : x축 – FPR, y축 – TPR
AUC : ROC 곡선 아래 면적
이익 도표 : 목표 범주에 속하는 개체들이 등급별로 얼마나 분포하고 있는지를 시각화
교차 검증
- 홀드 아웃 교차 검증 : 비복원 추출 방법을 이용해 훈련/평가 데이터 나눔
- K-Fold CV : 동일 크기를 갖는 K개의 부분집합으로 나누고, K – 1개 훈련, 1개는 평가
- LOOCV : 데이터 1개의 샘플만 평가데이터에 사용, 나머지는 전부 훈련
- LpOCV : 데이터 p개의 샘플만 평가데이터에 사용, 나머지는 훈련
- 부트스트랩 : 단순 랜덤 복원 추출 방법을 활용하여 동일 크기 표본을 여러 개 생성
모수 유의성 검정
- Z-검정 : 모집단 평균 알고 있음, 표본이 동일 모집단에 속하는지 가설 검증, 모분산 알고있음
- T-검정 : 모집단 평균 알고 있음, 두 집단 간의 평균을 비교, 모분산을 모름
- ANOVA : 두 개 이상의 집단을 F-분포를 이용하여 가설 검정 수행
- One-way ~ Multi-way ANOVA : 독립변수 1개 ~ 독립변수 3개 이상, 종속변수 1개
- MANOVA : 종속변수 2개 이상
- 카이제곱 검정 : 분산을 알고 있음, 관찰된 빈도가 기대되는 빈도와 유의미하게 다른지 검정
- F-검정 : 두 모집단 분산 간의 비율에 대한 검정, 표본분산에 대한 차이가 유의한지 판별
적합도 검정
- 카이제곱 검정
- 정규성 검정
- 샤피로-윌크 검정 : 정규분포를 따르는지 검정, 표본 수가 작을 때 사용
- K-S 검정 : 어떤 특정 분포를 따르는지 검정, 표본 수가 많을 때(2000개 이상) 사용
- Q-Q Plot : 대각선 참조선을 따라 분포하면 정규성을 만족
과대 적합 방지방안
- 데이터 증강 : 충분한 데이터 세트를 확보할 수 있도록 데이터를 변형해서 늘려줌
- 모델의 복잡도 감소 : 모델의 수용력을 낮춤
- 가중치 규제 : 개별 가중치 값을 제한하여 모델을 간단하게 만듦. ex) L1, L2, 엘라스틱 넷
- 드롭아웃 : 학습 과정에서 신경망 일부를 사용하지 않는 방법. ex) 초기, 공간적, 시간적
매개변수 최적화
손실 함수의 값을 최대한 작게 하도록 하는 가중치와 편향을 찾는 것
가중치 : 각 입력값에 각기 다르게 곱해지는 수치
편향 : 하나의 뉴런에 입력된 모든 값을 더한 값(가중합)에 더해주는 상수
- SGD : 손실 함수의 기울기를 구하여 가장 작은 지점에 도달하도록 하는 알고리즘
- 모멘텀 : SGD에 속도라는 개념을 적용, 경로의 변위가 줄어들어 빠르게 최적점으로 수렴
- AdaGrad : 최적점에 가까워질수록 학습률을 줄여 나가는 기법 이용
- Adam : AdaGrad + 모멘텀
분석 모형 융합
- 다수결 : 결과를 종합하여 다수결로 나온 모형을 최종 모형으로 결정
- 배깅 : 부트스트랩으로 훈련 데이터 세트를 나누어 학습
- 페이스팅 : 비복원 추출 방법 (↔ 홀드 아웃 교차 검증과 유사주의)
- 랜덤 서브스페이스 : 다차원 독립변수 중 일부 차원만을 선택, 데이터는 모두 사용
- 랜덤 패치 : 훈련 데이터와 독립변수 모두 일부만 사용
- 랜덤 포레스트 : 의사결정나무를 개별 모형으로 사용하는 모형 결합 방법
- AdaBoost : 잘못 예측한 데이터에 가중치를 부여하여 오류를 개선
- GBM : 경사 하강법을 이용하여 가중치를 업데이트
비즈니스 기여도 평가
- 총 소유 비용(TCO) : 주어진 기간 동안 모든 연관 비용을 고려할 수 있도록 확인하기 위해 사용
- 투자 대비 효과(ROI) : 자본 투자에 따른 순 효과의 비율을 의미
- 순 현재가치(NPV) : 특정 시점의 투자금액과 매출금액의 차이를 이자율을 고려하여 계산한 값
- 내부 수익률(IRR) : 순 현재차기를 0으로 만드는 할인율(연 단위 기대수익 규모)
- 투자 회수 기간(PP) : 누계 투자금액과 매출금액의 합이 같아지는 기간
데이터 시각화
시간 시각화
: 시간 흐름에 따른 변화를 통해 트렌드를 파악
- 막대 그래프
- 누적 막대 그래프
- 선 그래프
- 영역 차트 : y축은 0부터 시작, 시간에 따라 크기 변화를 보여줌
- 계단식 그래프 : 변화가 생길 때까지 x축과 평행하게 일정한 선 유지
- 추세선 : 변화하는 경향성을 보여주는 직선 또는 곡선
분포 시각화
: 변화를 최대/최소/전체 분포 등으로 구분. 전체에서 부분 간 관계를 설명
- 파이 차트 : 데이터가 차지하는 비율에 따라 여러 조각으로 나누어 나타낸 시각화
- 도넛 차트 : 파이 차트와 비슷하지만, 중심 부분이 비어있음
- 트리맵 : 트리 구조 데이터를 표현, 사각형을 겹쳐 놓음으로써 대분류와 소분류를 나타냄
- 누적 영역 그래프 : 여러 개의 영역 차트를 겹겹이 쌓아놓은 모양
관계 시각화
: 집단 간의 상관관계를 확인하여 다른 수치의 변화를 예측
- 산점도 : 두 변숫값의 순서쌍을 한 점으로 표시
- 산점도 행렬 : 다변량 변수를 갖는 데이터에서 모든 변수 쌍에 대한 산점도를 행렬로 표현
- 버블 차트 : 산점도에서 데이터값에 여러 가지 의미를 부여하여 확장된 차트
- 히스토그램 : 특정 변수에 대해 구간별 빈도수를 나타냄
- 네트워크 그래프 : 개체 간 논리적인 관계를 표현
비교 시각화
: 데이터 간의 차이점과 유사성 관계를 확인하는 방법
- 플로팅 바 차트 : 막대가 가장 낮은 값부터 높은 값까지 걸쳐있게 표현한 차트
- 히트맵 : 칸 별로 색상을 구분하여 데이터 값 표현
- 체르노프 페이스 : 데이터를 얼굴로 표현
- 스타 차트 : 변수를 연결선을 통해 그림, 변수가 늘어나면 축도 늘어남
- 평행 좌표 그래프 : 다변량 데이터를 2차원 평면에 표현
공간 시각화
: 지도를 통해 시점에 따른 경향, 차이 등을 확인하는 방법
- 등치 지역도 : 지리적 단위로 색상을 구분
- 등치선도 : 같은 값을 가지는 지점을 선으로 이음
- 도트맵 : 좌표점에 산점도와 같이 점을 찍어 표현
- 버블맵 : 해당 지역에 서로 다른 크기의 원형으로 표시
- 카토그램 : 지리적 형상 크기를 조절해 왜곡된 화면으로 표기
인포그래픽
: 중요 정보를 하나의 그래픽으로 표현
'Computer Science > etc' 카테고리의 다른 글
[정보처리기사] 실기 핵심 내용 요약 (0) | 2022.07.23 |
---|---|
[빅데이터 분석기사] 실기 요약본 (5) - 작업형 함수 정리(with. R) (0) | 2022.06.24 |
[빅데이터 분석기사] 실기 요약본 (3) - 빅데이터 모델링 (0) | 2022.06.24 |
[빅데이터 분석기사] 실기 요약본 (2) - 빅데이터 탐색 (0) | 2022.06.24 |
[빅데이터 분석기사] 실기 요약본 (1) - 빅데이터 분석 기획 (0) | 2022.06.24 |
댓글