Computer Science/etc

[빅데이터 분석기사] 실기 요약본 (2) - 빅데이터 탐색

비소_ 2022. 6. 24.

데이터 세분화

: 선택한 매개변수를 기반으로 데이터를 그룹화(군집화와 동일)

계층적 방법

: 사전에 군집수 지정X, 단계적으로 결과 산출

응집분석법 : 유사한 소집단들을 합쳐 새로운 소집단 구성
분할분석법 : 유사성이 떨어지는 객체들을 분리해가는 방법

비계층적 방법

: 소집단의 개수를 지정

인공 신경망 모델
K-평균 군집화

데이터 결측값 종류

MCAR : 결측값이 다른 변수들과 아무 상관이 없음

MAR : 누락은 특정 변수와 관련되어 나타나지만, 결과는 관계없음

MNAR : 결측값이 다른 변수와 연관되어 나타남

결측값 처리방법

단순 대치법

완전 분석법
평균 대치법
단순 확률 대치법 : 적절한 확률값 부여 후 대치
1. 핫덱 대체 : 현재 진행 중인 연구에서 비슷한 성향으로 대체
2. 콜드덱 대체 : 외부에서 데이터를 가져옴
다중 대치법 : 단순 대치법을 m번 대치, 대치 → 분석 → 결합

이상값 검출방법

ESD : 평균 ± 3 x 표준편차
기하평균 : 기하평균 ± 2.5 x 표준편차
사분위수 : Q1 – 1.5 x IQR < data < Q3 + 1.5 x IQR
Z-score : (X – 평균) / 표준편차
딕슨의 Q 검정 : 정렬된 데이터에서 관측치 간의 차이에 대한 비율 활용, 개수 30개↓
그럽스의 T 검정 : 정규분포 만족, 단변량 자료에서 사용
카이제곱 검정 : 정규분폰 만족, 자료의 수가 작은 경우 사용
마할라노비스 거리 : 평균에서 벗어난 정도 측정, 모든 변수 간 선형관계 만족
확률밀도함수, 히스토그램, 시계열 차트
K-평균 군집화
LOF(Local Outlier Factor) : 관측치 주변 밀도와 근접한 관측치 주변의 밀도 비교
iForest : 의사결정나무를 이용하여 이상값 탐지, 분할 횟수로 이상값 탐색

변수 유형

범주형 – 명목형 / 순서형

수치형 – 이산형 / 연속형

변수 선택 기법

변수 선택을 위한 알고리즘 유형 - 전진 선택법, 후진 소거법, 단계적 방법

필터 기법 : 통계적 특성 이용. ex) 정보 소득, 카이제곱 검정, 피셔 스코어, 상관 계수
래퍼 기법 : 일부를 모델링에 사용하고 결과를 확인하는 작업 반복
1. RFE : SVM을 사용하여 재귀적으로 제거
2. SFS : 그리디 알고리즘으로 특성 변수를 하나씩 추가
3. 유전 알고리즘 : 전역 최적화 기법
4. 단변량 선택 : 각 특성을 개별적으로 검사, 종속변수간 관계의 강도를 결정
5. mRMR : 중복 최소화
엠비디드 기법 : 모델링 자체에 변수선택이 포함
1. 라쏘 : L1 노름으로 제약
2. 릿지 : L2 노름으로 제약
3. 엘라스틱 넷 : 라쏘 / 릿지를 선형 결합
4. SelectFromModel : 의사결정나무 기반 알고리즘에서 변수 선택

차원 축소 기법

PCA : 변수들을 선형 변환하여 서로 직교하도록 새로운 변수 생성, 정방행렬에서만 사용
SVD : M X N 행렬에서 특이값을 추출하고 축약
요인 분석 : 관찰 가능한 데이터를 이용하여 데이터 구조를 해석,
잠재적인 변수가 존재한다고 가정
ICA : 다변량의 신호를 통계적으로 독립적인 하부 성분으로 분리하여 차원 축소
MDS : 유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현

변수 변환

: 불필요한 변수 제거, 변수 반환, 새로운 변수를 생성

단순 기능 변환 : 한쪽으로 치우친 변수를 변환. ex) 로그, 제곱 변환
비닝 : 데이터값을 Bin으로 분할하여 계산, 범주화하기 위해 사용
정규화 : 데이터 변환과 동일

불균형 데이터 처리

1. 과소 표집

랜덤 과소 표집 : 무작위로 다수 클래스의 일부만 선택
ENN : 소수에 인접한 다수 클래스 데이터를 제거
토멕 링크 : 클래스 경계선 가까이에 존재하는 데이터 제거
CNN : 다수 클래스에 밀집된 데이터가 없을 때까지 데이터 제거
OSS : 토멕링크 + CNN

2. 과대 표집

랜덤 과대 표집 : 무작위로 소수 클래스 복제
SMOTE : 소수에서 중심이 되는 데이터와 주변 데이터 사이에 가상의 직성을 만든 후,
그 위에 데이터를 추가
Borderline-SMOTE : SMOTE에서 다른 클래스의 데이터 영역까지 생성 분포를 확장
ADASYN : 모든 소수 클래스에서 다수 클래스 관측 비율을 계산하여 SMOTE 적용

3. 임계값 이동

: 임계값을 데이터가 많은 쪽으로 이동

4. 앙상블 기법 이용

저작자표시 비영리 변경금지

'Computer Science > etc' 카테고리의 다른 글

[정보처리기사] 실기 핵심 내용 요약 (0)	2022.07.23
[빅데이터 분석기사] 실기 요약본 (5) - 작업형 함수 정리(with. R) (0)	2022.06.24
[빅데이터 분석기사] 실기 요약본 (4) - 빅데이터 결과 해석 (0)	2022.06.24
[빅데이터 분석기사] 실기 요약본 (3) - 빅데이터 모델링 (0)	2022.06.24
[빅데이터 분석기사] 실기 요약본 (1) - 빅데이터 분석 기획 (0)	2022.06.24