데이터 세분화
: 선택한 매개변수를 기반으로 데이터를 그룹화(군집화와 동일)
계층적 방법
: 사전에 군집수 지정X, 단계적으로 결과 산출
- 응집분석법 : 유사한 소집단들을 합쳐 새로운 소집단 구성
- 분할분석법 : 유사성이 떨어지는 객체들을 분리해가는 방법
비계층적 방법
: 소집단의 개수를 지정
- 인공 신경망 모델
- K-평균 군집화
데이터 결측값 종류
MCAR : 결측값이 다른 변수들과 아무 상관이 없음
MAR : 누락은 특정 변수와 관련되어 나타나지만, 결과는 관계없음
MNAR : 결측값이 다른 변수와 연관되어 나타남
결측값 처리방법
단순 대치법
- 완전 분석법
- 평균 대치법
- 단순 확률 대치법 : 적절한 확률값 부여 후 대치
- 핫덱 대체 : 현재 진행 중인 연구에서 비슷한 성향으로 대체
- 콜드덱 대체 : 외부에서 데이터를 가져옴
- 다중 대치법 : 단순 대치법을 m번 대치, 대치 → 분석 → 결합
이상값 검출방법
- ESD : 평균 ± 3 x 표준편차
- 기하평균 : 기하평균 ± 2.5 x 표준편차
- 사분위수 : Q1 – 1.5 x IQR < data < Q3 + 1.5 x IQR
- Z-score : (X – 평균) / 표준편차
- 딕슨의 Q 검정 : 정렬된 데이터에서 관측치 간의 차이에 대한 비율 활용, 개수 30개↓
- 그럽스의 T 검정 : 정규분포 만족, 단변량 자료에서 사용
- 카이제곱 검정 : 정규분폰 만족, 자료의 수가 작은 경우 사용
- 마할라노비스 거리 : 평균에서 벗어난 정도 측정, 모든 변수 간 선형관계 만족
- 확률밀도함수, 히스토그램, 시계열 차트
- K-평균 군집화
- LOF(Local Outlier Factor) : 관측치 주변 밀도와 근접한 관측치 주변의 밀도 비교
- iForest : 의사결정나무를 이용하여 이상값 탐지, 분할 횟수로 이상값 탐색
변수 유형
범주형 – 명목형 / 순서형
수치형 – 이산형 / 연속형
변수 선택 기법
변수 선택을 위한 알고리즘 유형 - 전진 선택법, 후진 소거법, 단계적 방법
- 필터 기법 : 통계적 특성 이용. ex) 정보 소득, 카이제곱 검정, 피셔 스코어, 상관 계수
- 래퍼 기법 : 일부를 모델링에 사용하고 결과를 확인하는 작업 반복
- RFE : SVM을 사용하여 재귀적으로 제거
- SFS : 그리디 알고리즘으로 특성 변수를 하나씩 추가
- 유전 알고리즘 : 전역 최적화 기법
- 단변량 선택 : 각 특성을 개별적으로 검사, 종속변수간 관계의 강도를 결정
- mRMR : 중복 최소화
- 엠비디드 기법 : 모델링 자체에 변수선택이 포함
- 라쏘 : L1 노름으로 제약
- 릿지 : L2 노름으로 제약
- 엘라스틱 넷 : 라쏘 / 릿지를 선형 결합
- SelectFromModel : 의사결정나무 기반 알고리즘에서 변수 선택
차원 축소 기법
- PCA : 변수들을 선형 변환하여 서로 직교하도록 새로운 변수 생성, 정방행렬에서만 사용
- SVD : M X N 행렬에서 특이값을 추출하고 축약
- 요인 분석 : 관찰 가능한 데이터를 이용하여 데이터 구조를 해석,
잠재적인 변수가 존재한다고 가정 - ICA : 다변량의 신호를 통계적으로 독립적인 하부 성분으로 분리하여 차원 축소
- MDS : 유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현
변수 변환
: 불필요한 변수 제거, 변수 반환, 새로운 변수를 생성
- 단순 기능 변환 : 한쪽으로 치우친 변수를 변환. ex) 로그, 제곱 변환
- 비닝 : 데이터값을 Bin으로 분할하여 계산, 범주화하기 위해 사용
- 정규화 : 데이터 변환과 동일
불균형 데이터 처리
1. 과소 표집
- 랜덤 과소 표집 : 무작위로 다수 클래스의 일부만 선택
- ENN : 소수에 인접한 다수 클래스 데이터를 제거
- 토멕 링크 : 클래스 경계선 가까이에 존재하는 데이터 제거
- CNN : 다수 클래스에 밀집된 데이터가 없을 때까지 데이터 제거
- OSS : 토멕링크 + CNN
2. 과대 표집
- 랜덤 과대 표집 : 무작위로 소수 클래스 복제
- SMOTE : 소수에서 중심이 되는 데이터와 주변 데이터 사이에 가상의 직성을 만든 후,
그 위에 데이터를 추가 - Borderline-SMOTE : SMOTE에서 다른 클래스의 데이터 영역까지 생성 분포를 확장
- ADASYN : 모든 소수 클래스에서 다수 클래스 관측 비율을 계산하여 SMOTE 적용
3. 임계값 이동
: 임계값을 데이터가 많은 쪽으로 이동
4. 앙상블 기법 이용
'Computer Science > etc' 카테고리의 다른 글
[정보처리기사] 실기 핵심 내용 요약 (0) | 2022.07.23 |
---|---|
[빅데이터 분석기사] 실기 요약본 (5) - 작업형 함수 정리(with. R) (0) | 2022.06.24 |
[빅데이터 분석기사] 실기 요약본 (4) - 빅데이터 결과 해석 (0) | 2022.06.24 |
[빅데이터 분석기사] 실기 요약본 (3) - 빅데이터 모델링 (0) | 2022.06.24 |
[빅데이터 분석기사] 실기 요약본 (1) - 빅데이터 분석 기획 (0) | 2022.06.24 |
댓글