Computer Science/etc

[빅데이터 분석기사] 실기 요약본 (2) - 빅데이터 탐색

비소_ 2022. 6. 24.

데이터 세분화

: 선택한 매개변수를 기반으로 데이터를 그룹화(군집화와 동일)

계층적 방법

: 사전에 군집수 지정X, 단계적으로 결과 산출

  1. 응집분석법 : 유사한 소집단들을 합쳐 새로운 소집단 구성
  2. 분할분석법 : 유사성이 떨어지는 객체들을 분리해가는 방법

비계층적 방법

: 소집단의 개수를 지정

  1. 인공 신경망 모델
  2. K-평균 군집화

데이터 결측값 종류

MCAR : 결측값이 다른 변수들과 아무 상관이 없음

MAR : 누락은 특정 변수와 관련되어 나타나지만, 결과는 관계없음

MNAR : 결측값이 다른 변수와 연관되어 나타남


결측값 처리방법

단순 대치법

  1. 완전 분석법
  2. 평균 대치법
  3. 단순 확률 대치법 : 적절한 확률값 부여 후 대치
    1. 핫덱 대체 : 현재 진행 중인 연구에서 비슷한 성향으로 대체
    2. 콜드덱 대체 : 외부에서 데이터를 가져옴
  4. 다중 대치법 : 단순 대치법을 m번 대치, 대치 → 분석 → 결합

이상값 검출방법

  1. ESD : 평균 ± 3 x 표준편차
  2. 기하평균 : 기하평균 ± 2.5 x 표준편차
  3. 사분위수 : Q1 – 1.5 x IQR < data < Q3 + 1.5 x IQR
  4. Z-score : (X – 평균) / 표준편차
  5. 딕슨의 Q 검정 : 정렬된 데이터에서 관측치 간의 차이에 대한 비율 활용, 개수 30개↓
  6. 그럽스의 T 검정 : 정규분포 만족, 단변량 자료에서 사용
  7. 카이제곱 검정 : 정규분폰 만족, 자료의 수가 작은 경우 사용
  8. 마할라노비스 거리 : 평균에서 벗어난 정도 측정, 모든 변수 간 선형관계 만족
  9. 확률밀도함수, 히스토그램, 시계열 차트
  10. K-평균 군집화
  11. LOF(Local Outlier Factor) : 관측치 주변 밀도와 근접한 관측치 주변의 밀도 비교
  12. iForest : 의사결정나무를 이용하여 이상값 탐지, 분할 횟수로 이상값 탐색

변수 유형

범주형 명목형 / 순서형

수치형 이산형 / 연속형


변수 선택 기법

변수 선택을 위한 알고리즘 유형 - 전진 선택법, 후진 소거법, 단계적 방법

  1. 필터 기법 : 통계적 특성 이용. ex) 정보 소득, 카이제곱 검정, 피셔 스코어, 상관 계수
  2. 래퍼 기법 : 일부를 모델링에 사용하고 결과를 확인하는 작업 반복
    1. RFE : SVM을 사용하여 재귀적으로 제거
    2. SFS : 그리디 알고리즘으로 특성 변수를 하나씩 추가
    3. 유전 알고리즘 : 전역 최적화 기법
    4. 단변량 선택 : 각 특성을 개별적으로 검사, 종속변수간 관계의 강도를 결정
    5. mRMR : 중복 최소화
  3. 엠비디드 기법 : 모델링 자체에 변수선택이 포함
    1. 라쏘 : L1 노름으로 제약
    2. 릿지 : L2 노름으로 제약
    3. 엘라스틱 넷 : 라쏘 / 릿지를 선형 결합
    4. SelectFromModel : 의사결정나무 기반 알고리즘에서 변수 선택

차원 축소 기법

  1. PCA : 변수들을 선형 변환하여 서로 직교하도록 새로운 변수 생성, 정방행렬에서만 사용
  2. SVD : M X N 행렬에서 특이값을 추출하고 축약
  3. 요인 분석 : 관찰 가능한 데이터를 이용하여 데이터 구조를 해석,
    잠재적인 변수가 존재한다고 가정
  4. ICA : 다변량의 신호를 통계적으로 독립적인 하부 성분으로 분리하여 차원 축소
  5. MDS : 유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현

변수 변환

: 불필요한 변수 제거, 변수 반환, 새로운 변수를 생성

  1. 단순 기능 변환 : 한쪽으로 치우친 변수를 변환. ex) 로그, 제곱 변환
  2. 비닝 : 데이터값을 Bin으로 분할하여 계산, 범주화하기 위해 사용
  3. 정규화 : 데이터 변환과 동일

불균형 데이터 처리

1. 과소 표집

  1. 랜덤 과소 표집 : 무작위로 다수 클래스의 일부만 선택
  2. ENN : 소수에 인접한 다수 클래스 데이터를 제거
  3. 토멕 링크 : 클래스 경계선 가까이에 존재하는 데이터 제거
  4. CNN : 다수 클래스에 밀집된 데이터가 없을 때까지 데이터 제거
  5. OSS : 토멕링크 + CNN

2. 과대 표집

  1. 랜덤 과대 표집 : 무작위로 소수 클래스 복제
  2. SMOTE : 소수에서 중심이 되는 데이터와 주변 데이터 사이에 가상의 직성을 만든 후,
    그 위에 데이터를 추가
  3. Borderline-SMOTE : SMOTE에서 다른 클래스의 데이터 영역까지 생성 분포를 확장
  4. ADASYN : 모든 소수 클래스에서 다수 클래스 관측 비율을 계산하여 SMOTE 적용

3. 임계값 이동

: 임계값을 데이터가 많은 쪽으로 이동

4. 앙상블 기법 이용

댓글