Computer Science/etc

[빅데이터 분석기사] 실기 요약본 (3) - 빅데이터 모델링

비소_ 2022. 6. 24.

분석 모형

1. 통계기반

  1. 기술 통계 : 데이터를 확률/통계적으로 정리/요약하는 기초적인 통계 방법
  2. 상관 분석 : 두 개 이상의 변수 간에 존재하는 상호 연관성의 적도를 측정하여 분석
  3. 회귀 분석 : 하나 이상의 독립변수들이 종속변수에 미치는 영향 추정
  4. 분산 분석 : 두 개 이상의 집단 간 비교를 수행, 분산 비교로 얻은 분포 이용
  5. 주성분 분석 : 원래 변수의 선형 결합으로 주성분 변수를 추출하는 통계 방법
  6. 판별 분석 : 다변량 기법으로 조사된 집단에 대한 정보를 활용, 어떤 집단인지 탐색

2. 데이터 마이닝 기반

  1. 분류 모델 : 객체들을 사전에 전해진 범주 중의 하나로 분류
  2. 예측 모델 : 과거 데이터로부터 특성을 분석하여 결괏값을 예측
  3. 군집화 모델 : 이질적인 집단을 몇 개의 동질적인 소집단으로 세분화
  4. 연관 규칙 모델 : 데이터에 숨어있는 동시에 발생하는 사건 혹은 항목간의 규칙을 수치화

3. 머신러닝 기반

  1. 지도 학습 : 레이블이 포함되어 있는 훈련 데이터를 통해 학습
  2. 비지도 학습 : 레이블이 없는 상태에서 분석, 현상의 설명이나 특징 도출에 활용
  3. 강화 학습 : 보상을 최대화하는 행동 혹은 행동 순서를 선택
  4. 준지도 학습 : 레이블이 옵션인 데이터를 통해 학습

회귀 분석

독립변수와 종속변수 간에 선형적인 관계 도출, 종속변수를 예측

선형성, 독립성, 등분산성, 비상관성, 정상성의 가정을 만족(선형성을 제외하고 잔차와 연관)

변수 선택 방법(전진 선택법, 후진 소거법, 단계적 방법)을 통해 최적 회귀방정식 선택

로지스틱 회귀분석

: 종속변수가 범주형인 경우


의사결정나무

전체 자료를 소집단으로 분류하거나 예측하는 분석 방법

과정 : 성장 가지치기 타당성 평가 해석 및 예측

알고리즘

  1. CART : 이진분할 알고리즘
  2. C4.5, C5.0 : 다지분리 가능, 불순도의 척도로 엔트로피 지수 이용
  3. CHAID : 가지치기 X, 불순도의 척도로 카이제곱 통계량 이용
  4. QUEST : CART 개선, 분리 변수 선택과 분리점 선택 두 단계로 나누어 시행, 카이제곱 이용

인공신경망(ANN)

입력값을 받아 출력값을 만들기 위해 활성화함수 이용

가중치를 알아내는 것이 목적

퍼셉트론 : 최초의 인공신경망, 은닉층X

다층 퍼셉트론(MLP) : 은닉층 O, 역전파 알고리즘, 활성화 함수 시그모이드

활성화 함수 종류

  1. 시그모이드 : 0 ~ 1, 기울기 소실(경사 하강)문제
  2. tanh : -1 ~ 1, 기울기 소실문제
  3. ReLU : 0 ~ X, 경사하강 해결, X <= 0이면 뉴런이 죽을 수 있음
  4. Leaky ReLU : 0.01X ~ X, 뉴런이 죽는 현상 해결
  5. 소프트맥스 : 목표치가 다범주인 경우 각 범주에 속할 사후 확률 제공, 총합은 1

순전파 : 입력층 은닉층 출력층까지 정보가 전달되는 과정

오차 역전파 : 계산 결과와 정답의 오차를 구해 가중치를 오차가 작아지는 방향으로 수정


서포트 벡터 머신(SVM)

지도 학습 기반 이진 선형 분류 모델

최적의 분리 초평면을 찾아서 분류 및 회귀 수행

SVM 요소

  1. 결정 경계 : 데이터 분류의 기준이 되는 경계
  2. 초평면 : n 차원 공간의 (n – 1) 차원 평면
  3. 마진 : 결정 경계에서 서포트 벡터까지의 거리
  4. 서포트 벡터 : 결정 경계와 가장 가까이에 있는 데이터들의 집합
  5. 슬랙 변수 : 허용된 오차를 위한 변수

 

하드 마진 SVM : 오차 허용X

소프트 마진 SVM : 오차 허용


연관성 분석

데이터 내부에 존재하는 항목 간의 상호 관계 혹은 종속 관계를 찾아내는 분석 기법

장바구니 분석, 서열 분석이라고도 함

 

지지도 : $P(A\cap B)$, AB를 동시에 포함하는 거래의 비율

신뢰도 : $\frac{P(A\cap B)}{P(A)}$, A를 샀을 때 B를 살 조건부 확률

향상도 : $\frac{P(A\cap B)}{P(A)P(B)}$, 우연히 일어날 가능성에 대비하여 얼마나 나은 효과를 보이는지에 대한 척도

 

아프리오리 알고리즘 : 발생 빈도가 높은 것을 찾는 알고리즘

FP-Growth 알고리즘 : 아프리오리 개선, FP-Tree 구조 활용, 최소지지도 만족 아이템 추출


군집 분석

여러 변숫값으로부터 유사성에만 기초하여 n개의 군집으로 집단화하여 분석하는 다변량 분석

계층적 군집 : 응집분석법, 분할분석법

군집 결과는 계통도 혹은 덴드로그램의 형태로 주어짐

군집 연결법

  1. 최단연결법 : 각 군집에서 하나씩 뽑았을 때 최소 거리, 단일연결법이라고도 함
  2. 최장연결법 : 최대 거리, 완전연결법이라고도 함
  3. 중심연결법 : 중심 간의 거리를 측정하여 유사성이 큰 군집으로 병합
  4. 평균연결법 : 모든 항목에 대한 거리 평균을 구해 병합
  5. 와드연결법 : 군집 내의 오차 제곱합에 기초하여 최소가 되는 방향으로 군집 형성

연속형 변수 거리 계산

  1. 유클리드 거리(루트제곱), 맨하탄 거리(절댓값), 민코프스키 거리(혼합)
  2. 표준화 거리(표본분산), 마할라노비스 거리(표본 공분산)

명목형 변수 거리 계산

  1. 단순 일치 계수 : 전체 속성 중에서 일치하는 속성의 비율
  2. 자카드 계수 : 두 집합 사이 유사도 측정, 동일하면 1, 없으면 0

순서형 변수 거리 계산

  1. 순위 상관 계수 : 값에 순위를 매겨 순위에 대해 상관 계수를 측정

비 계층적 군집 분석

  1. K-평균 군집화 : 원하는 군집 수(k개) 지정, 평균을 재계산하여 초깃값 갱신
    • k 선정 기법
      1. 엘보우 기법 : 오차제곱합이 최소가 되도록 클러스터의 중심을 결정, 평균 거리가 더 이상 많이 감소하지 않는 경우의 k 결정
      2. 실루엣 기법 : 군집 간의 거리가 얼마나 분리되어 있는지 나타내는 기법, 1에 가까울수록 군집 간 거리가 멀어서 최적화가 잘되어 있음
      3. 덴드로그램 : 시각화를 이용하여 군집의 개수 결정
  2. 혼합 분포 군집 : 데이터가 모집단 모형으로부터 나왔다는 가정 하에 가중치를 추정하는 방법 사용
  3. 가우시안 혼합모델(GMM) : 가구시안 분포의 선형 결합으로 이루어졌음을 가정하고, 각 분포에 속할 확률이 높은 데이터 간의 군집을 형성
  4. EM 알고리즘 : 잠재변수에 의존하는 모델에서 최대 가능도나 최대 사후 확률을 갖는 모수의 추정값을 찾는 알고리즘
  5. DBSCAN 알고리즘 : 개체들의 밀도 계산을 기반으로 밀접하게 분포된 개체들끼리 그룹화
  6. SOM : 고차원의 데이터를 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화한 비지도 신경망

범주형 자료 분석

카이제곱 검정

범주형/범주형에서 사용, 범주형 자료 간의 차이를 보여주는 분석 방법

카이제곱값은 편차의 제곱 값을 기대 빈도로 나눈 값들의 합

적합도 검정 : 한 개의 요인을 대상으로 특정 분포를 따르는지 검정

독립성 검정 : 여러 범주를 가지는 2개의 요인이 독립적인지 검정

동질성 검정 : 표본 추출시 관측값들이 정해진 범주 내에서 서로 동질한지 검정

피셔의 정확 검정

표본 수가 적거나 치우치게 분포되어 있을 경우 실시

범주형 데이터에서 기대 빈도가 5미만인 셀이 20%를 넘는 경우 카이제곱 대신 사용

T-검정

범주형/수치형에서 사용, 두 집단의 평균을 비교

표본이 정규성, 등분산성, 독립성 등을 만족할 경우 적용


다변량 분석 - 다차원 척도법(MDS)

여러 대상들을 동일한 상대적 거리를 가진 실수 공간의 점들로 배치

2차원이나 3차원 실수 공간의 점으로 대응


시계열 분석

정상성 : 시점에 상관없이 시계열의 특성이 일정

시계열 분석을 위해서는 정상성을 만족해야 함

  1. 자기 회귀 모형(AR 모형) : 현시점의 자료가 유한개의 과거 자료로 설명될 수 있는 모형
  2. 이동 평균 모형(MA 모형) : 시간이 지날수록 관측치의 평균값이 지속적으로 변화하는 모형
  3. 자기 회귀 누적 이동 평균 모형(ARIMA 모형) : 주간/월간 단위로 지표를 리뷰하여 트렌드 분석,
    비정상 시계열 모형, 차분이나 변환을 통해 AR, MA, ARMA로 정상화

시계열 구성요소 : 추세 요인(특정형태), 계절 요인(고정주기), 순환 요인(모르는 주기), 불규칙 요인


딥러닝

여러 비선형 변환 기법의 조합을 통해 높은 수준의 추상화 시도

기울기 소실 현상 해결

  1. DNN : 은닉층을 심층 구성
  2. CNN : 시각적 이미지 분석에 사용, 필터 기능(Convolution)과 신경망 결합
  3. RNN : 재귀적인 신경망, 시계열 데이터 분석에 적합, SGD와 시간 기반 오차 역전파 사용

비정형 데이터 분석

  1. 텍스트 마이닝 : NLP를 이용해 정보 추출
  2. 오피니언 마이닝 : 주관적인 의견이 포함된 데이터에서 의견과 감정을 나타내는 패턴 분석
  3. 웹 마이닝 : 웹 서비스로부터 정보를 자동으로 추출, 발견하는 기법
    1. 웹 내용 마이닝 : 페이지의 내용 중 유용한 정보 추출
    2. 웹 사용 마이닝 : 웹 로그를 통해 사용자 행위 패턴 분석
    3. 웹 구조 마이닝 : 웹 사이트의 구조적인 요약 정보를 찾기 위한 기법
  4. 사회 연결망 분석(SNA) : 개인과 집단들 간의 관계를 분석
    • 측정 지표
      1. 연결 정도 중심성 : 특정 노드가 연결망 내에서 연결된 다른 노드들의 합
      2. 근접 중심성 : 직간접적으로 연결되어 있는 모든 노드 간의 거리를 바탕으로 중심성 측정
      3. 매개 중심성 : 특정 노드가 다른 노드들 사이에 위차하는 정도, 영향력 파악
      4. 위세 중심성 : 자신의 연결 정도 중심으로부터 발생하는 영향력과 연결된 타인의 영향력을 합하여 결정

앙상블 분석

여러 가지 동일한 종류 또는 서로 상이한 모형들의 결과를 종합하여 의사 결정에 활용

다중 모델 조합, 분류기 조합이 있음

  1. 배깅 : 부트스트랩으로 자료를 생성하고, 각 자료를 모델링 후 분류기로 최종 모형 선택
  2. 부스팅 : 잘못 분류된 개체들에 가중치를 적용하는 알고리즘, 약한 모형들을 결합
    1. AdaBoost : 잘못 예측한 데이터에 가중치를 부여
    2. GBM : 경사하강법을 이용하여 가중치 업데이트
  3. 랜덤 포레스트 : 배깅과 부스팅보다 더 많은 무작위성을 추어 약한 학습기들을 생성한 후, 이를 선형 결합하여 최종 학습기를 만듦

K-NN

해당 데이터와 가장 가까운 k개의 데이터 클래스로 분류, 지도 학습

모든 예측 변수는 수치형

거리 기반 모형이므로 표준화 필요

새로운 데이터 들어올 때 거리를 측정하는 Lazy Model

K값에 따라 예측 결과가 달라짐

K가 크면 과소 적합 및 이상값, 노이즈와 이웃이 될 가능성 있음


비모수 통계 (모수 유의성 검정)

모집단의 분포에 대한 모수성을 가정하지 않고 분석

빈도, 부호, 순위 등의 통계량 사용

이상값 영향 적음

 

  1. 부호 검정
    • 자료를 중위수와의 차이를 구하고 부호만을 이용해 부호들의 수를 근거로 검정
    • 분포가 연속적이고 독립적인 분포에서 나온 것이라는 가정 필요
  2. 윌콕슨 부호 순위 검정
    • 단일 표본에서 중위수에 대한 검정에 사용
    • 차이의 상대적인 크기도 고려
    • 부호 검정 가정에 추가로 분포의 대칭성 가정이 필요
  3. 3. 윌콕슨 순위 합 검정
    • 두 표본의 혼합 표본에서 순위 합을 이용한 검정
    • 분포가 연속적, 독립적, 대칭적이어야 함
  4. 4. 대응 표본 검정
    • 하나의 모집단에서 두 가지 처리를 적용하여 관찰 값을 얻은 후, 각 쌍의 차이를 이용하여 두 중위수의 차이를 검정
  5. 5. 크루스칼 왈리스 검정
    • 세 집단 이상의 분포를 비교
  6. 6. 런 검정
    • 두 개의 값을 가지는 연속적인 측정값들이 패턴 없이 나타난 것인지 검정
    • Run : 동일한 측정값들이 시작하여 끝날 때까지의 덩어리통계기반

댓글