1 minute read

5장. 트리 알고리즘 - 화이트 와인을 찾아라!

결정 트리

  • 예/아니오에 대한 질문을 이어나가면서 정답을 찾아 학습하는 알고리즘
  • 위에서부터 아래로 내려가는 트리 형태
    • 맨 위 노드 : 루트 노드, 맨 아래 노드 : 리프 노드

불순도

  • 결정 트리가 최적의 질문을 찾기 위한 기준
  • 사이킷런은 지니 불순도와 엔트로피 불순도를 제공

정보 이득

  • 부모 노드와 자식 노드의 불순도 차이
  • 정보 이득이 최대화 되도록 학습

가지치기

  • 훈련 세트에 과대적합을 막기 위해서 성장을 제한하는 방법

교차검증

  • 훈련 세트를 여러 폴드로 나눈 다음 한 폴드가 검증역할을 하고 나머지 폴드에서 모델을 훈련 후 모든 폴드에 대해 검증 점수를 얻어 평균하는 방법
  • 훈련 세트를 k 부분으로 나눠서 교차 검증을 수행
    • 각 그룹을 (k-1)개의 Training Fold 와 1개의 Validation Fold 로 나눔
  • 각 검증 점수의 평균을 최종 검증 점수로 사용
    • kfold

앙상블 학습

  • 더 좋은 예측 결과를 만들기 위해 여러 개의 모델을 훈련하는 머신러닝 알고리즘

랜덤 포레스트

  • 대표적인 결정 트리 기반의 앙상블 학습 방법
  • 부트스트랩 샘플을 사용하고 랜덤하게 일부 특성을 선택하여 트리를 만드는 것이 특징
  • ensemble1

엑스트라 트리

  • 랜덤 포레스트와 비슷하게 결정 트리를 사용하여 앙상블 모델을 만들지만 부트스트랩 샘플을 사용하지 않음
  • 랜덤하게 노드를 분할해 과대적합을 감소시킴
  • ensemble2

그레이디언트 부스팅

  • 랜덤 포레스트나 엑스트라 트리와 달리 결정 트리를 연속적으로 추가하여 손실 함수를 최소화하는 앙상블 방법
  • 훈련 속도가 조금 느리지만 더 좋은 성능을 기대할 수 있음
  • ensemble3

히스토그램 기반 그레이디언트 부스팅

  • 그레이디언트 부스팅의 속도를 개선한 방법
  • 안정적인 결과와 높은 성능으로 매우 인기가 높음
  • ensemble4

XGBoost

  • 사이킷런이 아닌 히스토그램 기반 그레이디언트 부스팅 알고리즘을 구현한 라이브러리 중 하나
  • ensemble5

LigthGB나

  • 마이크로소프트에서 만든 히스토그램 기반 그레이디언트 부스팅 라이브러리
  • 빠르고 최신 기술을 많이 적용하고 있어 인기가 점점 높아지고 있음
  • ensemble6