less than 1 minute read

6장 - 비지도 학습 - 비슷한 과일끼리 모으자!

비지도 학습

  • 머신러닝의 한 종류로 훈련 데이터에 타깃이 없음
  • 외부의 도움 없이 스스로 유용한 무언가를 학습해야함

히스토그램

  • 구간별로 값이 발생한 빈도를 그래프로 표시

군집

  • 비슷한 샘플끼리 하나의 그룹으로 모으는 대표적인 비지도 학습 작업
  • 군집 알고리즘에서 만든 그룹을 클러스터 라고 부름

k-평균

  • 처음에는 랜덤하게 클러스터 중심을 선택하고 점차 가장 가까운 샘플의 중심으로 이동하는 비교적 간단한 알고리즘

k-평균 알고리즘

  1. 무작위로 k 개의 클러스터 중심을 정함
  2. 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플을 지정함
  3. 클러스터에 속한 샘플의 평균값으로 클러스터 중심을 변경함
  4. 클러스터 중심에 변화가 없을 때까지 2번으로 돌아가 반복

최적의 k 찾기

  • 엘보우
    • 클러스터 개수를 늘려가면서 이너셔(클러스터 중심과 클러스터에 속한 샘플 사이의 거리의 제곱 합)의 변화를 관찰하여 최적의 클러스터 개수를 찾는 방법
    • 클러스터 개수에 따라 이너셔 감소가 꺽이는 지점이 적절한 클러스터 개수 k가 될 수 있음

주성분 분석

  • 차원
    • 데이터가 가진 속성을 특성이라고 하고 이런 특성을 차원이라고도 부름
  • 차원 축소
    • 데이터를 가장 잘 나타내는 일부 특성을 선택하여 데이터 크기를 줄이고 지도 학습 모델의 성능을 향상시킬 수 있는 방법
  • 주성분 분석
    • 대표적인 차원 축소 알고리즘
    • PCA라고도 부름
    • 데이터에 있는 분산이 큰 방향을 찾는 것으로 이해할 수 있음 (분산 은 데이터가 널리 퍼져있는 정도)