6장 - 비지도 학습 - 비슷한 과일끼리 모으자!
비지도 학습
- 머신러닝의 한 종류로 훈련 데이터에 타깃이 없음
- 외부의 도움 없이 스스로 유용한 무언가를 학습해야함
히스토그램
군집
- 비슷한 샘플끼리 하나의 그룹으로 모으는 대표적인 비지도 학습 작업
- 군집 알고리즘에서 만든 그룹을 클러스터 라고 부름
k-평균
- 처음에는 랜덤하게 클러스터 중심을 선택하고 점차 가장 가까운 샘플의 중심으로 이동하는 비교적 간단한 알고리즘
k-평균 알고리즘
- 무작위로 k 개의 클러스터 중심을 정함
- 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플을 지정함
- 클러스터에 속한 샘플의 평균값으로 클러스터 중심을 변경함
- 클러스터 중심에 변화가 없을 때까지 2번으로 돌아가 반복
최적의 k 찾기
- 엘보우
- 클러스터 개수를 늘려가면서 이너셔(클러스터 중심과 클러스터에 속한 샘플 사이의 거리의 제곱 합)의 변화를 관찰하여 최적의 클러스터 개수를 찾는 방법
- 클러스터 개수에 따라 이너셔 감소가 꺽이는 지점이 적절한 클러스터 개수 k가 될 수 있음
주성분 분석
- 차원
- 데이터가 가진 속성을 특성이라고 하고 이런 특성을 차원이라고도 부름
- 차원 축소
- 데이터를 가장 잘 나타내는 일부 특성을 선택하여 데이터 크기를 줄이고 지도 학습 모델의 성능을 향상시킬 수 있는 방법
- 주성분 분석
- 대표적인 차원 축소 알고리즘
- PCA라고도 부름
- 데이터에 있는 분산이 큰 방향을 찾는 것으로 이해할 수 있음 (분산 은 데이터가 널리 퍼져있는 정도)