[혼공머신] 2장. 데이터 다루기
2장. 데이터 다루기 : 수상한 생선을 조심하라!
지도 학습과 비지도 학습
- 지도학습 supervised learning
- 입력(데이터), 타깃(정답)으로 이뤄진 훈련 데이터가 필요
- 정답을 맞히는 것을 학습
- 비지도학습 unsupervised learning
- 타깃없이 입력 데이터만 사용
- 무언가 맞힐 수 없는 대신 데이터를 잘 파악하거나 변형하는데 도움을 줌
훈련 세트와 테스트 세트
- 머신러닝의 정확한 평가를 위해서는 테스트 세트와 훈련 세트가 따로 준비되어야 함
- 훈련 세트 (train set) : 훈련에 사용되는 데이터
- 테스트 세트 (test set) : 평가에 사용하는 데이터
- 훈련할 때 사용하지 않은 데이터로 평가를 해야함
샘플링 편향
- 하나의 특성을 묶은 여기에서는 하나의 생선 데이터를 샘플(sample) 이라고 함
- 훈련 세트와 테스트 세트에 샘플이 골구로 섞여 있지 않으면 샘플링이 한쪽으로 치우쳤다는 의미로 샘플링 편향이라고 부름
넘파이
- 파이썬 대표적인 배열 라이브러리
- 고차원의 배열을 손쉽게 만들고 조작할 수 있는 간편한 도구를 많이 제공함
데이터 전처리
- 특성값을 일정한 기준으로 맞추는 것
- 길이와 무게의 값이 놓인 범위가 크게 다름 → 이를 스케일(scale)이 다르다라고 함
- 거리 기반 알고리즘은 샘플 간의 거리에 영향을 많이 받으므로 제대로 사용하기 위해서 데이터 전처리가 필요함
- 표준 점수 (standard score) : z 점수
- 가장 널리 사용하는 전처리 방법 중 하나
- 각 특성값이 0에서 표준편차의 몇 배만큼 떨어져 있는 지 나타냄
- 실제 특성값의 크기와 상관없이 동일한 조건으로 비교가 가능