[혼공머신] 2장. 데이터 다루기

less than 1 minute read

2장. 데이터 다루기 : 수상한 생선을 조심하라!

지도 학습과 비지도 학습

지도학습 supervised learning
- 입력(데이터), 타깃(정답)으로 이뤄진 훈련 데이터가 필요
- 정답을 맞히는 것을 학습
비지도학습 unsupervised learning
- 타깃없이 입력 데이터만 사용
- 무언가 맞힐 수 없는 대신 데이터를 잘 파악하거나 변형하는데 도움을 줌

훈련 세트와 테스트 세트

머신러닝의 정확한 평가를 위해서는 테스트 세트와 훈련 세트가 따로 준비되어야 함
훈련 세트 (train set) : 훈련에 사용되는 데이터
테스트 세트 (test set) : 평가에 사용하는 데이터
훈련할 때 사용하지 않은 데이터로 평가를 해야함

샘플링 편향

하나의 특성을 묶은 여기에서는 하나의 생선 데이터를 샘플(sample) 이라고 함
훈련 세트와 테스트 세트에 샘플이 골구로 섞여 있지 않으면 샘플링이 한쪽으로 치우쳤다는 의미로 샘플링 편향이라고 부름

넘파이

파이썬 대표적인 배열 라이브러리
고차원의 배열을 손쉽게 만들고 조작할 수 있는 간편한 도구를 많이 제공함

데이터 전처리

특성값을 일정한 기준으로 맞추는 것
- 길이와 무게의 값이 놓인 범위가 크게 다름 → 이를 스케일(scale)이 다르다라고 함
- 거리 기반 알고리즘은 샘플 간의 거리에 영향을 많이 받으므로 제대로 사용하기 위해서 데이터 전처리가 필요함
표준 점수 (standard score) : z 점수
- 가장 널리 사용하는 전처리 방법 중 하나
- 각 특성값이 0에서 표준편차의 몇 배만큼 떨어져 있는 지 나타냄
- 실제 특성값의 크기와 상관없이 동일한 조건으로 비교가 가능

Share on

Twitter Facebook LinkedIn

You may also enjoy

[혼공머신] 7장. 딥러닝을 시작합니다.

4 minute read

7장 딥러닝을 시작합니다 - 패션 럭키백을 판매합니다!

[혼공머신] 6장. 비지도 학습

1 minute read

6장 - 비지도 학습 - 비슷한 과일끼리 모으자!

[혼공머신] 5장. 트리 알고리즘

1 minute read

5장. 트리 알고리즘 - 화이트 와인을 찾아라!

[혼공머신] 4장. 다양한 분류 알고리즘

1 minute read

4장. 다양한 분류 알고리즘 : 럭키백의 확률을 계산하라!