less than 1 minute read

2장. 데이터 다루기 : 수상한 생선을 조심하라!

지도 학습과 비지도 학습

  • 지도학습 supervised learning
    • 입력(데이터), 타깃(정답)으로 이뤄진 훈련 데이터가 필요
    • 정답을 맞히는 것을 학습
  • 비지도학습 unsupervised learning
    • 타깃없이 입력 데이터만 사용
    • 무언가 맞힐 수 없는 대신 데이터를 잘 파악하거나 변형하는데 도움을 줌

훈련 세트와 테스트 세트

  • 머신러닝의 정확한 평가를 위해서는 테스트 세트와 훈련 세트가 따로 준비되어야 함
  • 훈련 세트 (train set) : 훈련에 사용되는 데이터
  • 테스트 세트 (test set) : 평가에 사용하는 데이터
  • 훈련할 때 사용하지 않은 데이터로 평가를 해야함

샘플링 편향

  • 하나의 특성을 묶은 여기에서는 하나의 생선 데이터를 샘플(sample) 이라고 함
  • 훈련 세트와 테스트 세트에 샘플이 골구로 섞여 있지 않으면 샘플링이 한쪽으로 치우쳤다는 의미로 샘플링 편향이라고 부름

넘파이

  • 파이썬 대표적인 배열 라이브러리
  • 고차원의 배열을 손쉽게 만들고 조작할 수 있는 간편한 도구를 많이 제공함

데이터 전처리

  • 특성값을 일정한 기준으로 맞추는 것
    • 길이와 무게의 값이 놓인 범위가 크게 다름 → 이를 스케일(scale)이 다르다라고 함
    • 거리 기반 알고리즘은 샘플 간의 거리에 영향을 많이 받으므로 제대로 사용하기 위해서 데이터 전처리가 필요함
  • 표준 점수 (standard score) : z 점수
    • 가장 널리 사용하는 전처리 방법 중 하나
    • 각 특성값이 0에서 표준편차의 몇 배만큼 떨어져 있는 지 나타냄
    • 실제 특성값의 크기와 상관없이 동일한 조건으로 비교가 가능