3장. 회귀 알고리즘과 모델 규제 : 농어의 무게를 예측하라!
k-최근접 이웃 회귀
- 지도 학습 알고리즘
- 분류 : 샘플을 몇 개의 클래스 중 하나로 분류하는 문제
- 회귀: 임의의 어떤 숫자를 예측하는 문제
- 예) 내년도 경제 성장률을 예측하거나 배달이 도착할 시간을 예측하는 것
결정계수
- 각 샘플의 타깃과 예측한 값의 차이를 제곱하여 더하고 그 다음 타깃과 타깃 평균의 차이를 제곱하여 더한 값으로 나눔
- 만약 타깃의 평균 정도를 예측하는 수준이라면 (즉 분자와 분모가 비슷해져) 값이 0에 가까워지고, 예측이 타깃에 아주 가까워지면 (분자가 0에 가까워지기 때문에) 1에 가까운 값이 됨
과대적합 vs 과소적합
- 과대적합(overfitting) : 훈련 세트에만 잘 맞는 모델
- 과소적합(underfitting) : 모델이 단순하여 훈련 세트에 적절히 훈련되지 않은 경우
확인문제 2번
- 파이썬 대표적인 배열 라이브러리
- 고차원의 배열을 손쉽게 만들고 조작할 수 있는 간편한 도구를 많이 제공함
k-최근접 이웃의 한계
- 새로운 샘플이 훈련 세트의 범위를 벗어나면 엉뚱한 값을 예측 할 수 있음
선형 회귀
- 널리 사용되는 대표적인 회귀 알고리즘
- 비교적 간단하고 성능이 뛰음남
- 특성과 타깃 사이의 관계를 가장 잘 나타내는 선형 방정식을 찾음
- 특성이 하나면 직선 방정식이 됨
다항 회귀
- 다항식을 사용하여 특성과 타깃 사이의 관계를 나타냄
- 비선형일 수 있지만 여전히 선형 회귀로 표현할 수 있음
다중 회귀
특성 공학
- 기존의 특성을 사용해 새로운 특성을 뽑아내는 작업
다중 회귀 모델 훈련하기
규제
- 머신러닝 모델이 훈련 세트를 너무 과도하게 학습하지 못하도록 훼방하는 것
- 모델이 훈련 세트에 과대적합되지 않도록 만드는 것
릿지 회귀
- 계수를 제곱한 값을 기준으로 규제를 적용
- 비교적 효과가 좋아 널리 사용하는 규제 방법
라쏘 회귀
- 계수의 절댓값을 기준으로 규제를 적용
- 릿지와 달리 계수 값을 아예 0으로 만들 수 있음