1 minute read

3장. 회귀 알고리즘과 모델 규제 : 농어의 무게를 예측하라!

k-최근접 이웃 회귀

  • 지도 학습 알고리즘
    • 분류 : 샘플을 몇 개의 클래스 중 하나로 분류하는 문제
    • 회귀: 임의의 어떤 숫자를 예측하는 문제
      • 예) 내년도 경제 성장률을 예측하거나 배달이 도착할 시간을 예측하는 것

결정계수

  • 각 샘플의 타깃과 예측한 값의 차이를 제곱하여 더하고 그 다음 타깃과 타깃 평균의 차이를 제곱하여 더한 값으로 나눔
  • 만약 타깃의 평균 정도를 예측하는 수준이라면 (즉 분자와 분모가 비슷해져) 값이 0에 가까워지고, 예측이 타깃에 아주 가까워지면 (분자가 0에 가까워지기 때문에) 1에 가까운 값이 됨

과대적합 vs 과소적합

  • 과대적합(overfitting) : 훈련 세트에만 잘 맞는 모델
  • 과소적합(underfitting) : 모델이 단순하여 훈련 세트에 적절히 훈련되지 않은 경우

확인문제 2번

  • 파이썬 대표적인 배열 라이브러리
  • 고차원의 배열을 손쉽게 만들고 조작할 수 있는 간편한 도구를 많이 제공함
    • knr1
    • knr2
    • knr3
    • knr4

k-최근접 이웃의 한계

  • 새로운 샘플이 훈련 세트의 범위를 벗어나면 엉뚱한 값을 예측 할 수 있음

선형 회귀

  • 널리 사용되는 대표적인 회귀 알고리즘
  • 비교적 간단하고 성능이 뛰음남
  • 특성과 타깃 사이의 관계를 가장 잘 나타내는 선형 방정식을 찾음
  • 특성이 하나면 직선 방정식이 됨

다항 회귀

  • 다항식을 사용하여 특성과 타깃 사이의 관계를 나타냄
  • 비선형일 수 있지만 여전히 선형 회귀로 표현할 수 있음

다중 회귀

  • 여러 개의 특성을 사용한 선형 회귀

특성 공학

  • 기존의 특성을 사용해 새로운 특성을 뽑아내는 작업

다중 회귀 모델 훈련하기

  • 여러 개의 특성을 사용하여 선형 회귀를 수행

규제

  • 머신러닝 모델이 훈련 세트를 너무 과도하게 학습하지 못하도록 훼방하는 것
  • 모델이 훈련 세트에 과대적합되지 않도록 만드는 것

릿지 회귀

  • 계수를 제곱한 값을 기준으로 규제를 적용
  • 비교적 효과가 좋아 널리 사용하는 규제 방법
    • ridge

라쏘 회귀

  • 계수의 절댓값을 기준으로 규제를 적용
  • 릿지와 달리 계수 값을 아예 0으로 만들 수 있음
    • lasso