[혼공머신] 7장. 딥러닝을 시작합니다.

2 minute read

7장 딥러닝을 시작합니다 - 패션 럭키백을 판매합니다!

딥러닝 분야는 데이터셋이 충분히 커서 검증 점수가 안정적이고 교차 검증을 수행하기에는 훈련시간이 너무 오래 걸려 교차 검증을 잘 사용하지 않고 검증 세트를 별도로 덜어내어 사용함
- 훈련 세트에서 20%를 검증세트로 덜어냄
- 훈련세트와 검증세트 크기
- 밀집층 생성 - 층을 양쪽의 뉴런이 모두 연결하고 있어 완전 연결층이름고도 부름
- 밀집층을 가진 신경망 모델을 생성함 - 케라스의 Sequential 클래스 사용

인공 신경망의 입력 특성이 100개이고 밀집층에 있는 뉴런 개수가 10개일 때 필요한 모델 파라미터의 개수는 1010개
- 밀집층에 있는 10개의 뉴런이 100개의 입력과 모두 연결됨 → 10 * 100 = 1000
- 뉴런마다 1개의 절편이 있음 → 10
- 총 1010개
sigmoid : 이진 분류라면 시그모이드 함수를 사용
compile() : loss 매개변수로 손실함수 지정, metrics 매개변수로 측정 지표 지정
sparse_categorical_crossentropy : 타깃값이 정수인 다중 분류일 경우 사용

Sequential 클래스의 생성자 안에서 바로 Dense 클래스의 객체를 만드는 경우
- 편리하지만 아주 많은 층을 추가하려면 Sequential 클래스 생성자가 매우 길어짐
Sequential 클래스의 객체를 만들고 이 객체의 add() 메서드를 호출하여 층을 추가함

층이 많은 심층 신경망일수록 그 효과가 누적되어 학습을 더 어렵게 만드는데 이를 개선하기 위한 활성화 함수
이미지 분류 모델의 은닉층에 많이 사용
Flatten 클래스 사용하여 층 추가
- 배치 차원을 제외하고 나머지 입력 차원을 모두 일렬로 펼치는 역할
- 입력에 곱해지는 가충치나 절편이 없음 → 인공 신경망 성능을 위해 기여하는 바는 없음
모델 훈련
시그모이드 함수를 사용했을 때와 비교하면 성능이 조금 향상됨
검증 세트 성능

신경망의 가중치와 절편을 학습하기 위한 알고리즘 또는 방법
가장 기본적인 옵티마이저는 확률적 경사 하강법인 SGD임
SGD 옵티마이저를 사용하려면 compile() 메서드의 optimizer 매개변수를 ‘sgd’로 지정함
‘sgd’ 문자열은 tensorflow.keras.optimizers 패키지 아래 SGD 클래스로 구현되어있음
SGD 클래스의 학습률 기본값 0.01
- 변경을 하려면 learning_rate 매개변수에 지정하여 사용
- - SGD 클래스의 momentum 매개변수 기본값은 0
  - 0보다 큰 값을 지정하면 그레이디언트를 가속도처럼 사용하는 모멘텀 최적화를 사용함
  - 보통 momentum 매개변수는 0.9 이상을 지정
- SGD 클래스의 nesterov 매개변수 기본값 False
  - True 변경하면 네스테로프 모멘텀 최적화
적응적 학습률
- 모델이 최적점에 가까이 갈수록 학습률을 낮출 수 있음
- 안정적으로 최적점에 수렴할 가능성이 높음
- optimizer 매개변수의 기본값이 ‘rmsprop’
Adam
- 모멘텀 최적화와 RMSprop 장점을 접목함
Adam 클래스의 매개변수 기본값을 사용해 패션 MINIST 모델 훈련
검증 세트 성능