딥러닝 모델
- 외부로 나타나지 않고 hidden layer가 다수 존재하는 신경망 모델
- 숨겨진 변수가 학습을 통해 필요한 feature를 추출하는 모델
전통적 접근
인간이 유용한 정보를 선정하고 이를 계산
딥러닝 접근
- 모델이 자동으로 유용한 정보를 추출하여 사용
- 전문적인 사전 지식은 없다는 전제
규칙기반 인공지능
- 명확한 규칙 존재, 그 규칙이 판단 기준
- 다양한 소스로부터 규칙을 수집하고 정리하는 것이 주요사항
데이터기반 인공지능
- 머신러닝, 기계학습
- 규칙은 대략 존재하지만 명확하지 않음
- 많은 사례로부터 규칙을 스스로 학습
모델의 복잡성
- 수치적으로 잘 정의되진 않았지만 모델간의 비교를 통해 대략 확인가능
- 복잡한 데이터를 학습하기 위해서는 반드시 복잡한 모델이 필요하다
- 복잡한 모델이 항상 좋은것은 아님!
- 모델이 복잡할수록 Training data에서의 성능 향상. 단, Overfitting일수도 있음
- Evaluation data에서는 너무 단순하지도, 복잡하지도 않은 최적의 모델이 가장 좋음
- Underfitting : 모델이 너무 단순해서 Training, Evaluation에서 둘 다 안좋은 것
- Overfitting : 모델이 너무 복잡해 Training은 잘 맞추는데 Evaluation에서 안좋음
학습목표는 에러를 최소화하는
기계학습
- Supervised Learning : 데이터가
에 주어져 있어 를 잘 예측하는 를 찾는것 - Unsupervised Learning :
가 명시되지 않은 데이터, 주로 의 패턴에 관심이 있음. 군집분석, 차원축소 - Reinforcement Learning : 주어진 환경에서 최대의 보상을 달성하기 위한 정책의 학습. 데이터를 랜덤이 아니라 전략적으로 선택한다.
절차
- 종속변수
로 할 것을 설정 - 관련 데이터
들을 수집 - 탐색적 데이터 분석
- 본격적 데이터 분석
- 클린 데이터에서 Training, Test set을 분리
- 불필요한 종속변수 제거 (Feature selection)
- 학습 모델 후보 선정. 보통 4~5개
- 교차검증을 이용해 모델 선정
- Test set으로 최종 성능 평가
- 필드 테스트. 완전히 새로운 데이터셋으로 다시 평가