딥러닝 모델

  • 외부로 나타나지 않고 hidden layer가 다수 존재하는 신경망 모델
  • 숨겨진 변수가 학습을 통해 필요한 feature를 추출하는 모델

전통적 접근

인간이 유용한 정보를 선정하고 이를 계산

딥러닝 접근

  • 모델이 자동으로 유용한 정보를 추출하여 사용
  • 전문적인 사전 지식은 없다는 전제

규칙기반 인공지능

  • 명확한 규칙 존재, 그 규칙이 판단 기준
  • 다양한 소스로부터 규칙을 수집하고 정리하는 것이 주요사항

데이터기반 인공지능

  • 머신러닝, 기계학습
  • 규칙은 대략 존재하지만 명확하지 않음
  • 많은 사례로부터 규칙을 스스로 학습

모델의 복잡성

  • 수치적으로 잘 정의되진 않았지만 모델간의 비교를 통해 대략 확인가능
  • 복잡한 데이터를 학습하기 위해서는 반드시 복잡한 모델이 필요하다
  • 복잡한 모델이 항상 좋은것은 아님!
  • 모델이 복잡할수록 Training data에서의 성능 향상. 단, Overfitting일수도 있음
  • Evaluation data에서는 너무 단순하지도, 복잡하지도 않은 최적의 모델이 가장 좋음
  • Underfitting : 모델이 너무 단순해서 Training, Evaluation에서 둘 다 안좋은 것
  • Overfitting : 모델이 너무 복잡해 Training은 잘 맞추는데 Evaluation에서 안좋음

학습목표는 에러를 최소화하는 를 찾는것

기계학습

  • Supervised Learning : 데이터가 에 주어져 있어 를 잘 예측하는 를 찾는것
  • Unsupervised Learning : 가 명시되지 않은 데이터, 주로 의 패턴에 관심이 있음. 군집분석, 차원축소
  • Reinforcement Learning : 주어진 환경에서 최대의 보상을 달성하기 위한 정책의 학습. 데이터를 랜덤이 아니라 전략적으로 선택한다.

절차

  1. 종속변수 로 할 것을 설정
  2. 관련 데이터 들을 수집
  3. 탐색적 데이터 분석
  4. 본격적 데이터 분석
    1. 클린 데이터에서 Training, Test set을 분리
    2. 불필요한 종속변수 제거 (Feature selection)
    3. 학습 모델 후보 선정. 보통 4~5개
    4. 교차검증을 이용해 모델 선정
    5. Test set으로 최종 성능 평가
  5. 필드 테스트. 완전히 새로운 데이터셋으로 다시 평가