1. 선형 모델 (Linear model)

실제 가 선형성을 갖고 있다는 전제에서 출발.

  • 회귀 (Regression) Y가 수치형 변수인 수명, 월급, 주가 등 숫자형 일때

  • 분류(Classification) Y가 범주형 변수인 성공/실패, 자동차 종류, 꽃 품종 등 일때

선형 회귀 모델 (Linear Regression)

선형 회귀 모델은 회귀 문제에 적용한다.

단순 선형 회귀 (Simple Linear Regression)

하나의 독립변수 X와 하나의 출력변수 Y에 대한 모델 우리는 이 를 찾는것이 목표.

처음 라고 설정 그러면, 을 각 샘플에 대해 얻을 수 있음. 여기에 MSE (Mean Square Error) 를 Error Metric으로 정하고, 손실함수 (Loss function)을 으로 정하면 이 함수를 미분하여, 로 모델의 에러를 최소화. 하지만 이 과정은 Train 데이터 샘플에 대한 최소화이므로 Eval 데이터 샘플에 대한 에러의 최소화를 보장하지는 않음!

일반 선형 회귀 (Multiple Linear Regression)

여러 입력 변수와 하나의 출력 변수 형태.

Loss는 Square-error로 측정 는 독립적으로 에 기여함

모델의 평가

모델이 얼마나 좋은 성능을 냈는지 평가하는 척도

Mean Square Error

결정계수

Y가 X에 의해 얼마나 설명되는지에 대한 비율 0과 1사이 값을 갖는데 모델이 아주 나쁜 경우 음수가 나옴

입력 변수가 범주형 변수일 경우, 그 변수는 가변수로 변환하여 모델링 예) 남성 = 1, 여성 = 0

상호작용의 고려

변수가 독립적이지 않으면, 이런식이 나올수있다 상호작용 항 를 새로운 변수 처럼 취급한다

2. 로지스틱 회귀 모델

대부분의 분류 문제는 를 직접 예측하기보다는 일 확률을 예측함

Logistic Regression

클래스에 대한 확률을 시그모이드 함수를 이용해 모델링 Binary Classification 이라는 전제 하에,

우도 Likelihood

어떤 모델을 가정했을 때 현재 데이터를 관측할 확률 최대우도법 : 우도를 가장 크게 만드는 파라미터를 찾는것. 보통 우도의 로그값을 최대화하면서 찾음

분류모델 평가

실제 Pos실제 Neg
예측 PosAB
예측 NegCD
  • 정확도 (Accuracy) : 각 클래스를 정확히 맞춘 비율

  • 재현율 (Recall) : 실제 맞는것들 중 맞다고 예측된 것들의 비율

  • 정밀도 (Precision) : 맞다고 예측한 것들 중 실제 맞는것들 비율

  • 위양성률 (False Positive Rate) : 실제 아닌것들 중 맞다고 예측된 것들의 비율

  • F1 Score :=