Kernel Regression (커널 회귀)
1. 개요
데이터의 분포를 특정 함수 형태(예:
핵심 직관: 가중 평균 (Weighted Average)
“새로운 점
에서의 예측값은, 와 가까운 이웃 데이터들의 값들을 가중 평균 낸 것이다.” 가까우면 가중치를 크게, 멀면 작게 준다.
2. Nadaraya-Watson Estimator (기본 형태)
통계학에서 가장 직관적으로 정의하는 커널 회귀의 형태다.
: 커널 함수 (유사도 측정, 예: Gaussian). - 의미: 모든 학습 데이터
를 참조하되, 값이 큰(가까운) 데이터의 영향을 많이 받도록 정규화(Normalize)하여 합친다.
3. Kernel Ridge Regression (KRR)
머신러닝과 NTK 이론에서 주로 다루는 형태다. 선형 회귀(Ridge) 를 Dual Space로 푼 것과 같다.
3.1. Primal Problem (일반 Ridge)
고차원 특징 공간
- 여기서
를 구하려면 의 차원만큼 연산해야 한다. 만약 가 무한 차원이라면? 계산 불가능하다.
3.2. Dual Solution (Kernel Trick)
위 문제를 라그랑주 승수법으로 풀면, 최적의 가중치
최종 예측 함수
: Gram Matrix ( ). . : 새로운 입력 와 학습 데이터 전체 간의 커널 벡터 ( ). : 학습 데이터의 타겟 벡터 ( ). : 정규화 계수 (Regularization).
수식 해석
부분은 **학습 데이터 전체에 대한 가중치 **를 미리 계산해 둔 것이다. 추론 시에는 새로운 와 기존 데이터 간의 유사도 를 구해서 이 와 내적한다.
4. NTK와의 연결고리
NTK 노트에서 “무한 너비 신경망은 특징 맵
- 신경망의 커널:
- 따라서 무한 너비 신경망의 수렴값은 위 KRR 수식의 Closed-form Solution으로 바로 구할 수 있다. (Gradient Descent를 무한 번 돌릴 필요 없이 한 방에 계산 가능)
5. Memory-based Learning
커널 회귀는 Memory-based (또는 Instance-based) 학습이다.
- Parametric (딥러닝): 학습 데이터를 압축해서
에 저장하고 데이터는 버림. - Non-parametric (커널 회귀): 학습 데이터(
)를 모두 메모리에 들고 있어야 추론 가능.
6. 요약
| 구분 | Linear Regression | Kernel Regression (KRR) |
|---|---|---|
| 모델 형태 | ||
| 파라미터 | ||
| 복잡도 | 데이터가 많아도 모델 크기 일정 | 데이터가 많아지면 연산량 |
| 핵심 | 가중치 학습 | 유사도(Kernel) 정의 |