Kernel Regression (커널 회귀)

1. 개요

데이터의 분포를 특정 함수 형태(예: )로 가정하지 않고, 주어진 데이터 포인트들의 유사도(Kernel)를 기반으로 새로운 값을 예측하는 비모수적(Non-parametric) 방법론이다.

핵심 직관: 가중 평균 (Weighted Average)

“새로운 점 에서의 예측값은, 와 가까운 이웃 데이터들의 값들을 가중 평균 낸 것이다.” 가까우면 가중치를 크게, 멀면 작게 준다.

통계학에서 가장 직관적으로 정의하는 커널 회귀의 형태다.

머신러닝과 NTK 이론에서 주로 다루는 형태다. 선형 회귀(Ridge) 를 Dual Space로 푼 것과 같다.

고차원 특징 공간 에서의 선형 회귀를 생각해보자.

위 문제를 라그랑주 승수법으로 풀면, 최적의 가중치 는 데이터들의 선형 결합으로 표현된다 (). 이를 대입하면 내적 연산만 남게 되어 커널 함수로 대체할 수 있다.

최종 예측 함수 는 다음과 같다.

수식 해석

부분은 **학습 데이터 전체에 대한 가중치 **를 미리 계산해 둔 것이다. 추론 시에는 새로운 와 기존 데이터 간의 유사도 를 구해서 이 와 내적한다.

NTK 노트에서 “무한 너비 신경망은 특징 맵 가 고정된다” 고 했다. 즉, 학습 중에 가 변하지 않으므로, 신경망 학습은 결국 고정된 특징 공간에서의 선형 회귀, 즉 Kernel Ridge Regression을 푸는 것과 수학적으로 완전히 동일해진다.

신경망의 커널:
따라서 무한 너비 신경망의 수렴값은 위 KRR 수식의 Closed-form Solution으로 바로 구할 수 있다. (Gradient Descent를 무한 번 돌릴 필요 없이 한 방에 계산 가능)

커널 회귀는 Memory-based (또는 Instance-based) 학습이다.