Gaussian Kernel (RBF Kernel)

1. 개요

Radial Basis Function (RBF) Kernel이라고도 불리며, 머신러닝(SVM, Kernel Regression)에서 가장 널리 쓰이는 커널이다. NTK 이론을 이해하기 위한 선수 지식으로서, “유한한 차원의 데이터를 어떻게 무한 차원의 특징 공간(Feature Space)으로 매핑하는가?” 에 대한 답을 준다.

2. 수식적 정의

두 데이터 벡터 사이의 유사도를 측정한다.

  • 직관: 유클리드 거리 가 가까울수록 1에 수렴하고, 멀어질수록 0에 수렴하는 정규분포(Bell Curve) 모양의 유사도 함수다.
  • (Gamma): 분포의 뾰족함을 결정하는 파라미터. (클수록 뾰족함 근처 데이터만 봄).

3. 핵심: 무한 차원으로의 확장 (Proof)

이 부분이 NTK와 연결되는 가장 중요한 지점이다. “Gaussian Kernel을 계산한다는 것은, 데이터를 무한 차원으로 보낸 뒤 내적하는 것과 같다.”

3.1. 증명 (Taylor Expansion)

편의를 위해 1차원 데이터 를 가정하고, 로 두자.

지수 법칙에 의해 항을 분리한다.

여기서 테일러 급수(Taylor Series) 로 전개한다 ().

3.2. 특징 맵 (Feature Map)의 발견

위 식은 두 무한 벡터의 내적(Dot Product) 형태 와 같다. 즉, 매핑 함수 는 다음과 같이 정의된다.

결론

우리가 단순히 라는 스칼라 값을 계산하는 행위는, 수학적으로 의 모든 차수를 가진 무한 차원 공간으로 보낸 뒤 내적을 수행한 것과 완벽하게 동일하다.

4. NTK와의 연결고리 (Connection)

구분Gaussian KernelNeural Tangent Kernel (NTK)
특징 맵 고정됨 (Fixed)
( 조합)
네트워크 구조에 따라 결정됨
(Gradient )
무한성의 기원테일러 급수의 무한 항무한한 뉴런 개수 (Width )
역할데이터 간의 비선형 유사도 측정딥러닝 학습 과정의 수렴성 분석

NTK 이론은 “신경망의 너비를 무한대로 늘리면, 그 신경망은 Gaussian Kernel처럼 ‘무한 차원 특징 공간’을 가진 커널 머신으로 수렴한다” 는 것을 증명한 것이다.

5. Hyperparameter 의 기하학적 의미

  • Large (High Frequency): 그래프가 뾰족하다. 데이터 포인트 하나하나를 개별적으로 기억한다. Overfitting 위험 (RBF Network가 Nearest Neighbor처럼 동작).
  • Small (Low Frequency): 그래프가 완만하다. 멀리 있는 데이터까지 부드럽게 연결한다. Generalization 유리.

NTK-Aware Scaling과의 관계

“고주파수보다 저주파수를 먼저 학습한다”는 말은, 커널 관점에서 **“완만한(Small ) 성분부터 피팅되고, 뾰족한(Large ) 성분은 나중에 피팅된다”**는 뜻과 통한다.