Neural Tangent Kernel (NTK)
1. 개요
2018년 Jacot et al. 이 제안한 이론으로, “신경망의 폭(Width)이 무한대로 넓어지면(Infinite Width), 학습 과정은 커널 회귀(Kernel Regression)와 수학적으로 동치다” 라는 것을 증명했다.
핵심 의미
비선형적이고 복잡한 딥러닝 학습 과정을, 우리가 잘 아는 선형 대수와 커널 머신(SVM 등)의 영역으로 끌고 와서 분석할 수 있게 해준다.
2. Lazy Training Regime
신경망의 파라미터 수가 매우 많으면(Over-parameterized), 초기화 상태에서 아주 조금만 움직여도(
3. 수학적 정의
3.1. 선형화 (Linearization)
입력
이 식을 자세히 보면 선형 회귀 형태(
- 특징 벡터(Feature Map):
(초기 그래디언트) - 가중치(Weight):
(파라미터 변화량)
3.2. 커널 정의 (The Kernel)
커널 기법에서 커널 함수는 두 입력 사이의 내적이다:
의미
“데이터
와 가 파라미터 공간에서의 그래디언트 방향이 얼마나 유사한가?” 두 데이터의 그래디언트 방향이 비슷하면, 에 대해 학습했을 때 의 출력값도 같이 많이 변한다.
3.3. 학습 동역학 (Training Dynamics)
Gradient Descent를 연속 시간(Gradient Flow)으로 보면, 출력 함수
무한 너비(Infinite Width) 극한에서는
graph TD subgraph "Finite Width (일반 딥러닝)" F1["Parameters θ move significantly"] F2["Feature map φ(x) changes"] F3["Non-convex Optimization"] F4["Complex Dynamics"] F1 --> F2 --> F3 --> F4 end subgraph "Infinite Width (NTK Regime)" I1["Parameters θ move infinitesimally"] I2["Feature map φ(x) is Fixed"] I3["Convex Optimization"] I4["Kernel Regression (Simple)"] I1 --> I2 --> I3 --> I4 end style I1 fill:#E1F5FE,stroke:#0288D1 style I4 fill:#FFF9C4,stroke:#FBC02D
4. LLM에서의 응용: NTK-Aware Scaling
이론적인 도구였던 NTK가 LLM의 Context Length 확장에 결정적인 기여를 했다. (RoPE 확장)
4.1. 스펙트럼 편향 (Spectral Bias)
NTK 이론에 따르면, 신경망은 고주파(High Frequency) 성분보다 저주파(Low Frequency) 성분을 더 빨리 학습한다.
- 고유값 분해(Eigendecomposition)를 했을 때, 큰 고유값(주요 패턴) 방향으로 수렴이 빠르다.
4.2. RoPE Scaling 문제와 해결
- 문제: RoPE의 길이를 늘리기 위해 선형 보간(Linear Interpolation)을 하면, 고주파 성분들이 뭉개져서 모델이 혼란스러워한다.
- NTK-Aware 해결책:
- NTK 이론에 기반하여, “고주파수는 건드리지 말고(Interpolation X), 저주파수만 늘리자(Interpolation O)” 는 전략을 사용.
- 이렇게 하면 모델이 파인튜닝 없이도(Zero-shot) 늘어난 길이에 적응할 수 있다. 왜냐하면 고주파수(세밀한 정보)의 특징 맵이 보존되기 때문이다.
5. 요약 및 한계
| 특징 | 내용 |
|---|---|
| 장점 | 딥러닝의 수렴성, 일반화 성능을 수학적으로 증명 가능. |
| 한계 | 실제 모델(Finite Width)은 Feature Learning(특징 학습)을 하는데, NTK(Infinite)는 특징을 고정해버림. 실제 성능과는 괴리가 있음. |
| 의의 | ”딥러닝은 왜 잘 되는가?”에 대한 수학적 단초 제공 + RoPE/LoRA 등의 초기화 전략에 영향. |
한 줄 요약
“신경망이 너무 거대해지면, 학습 중에 내부 구조(Feature Map)는 변하지 않고 가중치만 살짝 조정되는 ‘선형 커널 머신’처럼 행동한다는 이론.”