Neural Tangent Kernel (NTK)

1. 개요

2018년 Jacot et al. 이 제안한 이론으로, “신경망의 폭(Width)이 무한대로 넓어지면(Infinite Width), 학습 과정은 커널 회귀(Kernel Regression)와 수학적으로 동치다” 라는 것을 증명했다.

핵심 의미

비선형적이고 복잡한 딥러닝 학습 과정을, 우리가 잘 아는 선형 대수와 커널 머신(SVM 등)의 영역으로 끌고 와서 분석할 수 있게 해준다.

2. Lazy Training Regime

신경망의 파라미터 수가 매우 많으면(Over-parameterized), 초기화 상태에서 아주 조금만 움직여도() Loss가 0인 지점에 도달할 수 있다. 이 영역에서는 신경망이 선형 모델(Linear Model) 처럼 동작한다.

3. 수학적 정의

3.1. 선형화 (Linearization)

입력 , 파라미터 를 가진 신경망 함수 를 초기 파라미터 근처에서 **테일러 급수(Taylor Series)**로 1차 근사해보자.

이 식을 자세히 보면 선형 회귀 형태()와 같다.

특징 벡터(Feature Map): (초기 그래디언트)
가중치(Weight): (파라미터 변화량)

3.2. 커널 정의 (The Kernel)

커널 기법에서 커널 함수는 두 입력 사이의 내적이다: . 이를 신경망에 적용하면 Neural Tangent Kernel이 된다.

의미

“데이터 와 가 파라미터 공간에서의 그래디언트 방향이 얼마나 유사한가?” 두 데이터의 그래디언트 방향이 비슷하면, 에 대해 학습했을 때 의 출력값도 같이 많이 변한다.

3.3. 학습 동역학 (Training Dynamics)

Gradient Descent를 연속 시간(Gradient Flow)으로 보면, 출력 함수 의 변화율은 다음과 같다.

무한 너비(Infinite Width) 극한에서는 가 거의 변하지 않으므로, 커널 도 초기 상태 로 고정(Constant) 된다. 따라서 이 미분방정식은 닫힌 해(Closed-form Solution) 를 가지며, 수렴성을 완벽하게 보장할 수 있다.


graph TD
    subgraph "Finite Width (일반 딥러닝)"
        F1["Parameters θ move significantly"]
        F2["Feature map φ(x) changes"]
        F3["Non-convex Optimization"]
        F4["Complex Dynamics"]
        F1 --> F2 --> F3 --> F4
    end

    subgraph "Infinite Width (NTK Regime)"
        I1["Parameters θ move infinitesimally"]
        I2["Feature map φ(x) is Fixed"]
        I3["Convex Optimization"]
        I4["Kernel Regression (Simple)"]
        I1 --> I2 --> I3 --> I4
    end
    
    style I1 fill:#E1F5FE,stroke:#0288D1
    style I4 fill:#FFF9C4,stroke:#FBC02D

4. LLM에서의 응용: NTK-Aware Scaling

이론적인 도구였던 NTK가 LLM의 Context Length 확장에 결정적인 기여를 했다. (RoPE 확장)

4.1. 스펙트럼 편향 (Spectral Bias)

NTK 이론에 따르면, 신경망은 고주파(High Frequency) 성분보다 저주파(Low Frequency) 성분을 더 빨리 학습한다.

고유값 분해(Eigendecomposition)를 했을 때, 큰 고유값(주요 패턴) 방향으로 수렴이 빠르다.

4.2. RoPE Scaling 문제와 해결

문제: RoPE의 길이를 늘리기 위해 선형 보간(Linear Interpolation)을 하면, 고주파 성분들이 뭉개져서 모델이 혼란스러워한다.
NTK-Aware 해결책:
- NTK 이론에 기반하여, “고주파수는 건드리지 말고(Interpolation X), 저주파수만 늘리자(Interpolation O)” 는 전략을 사용.
- 이렇게 하면 모델이 파인튜닝 없이도(Zero-shot) 늘어난 길이에 적응할 수 있다. 왜냐하면 고주파수(세밀한 정보)의 특징 맵이 보존되기 때문이다.

5. 요약 및 한계

특징	내용
장점	딥러닝의 수렴성, 일반화 성능을 수학적으로 증명 가능.
한계	실제 모델(Finite Width)은 Feature Learning(특징 학습)을 하는데, NTK(Infinite)는 특징을 고정해버림. 실제 성능과는 괴리가 있음.
의의	”딥러닝은 왜 잘 되는가?”에 대한 수학적 단초 제공 + RoPE/LoRA 등의 초기화 전략에 영향.

한 줄 요약

“신경망이 너무 거대해지면, 학습 중에 내부 구조(Feature Map)는 변하지 않고 가중치만 살짝 조정되는 ‘선형 커널 머신’처럼 행동한다는 이론.”

RicePunchb's Garden

탐색기

Neural Tangent Kernel

Neural Tangent Kernel (NTK)

1. 개요

2. Lazy Training Regime

3. 수학적 정의

3.1. 선형화 (Linearization)

3.2. 커널 정의 (The Kernel)

3.3. 학습 동역학 (Training Dynamics)

4. LLM에서의 응용: NTK-Aware Scaling

4.1. 스펙트럼 편향 (Spectral Bias)

4.2. RoPE Scaling 문제와 해결

5. 요약 및 한계

그래프 뷰

목차

백링크