Retrieval-Augmented Generation (RAG)

1. 개요

RAG는 LLM이 학습하지 않은 외부 데이터(External Knowledge)를 검색하여 프롬프트에 주입(Augmentation)함으로써, 환각(Hallucination) 을 줄이고 최신 정보를 답변하게 만드는 기술 프레임워크다.

핵심 파이프라인

Query Retrieval Prompting Generation

RAG의 성능을 결정짓는 가장 중요한 단계. “어떻게 찾을 것인가?”에 따라 전략이 나뉜다.

아래 기술들은 속도와 정확도의 Trade-off 관계에 있다. 상황에 맞춰 선택하거나 조합(Hybrid)해야 한다.

1부: Keyword vs Semantic
- BM25 (Sparse): 고유명사, 키워드 매칭에 강함.
- Bi-encoder (Dense): 문맥 파악, 의미 검색에 강함.
2부: Reranking & Cross-encoder
- Cross-encoder: 속도는 느리지만 정확도는 최상. 1차 검색 후 검증(Reranking) 용도로 사용.
3부: Late Interaction (ColBERT)
- MaxSim: 벡터를 압축하지 않고 토큰 단위로 상호작용하여 속도와 정확도를 모두 잡음.

검색된 문서를 LLM이 잘 이해하도록 가공하는 단계.

Context Window Management: LLM의 입력 길이 제한(Context Length)을 고려하여 중요 정보만 남김.
- 관련 노트: Long Context Handling
Prompt Engineering: “Context를 바탕으로 대답해, 모르면 모른다고 해” 등의 지시문 설계.

최종적으로 답변을 생성하고 검증하는 단계.

Generation: LLM이 검색된 정보를 바탕으로 문장 생성.
- 관련 노트: Inference Acceleration (빠른 생성을 위한 기술)
Fallback Strategy: 검색 결과가 없거나 신뢰도가 낮을 때의 대처법.
- 관련 노트: AI Fallback Strategy (검색 실패 시 대응)

(추후 공부해서 채워넣을 항목들 Seedling 🌱)