제목
Do LLMs Know about Hallucination? An Empirical Investigation of LLM’s Hidden States
요약
- 질문을 주고 정답, 할루시네이션에 노출 시켰을때의 트랜스포머 레이어 벡터 변화를 측정함. 어떻게 달라지는지 보고 PCA-2 를 통해 정답방향 basis, 할루시네이션 방향 basis와 코사인 유사도 등의 관계성을 증명.
- 처음, 끝 레이어 보다 중간 레이어가 할루시네이션을 판단하기에 좋음
- 파라미터가 큰 모델일수록 자기 자신을 너무 믿음. 지가 말하는게 할루시네이션인지 잘 모른다.
아이디어
- 이 논문은 Halueval, TruthfulQA에 대해서만 실험해봄. 다른 할루시네이션 타입이나 다른 QA에 대해서도 실험해보자
- 좀 더 정교한 트랜스포머 레이어들을 대상으로 실험해보자. 논문에서는 32레이어 짜리만 다룸
- 수학증명, 금융공학 등의 complicated, 도메인 specific 분야에서도 통할까?
- 멀티모달에서도 될까?
- 이 논문은 질문, 답을 주고 끝 레이어를 사진 찍듯이 기록만 해서 벡터 변화만 관찰함. 만약 모든 히든 노드에 대한 분포를 비교한다면 어떨까? 다른 관찰법을 써보자.