Faithfulness : answer 는 검색된 context 에 기반해야한다.
: 이를 위해 answer 에서 statement 를 뽑아 각 statement가 context 로부터 추론되었는지 binary 로 점수를 매기고, 평균을 낸다.
- answer relevance : 생성된 answer 가 질문을 해결할 수 있어야 한다.
: 이를 위해 LLM 이 생성한 답변에서 질문을 역생성하고 그 질문와 오리지널 질문을 서로 임베딩 유사도를 구한다.
- context precision : 여러 개 청크에서 ground truth 답변과 관련된 context 가 상위에 있는지 평가한다.
- context recall : 검색된 context 가 gt 답변과 얼마나 일치하는지 평가한다.
: ground truth 답변을 statement 로 나눈 후 각 statement 가 검색된 context 에 귀속되는지 확인한다.