BERTScore란 무엇인가?

자연어 처리(NLP)에서는 생성된 문장의 품질을 평가하는 것이 매우 중요합니다. 전통적으로는 BLEU, ROUGE, METEOR와 같은 지표들이 사용되어 왔습니다. 하지만 이들 지표는 단어나 n-gram 수준에서의 중복에 의존하기 때문에, 의미적으로 유사하지만 단어가 다른 문장에 대해서는 낮은 점수를 줄 수 있다는 단점이 있습니다.

이러한 한계를 극복하기 위해 BERTScore가 제안되었습니다. BERTScore는 단순한 단어 매칭이 아니라 문장 내 단어 임베딩의 의미적 유사도를 기반으로 문장을 평가합니다.

BERTScore의 핵심 개념

BERTScore는 이름 그대로 BERT와 같은 사전학습 언어 모델을 활용하여, 입력 문장과 참조 문장의 각 단어에 대해 임베딩을 생성하고 이들 사이의 유사도(Similarity)를 기반으로 정밀도(Precision), 재현율(Recall), F1 점수를 계산합니다.

기본 절차는 다음과 같습니다.

임베딩 생성: 참조 문장과 예측 문장의 각 토큰에 대해 BERT 임베딩을 생성합니다.
유사도 계산: 각 토큰 쌍 간의 cosine similarity를 계산하여 유사도를 측정합니다.
정밀도 / 재현율 계산:
- 정밀도: 예측 문장의 각 토큰이 참조 문장의 어떤 토큰과 가장 유사한지 계산.
- 재현율: 참조 문장의 각 토큰이 예측 문장의 어떤 토큰과 가장 유사한지 계산.
F1 점수 계산: 정밀도와 재현율의 조화 평균.

왜 BERTScore가 유리한가?

의미 기반 평가: 단어가 달라도 의미가 유사하다면 높은 점수를 부여할 수 있습니다.
어순 유연성: 단어 순서가 바뀌어도 의미가 유지되면 괜찮은 점수가 나옵니다.
사전학습 모델의 활용: 다양한 도메인과 문맥에서 잘 일반화된 평가가 가능합니다.

활용 예시

BERTScore는 다음과 같은 작업에서 성능 평가 지표로 사용됩니다:

기계 번역
텍스트 요약
질문 생성 / 응답 생성
대화 시스템 품질 평가

파이썬 예제 코드

from bert_score import score

# 예측 문장과 참조 문장
cands = ["The cat is on the mat"]
refs = ["There is a cat on the mat"]

# BERTScore 계산
P, R, F1 = score(cands, refs, lang="en", verbose=True)

# 결과 출력
print(f"Precision: {P.item():.4f}")
print(f"Recall:    {R.item():.4f}")
print(f"F1 Score:  {F1.item():.4f}")

예상 출력

Precision: 0.9821
Recall:    0.9814
F1 Score:  0.9817

마무리

BERTScore는 기존 평가 지표보다 더 의미 중심적인 평가 방식을 제공함으로써, 자연어 생성(NLG) 모델의 성능을 보다 정밀하게 평가할 수 있는 도구입니다. 특히 단어가 다르더라도 의미가 통하는 문장에 대해 높은 평가를 할 수 있다는 점에서 의미 있는 진보라고 할 수 있습니다.

필요하다면 다국어 지원, 다양한 BERT 모델 적용, 또는 문장 단위 평가가 아닌 문서 단위 평가 확장도 가능합니다. 실험 결과의 신뢰성을 높이고자 한다면, BLEU, ROUGE 등과 함께 보조 지표로 활용하는 것도 좋은 전략입니다.

'AI' 카테고리의 다른 글

차량 모델 분류를 위한 AI 모델 비교 (0)	2025.12.17
LLM 평가 방법론 - DeepEval (0)	2025.12.12
LLM 평가 방법론 - ROUGE (0)	2025.12.10
LLM 평가 방법론 - GPTScore (0)	2025.12.10
LLM 평가 방법론 - G Eval (0)	2025.12.10