인공지능(AI) 관련 기사나 보고서에 빠지지 않고 등장하는 표현이 '벤치마크'다.
새로운 모델이 공개될 때마다 "어떤 벤치마크에서 몇 점을 기록했다"는 설명이 따라붙는다.
벤치마크는 AI의 성능을 일정한 기준에 따라 측정하고 비교하는 시험을 의미한다.
용어의 어원은 건설·측량 현장에서 출발했다.
받침대나 작업대에 표시해 둔 '기준점'을 뜻하는 말로, 이후 어떤 대상의 수준을 가늠하는 기준이라는 의미로 기술 분야 전반에 확산했다.
AI 분야에서 벤치마크는 동일한 문제를 여러 모델에 풀게 한 뒤 정답률, 처리 속도, 오류율 등을 수치로 비교하는 방식이다.
대표적인 벤치마크로는 문장 이해와 추론 능력을 평가하는 MMLU, 수학 문제 해결력을 측정하는 GSM8K, 코드 작성 능력을 살피는 HumanEval, 긴 문서 이해 능력을 보는 LongBench 등이 있다.
최근에는 유해 발언 생성 여부나 규칙 준수 수준을 점검하는 안전성·신뢰성 벤치마크도 활용되고 있다.
개발 과정에서도 벤치마크는 중요한 기준으로 쓰인다.
같은 모델이라도 이전 모델과 비교해 언어 이해, 논리 추론, 신뢰성 등 항목별 점수가 다르게 나타나는 경우가 많기 때문이다.
다만 전문가들은 벤치마크 점수와 실제 체감 성능이 항상 비례한다고 보기는 어렵다고 지적한다.
시험은 정해진 형식의 문제를 푸는 능력을 측정하지만, 이용자가 던지는 질문은 더 복합적이고 맥락 의존적인 경우가 많아서다.
벤치마크의 신뢰성에 의문을 제기하는 목소리도 커지고 있다.
가장 대표적인 문제가 '데이터 오염'이다.
AI가 학습하는 방대한 데이터 속에 벤치마크 문제와 정답이 포함돼 AI가 추론이 아닌 '암기'를 통해 높은 점수를 받는 현상이다.
이처럼 하나의 벤치마크가 절대적인 기준이 될 수 없다는 이유로 최근에는 여러 벤치마크를 종합적으로 활용하는 방식이 일반적이다.
최근 정부가 진행한 '독자 AI 파운데이션 모델' 1차 평가에서도 단일 기준이 아닌 복수 벤치마크가 적용됐다.
NIA 벤치마크와 글로벌 공통·개별 벤치마크를 병행해 수학·지식·장문 이해·신뢰성·안전성 등 모델의 기본 역량을 종합적으로 검증했다.
결국 벤치마크 점수는 AI의 성능을 가늠하는 하나의 잣대일 뿐, 실제 활용 환경에서의 신뢰성과 효용을 함께 살펴보는 '해석'이 점점 더 중요해지는 추세다.
binzz@yna.co.kr