인공지능(AI) 관련 기사나 보고서에 빠지지 않고 등장하는 표현이 '벤치마크'다.
새로운 모델이 공개될 때마다 "어떤 벤치마크에서 몇 점을 기록했다"는 설명이 따라붙는다.
벤치마크는 AI의 성능을 일정한 기준에 따라 측정하고 비교하는 시험을 의미한다.
용어의 어원은 건설·측량 현장에서 출발했다.
받침대나 작업대에 표시해 둔 '기준점'을 뜻하는 말로, 이후 어떤 대상의 수준을 가늠하는 기준이라는 의미로 기술 분야 전반에 확산했다.
AI 분야에서 벤치마크는 동일한 문제를 여러 모델에 풀게 한 뒤 정답률, 처리 속도, 오류율 등을 수치로 비교하는 방식이다.
대표적인 벤치마크로는 문장 이해와 추론 능력을 평가하는 MMLU, 수학 문제 해결력을 측정하는 GSM8K, 코드 작성 능력을 살피는 HumanEval, 긴 문서 이해 능력을 보는 LongBench 등이 있다.
최근에는 유해 발언 생성 여부나 규칙 준수 수준을 점검하는 안전성·신뢰성 벤치마크도 활용되고 있다.
개발 과정에서도 벤치마크는 중요한 기준으로 쓰인다.
같은 모델이라도 이전 모델과 비교해 언어 이해, 논리 추론, 신뢰성 등 항목별 점수가 다르게 나타나는 경우가 많기 때문이다.
다만 전문가들은 벤치마크 점수와 실제 체감 성능이 항상 비례한다고 보기는 어렵다고 지적한다.
시험은 정해진 형식의 문제를 푸는 능력을 측정하지만, 이용자가 던지는 질문은 더 복합적이고 맥락 의존적인 경우가 많아서다.
벤치마크의 신뢰성에 의문을 제기하는 목소리도 커지고 있다.
가장 대표적인 문제가 '데이터 오염'이다.
AI가 학습하는 방대한 데이터 속에 벤치마크 문제와 정답이 포함돼 AI가 추론이 아닌 '암기'를 통해 높은 점수를 받는 현상이다.
이처럼 하나의 벤치마크가 절대적인 기준이 될 수 없다는 이유로 최근에는 여러 벤치마크를 종합적으로 활용하는 방식이 일반적이다.
최근 정부가 진행한 '독자 AI 파운데이션 모델' 1차 평가에서도 단일 기준이 아닌 복수 벤치마크가 적용됐다.
NIA 벤치마크와 글로벌 공통·개별 벤치마크를 병행해 수학·지식·장문 이해·신뢰성·안전성 등 모델의 기본 역량을 종합적으로 검증했다.
결국 벤치마크 점수는 AI의 성능을 가늠하는 하나의 잣대일 뿐, 실제 활용 환경에서의 신뢰성과 효용을 함께 살펴보는 '해석'이 점점 더 중요해지는 추세다.
binzz@yna.co.kr
-
안성재, 결국 유튜브도 잠정 중단...'와인 바꿔치기' 사과에도 민심 '싸늘' -
박정수, ♥정경호父에 건물 선물하더니…이번엔 손녀들에 '통큰 할머니 플렉스' -
'열애 고백' 서인영, 이혼 후 만난 ♥남친과 러브스토리 "눈 안 피하고 인사..매력적" -
'돌싱' 서인영, 핑크빛 열애 중♥...깜짝 고백 "항상 현재 진행형" -
'충주걸' 최지호, '전 충주맨' 김선태 저격 "단가 1억이라고..골드버튼 매달고 다녀" -
'대군 자가' 변우석 만난 임산부 박현선, "완벽한 태교" 자랑 -
'김원효♥' 심진화, 임신 포기 했는데 뜻밖의 '아기 운' 울컥 "47세에 말이 안 돼" -
'빅마마' 이혜정, 성형외과 견적 1천만원 받더니..시술 후 달라진 얼굴 "만족도 200%"
- 1.[속보] 1티어 매체 보도, 맨체스터 유나이티드 차기 사령탑 캐릭 확정..."정식 감독 제안 예정, 구단주 승인만 남아"
- 2.'퇴출 1순위 바뀌나' 2아웃 잡고 9실점 최악, 2회부터 경기 포기인가[수원 리포트]
- 3.주전 대거 이탈에도 "그걸 극복하는 것이 프로"...각오 다진 유병훈 감독, 한 번 더 깜짝 전략? "연속으로 쓰긴 힘들어"[현장인터뷰]
- 4.'사우디 2000억 포기' 손흥민 연봉 166억, 당연히 2위일 수밖에...1위는 '2조 4400억 오일머니 거절' 메시, 쏘니 연봉의 2.5배
- 5.'백업이 OPS 0.878이었는데!' 이게 무슨 날벼락인가, 감독도 "안타깝다"[수원 현장]