AI 성능 1위라는데…누굴 믿어야 하나

기사입력 2026-02-01 16:55

[강민지 제작] 일러스트

직장인 김모(34) 씨는 최근 업무용 인공지능(AI) 서비스를 유료 결제하려다 고민에 빠졌다.

구글의 '제미나이'와 오픈AI의 '챗GPT', 앤트로픽의 '클로드' 등 글로벌 주요모델이 저마다 "○○ 분야 최고 성능"이라고 홍보하고 있었기 때문이다.

김 씨는 "1위가 제각각이니 누가 진짜인지 알 수가 없다"며 "과장 광고 아니냐는 의구심마저 든다"고 토로했다.

생성형 AI 시장 경쟁이 격화되면서 기업들이 자신들에게 유리한 성능 지표만 선별해 강조하는 이른바 '체리 피킹'식 마케팅에 대한 비판도 커지고 있다. 객관적인 통합 비교 기준이 없는 상황에서 소비자의 판단을 흐릴 수 있다는 지적이다.

1일 업계에 따르면 AI 모델의 성능을 측정하는 표준 지표인 '벤치마크'가 기업들의 마케팅 수단으로 활용되는 사례가 늘고 있다.

현재 통용되는 벤치마크는 대학 수준 지식을 묻는 MMLU, 수학적 추론 능력을 측정하는 GSM8K, 코딩 능력을 보는 HumanEval 등 수십 가지에 달한다.

기업들은 신모델 출시 시 수십 개의 지표 중 자사 모델이 1위를 차지한 서너 개만 그래프로 시각화해 발표한다.

이러한 현상은 국내 AI 시장에서도 고스란히 나타난다.

정부 주도의 독자 AI 파운데이션 모델 프로젝트에 참여한 기업들도 각기 강점을 지닌 지표를 중심으로 '상위권' 성과를 강조하고 있다. 글로벌 벤치마크에서 성과를 내는 것은 긍정적이나, 수치가 곧 실사용 성능을 담보하지는 않는다는 점에서 주의가 필요하다.

전문가들은 벤치마크 점수가 실제 사용 환경과 괴리될 수 있다고 지적한다. 모델이 학습 과정에서 벤치마크 문항이나 유사 데이터를 사전에 학습하는 '데이터 오염'이 발생하면 실제 추론 능력보다 과도하게 높은 점수가 나올 수 있어서다. 일종의 '기출문제 암기' 효과다.

이와 함께 "누가 가장 똑똑한가"라는 단편적인 순위 경쟁에서 벗어나야 한다는 제언도 나온다. AI 모델의 발전 단계가 범용 성능 향상을 넘어 이미 특정 목적에 최적화된 '특화 모델'의 영역으로 진입했기 때문이다.

이는 자동차 시장에 비유될 수 있다. 속도가 가장 빠른 '슈퍼카'가 서킷에서는 1등이지만, 좁은 골목길이나 연비를 중시하는 도심 주행에서는 '경차'나 '전기차'가 더 적합한 것과 같은 이치다. AI 역시 복잡한 논리 추론이 필요한 연구 업무에는 고성능 대형 모델이, 단순 반복적인 고객 응대나 요약 업무에는 가볍고 빠른 경량 모델이 더 효율적일 수 있다.

수치 중심 평가를 보완할 대안 지표도 주목받고 있다.

가장 대표적인 것이 '챗봇 아레나'다. 두 개의 익명 모델에게 같은 질문을 던져 테스트하는 방식으로, 기업이 인위적으로 점수를 조작하기 어렵고 실제 업무 환경에서 사람의 체감 품질이 반영된다는 특징이 있다.

한 업계 전문가는 "현재의 성능 경쟁은 체급이 다른 선수들을 모아놓고 각자 자신 있는 종목 기록만 자랑하는 격"이라며 "마케팅 수치에 휘둘리기보다 '내 업무에 얼마나 정확하고 안전한 대답을 내놓는가'를 직접 경험해 보며 판단해야 한다"고 강조했다.

이어 "정부와 학계 또한 윤리성, 보안성, 한국어 특화 성능 등을 종합적으로 평가할 수 있는 표준화된 가이드라인 수립을 고려할 필요가 있다"고 제안했다.

binzz@yna.co.kr

<연합뉴스>

Copyright (c) 스포츠조선 All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지.

Copyright (c) 스포츠조선 All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지.

:) 당신이 좋아할만한 뉴스