Advertisement
김 씨는 "1위가 제각각이니 누가 진짜인지 알 수가 없다"며 "과장 광고 아니냐는 의구심마저 든다"고 토로했다.
Advertisement
1일 업계에 따르면 AI 모델의 성능을 측정하는 표준 지표인 '벤치마크'가 기업들의 마케팅 수단으로 활용되는 사례가 늘고 있다.
Advertisement
기업들은 신모델 출시 시 수십 개의 지표 중 자사 모델이 1위를 차지한 서너 개만 그래프로 시각화해 발표한다.
Advertisement
정부 주도의 독자 AI 파운데이션 모델 프로젝트에 참여한 기업들도 각기 강점을 지닌 지표를 중심으로 '상위권' 성과를 강조하고 있다. 글로벌 벤치마크에서 성과를 내는 것은 긍정적이나, 수치가 곧 실사용 성능을 담보하지는 않는다는 점에서 주의가 필요하다.
이와 함께 "누가 가장 똑똑한가"라는 단편적인 순위 경쟁에서 벗어나야 한다는 제언도 나온다. AI 모델의 발전 단계가 범용 성능 향상을 넘어 이미 특정 목적에 최적화된 '특화 모델'의 영역으로 진입했기 때문이다.
이는 자동차 시장에 비유될 수 있다. 속도가 가장 빠른 '슈퍼카'가 서킷에서는 1등이지만, 좁은 골목길이나 연비를 중시하는 도심 주행에서는 '경차'나 '전기차'가 더 적합한 것과 같은 이치다. AI 역시 복잡한 논리 추론이 필요한 연구 업무에는 고성능 대형 모델이, 단순 반복적인 고객 응대나 요약 업무에는 가볍고 빠른 경량 모델이 더 효율적일 수 있다.
수치 중심 평가를 보완할 대안 지표도 주목받고 있다.
가장 대표적인 것이 '챗봇 아레나'다. 두 개의 익명 모델에게 같은 질문을 던져 테스트하는 방식으로, 기업이 인위적으로 점수를 조작하기 어렵고 실제 업무 환경에서 사람의 체감 품질이 반영된다는 특징이 있다.
한 업계 전문가는 "현재의 성능 경쟁은 체급이 다른 선수들을 모아놓고 각자 자신 있는 종목 기록만 자랑하는 격"이라며 "마케팅 수치에 휘둘리기보다 '내 업무에 얼마나 정확하고 안전한 대답을 내놓는가'를 직접 경험해 보며 판단해야 한다"고 강조했다.
이어 "정부와 학계 또한 윤리성, 보안성, 한국어 특화 성능 등을 종합적으로 평가할 수 있는 표준화된 가이드라인 수립을 고려할 필요가 있다"고 제안했다.
binzz@yna.co.kr
<연합뉴스>