Advertisement
(서울=연합뉴스) 조승한 기자 = 국가대표 인공지능(AI)에 도전하는 한국 팀들의 기존 대형언어모델(LLM) 모델들이 수학 수능 및 논술 문제 풀이에서 해외 모델에 한참 못 미치는 성능을 내는 것으로 분석됐다.
Advertisement
연구팀은 수능 문제로는 공통과목, 확률과 통계, 미적분, 기하에서 가장 어려운 문항 5개씩을 뽑아 20문제를 설정했고, 논술 문제는 국내 10개 대학 기출 문제와 인도 대학입시 10문제, 일본 도쿄대 공대 대학원 입시 수학 10문제 등 30문제를 설정해 총 50개 문제를 10개 모델에 풀게 했다.
Advertisement
해외 모델에는 GPT-5.1, 제미니 3 프로 프리뷰, 클라우드 오푸스 4.5, 그록 4.1 패스트, 딥시크 V3.2 등이 활용됐다.
Advertisement
라마 바르코 8B 인스트럭트는 2점으로 가장 낮은 점수를 받았다.
이어 연구팀은 대학교 수준부터 교수급 논문 연구 수준까지 난이도를 세분화한 자체 문제 세트 '엔트로피매스'(EntropyMath) 100문제 중 10문제를 구성해 10개 모델에 문제를 풀게 했다.
여기서도 해외 모델은 82.8~90점을 기록했지만, 국내 모델은 7.1~53.3점으로 낮았다.
세 차례 문제 풀이를 시도해 정답을 맞히면 통과하는 방식을 활용했을 때 그록은 만점, 나머지 해외 모델은 90점을 기록했지만, 한국 모델은 솔라 프로-2가 70점, 엑사원이 60점을 기록했다.
HCX-007은 40점, A.X 4.0은 30점, 라마 바르코 8B 인스트럭트는 20점을 기록했다.
김 교수는 "주위에서 왜 수능 문제에 대한 국내 5개 소버린 AI 모델 평가가 없는지 문의가 많아 팀원들과 테스트를 진행했다"며 "국내 모델 수준이 해외 프런티어 모델보다 많이 뒤처짐을 알 수 있었다"고 설명했다.
연구팀은 이번에 쓰인 국내 5개 모델은 기존 공개 버전인 만큼 각 팀의 국가대표 AI 버전이 새로 공개되면 자체 개발 문제로 다시 성능을 테스트하겠다고 밝혔다.
김 교수는 "엔트로피매스 데이터세트를 기반으로 수학 리더보드를 개설했으며 이를 국제적인 수준으로 키울 것"이라며 "자체 개발 문제 생성 알고리즘과 파이프라인을 개선해 수학뿐 아니라 과학, 제조, 문화 도메인 데이터세트를 생성해 도메인 특화 모델 성능 개선에 기여할 것"이라고 말했다.
이번 실험은 서강대 수리과학 및 데이터사이언스 연구소(IMDS), 딥파운틴에서 공동 지원했다. shjo@yna.co.kr
연예 많이본뉴스
-
이상민, 표절 논란에 맨손 유리 파손...결국 병원 입원 "자존심 상했다" ('짠한형') -
'80세' 김용건, 6세 늦둥이 子 위해 용기 냈다.."아빠" 외침 '뭉클' -
김지민, 임신했나...♥김준호, 2세 위한 '보름 금주' 후 "2월에 가지면" ('짠한형') -
전현무, KBS 아나운서실에 통 큰 선물..."최고급은 달라" -
'148kg→70kg' 미나 시누이, 위고비·마운자로 혹했지만..."요요·부작용에 손절" -
이상민, 술자리 패싸움 입건 전말..."남희석에 웃겨보라고 시비" ('짠한형') -
강호동, 봄동 비빔밥 열풍에 본인 등판..18년 만에 먹방 재현 "고기보다 맛있어" -
전원주, 뜻밖의 사고에 팬들도 '화들짝'…"고관절 금이 가 수술했다→당분간 유튜브도 '휴방'"(전원주인공)
스포츠 많이본뉴스
- 1.'반칙왕 비판, 박지원 고의 충돌 의혹, 린샤오쥔과 법정 다툼' 韓 쇼트트랙 간판 황대헌 입장 표명 예고..."사실과 다른 부분 바로잡고파"
- 2.손흥민 내치고 나락 간 토트넘…투도르 감독 3주 만에 경질? 英매체 충격 전망 나왔다
- 3.韓 축구 초대박 사건, 김민재 한국 21호 프리미어리거 가능성 재점화..."이적료까지 인하 가능"→"선수가 원하면 곧바로 진전"
- 4.韓 축구 낭보 등장, 유럽 5대 리그 수비수 탄생 예감..."獨 명문 제안 준비"→"다른 구단들도 이미 관심 보이는 중"
- 5."너무나 힘든 현실" 다리 절단 피한 '스키 여제' 린지 본, 휠체어 타고 마침내 집으로