텍스트·음성·이미지 동시 이해·답변…"지시 이행력 개선"
(서울=연합뉴스) 한상용 기자 = 카카오가 사람처럼 보고 듣고 말하면서 한국어는 물론 한국 문화를 이해하는 데 초점을 둔 최신 멀티모달(Multinodal) AI 기술 연구 성과를 공개했다.
카카오는 12일 테크블로그를 통해 한국적 맥락 이해에 최적화된 통합 멀티모달 언어모델 '카나나(Kanana)-o'와 멀티모달 임베딩 모델 '카나나-v-임베딩'(Kanana-v-embedding)' 개발 과정과 성능을 발표했다.
멀티모달은 텍스트와 음성, 이미지 등 다양한 형태의 정보를 동시에 이해하고 처리·답변할 수 있는 능력이나 기술을 말한다.
먼저 '카나나-o'는 글로벌 모델과 비교해 한국어 맥락 이해에서 압도적 성능을 보유해 사람처럼 자연스럽고 풍부한 표현력을 갖췄다는 게 카카오 설명이다. 지난 5월 처음 공개된 뒤 이번에 지시 이행 능력이 개선됐다.
카카오는 기존 멀티모달 모델들이 텍스트에는 강점을 보이지만 음성으로 대화 땐 답변이 다소 단순해지고 추론 능력이 떨어진다는 점에 주목했다.
이에 카카오는 카나나-o 지시 이행을 고도화해 사용자의 숨은 의도와 복잡한 요구사항까지 파악할 수 있도록 개선했다고 전했다.
이와 함께 단순 질의응답을 넘어 요약, 감정·의도 해석, 오류 수정, 형식 변환, 번역 등 다양한 과업을 수행할 수 있게 성능을 끌어올렸다고 부연했다.
또한 고품질 음성 데이터와 직접 선호 최적화 기술을 적용해 억양과 감정, 호흡 등을 정교하게 학습시켰다.
카카오는 벤치마크(성능 검증) 평가 결과 카나나-o가 영어 음성 성능에서 GPT-4o와 유사한 수준을, 한국어 음성 인식·합성, 감정 인식 능력에서는 월등히 높은 수준을 기록했다고 밝혔다.
이번에 함께 공개된 카나나-v-임베딩은 이미지 기반 검색의 핵심 기술로, 텍스트와 이미지를 동시에 이해해 처리할 수 있는 한국형 멀티모달 모델이다.
실제 서비스 적용을 목표로 개발된 이 모델은 한국어와 한국 문화에 대한 이해도가 높아 '경복궁', '붕어빵' 같은 고유명사의 이미지도 찾아준다.
현재 이 모델은 카카오 내부에서 광고 소재의 유사도를 분석·심사하는 시스템에 적용 중이다.
김병학 카카오 카나나 성과리더는 "카나나를 단순 정보 나열 수준을 넘어 사용자의 감정을 이해하며 친숙하고 자연스럽게 대화하는 AI가 될 수 있게 하겠다"고 말했다.
gogo213@yna.co.kr
-
김구라 "6살 늦둥이 딸, 한달 학원비 180만원...그리와 180도 달라"('라스') -
서동주, '임신 성지' 130년 한의원서 절박한 심정 "난자 채취 10번-유산 이후 최선" -
양상국, '태도 논란'에 굴복…가치관도 바꿨다 "어디 여자가 집에 혼자 가냐" ('옥문아') -
정문성, 결국 대국민 사과 "'허수아비' 진범, 일단 죄송…연기 용서해달라" -
김민식PD "퇴출 당했지만 매달 1000만원 꽂혀"…유재석도 놀란 '노후 설계' ('유퀴즈') -
신지♥문원 향한 '이혼 훈수' 논란…동료 변호사도 "인간이 할 짓이냐" 직격 -
'열애 고백' 서인영, 이혼 후 만난 ♥남친과 러브스토리 "눈 안 피하고 인사..매력적" -
'음주운전 3범' 상해기, 자숙인가 수익 사수인가…또 맞춘 '유튜버 6개월 법칙'
- 1.김연아 작심발언→완전히 무시! 이렇게 뻔뻔할 수가 있나...올림픽 망친 '도핑 논란' 장본인, 대국민 사과 대신 "자격 정지? 오히려 좋았다" 주장
- 2.MLS 공식발표, '참사와 굴욕의 연속' 손흥민+LA FC 파워랭킹 대폭락 '1위→4위→7위' "극심 부진, 재정비 절실"
- 3.김서현, 1군 복귀 6일만에 다시 2군행…"제구가 제일 문제, 시간 충분히 줄 것"
- 4."두산의 선택이 틀리지 않았다." 손아섭 기어이 125m 스리런포 작렬. 1군 기회 오나[SC퓨처스]
- 5.[속보]오타니 12G만 홈런포 폭발! 타선 부진 끝내나…김혜성은 ABS 챌린지 위축→LAD 2-1 리드 중