[FETV=신동현 기자] 카카오는 자사 테크블로그를 통해 멀티모달 언어모델 ‘Kanana-o’와 이미지 기반 검색 모델 ‘Kanana-v-embedding’의 개발 과정과 성능을 12일 공개했다.
이번에 공개된 ‘Kanana-o’는 텍스트·음성·이미지를 동시에 이해하고 실시간으로 응답할 수 있는 통합 멀티모달 모델이다. 한국어 문맥 이해와 자연스러운 표현력을 갖춘 것이 특징으로, 카카오는 그동안의 연구를 기반으로 모델의 지시이행 능력을 한층 끌어올렸다고 밝혔다.
특히 기존 모델들이 음성 입력에서 답변이 단순해지는 문제를 개선하기 위해 다양한 모달리티를 아우르는 자체 데이터셋을 구축했다. 이를 활용해 요약, 의도 해석, 감정 분석, 번역 등 복합 과업 수행 능력을 강화했다.
고품질 음성 데이터와 DPO(Direct Preference Optimization) 기법을 적용해 억양·감정·호흡과 같은 세부 음성 특징도 학습시켰다. 이로써 사용자 상황에 따른 감정 표현과 멀티턴 대화의 자연스러움이 크게 향상됐다는 평가다. 벤치마크 결과 Kanana-o는 영어 음성에서는 GPT-4o와 유사 성능을, 한국어 음성 인식 및 감정 표현에서는 더 우수한 성능을 기록했다.
카카오는 향후 Kanana-o에 동시대화(Full-duplex) 기능과 상황 기반 사운드 생성 기능을 더해 보다 사람에 가까운 상호작용형 AI로 발전시킬 계획이다.
함께 공개된 ‘Kanana-v-embedding’은 텍스트와 이미지를 동시에 이해해 검색 결과를 생성하는 이미지 임베딩 모델이다. 실제 서비스 적용을 고려해 개발되었으며 ‘경복궁’, ‘붕어빵’과 같은 한국적 개념은 물론, 오타나 복합 조건이 포함된 검색어도 정확히 해석하는 것이 특징이다. 현재 카카오 내부 광고 심사 시스템에 적용돼 소재 유사도 분석에 활용되고 있으며, 향후 비디오·음성 등 다양한 모달리티로 확장될 예정이다.
카카오는 경량화 모델 연구도 병행 중이다. 모바일 기기 등 온 디바이스 환경에서 실행 가능한 멀티모달 모델을 개발하고 있으며, MoE(Mixture of Experts) 구조를 기반으로 한 고성능 모델 ‘Kanana-2’를 연내 공개할 계획이다.
카카오 김병학 카나나 성과리더는 “카카오는 한국어와 한국 문화적 맥락을 가장 잘 이해하는 AI를 만드는 데 연구 역량을 집중하고 있다”며 “사용자의 감정과 상황을 고려해 자연스럽게 소통하는 AI 구현에 주력하고, 실제 서비스에서 체감할 수 있는 기술 성과를 지속적으로 선보이겠다”고 말했다.



