크래프톤, AI 모델 브랜드 ‘Raon’ 공개…멀티모달 기술 경쟁 본격화

음성·비전 모델 4종 오픈소스 공개
Raon-Speech 글로벌 성능 상위권 기록

[FETV=신동현 기자] 크래프톤이 AI 모델 브랜드 ‘Raon’을 공개하고 음성·비전 기반 멀티모달 모델을 오픈소스로 공개하며 AI 기술 개발을 확대하고 있다.

크래프톤은 AI 모델 브랜드 ‘Raon(라온)’을 출범하고 음성 지원 대규모 언어 모델과 실시간 음성 대화 모델, 텍스트-음성 변환(TTS) 모델, 비전 인코더 등 4종을 글로벌 플랫폼 허깅페이스에 공개했다고 밝혔다.

이번 공개를 통해 크래프톤은 데이터 수집부터 모델 학습, 성능 평가까지 파운데이션 모델 개발 전 과정을 자체적으로 수행할 수 있는 역량을 확보했다고 설명했다.

공개된 모델은 ▲Raon-Speech ▲Raon-SpeechChat ▲Raon-OpenTTS ▲Raon-VisionEncoder 등이다. 음성과 시각 정보를 모두 처리하는 멀티모달 구조가 특징이다.

Raon-Speech는 90억 파라미터 규모의 음성 언어 모델로, 음성 인식과 생성 기능을 동시에 지원한다. 영어와 한국어 기준 100억 파라미터 이하 공개 모델 중 성능 평가에서 상위권을 기록했다.

Raon-SpeechChat은 실시간 양방향 음성 대화가 가능한 모델로, 사용자가 대화 중간에 개입할 수 있는 구조를 적용했다. 응답 지연 시간과 상호작용 측면에서 주요 평가 항목에서 상위 수준 성능을 보였다.

Raon-OpenTTS는 공개 데이터 기반으로 학습된 텍스트-음성 변환 모델로, 학습 데이터와 구조를 함께 공개해 재현 가능성을 높였다.

Raon-VisionEncoder는 이미지 정보를 분석하는 모델로, 사전 학습 모델 없이 공개 데이터만으로 학습됐다. 일부 시각 인식 성능에서 기존 글로벌 모델과 유사하거나 높은 수준을 기록했다.

이강욱 크래프톤 CAIO는 "이번 Raon 모델 시리즈 공개는 AI 기술 역량을 축적해 나가는 과정의 중요한 이정표"라며, "대규모 학습 데이터와 핵심 모델을 오픈소스로 공유해 연구자와 개발자들이 자유롭게 활용할 수 있도록 하고, 멀티모달 기술 발전과 국내 AI 생태계의 성장에 기여하기를 기대한다"고 밝혔다.

게임