LG, 멀티모달 AI ‘엑사원 4.5’ 공개

[FETV=이신형 기자] LG가 LG AI연구원이 개발한 ‘엑사원(EXAONE) 4.5’를 공개했다. 독자 AI 파운데이션 모델 프로젝트를 통해 AI 경쟁력을 강화해나가는 모습이다.

LG AI연구원은 9일 텍스트와 이미지를 동시에 이해하고 추론하는 멀티모달 AI 모델 ‘엑사원(EXAONE) 4.5’를 공개했다고 밝혔다.

엑사원 4.5 글로벌 동급 모델들과의 STEM 벤치마크 성능 비교 [이미지 LG]

‘엑사원 4.5’는 LG AI연구원이 2021년 12월 국내 최초 멀티모달 AI 모델 ‘엑사원 1.0’을 개발하며 축적한 기술력을 바탕으로 자체 개발한 비전 인코더(Vision Encoder)와 거대언어모델(LLM, Large Language Model)을 하나의 구조로 통합한 비전-언어 모델(VLM, Vision Language Model)이다.

LG는 이번 모델은 독자 AI 파운데이션 모델 프로젝트에 개발 중인 ‘K-엑사원’의 모달리티 확장을 위한 준비 단계라고 밝혔다. LG AI연구원은 올해 8월 프로젝트 2차수 종료 이후 3차수 진출이 확정되면 본격적으로 모달리티 확장에 나선다는 계획이다.

특히 LG는 ‘엑사원 4.5’는 계약서, 기술 도면, 재무제표, 스캔 문서 등 산업 현장에서 실제로 다루는 복합 문서를 정확하게 읽고 추론하는 능력에 강점이 있다고 강조했다. LG AI연구원에 따르면 ‘엑사원 4.5’는 STEM(과학·기술·공학·수학) 성능을 측정하는 5개 지표 평균 77.3점을 기록해 미국 오픈AI 지피티(GPT)5-mini(73.5점), 앤트로픽 클로드 소넷(Claude Sonnet) 4.5(74.6점), 중국 알리바바 큐웬(Qwen)3 235B(77.0점)를 모두 앞서게 됐다.

일반 시각 이해를 측정하는 3개 지표와, 이미지와 텍스트가 결합된 인포그래픽을 비롯해 전문 문헌 속 복합 정보를 읽어내는 문서 이해 및 추론 성능 평가 지표 5개를 포함한 13개 지표 평균 점수와 코딩 성능 대표 지표인 라이브코드벤치(LiveCodeBench) v6에서도 준수한 성적을 기록했다.

LG는 ‘엑사원 4.5’가 성능과 함께 효율성 측면에서도 주목할 만한 결과를 보였다고 전했다. LG는 "엑사원 4.5는 330억개 파라미터 규모(33B)로 지난해 말 공개한 ‘K-엑사원’의 약 7분의 1 크기임에도 텍스트 이해·추론 영역에서 동등한 수준의 성능을 달성했다"며 "LG AI연구원이 자체 개발한 하이브리드 어텐션 구조와 멀티 토큰 예측 기반의 고속 추론 기술을 적용한 결과"라고 설명했다.

LG AI연구원은 한국어와 영어 외에 스페인어, 독일어, 일본어, 베트남어까지 공식 지원 언어를 확장했으며 ‘엑사원 4.5’를 글로벌 오픈소스 플랫폼인 허깅페이스(Hugging Face)에 연구·학술·교육 목적으로 사용할 수 있도록 공개했다고 밝혔다.

LG는 이달 초 엑사원 경량화 모델 개발을 주제로 청년 AI 전문가 육성 프로그램인 ‘LG 에이머스(Aimers)’ 해커톤을 진행하며 엑사원을 청년들의 AI 역량 강화를 위한 교육 자원으로 활용하기도 했다.

이진식 LG AI연구원 엑사원랩장은 “엑사원 4.5는 LG AI가 텍스트를 넘어 시각 정보까지 이해하는 멀티모달 시대로 진입했음을 보여주는 모델”이라며, “이번 모델을 시작으로 음성과 영상, 물리 환경까지 AI의 이해 범위를 확장해 산업 현장에서 실질적으로 판단하고 행동하는 AI를 만들어가겠다”고 포부를 밝혔다.

산업뉴스