[FETV=신동현 기자] 빅데이터 AI 기업 에스투더블유(S2W)는 한국과학기술원(KAIST)과 공동으로 진행한 대규모언어모델(LLM) 토크나이저 구조 취약성 연구 논문이 세계 최고 권위의 자연어처리 학회 ‘EMNLP 2025’에 채택됐다고 10일 밝혔다.
이번 연구는 LLM의 문장 분절 기능인 ‘토크나이저(Tokenizer)’가 비영어권 언어를 처리할 때 불완전한 토큰을 생성해 환각(Hallucination)을 유발할 수 있다는 구조적 한계를 분석했다. 특히 영어는 1바이트로 구성되지만 한국어·일본어·중국어 등은 여러 바이트로 표현돼, 바이트 페어 인코딩(BPE) 기반 토크나이저에서 글자 중간이 잘려 의미가 왜곡되는 사례가 많다는 점을 규명했다.
S2W는 이번 연구가 비영어권에서의 AI 신뢰성 문제를 드러낸다는 점에서 ‘소버린 AI(Sovereign AI)’ 논의에도 새로운 시사점을 제공한다고 설명했다.
S2W는 이번 성과로 2022년부터 4년 연속 세계 최고 권위 AI 자연어처리 학회에 논문을 등재했다. 앞서 2022년 다크웹 언어 연구, 2023년 다크웹 특화 모델 ‘다크버트(DarkBERT)’, 2024년 사이버보안 문서 특화 모델 ‘사이버튠(CyBERTuned)’ 논문을 발표한 바 있다.
박근태 S2W 최고기술책임자(CTO)는 “비영어권 언어의 구조적 문제를 해결하지 못한다면 AI의 신뢰성과 공정성을 확보하기 어렵다”며 “앞으로도 신뢰할 수 있는 AI 기술 연구를 지속해 나가겠다”고 말했다.



