[FETV=신동현 기자] 한글과컴퓨터(이하 한컴)는 AI 학습 과정에서 난제로 지적돼 온 PDF 데이터 추출 문제를 해결할 수 있는 핵심 기술을 글로벌 오픈소스로 공개했다고 17일 밝혔다.
이번에 공개된 ‘오픈데이터로더 PDF(OpenDataLoader PDF)’는 PDF 문서 내 텍스트, 표, 이미지, 레이아웃 정보를 정형화된 데이터(JSON, Markdown, HTML)로 변환하는 기술이다. 한컴은 지난 7월 PDF 전문기업 듀얼랩(Dual Lab)과 협력해 해당 엔진을 공동 개발했다.
![한컴이 공개한 오픈데이터로더 PDF 공식 깃허브 페이지 [사진 한글과컴퓨터]](http://www.fetv.co.kr/data/photos/20250938/art_17580764897207_98b0a3.jpg?iqs=0.9024949647413025)
공식 벤치마크 결과에 따르면 오픈데이터로더 PDF는 사람의 읽기 순서를 평가하는 NID(Normalized Indel Distance) 지표에서 경쟁 오픈소스 대비 85% 수준의 성능을 기록했다. 또 네트워크 연결 없이 오프라인 환경에서 작동해 금융·공공기관 등 민감한 데이터 활용 시 보안성을 확보할 수 있다.
최근 AI 업계의 주요 과제인 데이터 안전성도 반영됐다. 악의적 콘텐츠 삽입을 통한 ‘프롬프트 인젝션(Prompt Injection)’을 탐지·차단하는 기능이 탑재돼 학습 데이터의 안정성과 신뢰성을 높였다.
한컴은 향후 챗GPT, 제미나이, 랭체인 등 주요 AI 프레임워크와의 연동을 강화하고 깃허브를 통한 글로벌 개발자 커뮤니티와 협업을 이어갈 계획이다. 연말에는 AI 기반 문서 인식 기능을 추가하는 등 오픈소스 프로젝트 고도화도 추진한다.
정지환 한컴 최고기술책임자(CTO)는 “오픈소스는 기업과 사회 전반의 혁신을 위한 필수 전략”이라며 “전 세계 개발자와 협력해 PDF 데이터 추출 기술을 글로벌 최고 수준으로 발전시키겠다”고 말했다.