2025.09.17 (수)

  • 맑음동두천 25.8℃
  • 구름조금강릉 27.3℃
  • 맑음서울 26.6℃
  • 구름많음대전 25.0℃
  • 흐림대구 22.6℃
  • 흐림울산 23.8℃
  • 구름많음광주 24.8℃
  • 흐림부산 27.2℃
  • 구름조금고창 25.2℃
  • 제주 24.5℃
  • 맑음강화 25.7℃
  • 구름많음보은 24.4℃
  • 구름많음금산 25.9℃
  • 구름많음강진군 26.3℃
  • 흐림경주시 22.1℃
  • 구름많음거제 25.3℃
기상청 제공


IT일반


한컴, PDF 추출 엔진 ‘오픈데이터로더 PDF’ 공개

[FETV=신동현 기자] 한글과컴퓨터(이하 한컴)는 AI 학습 과정에서 난제로 지적돼 온 PDF 데이터 추출 문제를 해결할 수 있는 핵심 기술을 글로벌 오픈소스로 공개했다고 17일 밝혔다.

 

이번에 공개된 ‘오픈데이터로더 PDF(OpenDataLoader PDF)’는 PDF 문서 내 텍스트, 표, 이미지, 레이아웃 정보를 정형화된 데이터(JSON, Markdown, HTML)로 변환하는 기술이다. 한컴은 지난 7월 PDF 전문기업 듀얼랩(Dual Lab)과 협력해 해당 엔진을 공동 개발했다.

 

 

공식 벤치마크 결과에 따르면 오픈데이터로더 PDF는 사람의 읽기 순서를 평가하는 NID(Normalized Indel Distance) 지표에서 경쟁 오픈소스 대비 85% 수준의 성능을 기록했다. 또 네트워크 연결 없이 오프라인 환경에서 작동해 금융·공공기관 등 민감한 데이터 활용 시 보안성을 확보할 수 있다.

 

최근 AI 업계의 주요 과제인 데이터 안전성도 반영됐다. 악의적 콘텐츠 삽입을 통한 ‘프롬프트 인젝션(Prompt Injection)’을 탐지·차단하는 기능이 탑재돼 학습 데이터의 안정성과 신뢰성을 높였다.

 

한컴은 향후 챗GPT, 제미나이, 랭체인 등 주요 AI 프레임워크와의 연동을 강화하고 깃허브를 통한 글로벌 개발자 커뮤니티와 협업을 이어갈 계획이다. 연말에는 AI 기반 문서 인식 기능을 추가하는 등 오픈소스 프로젝트 고도화도 추진한다.

 

정지환 한컴 최고기술책임자(CTO)는 “오픈소스는 기업과 사회 전반의 혁신을 위한 필수 전략”이라며 “전 세계 개발자와 협력해 PDF 데이터 추출 기술을 글로벌 최고 수준으로 발전시키겠다”고 말했다.