AIㆍML / 애플리케이션

이파피루스, AI OCR ‘텍스트센스 2.0’ 출시…표 문서 인식 기능 강화 

편집부 | ITWorld 2022.10.04
이파피루스는 표 문서 인식 기능을 대폭 강화한 인공지능 문자인식(AI OCR) 솔루션 ‘텍스트센스 2.0(TextSense 2.0)’을 출시했다고 밝혔다.
 
ⓒ 이파피루스

‘텍스트센스’는 흐리거나 오염·손상된 문서도 정확하게 읽어내는 솔루션이다. 이번 업그레이드의 핵심은 ‘표 인식 기능’으로, 인식 대상 문서 내에 있는 표를 자동으로 찾아 텍스트 데이터로 추출한다. 표 구조와 내용 그대로 엑셀 파일(.xlsx)로 다운로드할 수도 있다.

이파피루스 최고운영책임자(COO) 김정아 부사장은 “기존 OCR은 표 안에 있는 구조에 대한 정보 없이 텍스트만 인식하는 것이 고작이었고, 표에 병합된 셀이 하나라도 들어 있으면 텍스트 순서가 흐트러져 사람이 일일이 후처리를 해야 했다”며, “‘텍스트센스 2.0’은 표의 행과 열 순서 파악은 물론, 병합된 셀 구조까지 분석해 원본 표 형태 그대로 정확하게 읽어내므로 이러한 후작업을 대폭 줄여준다”고 말했다.

원하는 데이터만 빠르게 뽑아낼 수 있는 ‘키워드 검출 기능’도 추가됐다. 일반 줄글 문서 속에서 특정 키워드를 포함한 줄을 모두 찾아 주거나, 표 안에서 원하는 단어가 있는 행 또는 열만 찾아내 준다. 예를 들어 인적 사항을 수집한 표에서 ‘010-’으로 시작하는 전화번호가 있는 열만 찾아 데이터로 추출할 수 있다. 

문서 내에서 가로, 세로 위치를 지정해 해당 위치에 있는 텍스트만 읽어내는 것도 가능하다. 사업자등록증, 통장사본 등 일정 양식을 가지고 있는 문서에서 사업자등록번호, 예금주 등 특정 정보만 필요로 할 때 특히 유용한 기능이다. 전체 문서를 OCR하는 기존 방식보다 시간 또한 대폭 줄일 수 있다고 업체 측은 설명했다. 

‘텍스트센스 2.0’은 이파피루스 데모 페이지(https://demo.epapyrus.com/textsense)에서 누구나 체험할 수 있다.
editor@itworld.co.kr
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.