2015.02.24

무료 OCR 사용하기 : 이미지 속 텍스트 '진짜' 텍스트로 변환

Lincoln Spector | PCWorld
GIF 이미지에 쓰여 있는 텍스트를 수정 가능한 텍스트로 변환하는 방법이 있을까?

OCR(Optical Character Recognition) 소프트웨어의 역사는 긴 편이다. 그러나 이들 소프트웨어는 다루기 복잡할 뿐만 아니라 가격 또한 비싼 축에 속한다. 만일 이미지 속 텍스트를 수정 가능한 텍스트로 변환하는 작업을 '가끔' 해야 한다면, 굳이 이 비싼 소프트웨어를 갖출 필요는 없다. 복잡한 설치 과정이나 비용 부담 없이도 매우 간편하게 OCR 솔루션을 사용할 수 있는 두 가지 방법이 있다.

이미지 속 텍스트와 실제 텍스트 사이의 차이점을 아직 잘 모르겠다면, 실험을 하나 해보자. 문단 속에 있는 단어를 더블클릭해서 복사하고, 다른 워드프로세서 창에 복사한다. 이미지 속 텍스트는 이와 같은 편집/수정 작업이 불가능하다. 차이점을 이해할 수 있겠는가?

아마도 이미 OCR 프로그램을 사용하고 있을지도 모른다. 노트 필기 앱 마이크로소프트 오피스 원노트는 지난 2007년 버전부터 OCR 기능을 탑재해왔다. 물론, 마이크로소프트 오피스 제품군을 사용하지 않더라도 상관없다. 마이크로소프트 홈페이지에서 무료로 원노트를 내려받을 수 있는데 단, 마이크로소프트 계정이 필요하다.

네이버 영어 사전에서 'complex' 예문을 찾아 캡처한 화면을 원노트에 저장했다.

원노트에서 OCR 기능을 사용하기는 정말 쉽다. 이미지를 원노트 페이지에 붙여넣은 뒤, 이미지에 마우스를 올려 오른쪽 클릭을 하고 '그림에서 텍스트 복사'를 선택한다. 그러면 원노트는 이미지 속 그 어떤 텍스트라도 OCR로 복사를 한 뒤, 클립보드에 저장할 것이다.

원노트 2013의 한글 OCR  정확도는 10% 미만. 영문은 100%다.

필자가 확인해본 결과, '이미지 텍스트 검색 가능>한국어'로 설정하면 한국어도 인식되지만, 정확도는 10% 미만인 듯 하다. 심지어 영어마저도 정확도가 떨어진다. 반면, '이미지 텍스트 검색 가능>영어'로 설정하면 영어로 쓰인 문장이 완벽하게 변환되었음을 확인해볼 수 있었다.

만일 원노트를 사용하고 싶지 않다면, 무료 OCR 사이트를 이용해보길 바란다. 사이트에 접속하여 최대 2MB의 파일을 올리면 페이지에 변환된 텍스트가 보일 것이다. 이메일 주소와 같은 개인 정보도 입력할 필요가 없다.

무료  OCR 사이트에서의 텍스트 변환 결과 화면

이 웹사이트의 안정성에 관해 의심이 드는가? 이 무료 OCR 사이트의 개인정보보호 관련 페이지에는 “무료 OCR 서비스에 업로드되는 파일을 임의로 열어보지 않는다. 사용자의 파일은 작업이 처리된 이후에는 삭제된다”고 쓰여있다. 반면, SSL을 적용하지 않은 사이트이므로 민감한 정보를 올리지 않도록 주의한다.

원노트와 무료 OCR 홈페이지의 영문 텍스트 전환 정확도는 상당히 높았지만, 사용자가 다시한 번 확인해 볼 필요는 있다. 이미지가 상당히 복잡하거나 텍스트에 그래픽이 많이 적용됐다면 특히 다시한 번 확인해보길 추천한다.

서체 및 해상도 또한 정확도에 영향을 미친다. 만약에 텍스트 이미지가 너무 작다거나 스크립트나 표준 서체를 적용한 텍스트라면, OCR 프로그램이 텍스트를 인식하는 데 실패할 수 있음을 유념해야 한다. editor@itworld.co.kr


2015.02.24

무료 OCR 사용하기 : 이미지 속 텍스트 '진짜' 텍스트로 변환

Lincoln Spector | PCWorld
GIF 이미지에 쓰여 있는 텍스트를 수정 가능한 텍스트로 변환하는 방법이 있을까?

OCR(Optical Character Recognition) 소프트웨어의 역사는 긴 편이다. 그러나 이들 소프트웨어는 다루기 복잡할 뿐만 아니라 가격 또한 비싼 축에 속한다. 만일 이미지 속 텍스트를 수정 가능한 텍스트로 변환하는 작업을 '가끔' 해야 한다면, 굳이 이 비싼 소프트웨어를 갖출 필요는 없다. 복잡한 설치 과정이나 비용 부담 없이도 매우 간편하게 OCR 솔루션을 사용할 수 있는 두 가지 방법이 있다.

이미지 속 텍스트와 실제 텍스트 사이의 차이점을 아직 잘 모르겠다면, 실험을 하나 해보자. 문단 속에 있는 단어를 더블클릭해서 복사하고, 다른 워드프로세서 창에 복사한다. 이미지 속 텍스트는 이와 같은 편집/수정 작업이 불가능하다. 차이점을 이해할 수 있겠는가?

아마도 이미 OCR 프로그램을 사용하고 있을지도 모른다. 노트 필기 앱 마이크로소프트 오피스 원노트는 지난 2007년 버전부터 OCR 기능을 탑재해왔다. 물론, 마이크로소프트 오피스 제품군을 사용하지 않더라도 상관없다. 마이크로소프트 홈페이지에서 무료로 원노트를 내려받을 수 있는데 단, 마이크로소프트 계정이 필요하다.

네이버 영어 사전에서 'complex' 예문을 찾아 캡처한 화면을 원노트에 저장했다.

원노트에서 OCR 기능을 사용하기는 정말 쉽다. 이미지를 원노트 페이지에 붙여넣은 뒤, 이미지에 마우스를 올려 오른쪽 클릭을 하고 '그림에서 텍스트 복사'를 선택한다. 그러면 원노트는 이미지 속 그 어떤 텍스트라도 OCR로 복사를 한 뒤, 클립보드에 저장할 것이다.

원노트 2013의 한글 OCR  정확도는 10% 미만. 영문은 100%다.

필자가 확인해본 결과, '이미지 텍스트 검색 가능>한국어'로 설정하면 한국어도 인식되지만, 정확도는 10% 미만인 듯 하다. 심지어 영어마저도 정확도가 떨어진다. 반면, '이미지 텍스트 검색 가능>영어'로 설정하면 영어로 쓰인 문장이 완벽하게 변환되었음을 확인해볼 수 있었다.

만일 원노트를 사용하고 싶지 않다면, 무료 OCR 사이트를 이용해보길 바란다. 사이트에 접속하여 최대 2MB의 파일을 올리면 페이지에 변환된 텍스트가 보일 것이다. 이메일 주소와 같은 개인 정보도 입력할 필요가 없다.

무료  OCR 사이트에서의 텍스트 변환 결과 화면

이 웹사이트의 안정성에 관해 의심이 드는가? 이 무료 OCR 사이트의 개인정보보호 관련 페이지에는 “무료 OCR 서비스에 업로드되는 파일을 임의로 열어보지 않는다. 사용자의 파일은 작업이 처리된 이후에는 삭제된다”고 쓰여있다. 반면, SSL을 적용하지 않은 사이트이므로 민감한 정보를 올리지 않도록 주의한다.

원노트와 무료 OCR 홈페이지의 영문 텍스트 전환 정확도는 상당히 높았지만, 사용자가 다시한 번 확인해 볼 필요는 있다. 이미지가 상당히 복잡하거나 텍스트에 그래픽이 많이 적용됐다면 특히 다시한 번 확인해보길 추천한다.

서체 및 해상도 또한 정확도에 영향을 미친다. 만약에 텍스트 이미지가 너무 작다거나 스크립트나 표준 서체를 적용한 텍스트라면, OCR 프로그램이 텍스트를 인식하는 데 실패할 수 있음을 유념해야 한다. editor@itworld.co.kr


X