ABBYY FineReader를 이용한 pdf 엑셀 변환 알아보기

오늘은 OCR 문서스캔 프로그램인 ABBYY FineReader에 대해 소개해 드리려고 합니다. 

ABBYY FineReader은 OCR 프로그램 최초로 pdf 파일편집 및 문서비교를 제공하는 프로그램 입니다. 


OCR 기능을 이용하여 pdf 파일 내용을 인식을 한 뒤 인식한 파일 내용을 편집할 수 있고, 편집한 내용을 워드나 엑셀로 변환 할 수도 있어서 문서작업을 많이 하는 직장인 분들에게는 꼭 필요한 프로그램인거 같네요.



아쉽게도 ABBYY FineReader 프로그램은 유료로 판매되고 있기 때문에 구입을 해야 모든 기능을 사용할 수 있는데요. 공식 웹 사이트에서 30일동안 pdf 100페이지를 변환할 수 있는 시험판을 제공하고 있습니다.


ABBYY FineReader를 구매하기 전 사용하고 싶으신 분은 아래 홈페이지에서 다운받아 보시길 바랍니다.

따로 설치방법은 어렵지 않은데요. 다운로드 받은 파일을 실행하신 후 설치위치와 몇가지 설정만 진행해 주시면 바로 설치가 완료되는걸 확인해 볼 수 있습니다.




pdf 파일 엑셀 변환을 위해서 ABBYY FineReader를 실행하면 가장 먼저 위와 같은 화면이 나오게 되는데요.


기본적으로 pdf 문서를 열어볼 수 있는 뷰어 기능을 제공하며, 기존에 pdf 파일의 내용을 불러온 후 해당 내용을 편집하고 수정할 수 있는 OCR 편집기 기능도 제공하는데요. 문서 편집 후 변환을 위해서 OCR 편집기를 열어보도록 하겠습니다.




OCR 편집기를 사용하기 전 처음으로 해야 할 일은 변환할 PDF 파일을 열어야 하는데요. PDF 파일을 열게 되면 위와 같이 왼쪽에는 원본 PDF 파일이 보여지게 되며, 오른쪽에는 OCR 기능을 이용해 PDF 파일 내용을 스캔한 화면입니다.


일반적인 텍스트의 경우 거의 정확하게 가져오는 것을 확인해 볼 수 있었으며, 표나 이미지도 정확하게 스캔이 되는것을 확인해 볼 수 있었습니다.



위에서 OCR 기능으로 읽어온 pdf 파일 내용을 워드나 엑셀, epub 등 다양한 문서로 변환을 할 수 있는 기능도 제공을 하고 있는데요. 위에서 불러온 pdf 파일을 엑셀로 변환해 보도록 하겠습니다.


상단에 [저장 -> Microsoft Excel 통합 문서로 저장] 메뉴를 클릭하시면 변환을 진행해 볼 수 있습니다.

 



문서를 다른 이름으로 저장하는 창이 뜨면 파일이름을 입력하고 저장을 해주시면 되는데요. 저장하기 전 여러가지 옵션을 변경하고 싶으신 경우에는 왼쪽 하단에 있는 옵션 기능을 활용해 보셔도 좋습니다.




엑셀 파일로 저장할 때 문서의 레이아웃 및 이미지 파일 유지, 머리글 및 바닥글 등 다양한 설정을 직접 설정해 주실 수 있는데요. 내가 원하는 대로 설정을 진행하고 엑셀파일로 저장을 진행해 주시면 되겠습니다.



기존에 있던 pdf 파일이 엑셀파일로 변환된 모습입니다. 따로 오타나 오류 없이 기존 pdf 파일 안에 있던 글과 이미지들이 정상적으로 저장되어 있는것을 확인해 볼 수 있습니다.



워드로도 변환을 해 보았는데요. 기존 pdf 문서 내용이 잘 저장된 것을 확인해 볼 수 있습니다.




그런데 가끔 ABBYY FineReader가 설치되지 않은 컴퓨터에서 급하게 pdf 파일을 편집해야 하는 경우가 있는데요. 그럴때는 [레티아 ROSE 문서인식] 기능을 사용해 보시는 것도 좋습니다. 레티아 ROSE 문서인식은 레티아 홈페이지에서 제공하는 문서변환 기능으로 pdf을 워드와 엑셀 중 하나로 변환해 주는 기능입니다.


누구나 로그인만 하면 무료로 변환을 해 볼 수 있기 때문에 변환해 보고 싶은 분들은 위 이미지를 클릭해서 레티아 rose 문서인식 서비스를 사용해 보시길 바랍니다.


※ 단 해당 서비스는 1회 최대 3장, 1일 10회까지만 제한적으로 사용 가능한 점 참고해 주시길 바랍니다.




지금까지 abbyy finereader를 이용하여 pdf 파일을 엑셀로 변환하는 방법에 대해 알아보았는데요. 문자나 이미지 인식률도 상당히 정확하기 때문에 pdf 파일을 변환하고 싶으신 분들에게는 유용한데요.


사이트에서 무료 체험판도 다운로드 가능하며, 30일 동안 무료로 사용 가능하기 때문에 필요하신 분들은 꼭 한번 다운로드 받아 사용해 보시길 바라겠습니다!!





  1. 기술의 발달로 참 살기 편해진 것 같습니다. 어렸을 때 이미지에 있는 글 타자 다 친다고 엄청 고생했었는데..

  2. ABBYY OCR 의 성능은 우수하다고 알고있지만 사용환경이 비효율적입니다.
    그중에 가장큰문제는 인식결과의 오류검사를 하는데 너무 피곤하다는것입니다.
    그림 45871256584587455874566325412홍길동54125
    인식 45871256584587455844566325412홍김동54125
    위에서 인식의 대상과 결과가 바로 붙어있기때문에 직관적으로 2군데에 오류가
    있는것을 알수있지만...
    포스트에 예로든 [True test 측정가능항목]은 일반적인 단어만으로 구성되어있음에도 검증에 상당한 시간이 필요할것입니다.
    우선 인식대상으로 시선을옮겨 제목을 보고 인식결과로 시선을 옮겨 기억하고있는 제목과 비교를 해야합니다. 매 항목마다 같은 방법으로 검증을해야하기때문에 시선이 먼거리를 반복적으로 오가야하며 머리도 그 문구를 기억해야하기때문에 직관적인 검증과는 거리가 멀어집니다. 아르미라고하는 OCR프로그램이 있습니다. 매행마다 인식대상과 그 결과를 같이 붙혀서 보여줍니다. 눈이 멀리 이동할필요가 없고 머리는 문구를 기억할필요가 없습니다. 사과와 참외를 붙혀놓고보니까 직관적으로 어디가 어떻게 다른지를 알수있습니다. 기계가 인식한것을 그대로 믿으면 되겠지만 예측불가능한 숫자나 일반적이지않은 단어들은 직관적이지못한 ABBYY OCR 에서는 검증오류나기십상입니다. 이것이 세계적인 프로그램이라고는 알고있지만 사용환경에서는 왜 이런 낙후성을 면치못하는지 의아하고 이에대한 포스팅이 없었다는게 좀 아쉽네요..
    https://www.youtube.com/watch?v=e4m8-9sWoEk
    검증기능이 있기는 있네요 없는것보다는 났겠지만 역시 직관적이지는 못하네요. 간단한 단어정도는 검증하는데 어려움은 없을것 같아요. 그런데 문서에 단어가 많고ABBYY OCR 이 오류없이 인식했다고 하는단어중에서도 오류가 있기때문에 사용자가 모든단어에 대해 검증을 하겠다고 하면 직관적이지 않은 인터페이스가 매우거슬리는군요. 원본이 사진일경우 스캔본과는 달리 택스트의 각도가 수평선과 반드시 평행하기는 힘듭니다. 인식대상의 각도를 약간씩만 수정해도 인식율과 정확도에 차이를 보일텐데 이런장치들이 전혀준비되어있지 않은것도 아쉽고요.. ABBYY OCR 컷던 기대못지않게 아쉬움도 큰 아플리케이션입니다...

Return top

후니의 IT 길라잡이!

IT, 보안, 컴퓨터 전반에 관한 글을 다루는 블로그입니다^^