본문 바로가기

정보공유/일반정보

PDF문서에서 텍스트 글자 추출하는 방법

 

과제를 하거나 보고서를 작성할 때 자료를 찾다 보면 PDF 형식의 자료가 상당히 많습니다. 간혹 PDF 파일에 따라서는 드래그 조차 안 되는 문서도 있기도 합니다. 이럴 때 사용할 수 있는

PDF문서에서 텍스트 글자 추출하는 간단한 방법

에 대해서 알아보겠습니다. 

 

 

특별한 장치가 걸려있지 않은 PDF 문서의 경우 원하는 텍스트는 단순히 마우스 드래그로 복사, 붙여 넣기 기능이 가능합니다. 

 

 

대다수는 PDF 리더를 사용하기는 하는데, PDF 아크로벳 리더가 설치되어있지 않은 상태에서 기본 웹브라우저로 열어도 드래그 복사, 붙여 넣기는 가능합니다. 

 

CTRL+C,V가 된다면 문제가 없다. 

 

Acrobat Reader 프로그램을 설치했다면, 왠만한 PDF 파일은 텍스트 버전으로 따로 저장이 가능합니다. 

 

PDF 파일 안의 텍스트만 추출되어 따로 *.txx 파일로 저장할 수 있습니다. 

 

마지막으로 구글 드라이브의 구글문서를 이용하는 방법입니다. 

 

구글 드라이브에 해당 PDF 파일을 업로드 후에 파일명에 우클릭을 하게 되면, 연결 앱 > Google 문서 메뉴 클릭을 통해서 구글 doc로 작업할 수 있게 됩니다. 

 

아래에 있는 Lumin PDF 나 DocHub-PDF 는 구글 드라이브와 연결된 별도의 프로그램입니다.  

 

이 정도의 방법만 알고 있다면, 보고서 작성 시에 조사한 자료 내용을 편리하게 편집할 수 있습니다. 구글 드라이브에 있는 Lumin PDF나 Dochub_PDF 의 경우도 텍스트 추출 기능은 가지고 있습니다. 다만, 유료버전으로 이용해야 어느 정도의 성능을 이용할 수 있기 때문에 다음 기회에 포스팅해보겠습니다. 

 

 

<PDF 파일을 다양한 형태로 변환하는 방법>

 

74 개의 파일을 웹에서 간단하게 확인하는 방법, allinpdf

HWP 한글문서나 EPS 일러스트파일, PSD 포토샵 파일은 내 컴퓨터에 해당 프로그램이 없다면 확인이 많이 어렵습니다. 뷰어기능을 갖춘 프로그램을 설치하면 됩니다. 하지만 프로그램을 찾고, 설치

liberokwan.tistory.com

 

이 포스팅이 조금이나마 도움이 되셨다면, 아래 공감(하트버튼) 눌러주시면 감사하겠습니다.