본문 바로가기
  • 모두 모두 행복하세요.
  • 내일은 더 행복하세요.
정보 나눔터

칼퇴 작전명 9초만(4) 손글씨 이미지 캡처 후 텍스트 추출하기(PDF, 그림파일 포함)

by [MAVERICK] 2023. 12. 9.
반응형

칼퇴 작전명 9초만(4) 손글씨 이미지 캡처 후 텍스트 추출하기(PDF, 그림파일 포함)

 
 설명이 장황합니다. 별 것 아닙니다. 부담갖지 말고 읽어주시고, 아래 한줄로 요약한 내용만 참고하셔도 됩니다.


안녕하세요! 오늘은 텍스트를 추출하는 방법을 알아보려고 해요. 손글씨로 작성된 파일이면 뭐든 지 상관이 없어요. JPG, PNG 등과 같은 그림파일은 물론 PDF 파일도 가능하고요, 무엇보다 그냥 캡처해서 텍스트를 추출할 수도 있답니다. 오늘 예시는 2024 강원 동계청소년올림픽 대회가 되겠습니다.

텍스트를 추출할 원본

 
 
텍스트를 추출하는 방법은 아래와 같이 크게 세가지가 있어요. 

1. 그림파일에서 텍스트 추출하기
2. PDF 파일에서 텍스트 추출하기
3. 화면캡처해서 텍스트 추출하기

오늘의 내용을 한줄요약하자면, 

파일이나 캡처화면을 Card Scanner에 붙여 넣고 Convert를 누르면 끝!

 

0. 사전 준비

텍스트 추출을 위해 이용하려는 서비스는 Card Scanner라는 곳인데요, 아래 링크로 접속하시면 됩니다. 이곳뿐만 아니라 조금만 검색해 봐도 텍스트를 추출할 수 있는 곳들이 많은데요, 일단 이곳을 기준으로 설명드릴게요. 그리고 아마 다른 곳들도 대동소이하지 않을까 싶네요.

 
Image to Text Converter라고 말하며 우리를 반겨줍니다. 추출할 텍스트가 있는 파일을 화면 중앙에 드래그만 하셔도 됩니다.

 

Card Scanner로 바로가려면 여기를 클릭하세요. 

Image to Text Converter (OCR to Extract Text from Images)

📥 Multiple imports JPG, PNG, JPEG, JFIF, GIF, BMP, WebP, HEIC, PDF, and more 🔠 OCR Languages Arabic, Japanese, Sanskrit, Chinese, English, Korean, Hindi, Russian, Marathi, Thai, Urdu, Hebrew, Gujarati, Malayalam, Tamil, Kannada, Sinhala, Telugu, Geo

www.cardscanner.co

 


1. 그림파일에서 텍스트 추출하기

그림파일을 마우스로 드래그해서 Card Scanner 중앙에 갖다 붙이시면 됩니다. 혹은 복사해서 붙여 넣어도 됩니다.

 
 
그림파일이 일단 업로드된 것을 확인하실 수 있어요. 그다음에 Convert를 클릭합니다.

 
 
조금 기다리면 텍스트 추출 진행상황이 표시됩니다. 프로 계정으로 업그레이드하면 속도가 빨라진다고 합니다. 대량 작업을 하지 않는 일반 소시민이면 무료계정도 충분합니다.

 
아래처럼 추출된 결과를 확인할 수 있습니다.

 
Download All을 클릭하면 다운로드할 파일형식을 선택할 수 있습니다.

 
 
분량이 많지 않을 경우 그냥 이렇게 드래그해서 복사한 후 원하는 곳에 붙여 넣으면 됩니다.

 


 

2. PDF 파일에서 텍스트 추출하기

그림파일과 마찬가지로 PDF 파일도 드래그하여 Card Scanner에 붙여 넣습니다.

 

잘 돌아가고 있네요.^^

 
 

PDF를 변환해서 얻은 결과물도 준수합니다.

 


3. 화면캡처해서 텍스트 추출하기

화면캡처를 해서 텍스트를 추출하는 것이 오늘 게시물의 핵심입니다. 왜냐면 생각보다 바로바로 화면 캡처해서 텍스트를 추출할 일이 많더라고요.
아래처럼 캡처를 해보았습니다. 캡처방법은 Shift+원도우키+S입니다.

 
 
화면을 캡처한 후 붙여 넣은 화면입니다. 붙여 넣을 때는 Ctrl+V 하시면 됩니다.

 
 

 
캡처한 화면에서 텍스트를 추출하는 것도 비슷한 시간이 걸립니다.

 

 

다른 작업 수행

캡처 결과물도 잘 나온 것 같습니다. 다른 작업을 수행하려면 Re-Convert를 누르면 됩니다.

 


4. 주의사항

인식 오류

간혹 아래처럼 잘못 인식되는 경우도 있더라고요. 어차피 추출한 뒤 한번 검토해야 하니 이 정도는 애교로 봐주세요.

 
 

문자변환(OCR) 수행 결과

PDF 프로그램에서 제공하는 OCR을 수행한 결과입니다. 참담합니다.

 

오늘 살펴본 내용은 칼퇴 작전명 9초만 시리즈에 딱 적절한 것 같습니다. 실제로 9초도 안 걸리기 때문이죠. 이것이 칼퇴가 필요한 분들에게 미약하게나마 도움이 되었으면 합니다. 오늘도 행복하고 소중한 하루 보내세요!

반응형