본문 바로가기
  • 우당탕탕속의 잔잔함
Programming/Computer Vision

[OCR] [Tesseract - 1] Tesseract Windows 환경에 셋업

by zpstls 2023. 1. 12.
반응형

 

 

 

OCR과 관련된 주제를 다뤄보고자 합니다.

OCR을 수행하기 위해 Tesseract라는 것을 이용해 볼 것이며, 이에 대한 내용은 시리즈로 작성될 예정입니다.

 

tesseract OCR

우선, Tesseract라는 것은 무엇인지에 대해서 설명하도록 하겠습니다. 

Tesseract(테서랙트)는 광학 문자 인식 엔진입니다. 이 소프트웨어는 1995년 문자 정확도 측면에서 3대 OCR 엔진에 속했으며 때문에 OCR과 관련된 정보를 검색하다 보면 쉽게 찾을 수 있습니다.

다양한 운영체제를 지원하기에 Linux, Mac OS X, Windows에서 사용할 수 있습니다. 또한 다양한 언어(= 100개 이상)를 제공합니다. 다만, GPU를 지원하지 않기 때문에 속도가 좀 느린 편입니다.

이 글을 작성하는 일자를 기준으로 Major가 되는 버전은 5이며, 이는 2021년 11월 30일에 Release 된 Stable 한 버전입니다. 또한 LSTM 기반 OCR를 지원합니다.

 

이제 대충 Tesseract가 무엇인지 알아보았으니, 이를 이용해 OCR를 수행해 보도록 하겠습니다. (Windows 환경에서 Python을 이용해 진행할 예정입니다.)

 

우선, 다음 링크를 통해 Tesseract를 다운로드합니다.

 

GitHub - UB-Mannheim/tesseract: Tesseract Open Source OCR Engine (main repository)

Tesseract Open Source OCR Engine (main repository) - GitHub - UB-Mannheim/tesseract: Tesseract Open Source OCR Engine (main repository)

github.com

 

PC 운영체제에 맞는 설치파일을 다운로드하여 실행합니다.

기본적으로는 Next를 누르면 되지만, 설치할 Components를 설정할 때는 다음과 같이 Korean을 추가로 설치하도록 설정합니다. 다른 언어가 더 필요하다면 선택해 주시면 됩니다.

설치할 Location을 선택할 때는 DLL 모듈 오류가 발생할 수도 있기 때문에 Python의 가상 환경이 존재하는 드라이버에 설치합니다.

설치는 빨리 끝납니다. 다만 환경 변수에 Path를 추가해주어야 합니다. 해당 과정은 다음과 같습니다.

설치 경로를 확인하여 다음과 같이 환경 변수에 추가합니다.

이후, Windows PowerShell을 Open 하여 tesseract를 입력합니다. 

위와 같은 결과를 얻게 되면 정상적으로 설치된 것입니다.

 

이제 Python환경에서 Tesseract를 사용하기 위해 PyTesseract를 설치해야 합니다.

안전한(?) 개발 환경을 위해 Tesseract를 위한 Python 가상환경을 만들고 진행하도록 합니다. OCR은 Computer Vision 분야를 다루는 만큼 openCV를 필요로 합니다. 따라서 가상 환경을 구축하고 Python OpenCV를 설치해 줍니다.

각각에 대한 내용은 다음 포스트를 참조해 주세요!

 

  • Python 가상 환경 구축
 

[Anaconda] Python 가상 환경 구축

Python을 개발하다보면 각각의 프로젝트마다 가상환경을 구축하고 해당 가상 환경에서 개발을 수행하는 것을 권장하고 있습니다. 이번 포스트에서는 이러한 Python 가상환경을 구축하는 방법에 대

mj-thump-thump-story.tistory.com

 

  • Python 환경에서 OpenCV 설치
 

[OpenCV] Anaconda 가상 환경에 Python OpenCV 설치

요즘 빠른 속도를 요구하는 프로그램(C, C++로 개발해야하는 프로그램들)을 제외하고는 Python 환경에서 작업하는 경우가 꽤 많습니다. 특히 토이 프로젝트 수준의 Deep Learning이나 Computer Vision을 다

mj-thump-thump-story.tistory.com

 

 

이제 다음과 같은 명령어를 통해 PyTesseract를 설치합니다.

>> pip install pytesseract

위와 같이 간단하게 설치됩니다.

 

이로서 Tesseract OCR 엔진 설치와 Python 환경에서 Tesseract를 이용할 수 있는 환경 조성이 완료되었습니다.

이제 이 환경에서 OCR을 수행해 보도록 해야겠죠?

 

이번 포스트는 여기서 마무리하고 OCR 테스트는 다음 포스트에서 진행하도록 하겠습니다.

 

 

후행 포스트 :

 

[OCR] [Tesseract - 2] Python 환경에서 Tesseract 예제 수행

앞서 OCR 수행을 위한 Tesseract 설치를 수행했습니다. 이번 포스트에서는 실제로 Tesseract를 이용해서 OCR를 수행해 볼 것입니다. 우선, Tesseract가 준비되어 있지 않다면, Tesseract 실행을 위한 환경 조

mj-thump-thump-story.tistory.com

 

 

반응형

댓글