본문 바로가기
  • 우당탕탕속의 잔잔함
Programming/Computer Vision

[OCR] [Tesseract - 2] Python 환경에서 Tesseract 예제 수행

by zpstls 2023. 1. 12.
반응형

 

 

앞서 OCR 수행을 위한 Tesseract 설치를 수행했습니다.

이번 포스트에서는 실제로 Tesseract를 이용해서 OCR를 수행해 볼 것입니다.

 

 

우선, Tesseract가 준비되어 있지 않다면, Tesseract 실행을 위한 환경 조성 및 설치 방법에 대해 설명된 포스트를 참고해 주세요.

  • Tesseract 설치 방법
 

[OCR] Tesseract Windows 환경에 셋업

OCR과 관련된 주제를 다뤄보고자 합니다. OCR을 수행하기 위해 Tesseract라는 것을 이용해 볼 것이며, 이에 대한 내용은 시리즈로 작성될 예정입니다. 우선, Tesseract라는 것은 무엇인지에 대해서 설명

mj-thump-thump-story.tistory.com

 

 

이제, 본격적인 Test를 진행해 봅시다.

다음과 같은 이미지를 OCR 해볼 것입니다.

Sample Image for OCR - 1

OCR 수행을 위한 코드는 다음과 같이 작성합니다.

mport pytesseract
import cv2

# load image
path = 'ocr_carLicense1.PNG'
image = cv2.imread(path)

# do OCR
text = pytesseract.image_to_string(image, lang='kor+eng')

# show result
print("OCR Result = ", text)
cv2.imshow("original image", image)

cv2.waitKey(0)

실행해 보면 다음과 같은 결과를 얻을 수 있습니다.

OCR result - 1

정상적으로 글자를 인식한 것을 확인할 수 있습니다.

그렇다면 실제 자동차 번호판 이미지를 넣어 OCR이 제대로 수행되는지 확인해 보겠습니다. 다음과 같은 이미지를 Input 할 것입니다.

Sampel Image for OCR - 2

인식 결과는 다음과 같습니다.

OCR result - 2

"가"라는 글자를 인식하지 못했습니다. "7"로 판단해 버렸죠.

이번에는 다음과 같은, 실제 이미지를 넣어보겠습니다.

Sample Image for OCR - 3

결과는 다음과 같습니다.

OCR result - 3

아무것도 인식하지 못했습니다.

이미지에 글자 이외의 잡음이 있다면 인식률이 좋지 못합니다. 그러나 실생활에서 가장 처음 사용했던 이미지들만 이용할 수는 없을 것입니다.

 

 

OCR(Optical character recognition)은 굉장히 오래전부터 개발되어 왔습니다. 1928년도라고 하더라고요.

그러나 오랜 역사에 비해 실생활에서의 활용도는 낮은 편입니다. 왜냐면... 제대로 동작하는 것이 별로 없기 때문입니다.

가장 먼저 사용했던 이미지와 같은 Input, 예를 들면 PDF로 작성된 깔끔한 문서의 경우는 OCR이 잘 동작할 것입니다. 하지만 마지막에 사용했던 이미지와 같은 Input은 제대로 동작할리 만무합니다. 가령 Image Processing을 잘 수행했다고 할지라도요.

실제, App Store에 올라와 있는 OCR 프로그램의 경우 설치해서 실행해 보면 실망감이 많습니다. 이처럼 아직까지도 OCR은 어려운 분야인 것이겠지요.

 

그러나 앞서 수행해 보았던 것 정도만 해보고 "아.. 별로네?"라고 생각하기에는 조금 이릅니다. Input Image에 아무런 작업도 하지 않았기 때문이죠.

 

다음 포스트에서 Input Image를 Processing 해서 OCR을 수행하는 부분에 대해 다룰 예정입니다.

이번 포스트는 여기서 마무리하고요! 

 

 

후행 포스트 :

 

[OCR] [Tesseract - 3] Image Processing 진행 후 Tesseract로 OCR 수행

이전 포스트에서 Tesseract를 이용하여 OCR을 수행했습니다. 깨끗한 이미지에서는 OCR이 제대로 수행되었지만 실생활에서 사용되는 이미지들에서는 OCR이 제대로 수행되지 않았습니다. 이번 포스트

mj-thump-thump-story.tistory.com

 

 

반응형

댓글