published on in 其他技术
tags: Python Tesseract OCR MacOS

Tesseract OCR

安装Tesseract,完成后查看版本:

brew install tesseract
tesseract -v

Tesseract默认可以识别很干净的图片:

tesseract example_01.png stdout

安装opencv,pytesseract,PIL(anaconda已预装):

pip install opencv-python
pip install pytesseract
pip install Pillow 

创建ocr.py,用来识别图片

from PIL import Image
import pytesseract
import argparse

ap = argparse.ArgumentParser()
ap.add_argument("-i", "--image", required=True, help="输入图片路径")
args = vars(ap.parse_args())
filename = args['image']
im = Image.open(filename)
text = pytesseract.image_to_string(im)
print(text)

识别简单的图片还好,如果是充满噪点的图片就识别不出来了,接下来就是去噪点了

未完待续。。。