前言技术之OCR识别

OCR技术是光学字符识别的缩写(Optical Character Recognition)，是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。

主要是两个步骤，先获取输入源数据，例如扫描仪、相机等，然后进行识别，目前流行的识别技术主要是RNN循环神经网络、LSTM等，传统的OCR

tesseract-ocr 识别，当前使用版本4.0，下载的时候,直接在github中的wiki即可。

win

环境变量

增加一个PATH变量名，变量值还是我的安装路径C:\Program Files (x86)\Tesseract-OCR;

增加一个TESSDATA_PREFIX变量名，变量值还是我的安装路径C:\Program Files (x86)\Tesseract-OCR\tessdata;

1
2
3

tesseract -v

tesseract test.png output_1 –l eng

↑
坚持原创技术分享，您的支持将鼓励我继续创作！

发布时间:2018-12-21, 09:10:12

最后更新:2025-02-14, 05:28:50

许可协议: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。