博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
转:关于使用ImageMagick和Tesseract进行简单数字图像识别
阅读量:5740 次
发布时间:2019-06-18

本文共 981 字,大约阅读时间需要 3 分钟。

据说Tesseract可是世界排名第三的OCR神器,2010年又更新了3.0版本。Tesseract原先是HP写的,现在Open Source了。

 

下面介绍怎么用Tesseract配合ImageMagick进行简单的数字图像识别。

 

首先Tesseract只能识别bmp,tif,所以先拿ImageMagick转换一下图像。注意得无压缩转换,否则Tesseract报错。

convert -compress none ./pict.gif./in1.tif

然后将图片灰度化-colorspace Gray,或者直接二值化-monochrome成黑白,这样识别率会高一点。

接下来裁剪出想要进行精确识别的部分:-crop widthxheight+x+y

比如-crop 320x40+0+1,从左上角开始坐标为(0,1)处,裁剪出320*40大小的图像。注意参数里是英文字母x,不是乘号*。

 

还有就是网上搜到的-depth 8和-alpha off参数,实践表明加不加效果不大。

一步完成就像这样:

convert -compress none-depth 8 -alpha off -crop 535x24+2+2 -monochrome ./pict.gif ./in1.tif

 

预处理完之后最好再放大一下,这次的样例放大到500%~600%的识别效率就能令人满意。

convert ./in1.tif -scale600% ./in2.tif

 

然后就可以开始用Tesseract进行识别了。

tesseract ./in2.tif ./1-l eng -psm 7

 

-l eng是选择语言,-psm 7是说源图像是只在一行上的文字。具体说明看Tesseract的帮助。

 

下面就是一些实例。

原图如下:

下面是二值化之后的效果,可以看见还是有些噪点的。

下面是灰度化之后的效果。

识别之后的结果是:

05093519038515450004738373775251263J91648J94318529731857

可以看到有些误报,针对这个问题又特殊处理一下误报字符,结果识别率在90%左右

参考资料:

ImageMagick:

Tesseract:

转载于:https://www.cnblogs.com/dancheblog/p/4775129.html

你可能感兴趣的文章
VC无闪烁刷屏技术的实现【转】
查看>>
【原】IOS中KVO模式的解析与应用
查看>>
EntityFramework Core迁移时出现数据库已存在对象问题解决方案
查看>>
urb传输的代码分析【转】
查看>>
理解 QEMU/KVM 和 Ceph(3):存储卷挂接和设备名称
查看>>
一道算法题的一种O(n)解法
查看>>
ABP理论学习之NHibernate集成
查看>>
反射之动态创建对象
查看>>
隐马尔可夫模型学习小记——forward算法+viterbi算法+forward-backward算法(Baum-welch算法)...
查看>>
[MFC] CList
查看>>
[Android Pro] 完美Android Cursor使用例子(Android数据库操作)
查看>>
4 张 GIF 图帮助你理解二叉查找树
查看>>
c++中sizeof的分析
查看>>
线程间操作无效: 从不是创建控件的线程访问它的解决方法
查看>>
hdu 1236 排名
查看>>
【爆牙游记】黄山归来不看岳-日出。
查看>>
PHP面向对象深入研究之【继承】,减少代码重复
查看>>
RBAC权限管理
查看>>
《Java编程思想》读书笔记(8)
查看>>
此博客不再发表对自己私事的看法
查看>>