现在的位置: 首页 > 综合 > 正文

字符识别数据集,文档分析相关的资源

2013年12月03日 ⁄ 综合 ⁄ 共 1634字 ⁄ 字号 评论关闭

原创

一.一些作者的研究主页

Scottleishman:多伦多大学计算机系机器学习小组,主页可以下载到作者的发表的论文,硕士学位论文等。

http://www.cs.toronto.edu/~scottl/

http://www.cs.toronto.edu/~scottl/research/icdar2005.pdf

http://www.cs.toronto.edu/~scottl/research/msc_thesis.pdf

Teode Campos:英国谢菲尔德大学,字符识别只是其研究很小的一个方面。

http://personal.ee.surrey.ac.uk/Personal/T.Decampos/                

Jinyu Zuo:美国西弗吉尼亚大学博士,研究的是关于表格文档结构分析,也是一小部分

http://www.jinyuzuo.net/home

Jin Chen:在读博士,里海大学,研究的是手写字符识别,噪声文档分析

http://www.cse.lehigh.edu/~jic207/

有关OCR,文档方面的研究还算比较成熟,现在也不算是一个热点(一家之言),作者主页比较难找,相关代码也少,一般是看论文,搜索作者的名字,用google,一般第一个是作者的主页,上面有研究的文档,有的时候还有代码。

二.相关的数据集

1. 场景,印刷字符http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/

2. 文档分析与识别国际大会(ICDAR)第十一届的数据集(在中国北京召开的)里面有印刷文档,在线手写,离线手写,总之数据很全,介绍的很全。另外每一届的ICDAR也是有相关的数据集。

http://www.iapr-tc11.org/mediawiki/index.php/Datasets_List

http://algoval.essex.ac.uk/icdar/Datasets.html

http://algoval.essex.ac.uk:8080/icdar2005/index.jsp?page=ocr.html

3. 机器学习的数据集,里面也有不少关于文档的数据集。http://archive.ics.uci.edu/ml/

4.计算机视觉的数据集,也有一些字符文档的http://riemenschneider.hayko.at/vision/dataset/

5. 手写数字的数据集,年代比较久了。http://yann.lecun.com/exdb/mnist/

6.北大方正关于表格识别的数据集。http://www.icst.pku.edu.cn/cpdp/data/marmot_data.htm

三.相关的源程序

1.Github上面的开源项目也是第一个作者编写的(matlab)

https://github.com/scttl/marks_based_ocr

其他方面的C语言,android,IOS平台等等。

https://github.com/search?q=ocr&nwo=scttl%2Fmarks_based_ocr&search_target=global&ref=cmdform

2.这篇博客上也有,matlab语言的偏基础,可能需要翻墙

http://basic-eng.blogspot.com/search/label/matlab

3. mathworks,fileexchange上的代码,需要注册账号。

http://www.mathworks.com/matlabcentral/fileexchange/index?utf8=%E2%9C%93&term=ocr

4.开源的OCR资源,包括一些软件,库等http://www.ocrgrid.org/ocrdev.html

5. OCR开发包开源软件。http://www.oschina.net/project/tag/262/

抱歉!评论已关闭.