现在的位置: 首页 > web前端 > 正文

在线OCR识别工具

2020年07月09日 web前端 ⁄ 共 874字 ⁄ 字号 评论关闭

  NewOCR是一个免费的在线OCR(光学符合识别)服务,可帮助用户分析上传的任何图像文件中的文本,然后将图像中的文本转换为可以在电脑上轻松编辑的文本,目前该网站支持多国语言。


  NewOCR特色:


  1、无上传限制;


  2、无需注册即可使用;


  3、保证数据安全,所有用户上传的文件都会从服务器中删除,不做保留;


  4、基于TesseractOCR引擎;


  5、106种识别语言和字体支持;


  6、支持的文件格式:JPEG,JFIF,PNG,GIF,BMP,PBM,PGM,PPM,PCX;Unix压缩,bzip2,bzip,gzip;TIFF,PDF,DjVu;带有图像的DOCX,ODT文件;ZIP存档中的多个图像。


  7、输出格式:纯文本(TXT)、MicrosoftWord(DOC)、AdobeAcrobat(PDF)。


  OCR概念由来


  OCR(OpticalCharacterRecognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(IntelligentCharacterRecognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。


  OCR的概念是在1929年由德国科学家Tausheck最先提出来的,后来美国科学家Handel也提出了利用技术对文字进行识别的想法。而最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy,1966年他们发表了第一篇关于汉字识别的文章,采用了模板匹配法识别了1000个印刷体汉字。


  总之,OCR给大家简单的介绍了一些,希望大家多看看。

抱歉!评论已关闭.