您现在的位置是:首页 >

人们是怎样使计算机识字的

火烧 2016-12-10 15:03:09 1073
平时我们要向计算机输入若干文件、字母、符号或汉字,一般使用计算机系统的编辑功能,通过键盘上的字母、符号键或汉字的输入码来实现。如果输入量很大,就容易发生差错,且不易查出。 实际上还有另一种快速、简便的输入方法,就是通过扫描仪,把文稿当成一页页图形输入到计算

平时我们要向计算机输入若干文件、字母、符号或汉字,一般使用计算机系统的编辑功能,通过键盘上的字母、符号键或汉字的输入码来实现。如果输入量很大,就容易发生差错,且不易查出。

实际上还有另一种快速、简便的输入方法,就是通过扫描仪,把文稿当成一页页图形输入到计算机内存中,然后再由一种叫做光学字符识别系统(OCR)的软件加以辨识,对少量系统不能辨别的字符再通过人一机交换,以完成整个文本的文字输入工作。如今的OCR系统对印刷质量好的文字,识别错误率已降至很低。随着OCR系统智能化程度的提高,对手写体及印刷质量不那么好的文字的识别率也迅速提高。

那么计算机是怎样用OCR系统来识别字符的呢?通常OCR系统按以下五步来完成对文字的识别工作。

首先通过扫描仪将载有文字的文件页读入计算机内存,存储起来。

第二步,将文本的行与行、段与段、标题与正文、字符与不规则图形区别开来,这是字符识别的核心步骤。

第三步,将已隔离开来的字符识别出来,这一步通常叫字符模式识别或字符模式匹配。软件将隔离成方块的“图形字”与保留在计算机内存中的标准字模比较,通过匹配来识别每一个字符。

第四步,将经第三步后未被识别的字符,通过一个更精细、耗时较长的处理过程进一步识别,这一过程叫“特征抽取”。

第五步,处理难解的符号。通常有以下两种方式:一种是给一些未被识别的字符做上标记并退出,用人工方法进行改正或替换;另一种是使用拼写查错误程序或汉字常用词法查错程序,来校正一些拼写型的错误。

人们为了使计算机更准确地识别更多的汉字,进行了自动识别基本方法的研究。这些基本方法可归结为两大类,即提取待识别汉字统计特征所形成的统计决策方法和汉字句法结构方法。此外,人工智能方法、模糊数学和人工神经网络也在汉字自动识别中起着越来越重要的作用。

关键词:字符识别 光学字符识别系统

永远跟党走
  • 如果你觉得本站很棒,可以通过扫码支付打赏哦!

    • 微信收款码
    • 支付宝收款码