人们是怎样使计算机识字的
平时我们要向计算机输入若干文件、字母、符号或汉字,一般使用计算机系统的编辑功能,通过键盘上的字母、符号键或汉字的输入码来实现。如果输入量很大,就容易发生差错,且不易查出。
实际上还有另一种快速、简便的输入方法,就是通过扫描仪,把文稿当成一页页图形输入到计算机内存中,然后再由一种叫做光学字符识别系统(OCR)的软件加以辨识,对少量系统不能辨别的字符再通过人一机交换,以完成整个文本的文字输入工作。如今的OCR系统对印刷质量好的文字,识别错误率已降至很低。随着OCR系统智能化程度的提高,对手写体及印刷质量不那么好的文字的识别率也迅速提高。
那么计算机是怎样用OCR系统来识别字符的呢?通常OCR系统按以下五步来完成对文字的识别工作。
首先通过扫描仪将载有文字的文件页读入计算机内存,存储起来。
第二步,将文本的行与行、段与段、标题与正文、字符与不规则图形区别开来,这是字符识别的核心步骤。
第三步,将已隔离开来的字符识别出来,这一步通常叫字符模式识别或字符模式匹配。软件将隔离成方块的“图形字”与保留在计算机内存中的标准字模比较,通过匹配来识别每一个字符。
第四步,将经第三步后未被识别的字符,通过一个更精细、耗时较长的处理过程进一步识别,这一过程叫“特征抽取”。
第五步,处理难解的符号。通常有以下两种方式:一种是给一些未被识别的字符做上标记并退出,用人工方法进行改正或替换;另一种是使用拼写查错误程序或汉字常用词法查错程序,来校正一些拼写型的错误。
人们为了使计算机更准确地识别更多的汉字,进行了自动识别基本方法的研究。这些基本方法可归结为两大类,即提取待识别汉字统计特征所形成的统计决策方法和汉字句法结构方法。此外,人工智能方法、模糊数学和人工神经网络也在汉字自动识别中起着越来越重要的作用。
关键词:字符识别 光学字符识别系统
- 上一篇
为什么用不同的汉字输入法能在计算机中找到同一个汉字V5
目前我国计算机中有许多汉字输入法,不同的汉字输入法有不同的输入码,但它们却能找到同一个汉字。例如,使用拼音输入“ma”,或用五笔字型输入法输入“dcg”,或者用郑码输入“gxvv”时,都能找到同一个汉字“码”。这是什么原因呢?原来它们都参照了一个共同的标准
- 下一篇
计算机工作时能停电吗!
大家都知道,计算机工作时需要插上电源,如果没有电,计算机就不能正常运行。然而现实生活中有时会遇到停电情况。那么,断电时计算机会受到哪些影响呢? 一般的计算机用户,遇到停电情况,计算机内存里的数据会消失,如果没及时保存,就得等电恢复后再补操作。然而有些情况是