您现在的位置是:首页 >

为什么用不同的汉字输入法能在计算机中找到同一个汉字V5

火烧 2016-12-10 15:03:08 1057
目前我国计算机中有许多汉字输入法,不同的汉字输入法有不同的输入码,但它们却能找到同一个汉字。例如,使用拼音输入“ma”,或用五笔字型输入法输入“dcg”,或者用郑码输入“gxvv”时,都能找到同一个汉字“码”。这是什么原因呢?原来它们都参照了一个共同的标准

目前我国计算机中有许多汉字输入法,不同的汉字输入法有不同的输入码,但它们却能找到同一个汉字。例如,使用拼音输入“ma”,或用五笔字型输入法输入“dcg”,或者用郑码输入“gxvv”时,都能找到同一个汉字“码”。这是什么原因呢?原来它们都参照了一个共同的标准,将键盘输入的输入码自动转换成了计算机的“内码”。相对应于这种汉字机内码,从键盘输入的汉字输入码称为“外码”,外码只是为了在操作时便于记忆和熟练运用而编制的汉字代码。

参照的这个共同标准就是“国家标准信息交换用汉字编码”GB2312-80,即国标区位码,或称汉字交换码。这个编码系统共分为94个区,每个区94个字符,即每区-有94个位。区位码的第一部分是区码,第二部分是位码,区码和位码都是十进制数,如“码”字的区位码是3475。

区位码与国标码密切相关,而国标码是十六进位制(简称十六进制)的。从区位码转换为国标码时,先将区位码转换为十六进制。如“码”字的区位码是3475,转换为十六进制就是224B(十六进制中的A、B、C、D、E、F分别代表十进制中的10、11、12、13、14、15)。由于国标码的十六进制00~20区为空白区,也就是说国标码从十六进制的21区开始编码,因此,区码和位码还应分别加上十六进制的20。如区位码的“码”224B,转换成国标码应是224B+2020,即426B。它的第一个字节为42,第二个字节为6B。


存储在计算机中的并不是区位码,也不是国标码,而是与它们密切相关的汉字机内码。国标码的二个字节,分别加上十六进制的80,就成为汉字机内码。因此,“码”字的机内码为426B+8080,即C2EB。系统中显示的汉字机内码的“码”字,就是这个C2EB。

当使用某一种输入法时,无论使用的是五笔字型还是拼音,从键盘输入的编码都是汉字的“外码”,它们都将转换成汉字的“内码”,才能存储和输出。“外码”千变万化,“内码”只有一个。

上面例举的汉字机内码是二字节的,而汉字机内码也有采用四字节或三字节的。但不同的汉字输入码能找到同一个汉字,基本道理是相同的。

关键词:汉字机内码 外码 区位码 国标码

永远跟党走
  • 如果你觉得本站很棒,可以通过扫码支付打赏哦!

    • 微信收款码
    • 支付宝收款码