语言文字信息化与国家安全
本文详细解析智能家居设备选购要点,包含产品对比、安装调试方法及实用技巧,帮助用户打造高效智能生活系统,重点推荐适合不同场景的物联网设备组合方案。
语言文字信息化与国家安全
靳光瑾
[摘要]本文从三个方面阐述语言文字信息化与国家安全的问题。在信息时代的大背景下,语言文字信息化对国家安全的作用凸显出来。首先从信息时代的国家安全来看,信息时代的国家安全的要素已呈现出综合化、跨国化的发展趋势,维护信息疆域安全成为维护国家主权完整的核心内容之一,语言文字信息化中的不安全因素就是国家安全的隐患。第二部分从三个方面分析安全隐患:中文信息处理标准的制高点我们没有完全占领;中文信息处理核心技术的自主知识产权我们没有完全掌握;语言资源匮乏,不能满足中文信息处理的需要。文章最后提出为了国家的安全必须全方位地研究我国语言文字信息化中的重大课题。
一、信息时代的国家安全
(一) 在信息时代的大背景下,语言文字信息化对国家安全的作用凸显出来,语言文字信息化中的不安全因素就是国家安全的隐患。国家安全的要素呈现综合化、跨国化的发展趋势,维护信息疆域安全成为维护国家主权完整的核心内容之一。
信息时代国家之间相互依赖和相互影响程度越来越高,这种相互依赖使得每一个国家的行为和战略都受到了一定程度的约束。敌对国家或组织现在可以通过摧毁关键的信息基础设施来达到以前靠战争才能取得的战略目的。信息技术革命打破了时空的限制,国家安全主体多元化,安全空间得到了大大拓展,向上扩展到全世界,向下延伸到地区乃至个人。
信息时代单凭军事手段已经不能保证国家的绝对安全,国家必须综合运用经济、社会、文化、科技及环境等手段来维护国家安全。安全问题越来越呈现出国际化、全球化的发展趋势。国家间冲突的原因增多了,领域扩大了。国家安全的要素呈现综合化、跨国化的发展趋势。经济、文化、社会、科技及环境等要素共同构成国家安全。国家安全包括了文化安全、经济安全、环境安全、资源安全、网络安全、信息化安全和信息“疆土”安全。信息疆域的安全严重影响着其他疆域的安全。信息疆域改变了由领土、领海、领空构成的国家空间的结构,使得国家主权有了新的内涵。没有信息疆域安全,政治、军事和经济安全也就缺乏保障,也就没有完全意义的国家安全。因此,维护信息疆域安全成为维护国家主权完整的核心内容之一。信息疆域的安全即语言文字信息化的安全,语言文字信息化对国家安全的作用完全凸显出来。
(二)中国互联网的安全隐患令人担忧,由于中国缺少自己语言文字信息处理技术的自主权,就可能在未来的网络战中丧失制网权,因而危及国家的安全。语言文字信息化中的不安全因素就是国家安全的隐患。
中国网络用户数量迅猛发展,带宽不断增加,网络应用日益丰富,互联网承载着过重的压力。在多达3亿网民所使用的电脑中,芯片、操作系统、浏览器以及应用系统、数据库、防火墙、聊天工具、搜索引擎等软件目前基本上掌握在外国公司手中,因此中国互联网是经不住打击的。一旦发生紧急情况,由于没有中国语言文字信息处理的自主知识产权的软件系统,一旦维系这些重要政府部门、企业和民生等机构正常运行的网络系统崩溃,那么,就有可能给国家带来不可挽回的损失和可怕的后果。
目前有些世界大国正在积聚“网战武器”,利用网络控制战争。在当今世界中,网络就像人的神经系统一样,已经无限地延伸到世界各国的政治、经济、军事、文化等各个方面。攻击网络的方法和技术在迅速发展,已经到了足以发起一场网络大战的地步。网络战将成为未来战争的一个重要组成部分。如果中国没有自己语言文字信息处理技术的自主权,就可能在未来的网络战中丧失制网权,因而危及国家的安全。语言文字信息化中的不安全因素就是国家安全的隐患。
二、我国语言文字信息化建设中的安全隐患
以下从三个方面分析安全隐患:中文信息处理标准的制高点没有完全占领;中文信息处理核心技术的自主知识产权没有掌握;语言资源匮乏,不能满足中文信息处理的需要。
(一)中文信息处理用的规范标准没有完全掌握在中国人手中,造成国家利益流失及国家安全威胁。
标准在国家改革开放中的作用相当于“第三海关”。第一海关是物理形态的现实海关;第二海关是质量检查。通过对入关货物的质量检查来保护国家安全及国家和公民的正当权益。但是质量检查需要有标准,特别需要有自己的标准。如果没有自己的标准,只能按照别人的标准进行检查,也就等于海关敞开着大门。所以必须建立合乎国际要求又能保护本国权益的标准,标准具有第三海关的意义。语言文字信息化标准是语言文字信息化的保障,语言文字信息化又是国家信息化的基础。
标准在提升产品国际竞争力,促进国际贸易,保护国内市场等方面具有越来越重要的作用。语言文字信息处理的标准化水平,直接关系到信息技术产品的标准化水平及国家的信息化程度,进而和国家安全、经济发展、信息化发展和高新科技发展息息相关,成为我们在国际竞争中非常重要的一种竞争力。在我国中文信息处理标准方面,其中《GB2312-1980信息交换用汉字编码字符集基本集》为我国的汉字信息处理奠定了基础。但是远远不够,中文软件的规范化是最为薄弱的环节,至今还没有形成技术标准。现在汉字键盘输入方法越来越依靠和要求高质量的软件,制定软件的技术标准和规范,提高软件的质量和可维修性,逐步与国际标准接轨,已经成了相当急迫的问题。下面仅以手机输入法的标准为例来说明这个问题。
国家有关方面正在对国标GB/T18031-2000《信息技术数字键盘汉字输入通用要求》的修订草案征求意见。广大手机用户都希望有一部合乎语言文字规范和利于中华文化传承的手机汉字输入法的国家标准出台。在国外品牌手机占据中国市场半壁江山的今天,或许国人在使用手机时并不知道,汉字输入法软件这一庞大市场90%被国外企业占领,国产手机生产企业每年为此支付超百亿元的专利费。由于技术发展的历史原因,那些拥有汉字处理技术的手机上,其核心模块的控制权和修改权绝大部分都被国外厂商掌控。目前,我国手机市场上现有的三大主流手机输入法,T9、智能和iTAP,其专利权均掌控在国外企业手中。据了解,来自美国的T9输入法市场份额最大,约占50%;智能输入法和iTAP的市场占有率各约为20%,而国产市场占有率仅一成,无法和国外软件品牌相抗衡。据了解,中国手机企业每年为此支付数额庞大的专利费和使用许可费用,目前每部手机大概在1至3美元之间。按5亿部手机计算,平均每年的手机汉字输入法市场总量约为5亿至15亿美元之间,折合人民币最高超过100亿元。发明一种手机中文输入法不太难,对国产软件而言最大的挑战还是来自手机厂商和消费者的认可。国产汉字输入技术面临的问题是,即使研发成功,技术先进,手机厂商也未必愿意选用。这些厂商一般都不太愿意迫使用户改换其已习惯的原有输入法。占全球手机市场主要份额的诺基亚、索尼爱立信和摩托罗拉则基本以垄断的形式各自拥有了三大主流汉字输入法技术。在此背景下,这些手机巨头不太可能采用国产手机输入法软件,国产手机输入法软件厂商短期内将难以攻破这一壁垒。
从以上事实可以看出,我们没能及时制定标准,这道“海关”没有把住,除了国家蒙受的巨大的经济损失,国家还将面临极大的安全方面的威胁。
(二)语言文字信息化的核心技术要有自己的知识产权,控制在自己手中
1.中文信息处理从起步阶段就受到国际跨国企业的威胁
目前一些国外厂商尤其看重中文信息处理技术和产业的价值,在其本土或在中国建立研究基地、或以低廉的价格购买中国学者的研究成果、或径直购买其劳动力,来进行中文信息处理的研究。外国的信息产业,凭借其财力充足的优势,吸引了大量华人参与其中文信息处理技术的研究开发,又因其集成能力强,所以形成逼人之势,不容小视。
1994年,微软开始进入中文软件市场,微软的WORD把国产WPS挤出了市场,继而Windows中文版又把国产中文之星挤垮。微软凭借其强大的优势地位,使国产的中文信息处理软件举步维艰。中文版的Windows、Office等占据了大部分的中文软件市场,使我国本土的中文信息处理优势逐渐丧失。
随着语言信息处理技术飞速发展,中文信息处理由语言处理向以语言为载体的信息处理和知识处理过渡,应用范围越来越广:中文信息处理作为核心技术,往往以嵌入其他应用系统的方式实现自身的使用价值。随着互联网的发展,中文信息处理技术已渗透到社会生产和生活的诸多方面。从桌面到企业内部网络,到互联网,到移动设备,到无线网,从新闻、图书、情报领域到电子商务、信息安全、远程教育、电子政务等,中文信息处理无处不在。中文处理在发展中潜伏着危机。从技术上来说,对国外技术的跟踪和改良居多,偏重应用,而原创的新理论、新方法比较少。我们拥有自主知识产权的品牌产品还很少,具有核心竞争力的技术还数不出几样。在基础研究中,对词法、句法、语义、语用等单项技术的研究较多,对各个层面之间交互作用的研究较少。跨学科、跨语言的研究还不够。国门大开,国内研发机构已无法再像上世纪80年代那样依靠中文屏障获得天然的领先优势。
2.在当前的“云”时代,我们仍然落后,云计算的技术都不掌握在我们自己手中。目前国内只有一家公司涉及云计算。然而,云计算的安全问题又直接威胁着国家的安全
云计算可能对于IT产业链产生革命性的影响,云计算作为一个崭新名词,人们甚至还没有弄清楚它的确切定义,云安全问题就随之而来。自从“云计算”的概念提出以来,关于其数据安全性的质疑就一直不曾平息,这里的安全性主要包括两个方面,一是自己的信息不会被泄露从而给自己造成不必要的损失,二是自己在需要时能够保证准确无误地获取这些信息。仅在2009年,亚马逊、Google、微软三个力挺云计算的IT巨鳄纷纷出现了严重的云计算问题。
云计算改变了服务方式,但并没有颠覆传统的安全模式。所不同的是,在云计算时代,安全设备和安全措施的部署位置有所不同;安全责任的主体发生了变化。原来,用户自己要保证服务的安全性,现在由云计算服务提供商来保证服务提供的安全性。虽然和云计算安全问题同样重要,但云计算的可靠性和可用性不是云计算安全的核心问题。传统安全厂商借助云计算的优势提高服务水平也不是云计算安全问题的本质。解决云计算安全问题的办法和传统的解决安全问题的办法一样,也是策略、技术和人的三个要素的组合。从某种意义上看,完全安全的“云”是不存在的。对于企业和个人来说,唯有在享受云计算带来便利的同时,尽量地通过各种措施,防范其可能带来的风险。
(三)语言文字信息化的资源建设,中文信息资源匮乏,不能满足中文信息处理的需要
1.语言文字是一种战略资源,信息产业竞争的焦点最终是语言的竞争
信息技术革命所带来的一个突出的变化是由语言文字承载的知识或信息变成了一种重要资源,是信息产业的资源,而且是一种战略资源。对资源的占有以及如何利用资源的知识在很大程度上决定着一个国家实力的大小。语言资源也是一种生产力,是国家的软实力。信息资源的开发利用已成为一个国家信息化进程中最为核心的问题。信息资源的拥有率、开发利用水平和信息处理技术已成为衡量一个国家综合国力的重要标志之一。信息产业的竞争不完全是技术的竞争,最终还是语言的竞争。
2.互联网迅猛发展,中文信息资源匮乏,发达国家拥有对互联网及其网上信息资源的绝对控制权,中国国家安全受到威胁
2009年7月16日,中国互联网络信息中心(CNNIC)发布《第24次中国互联网络发展状况统计报告》显示,截至2009年6月30日,我国网民规模3.38亿、宽带网民3.2亿、国家顶级域名注册量(1296万)受3G业务开展的影响,使用手机上网的网民也已达到1.55亿,占网民的46%,半年内增长了32.1%,增速十分迅猛。但是,中文网络资源与英语网络资源相比相差极为悬殊。目前,发达国家拥有对互联网及其网上信息资源的绝对控制权。美国一直处于信息独霸地位。
三、如何加强我国语言文字信息化建设以保证国家安全
(一)中文信息处理的现状及与国际上语言信息处理的差距
进入21世纪,面对网络时代信息的爆炸式增长,互联网上的海量文本一方面为语言处理提供了巨大需求,一方面又提供真实的训练、测试数据。中文搜索引擎的成功为中文信息处理的研发工作注入极大的活力、随着搜索引擎向精准化、智能化、专业化方向发展,语言处理将找到更大的用武之地。中文信息处理作为一项基础性、普适特性的信息技术,面临着挑战和再次发展的机遇,在PC机时代受挫的中文处理软件,在互联网时代则正在胜出。它的开发利用关系到我国今后信息产业乃至社会经济的发展和国家安全,具有巨大的经济价值和社会价值。
随着中国加入WTO与世界各国交流的逐渐扩大以及网络信息时代的来临,中文信息处理技术越发显得重要,其自动化水平的提高,将大大促进我国科技、国民经济和社会发展,同时使中华民族的文化在信息时代得到新的发展。未来无疑应当加强中文信息处理技术的研发投入与政策倾斜。我国的中文信息处理技术还有自身一系列急需解决的基础研究和应用技术问题。这些问题如果从现在起还得不到切实的加强,我们在中文信息处理事业中仅有的一些优势,就要迅速失去,那将给我国造成极大的损失。
目前中文信息处理能力与国际上先进水平差距还很大。例如:
1.自动分词和词性标注:我国自90年代初就开始进行中文分词的研究工作,虽然取得不少成绩,但至今还未开发出一个像日语分词系统那样被广为接受的分词标注系统。就理论而言,分词和标注的正确率需达到100%才能满足各种应用的需求;而就实际而言,分词和标注的正确率也至少要达到99%才能保证其他应用的高效性和实用性。根据bakeoff2007中文信息处理评测的数据显示,在理想的状况下,分词的正确率最高仅为96.23%,而即使在分词100%正确的情况下,词性标注的正确率也才达到95.41%,同时在评测中排在前三名的系统依然是采用基于统计的方法。从这些数据可以看出,中文信息处理的第一步自动分词和词性标注尚未达到实用的要求,需要努力的道路还很长,正确率能够提高的空间也很大。从采用的方法可以看出,随着研究的不断深入,基于统计的方法已逐渐暴露自身的缺陷,统计方法不可能解决所有的问题,还是需要结合基于规则的方法,才能在精度上得以突破。
2.中文信息处理句法分析和语义分析问题:我国基本上沿用西方的句法和语义分析体系,研究工作开展数年均未取得突破性进展。我国专家学者开始思考———沿用西方那套理论体系是否合适?是否应该考虑开发适合中文的分析体系?甚至有学者提出汉语的核心是语义,可以抛开句法分析直接进入语义分析;以及到底句法分析优先还是语义分析优先等问题,也已成为学界争论的热点。
3.中文信息处理应用研究的问题(仅举例):(1)信息输入中的键盘输入和汉字识别发展已经成熟,但语音识别却很难实用化,其主要困难是要适应不同人之间的语音变化以及外界的噪音干扰。语音识别要投入使用还有很长的路要走;(2)目前机器翻译的译文质量仍然难以令人满意,主要问题是:如何更好地融合不同的翻译策略;基于篇章语义的上下文相关处理;更实用的人机互助机器翻译系统工作方式以及适用于不同应用的专业分类体系设计;(3)信息检索的难点是复杂长句的分析处理。如何更多地利用语义信息进行检索是一个并未完全解决的问题;(4)相对于日益发展的Internet,相对于快速膨胀的中文信息、相对于十几亿中文语种用户来说,现代中文信息处理技术依然滞后,很多技术和系统依然是实验室的原型,离实际的应用还有较大差距。
4.中文信息处理研究力量分散而且存在着低层次重复、缺乏统一规范和标准的问题。
5.现代汉语研究领域和计算机领域的隔绝状态没有出现根本性的改变。
6.汉语文和少数民族语言文字的信息处理技术与国际水平相比,还有相当大的差距。特别是自主知识产权的成果还不多。
7.语言资源和成果的共享还有很大局限,网络上对公众开放的中国语言文字资源还很少,远不能满足我国国民经济发展和信息化事业对中文信息处理技术的要求。等等。
(二)语言文字信息化与国家安全息息相关,承担着保护国家安全的重任。加强中文信息处理的研究是国家战略重任
语言文字的信息化,在社会信息化发展中占有举足轻重的地位。语言文字是信息的主要载体,人类信息大约80%是以语言文字为载体的,语言文字的信息化直接关系着国家信息化的水平,关系到国家经济发展和国家安全,进而影响到国家在国际上的竞争力。语言文字信息化已经成为我国信息化的基础,甚至可以说是前提之一,这个问题不解决,我国的国民经济信息化将遇到极大的困难。
加快语言文字信息化进程是国家信息化发展的迫切需要。信息化是当代社会发展的标识。语言文字的研究以及语言文字信息处理的研究从基础理论到应用技术要快速适应国家安全需要,应从如下几个方面考虑:
1.语言战略是国家发展战略的有机组成部分
我国当前语言生活正处在快速发展变化时期,语言生活中各种矛盾突出,社会需要提供语言服务的类型与方式与日俱增,虚拟空间迅猛拓展,汉语走向世界的脚步空前加快,争取国际话语权正成为民族的自觉意识。此种情况下,我国必须及时研究宏观语言战略,设计落实语言战略的行动计划,提出应对重大语言问题的科学预案。要系统研究世界上有关国家或地区以及国内语言文字规划的经验与教训。建立国家级语言战略研究机构,加快研究和制定中国语言发展战略。中国语言战略研究应该高屋建瓴,充分借鉴世界各国,特别是美国和欧盟及成员国国家语言战略研究的经验,建立面向世界的全球化语言战略。中国必须面对全球化的挑战,站在全球化的高度来制定国家对重大语言战略问题的相关政策,必须以高度的竞争意识来制定国家的对外语言战略。制定明确的语言战略,提高国民的全球化意识和参与世界竞争的意识。把掌握外语和多语能力作为我国现代公民参与世界竞争应该具备的基本素质。只有不断加强我国公民的全球化意识和竞争意识,我们的国家和民族才能避免在全球化浪潮中被边缘化的危险。
2.对国家语言安全立法保护,建立语言文化安全预警机制和监控机制,加强国家语言文化安全研究
预防威胁国家语言文化安全的突发事件,做到防患于未然,需要在人大立法,以保证国家的语言文字的主导地位不受侵害,保证国家和民族的文化安全不受外来文化的侵蚀和渗透。特别要加强网络、信息和大众媒体以及语言传播中的意识形态的渗透的监控和预防。
3.全方位地研究我国语言文字信息化中的重大课题
重大课题包括:完善和提高语言文字的数字化技术和手段;面向信息处理的语言文字规范标准研制;国家语言文字基础资源库建设;中华大字符集收集整理与基本平台建设;面向互联网的汉语词语提取技术;基于语言知识的歧义消解技术;面向网络和内容的自然语言处理关键技术;面向网络的多语言处理技术;覆盖CERNET的基于内容的互联网监测与预警系统;面向教育的国家公共语言文字信息服务体系。应尽快启动重大项目“国家语言信息化基础设施工程建设”。
就中国语言文字信息化基础设施工程建设而言,我国至今没有一个统一的规划。因此,研制规划,建立中国语言文字信息化基础设施,并在此基础上进行相应的技术研发,自主开发系列应用软件产品,在开发建设过程中实施培养复合型人才计划,这是当务之急。信息安全是买不来的,只有靠自己动手。自主开发适宜处理我国文化的语言文字应用系统及技术,由国家掌控其核心技术,才能在任何情况下立于不败之地,才能获得信息安全的保证。
4.国家要重视语言资源的基础建设,加大投资的力度。深度开发建设语料库及整合语言资源
目前我国已经开发了大批汉语语料库,已建成的用于不同研究目的的语料库在规模、设计等方面各具特色,它们都已被证实是对语言进行广泛研究的最好的辅助手段,语料库自身所特有的这些优点是其他研究手段不可替代的。但是已建成的语料库无论从规模还是数量上都远远不够。当前需要进行的工作除了建设新的语料库外,更重要的是深度开发和利用语料库。
语言资源建设是一项浩大的工程,需要大量的人力、物力支持,但目前我国在这方面的投资还极其不够。据中文语言资源联盟(ChineseLDC)的数据显示,外企在该领域的投入远超过国内的企业。目前,国外的自然语言处理技术遥遥领先,如果我们在基础资源建设方面再逊于他们,我国的中文信息处理水平是难以赶上国际水平的,更不用奢谈领先了。国家要重视语言资源的基础建设,加大投资的力度。
5.语言信息技术属于交叉学科综合性技术,需要大量培养复合型人才。
从学制上看,我们的教育制度不适合语言信息产业和信息科学的发展,文理分家太严重。信息技术需要文理工结合。解决语言文字问题,语言文字学家多数不懂信息化,计算机专家很难把握语言文字的微妙。为什么我们迟迟停留在文字信息化阶段,进入不了语言信息化阶段,原因之一是我们的人才结构不合理,人才的知识结构不合理。
6.为语言文字信息化保驾护航
在法律上,我们缺乏对高新技术,特别是信息化产业的有效的知识产权保护,知识产权方面的法律滞后。计算机字库的知识产权问题,输入法的知识产权问题,语料库的知识产权问题,网络资源的知识产权问题等等。这一领域的法律,必须加大研究力度,加快出台进度,现在有些国家在信息技术领域已经有了成文法,我们要跟上国际步伐,不要被人所制。法律要为我所用,为中国的语言文字信息化所用。
7.语言信息技术属于大型技术,需要长期规划,分阶段实施。中文信息处理技术是未来10年我国经济社会发展的关键领域
就中国语言文字信息化基础设施工程建设而言,我国至今没有一个统一的规划。因此,研制规划,建立中国语言文字信息化基础设施,并在此基础上进行相应的技术研发,自主开发系列应用软件产品,这是当务之急。国际上多次局部战争中出现的信息战,台湾分裂势力策划对大陆实施信息战的事件,法轮功通过网络对国人进行的宣传渗透等,这些动态都值得我们重视。开发适宜处理我国文化的语言文字应用系统及技术,由国家自己掌握各种语言文字信息处理的根基,才能在任何情况下立于不败之地,才能获得信息安全的保证。在中文信息处理领域中,我国许多核心技术仍依赖追踪、模仿和引进国外技术,原始创新能力明显不足。当前,世界各国和国际通信标准化组织都在积极开展下一代网络的研究开发工作。我们应不失时机地开展中国下一代网络体系的研究、应用试验、关键技术研究和产品开发。不能像第一代互联网那样,技术、标准都是外国的,给国家安全造成安全隐患。
我们要大声疾呼:信息领域的安全问题是头等重要的。(作者单位:教育部语言文字应用研究所)
[参考文献]
[1]李宇明.信息时代的语言文字工作任务[J].修辞
学习,2004,(1).
[2]李宇明.信息时代的中国语言问题[J].语言文字
应用,2003,(1).
[3]沈伟光.信息化时代:敲响国家信息疆域安全警
钟[N].中国国防报,2004-11-9.
[4]熊光楷.中国国家安全仍面临诸多挑战2009年
01月05日03:01来源:人民网-军事频道
[5]周保太.2008年国外信息安全建设发展综述[J].
现代军事,2009,(5).
[6]程浩.网络环境脆弱危及国家信息安全[J].中华
工商时报,2009-08-19.
[7]杜永明.信息时代中国国家安全战略[J].中共福
建省委党校学报,2002,(8).
[8]美国、以色列、俄罗斯和法国积极备战网络战争
[J].中国计算机安全,2009-11-18.
(《环球视野globalview.cn》第403期,摘自2010年第2期《云南师范大学学报》)
很赞哦! (1025)