《藏文信息处理技术的研究现状及展望14811.docx》由会员分享,可在线阅读,更多相关《藏文信息处理技术的研究现状及展望14811.docx(30页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、藏文信息处理技术的研究现状与展望*1陈玉忠 俞士汶(北京大学计算算语言学研究究所 1000871)摘要本文主主要对国内开开展藏文信息息处理以来的的相关研究工工作进行了介介绍和评价。在在此基础上对对藏文信息处处理的进一步步发展进行了了展望。目的的是为了探讨讨如何加速推推进藏文信息息处理技术的的发展。通过过对藏文操作作系统、藏文文信息技术标标准、藏语信信息处理、综综合应用等四四个方面的历历史和现状的的介绍和评价价,使我们得得出如下的初初步结论:目目前状况下要要加速藏文信信息处理的发发展,应重点点开展藏文信信息技术标准准制定、藏文文操作系统研研制、藏文资资源建设和人人才培养工作作,尤其是要要把藏文操
2、作作系统的研制制工作作为头头等大事来抓抓。关键词藏文文信息处理理操作系统统标准中图分类号 TP3991;H2 文献标识号 A文章编号 1、引言藏文已有近 11400 的的历史,作为为藏文化最主主要和最基本本的载体,用用藏文记载的的经典文献、古古籍著述和译译作浩如烟海海。在国内用用藏文记载的的文献数量仅仅次于汉文历历史文献,是是中华民族文文化遗产宝库库中一颗璀璨璨的明珠。藏藏文自创制以以来,无论过过去作为藏民民族传承佛教教文化的主要要工具,还是是现在作为藏藏区传播科技技知识的主要要工具,甚至至将来作为信信息化社会中中一个民族的的主要标识符符,其独特的的人类文化价价值和仍在广广大藏区所发发挥的巨大
3、作作用是不可估估量的。自从从人类进入以以计算机和网网络为主体的的信息时代,古古老的藏文字字正面临着一一场“生死存存亡”的考验验即能否否跨入信息时时代。藏文字字一旦不能跨跨入信息时代代,她必将失失去语言文化化载体的基本本功能和作用用,就会被这这个时代无情情地抛弃。纵纵观国内外语语言文字信息息处理技术的的发展历史和和现状,我们们可以清楚地地看到,古老老的藏文字能能否跨入信息息时代的关键键就是能不能能解决好藏文文信息处理技技术问题。因因此,藏文信信息处理是直直接关系着藏藏文命运的一一件大事,其其重要意义是是不言而喻的的。鉴于目前几乎看看不到反映藏藏文信息处理理技术最新进进展的综述性性文章,相关关领域
4、的研究究进展只是散散见于各专业业文献中。而而另外一方面面,新加入到到这一领域的的研究人员又又非常渴望对对藏文信息处处理技术的现现状能有个比比较全面的了了解,以便于于开展各自的的研究工作。此此外,国家有有关部门在宏宏观决策时也也希望能有这这方面的资料料作为参考。因因此,在这样样一个背景下下,对藏文信信息处理技术术的发展现状状做一个全面面的考察是非非常必要和及及时的。由于于藏文的故乡乡在中国,在在这方面所作作的研究和取取得的成果也也以国内居多多,同时限于于资料和篇幅幅,文章基本本没有涉及国国外学者在这这方面的研究究工作。文章的安排大致致如下:第二二部分对藏文文信息处理中中经常用到的的几个术语进进行
5、了界定。第第三部分首先先把藏文信息息处理划分为为四个方面,以以此为线索分分别就其发展展历史和现状状作了一番简简要的介绍,并并说明了发展展现状与实际际需求之间的的差距。第四四部分我们在在寻找现阶段段差距的过程程中提出了藏藏文信息处理理中应重点关关注的几个问问题,并结合合现状和发展展趋势提出了了我们的一些些看法。1本文主要对国内内开展藏文信信息处理工作作以来的相关关研究工作进进行了介绍和和评价。由于于一方面受篇篇幅限制,另另一方面占有有的相关资料料不全,再加加之个人视野野有限,有的的重要研究工工作文中没有有提及势必难难免,而对提提及的研究工工作评价不当当或与实际工工作有所出入入也是很有可可能的。疏
6、漏漏有误之处恳恳请专家学者者指正。本文文写作过程中中,得到李保保利同学的诸诸多帮助,特特此致谢。2、几个关键术术语的界定在进入本文正题题之前,首先先花点笔墨对对本文中用到到的几个关键键术语作出界界定是很有必必要的。这一一方面有利于于我们在清晰晰的背景下对对所谈及的问问题进行描述述,另一方面面便于在确定定的层面上对对相关问题展展开讨论。首当其冲的就是是我们用惯了了的“中文信信息处理”。“中中文”是中国国语言文字的的简称,它包包括汉文和中中国境内其他他少数民族的的语言文字 1。很很显然,“中中文信息处理理”自然包括括汉文信息处处理和中国境境内其他少数数民族语言文文字的信息处处理。由于汉汉族是我国的
7、的主体民族,汉汉语又是国家家法定的唯一一官方语言,加加之中文信息息处理又以汉汉语信息处理理为中心,因因此,很多研研究者经常用用“中文信息息处理”来特特指汉语信息息处理。我们们认为这种称称谓是不妥当当的,也是不不可取的。首首先,这样容容易产生误解解,很容易使使不了解具体体情况的国内内同胞和国外外友人产生在在中国只存在在汉语信息处处理的错觉;其次,这样样不利于计算算语言学术语语的命名和规规范,且不说说“中文”二二字的所指非非常明确(中中国语言文字字或中国文字字),如果以以“中文信息息处理”替代代汉语信息处处理,那么,汉汉文信息处理理和少数民族族语言文字信信息处理的总总称又是什么么呢?除了“中中文信
8、息处理理”之外我们们很难再找到到一个比它更更贴切的术语语。因此,我我们认为这种种称谓是不科科学的也是不不可取的。我我们的定义是是:中文信息息处理是利用用计算机对中中国语言文字字信息(包括括书面语的和和口头的)进进行处理22,包括括汉文信息处处理和藏文、蒙蒙文以及维文文等我国少数数民族语言文文字的信息处处理。那么,“藏文信信息处理”、“藏藏语信息处理理”和“藏字字信息处理”之之间又是什么么关系?各自自又包括哪些些具体研究课课题呢?相关关概念本文参参照文献33和4中的描述性性定义来进行行说明。“藏藏文信息处理理”可划分为为“藏语信息息处理”和“藏藏字信息处理理”两个层次次。藏字信息息处理层面包包括
9、操作系统统以及编码字字符集、输入入技术、字形形描述与生成成、存储、编编辑、排版、字字频统计和藏藏字属性库等等课题;藏语语信息处理层层面包括机器器翻译、信息息检索、信息息提取、文本本校对、文本本生成、文本本分类、自动动摘要以及藏藏文文字识别别和语音识别别的后处理等等等。两者之之间也有交叉叉,藏语信息息处理要以藏藏字信息处理理的实现为基基础。要提高高藏字信息处处理的智能水水平,又要借借助藏语信息息处理的成果果。3、藏文信息处处理的历史和和现状实现计算机语言言文字信息处处理必须依赖赖稳定的文字字处理平台、统统一的规范标标准和可靠的的语言知识资资源,三者相相辅相成、缺缺一不可。二二十多年来,藏藏文信息
10、处理理在各个方面面得到了长足足的发展,取取得了不少成成绩。本节的的介绍和讨论论将主要围绕绕藏文操作系系统、藏文信信息技术标准准、藏语信息息处理、综合合应用等四个个方面来展开开。鉴于藏文文操作系统、藏藏文字符编码码标准和藏语语信息处理在在藏文信息处处理中又居于于核心地位,为为了使论述的的主题更加集集中和明确,对对这三个方面面的发展历史史和研究现状状作了重点介介绍。31、藏文操操作系统311、基基于 DOSS 的藏文字字处理技术探探索2这一定义与文献献2中的的定义的主要要区别在于本本定义包含了了我国少数民民族语言文字字。国内藏文文信息处理的的研究工作是是从 20 世纪 800 年代初的的字处理研究
11、究起步的55。最早见见诸报道的是是张连生于 1981 年用计算机机进行的藏文文词汇排序工工作6。当当时由于没有有藏文操作系系统,他使用用英文操作系系统,采用于于道泉先生提提出的以数码码代替藏文的的编码方案7,使用用COBOLL语言实现了了一个藏文排排序软件。此此后,张连生生于 19883 年在美美国伊利诺斯斯大学利用PPLATO计计算机上的一一个应用软件件TUTORR,采用李方方桂先生提出出的罗马转写写方案为藏文文输入编码方方案,并通过过TUTORR软件提供的的图形叠加功功能完成藏文文字符显示,实实现了一个集集输入、显示示和打印功能能为一体的藏藏文字处理系系统381984 年上海教育育学院物理
12、系系俞乐等人在在 VICTTOR90000 微机上上利用 BAASIC 语语言实现了一一个具有输入入、显示和打打印功能的藏藏文字处理系系统,并用 BASICC 编写了藏藏文报表软件件9。在在此前后,甘甘肃省计算中中心胡彦发等等人和西北民民族学院合作作也在 WAANGVS/80 机上上,用扩展BBASIC 语言实现了了一个藏文的的字处理系统统 ZWCLL,他们还配配套编写了藏藏文文献联机机检索系统10。航航天部 7110 所罗圣圣仪等人在微微机 PC-8001 和 IBMM-PC 上上实现了一个个藏文字处理理系统111。该系统统利用 TLLLP 字符符写入程序实实现,并采用用了一种藏文文辅音字母
13、和和元音字母用用拉丁转写、上上下加字采用用数字代码的的编码方案。上述几个系统代代表了这一时时期藏文操作作系统的发展展水平。可以以看到,当时时的研究工作作主要围绕藏藏文字处理系系统在应用层层面的基本实实现方法展开开。就字处理理系统而言,在在实现技术上上尚有许多欠欠缺。具体表表现在以下几几个方面:(1)这些藏文文字处理系统统都是利用 BASICC 语言、TTOTOR 软件等在应应用软件层面面实现的,而而不是在操作作系统层面实实现的。因此此,在这些系系统下无法利利用英文各类类应用软件和和编程语言;(2)都是单一一文种(藏字字)处理系统统,无法与英英文或汉文系系统兼容;(3)还没有统统一的相关技技术标
14、准(包包括内部交换换码、字符集集等)可参照照,因而也无无法实现各系系统间的相互互兼容;(4)系统的藏藏文字符集普普遍偏小或不不全,基本不不具备梵音藏藏文字符的处处理能力;(5)输入编码码或采用拉丁丁转写或使用用数字替代,输输入繁琐且不不便于记忆。当然,这一时期期的探索工作作也是非常有有价值的,它它为后来藏文文基本字符集集的确定、系系统平台的开开发积累了经经验,提前作作了技术上的的储备工作。更更加难能可贵贵的是,在当当时的技术条条件下有些科科研人员还在在语言信息处处理层面进行行了有益的探探索79100。312、基基于 DOSS 的藏文操操作系统开发发 1980 年代代中期,以 CCDOSS 为代
15、表的的汉字信息处处理技术极大大地推动了与与汉英文兼容容的藏文操作作系统的发展展。19866 年青海省省药品检验所所俞汝龙、青青海师范大学学赵晨星、青青海民族学院毛继祖、熊熊涛等人与北北京有线电厂厂合作,在 CCDOSS2.13 下开发了与与汉英文兼容容的藏文操作作系统 TCCDOS112。后来来在 TCDDOS 基础础上,熊涛等等人与西北民民族学院于洪洪志等人合作作开发了可挂接在 WPS 下下的藏文轻印印刷系统兰兰海藏文系统统13。在在此前后,四四川大学彭寿寿全等人开发发了一个与汉汉英文兼容的的藏文操作系系统14。南京新技技术研究所于于江苏、葛小小冲等人也开开发了一个与与汉英文兼容容的藏文操作
16、作系统 ZWWDOS115。19992 年 10 月,西西藏大学尼玛玛扎西等人研研究开发的TTCE 藏汉汉英文信息处处理系统通通过了西藏自自治区的审定定16。这这些研究促成成了国内藏文文信息处理领领域内具有划划时代意义和和产生了深远远影响的两个个与汉英文全全兼容的实用用化的藏文操操作系统的诞诞生。其中之之一是北大方方正藏文系统统,另一个则则是华光藏文文系统。在罗罗圣仪等人的的研究基础上上,中国藏学学研究中心和和航天部 7710 所于于 19888 年 8 月推出了33因为此类软软件不具备系系统一级的藏藏字支持功能能,指称上为为了与实际操操作系统有所所区别,在此此我们暂称为为字处理系统统。藏文字
17、处理及激激光编辑排版版印刷系统17,该该系统后来与与潍坊华光合合作开发出了了书林藏文排排版和激光照照排系统(简简称华光藏文文系统)。中中国计算机软软件与技术服服务总公司、民民族印刷厂、北北京大学计算算机研究所、中中国民族语文文翻译中心在在华光藏文系系统的基础上上,于 19990 年底底联合推出了了北大方正藏藏文书报版系系统(简称北北大方正藏文文系统)。以以上两个系统统的藏文编码码虽然没有相相关国家标准准可依,但由由于这两个系系统的编码有有完整的对应应关系,而且且在国内外有有着广泛的用用户群,自然然成为了国内内事实上的“标标准”系统。此此后在很长一一段时期内,这这两个系统一一直是国内藏藏文信息处
18、理理研究领域的的基本平台。事事实上,时至至今日它们仍仍占据着广大大藏区 900%以上的书书版、报版印印刷市场,也也是大多数藏藏文信息处理理研究者的首首选基本平台台。这一时期在国家家的大力支持持下,在国内内各主要研究究单位和企业业的通力协作作下,基于 DOS的藏藏文操作系统统基本上与汉汉文操作系统统同步实现了了本地化工作作。313、基基于 WINNDOWS 的藏文字处处理软件研究究进入 90 年年代中期以来来,随着软硬硬件技术的飞飞速发展,基基于图形界面面的 WINNDOWS 操作系统逐逐步替代了基基于字符界面面的 DOSS 操作系统统而成为了微微机操作系统统的主流。因因此,基于图图形界面的藏藏
19、文 WINNDOWS 操作系统的的研制和开发发便成为了这这一时期藏字字信息处理的的核心任务之之一。根据实实现技术难度度和相应功能能的不同,藏藏文 WINNDOWS 操作系统的的开发有三种种可选模式:一是直接在在应用层面开开发;二是挂挂接在现有汉汉英文 WIINDOWSS 系统下实实现;三是系系统内核一级级实现藏化。由由于 WINNDOWS 系统结构庞庞杂,没有公公开的系统内内核代码可参参照,加之产产品更新换代代速度极快,一一般研究单位位在系统一级级实现藏化基基本上是不可可能的。因此此,实际上可可选的开发模模式只有前两两种。北大方方正 19997 年推出出了基于WIIN31 的的藏文维思彩彩色印
20、刷系统统,但藏文的的输入、编辑辑过程仍需切切换到DOSS环境下进行行;西北民族族学院信息所所于洪志、戴戴玉刚等人于于 20000 年实现了了一个基于WWINDOWWS的藏文字字处理软件44,即同元藏藏文字处理软软件18,其主要实实现技术是通通过WORDD API的的动态链接库库WLL嵌入入藏文输入法法,并在WIINDOWSS下挂接一个个TRUETTYPE字库库实现。在此此前后,青海海师范大学也也采用类似的的技术开发了了一个基于WWINDOWWS的藏文字字处理软件班智达藏文文字处理软件件19,并并在汉藏机器器翻译系统和和藏药信息系系统中有所应应用20。20011 年西藏大大学尼玛扎西西、洛藏等人
21、人和四川火狐狐信息技术有有限公司合作作实现了一个个基于WINNDOWS的的藏文字处理理软件“火火狐”藏文字字处理软件21。综综上所述,目目前实现的几几个藏文字处处理软件或在在应用层面开开发或部分在在现有汉英文文WINDOOWS 下挂挂接实现。从从这些系统所所具备的功能能来看,只具具备一般的藏藏字处理功能能,因此,我们最多只只能称其为基基于 WINNDOWS 的藏文字处处理软件,而而不是真正意意义上的藏文文WINDOOWS 操作作系统。具体体说来这些软软件主要有以以下缺憾:(1)所有系统统设计时都没没有采用国际际标准编码。其其中有的字库库占用 000-FF 区区 ASCIII 码的码码位,有的占
22、占用 GB-2312 的 10-15 区或或 88-994 区的空空余码位,有有的字库干脆脆占用汉字GGB-23112 的 115 区至 81 区的的某段码位。(2)由于现有有系统都没有有采用国际标标准编码,就就无法支持 INTERRNET 藏藏文信息交换换,更不能考考虑到与汉英英文在系统底底层实现兼容容处理和对其其他应用软件件的支持。44从这些系统所具具备的功能来来看,仍然不不具备系统一一级的藏文支支持能力,即即不具备真正正的藏文WIINDOWSS操作系统的的功能。为了了与DOS下下的“字处理理系统”等有有所区分,本本文暂称为藏藏文字处理软软件。(3)更有甚者者只是针对某某个WINDDOWS
23、应用用软件实现藏藏文字处理功功能,如SAAMBHOTTA5就是典典型的仅在WWORD上实实现的一个藏藏文字处理软软件。这类软软件一旦脱离离WORD字字处理环境后就无法实现现藏文字处理理。(4)从技术实实现角度来看看,这些系统统主要是在应应用层面利用用 WINDDOWS 的的 API 或WORDD API 函数挂接实实现,因此,真真正的系统一一级的藏文 WINDOOWS 操作作系统的开发发还任重而道道远。重新审视这段藏藏文操作系统统研发的历史史,至少可以以给我们今后后开展藏文信信息处理研究究工作提供三三点有益的启启示:一是要要培养一批懂懂藏语的专业业软件开发队队伍,这是藏藏文信息处理理事业发展的
24、的根本;二是是要有国家高高强度的支持持,这是藏文文信息处理事事业能够持续续发展的保证证;三是操作系统这这样大型的系系统软件开发发必须要在政政府强有力的的支持下,要要有大的企业业参与开发才才有可能形成成实用的产品品。这一点从从汉字信息处处理发展的历历史来看是如如此,从华光光藏文系统和和北大方正藏藏文系统的成成功也证明了了这一点。32、藏文信信息技术标准准化研究标准化是推动当当今信息化社社会进步的基基础。信息技技术标准化是是应用信息技技术的前提,也也是信息系统统有效运行的的保证222。没有相相关标准作为为技术先导和和基础保证,藏藏文信息交换换和信息处理理技术也就无无从谈起,藏藏文要成为信信息化社会
25、一一员的愿望也也很难实现。特特别是INTTERNETT 得到迅猛猛发展和广泛泛普及的今天天,藏文信息息技术的标准准化和国际化化是藏文信息息处理技术必必须解决的首首要问题。信息技术标准很很多,据统计计到 19997 年为止止,国际标准准化组织(IISO)已发发布正式国际际标准 9000 多项,还还有 3000 多项标准准正在制定当当中。我国也也已批准和发发布信息技术术国家标准4450 余项项23。已已发布的这些些标准中,有有许多标准可可在藏文信息息处理中共用用,但有些关关键标准必须须根据藏文的的特点和要求求另行制定。藏文信息技术标标准化的问题题首先由国际际标准化组织织(ISO)于于 19922
26、年提出,其其核心任务是是藏文编码体体系的标准化化问题。主要要包括藏文编编码字符集标标准(交换码码),包括基基本集和构建建集,藏文字字符键盘布局局标准(输入入码)和藏文文字形标准(字字形码)等。经过 5 年的的艰苦努力,在在国家民委和和国家技术监监督局以及电电子部的直接接支持和指导导下,由西藏藏自治区藏语语文工作委员员会办公室牵牵头,西藏大大学、西藏技技术监督局、西西北民族学院院、青海师范范大学等单位位于 19997 年共同同完成了 GGB169559-19997信息技技术交换用用藏文编码字字符集基本本集、GBB/T169960.1-1997信信息技术交交换用藏文编编码字符集(基本集)224*4
27、8 点阵字形第第一部分:白白体和 GGB169559-19997 藏文字字符键盘布局局等三项国家家标准的研制制任务。同年年 7月由我我国提交的藏藏文编码字符符集国际标准准在第 333 届 WGG2 会议及及 SC2 会议上经过过国际标准化化组织的多道道严格程序和和数轮投票正正式获得通过过,使藏文成成为我国少数数民族文字中中第一个正式式进入 ISSO/IECC106466 标准编码码体系结构的的文字。藏文编码字符集集标准是实现现人-机、机机-机、系统统间信息交换换的基础。在在 ISO/IEC100646的基基本平面中分分配给藏文的的有 1922 编码空间间,最后确定定的编码字符符为 1699 个
28、(小字字符集)。包包括藏文字母母 30 个个、梵音藏文文字母 111 个、藏文文组合用字符符 58 个个、藏文数字字符 20 个、其他图图形字符 449 个、控控制字符 11 个。除此此之外,针对对藏文近 66000 字字(大字符集集)的国家标标准藏文编编码字符集辅助集的的研制工作也也正在进行中中。藏文字形形标准只完成成了 GB/T169660.1-11997信信息技术交交换用藏文编编码字符集(基本5系国国外开发,目目前国内比较较流行的一套套藏文字处理理软件。集)24*488 点阵字形形第一部分分:白体部部分,其他字字体标准也正正在制定当中中。藏文字符键盘布布局标准将 GB169959-199
29、97 中规规定的 1669 个藏文文字符,一一一分配到各个个键位上。据据称该标准键键盘的编号系系统、键数、键键的排列分布布和分组分级级都采用了最最新的国际标标准。可以毫不夸张地地说,藏文编编码体系国家家标准和藏文文编码字符集集国际标准的的通过,标志志着藏文开始始步入信息时时代,为藏文文在以计算机机和网络为主主体的信息化化社会中实现现信息处理和和交换打下了了坚实的基础础,使这一古古老的民族文文字有可能在在信息数代焕焕发出新的活活力。33、藏语信信息处理 语言信信息处理技术术包括机器翻翻译、信息检检索、信息提提取、文本校校对、文本生生成、文本分分类、自动摘摘要以及文字字识别和语音音识别等应用用领域
30、 224。藏语语信息处理研研究工作在短短短的十几年年里取得了不不少成绩,产产生了积极的的社会效益。最早利用计算机机进行藏语信信息处理层面面的研究工作作,其实文献献69910中都有所涉涉及,但是由由于受当时计计算机软硬件件条件和整个个藏文信息处处理技术的限限制,这些研研究很大意义义上只是作为为藏字处理系系统的“点缀缀”品出现,而而不是自觉地地利用语言信信息处理相关关理论和技术术开展的研究究工作。真正意义上的藏藏语信息处理理研究工作始始于二十世纪纪 90 年年代。当时北北大方正和潍潍坊华光藏文文系统的研制制成功和迅速速普及,极大大地推动了藏藏文信息处理理技术的发展展,促使藏语语信息处理领领域的许多
31、应应用技术产生生了从无到有有、从小到大大的质的飞跃跃。本节主要要从八个方面面6来分别予予以介绍,一一方面希望能能给有志于投投身到这一领领域的研究人人员提供一个个阶梯式发展展的轨迹图,另另一方面也希希望能为这一一领域年轻的的科研人员在在课题的选择择和研究领域域的拓展上有有所启示。藏文字词频统计计分析和语料料库建设这这方面的最早早报道见于中中国社会科学学院民族研究究所江狄、董董颖红和中央央民族大学周周季文等人的的研究工作25226277。其中具具有代表的要要属文献226的作者者所作的有关关藏字基本属属性的统计工工作。其具体体做法是:首首先在藏汉汉拉萨口语词词典、拉拉萨口语读本本.词汇表和和藏语简志
32、志.词汇表中中采集得到常常用词语 330428 条,经查重重处理得到 3926 藏字;再以以这 39226 个字为为材料,利用用计算机统计计分析了藏字字的结构频度度、字长、声声母结构频度度、韵母结构构频度、藏字字的位置字符符及结构方式式。这一工作作虽然只对一一少部分藏字字进行了静态态的统计,但但这一工作的的意义则远远远大于结果本本身。此后,中中国藏学研究究中心扎西次次仁利用 22000 万万字中华大大藏经.丹珠珠尔的藏文文对勘本对藏藏字的字符频频、字频信息息进行了更加加全面和深入入的统计分析析,并分别在在藏字字符频频、字频方面面得到了许多多有价值的结结果28。这一工作作对藏文字库库的制作、藏藏
33、文教学都具具有重要的参参考价值。除此之外,目前前西北民族学学院、中国藏藏学研究中心心、青海师范范大学和中国国社会科学院院民族研究所所等单位在藏藏语语料库建建设以及利用用语料库进行行藏文信息处处理研究方面面都有一定的的探索和进展展。藏文自动动分词藏文文也与汉语、日日语等东方语语言相似,词词与词之间无无明确的分割割标记,要进进行藏语信息息处理技术研研究同样存在在着分词问题题。扎西次仁仁曾设计过一一个采用最大大匹配算法的的人机互助藏藏文分词和登登录新词的演演示系统330。罗秉秉芬、江狄曾曾提出过一个个藏文计算机机自动分词的基本本规则311。陈玉忠忠于 20001 年设计计实现了一个个基于格助词词和接
34、续特征征的藏文分词词系统299,该系统统的技术特点点是:综合运运用藏文字、词词、句等各类类形态特征,在在藏文格6关关于藏文在信信息检索、信信息提取、文文本分类以及及自动摘要等等方向上,笔笔者在国内还还未见到相关关文献报道,故故在此没有专专门列条目介介绍。助词、接续特征征、字性知识识库以及词典典的支持下,采采用逐级定位位的确定性算算法实现藏文文的自动分词词。初步测试试表明,系统统分词正确率率在 97%以上,且有有不受领域限限制、通用性性强的特点。机机器翻译机器器翻译研究工工作最早的报报道见于青海海师范大学陈陈玉忠(德盖盖才郎)、李李延福等人在在国家 8663 计划支支持下开展的的汉藏科技机机器翻
35、译系统统的研制工作作3233。该该项研究工作作从 19994 年开始始,19955 年就实现现一个原型系系统。该系统统在翻译模型型上选择了转转换模型、系系统机制上采采用了基于规规则的方法。他他们还根据汉汉藏机器翻译译的需要首次次对藏语词语语进行了分类类,在汉藏转转换、藏语生生成等方面也也进行了比较较深入的研究究。该系统于于 19988 年通过鉴鉴定,系统规规模为汉藏英英对照电子词词典 7 万万余条,各类类规则 8000 语条,系系统在 DEEC486/66 微机机上的翻译速速度为 2446 词/分分,译文的可可读性达 775% 334。后来来,该课题组组在第二个 863 计计划的滚动支支持下开
36、展了了实用化汉藏藏机器翻译系系统的研制工工作。对原系系统在结构上上作了大的改改进,并在藏藏语格助词、动动词时态以及及汉藏短语和和长定语处理理方面取得了了不少成果35 36。实实用化汉藏机机器翻译系统统分为公文和和科技两大翻翻译系统,其其中科技系统统又包括数学学、物理、化化学、计算机机四个子系统统。新系统于于 20000 年底通过过 863 计划专家组组验收,系统统规模为汉藏藏英对照电子子词典 188 万余条,公公文系统规则则 900 余条,科技技系统规则达达 18000 余条。测测试表明公文文系统的译文文可读性达 78%以上上,科技系统统的译文可读读性达 800%以上337。目前前,课题组在在
37、有关方面的的支持下开展展成果转化工工作。电子词典电子子词典是计算算机处理自然然语言的基础础资源,更是是机器翻译等等典型的自然然语言应用系系统的知识信信息源。电子子词典的规模模、质量和信信息容量已成成为衡量某种种语言自然语语言处理发展展水平的关键键指标之一。因因此,学界历历来对电子词词典的建设都都非常重视。文文献3437先先后介绍了陈陈玉忠(德盖盖才郎)、李李延福等人在在研制汉藏机机器翻译系统统时开发的汉汉藏英三语对对照电子词典典。该词典总总规模由 11995 年年的 7 万万余条增加到到 20000 年的 118 万余条条,总词典包包括基本词典典和科技词典典两大部分。其其中,基本词词典的汉语词
38、词条及其词法法句法属性主主要参照了北北京大学计算算语言研究所所的现代汉语语语法信息词词典;科技词词典则是课题题组应汉藏双双语教学和汉汉藏机器翻译译系统研制的的需求,历时时十年编译整整理并经全国国藏文名词术术语委员会审审定的词条(部部分学科词条条已由四川民民族出版社出出版)。整个个词典的藏文文部分标注了了详细的语法法、语义信息息。这部电子子词典无论从从规模、质量量还是从包含含的语法语义义信息来看,可可堪称是目前前国内外最大大的一部藏文文电子词典。我们有理由相信信,这部词典典必将会对藏藏外、外藏机机器翻译系统统开发以及其其他藏文信息息处理技术研研究发挥重要要的作用。藏藏文识别这这方面最早的的报道始
39、于清清华大学自动动化系王浩军军、赵南元等等人的研究工工作38。他们根据据藏文在字型型和书写方式式上的特点,实实现了一种是是用于藏文识识别的预处理理技术。整个个预处理过程程包括二值化化、版面分析析、倾斜校正正、字符切分分和归一化,在在预处理过程程中还提取了了一些有关字字丁的基本结结构特征,可可用于识别系系统的粗分类类和后处理。22002 年年王维兰、丁丁晓青、祁坤坤钰等人报道道了在藏文识识别中相似字字丁区分研究究方面的最新新进展,他们们利用已实现现的系统对661篇测试文文本总共633503个样样本字符数的的测试表明:平均识别率率为96.5548%339。这一一结果说明藏藏文识别已经经向实用化产产
40、品开发方向向迈进。语音数据库这方方面的研究报报道最早见于于中国社会科科学院民族研研究所鲍怀翘翘等人在藏语语语音数据库库研究方面的的工作400。文章详详细介绍了他他们从 19989 年以以来研究建立立的第一个藏藏语拉萨话语语音声学参数数数据库。该该数据库是在在分析测量了了藏语拉萨花花 733 个单音节基基础上形成的的。全部声学学数据分为声声母(辅音)、核核心元音、鼻鼻音和声调四四个数据库,共共 30 项项特征。该数数据库同时还还配置了排序序检索、统计计分析和绘图图功能。此后后,郑玉玲、孙孙宏开等人41 42在藏藏语方言 115 个调查查点、30000 至 55000 词词规模的语音音数据库基础础
41、上,对各方方言的词汇语语音特征进行行了单项统计计、综合统计计和方言亲属属关系的计量量描述。藏文字词校对中中国藏学研究究中心扎西次次仁于 19998 年设设计开发了一一个基于 DDOS 的藏藏文拼写检查查系统433。在此前前后,北京怡怡和科技信息息发展有限公公司研制了桑桑布扎藏文文校对系统44。34、综合应应用二十多年来藏文文信息处理技技术在其他领领域的应用研研究也取得了了不少成果45 47,产产生了积极的的社会效益和和经济效益,并并有力地推动动了藏文信息息技术发展。因因篇幅所限,本本文不作详细细介绍。对这这方面有兴趣趣的研究人员员可参阅55 46647 48等相关文献献的介绍。4、关于藏文信信
42、息处理的战战略思考和展展望 在对藏文信息处处理技术的发发展历史和研研究现状有了了一个清醒的的认识和全局局的把握的基基础上,接下下来首先应该该做一番检讨讨:发现问题题的症结,找找到差距的根根源。再根据据我们的研究究状况和实际际需求,从宏宏观规划和微微观设计两个个视角来提出出切合实际的的展望。这样样做无疑对我我们进一步开开展后续工作作是有益的而而且也是非常常必要的。纵观二十多年藏藏文信息处理理技术的发展展,无论是在在藏字信息处处理研究及其其相关标准制制定方面,还还是在藏语信信息处理应用用开发方面,众众多科研人员员进行了不懈懈的努力和有有益的探索,并并取得了不少少成绩,这是是毋宁质疑的的。但我们应应
43、当清醒地认认识到,如果果拿目前国内内外语言文字字信息处理技技术的总体发发展水平和研研究状况作为为基准,来衡衡量藏文信息息处理技术的的发展水平和和研究状况,似似乎其差距不不可同日而语语,而抓紧时时间迎头赶上上更是不言而而喻的事情。但但这种似是而而非的说辞似似乎显得有点点苍白,起码码这样笼统地地来比较差距距时具体的目目标是不明确确的。正确的做法应该该是先静下心心来做一番审审视,抽取出出问题的本质质东西,在此此基础上再作作一番对比,弄弄清楚差距究究竟在哪里?是在具体的的哪些点上因因为什么原因因产生了这些些差距?哪些些差距又是重重要的或者说说是关键的?哪些差距又又是次要的或或无关大局的的?那些差距距是
44、共性的,即即国内各少数数民族语言文文字信息处理理当中都存在在甚至包括汉汉语也存在?哪些差距又又是个性的,即即只有藏文信信息处理当中中存在?接下下来的问题是是我们如何尽尽快抓住本质质的或事关全全局的东西,如如何采取切实实可行的措施施,在有限的的时间内把它它给解决好,从从而缩短差距距甚至赶上语语言文字信息息处理的世界界发展潮流呢呢?本文以下下试图通过回回答这些问题题来提出我们们的一些思考考和看法。藏文信息处理从从大处来看,与与一般的语言言文字信息处处理7有许多多相同或相一一致的地方,譬譬如说遵循的的相关理论和和原则,实现现的关键技术术和方法等等等。在这些方方面都有着“一一荣俱荣,一一损俱损”的的共
45、同基础。因因此,在寻找找差距时首先先得把这种共共性的东西剥剥离出去,剩剩下的就应该该是与藏文信信息处理直接接相关而且必必须要单独处处理的方面88。基于这种种“简单”的的认识来寻找找问题的答案案可能比较实实际和明确,而而且较容易抓抓住重点,解解决起来也许许比较简单。我我们知道字信信息处理的关关键要素是计计算机、编码码体系标准、操操作系统和人人,而语言信信息处理又是是以字信息处处理、相关语语言标准和语语言资源为基基础。刨除具具有共性的计计算机和重复复内容,那么么与藏文信息息处理直接相相关的就剩下下标准制定、操操作系统研制制、语言资源源建设和人才才培养了。下下面我们从这这四个方面入入手来寻找造造成差
46、距的根根源和解决问问题的办法。先来看看人才培培养问题。开开展藏文信息息处理工作需需要大量的懂懂藏语的专业业技术人才,而而7语言文字字信息处理泛泛指语言信息息处理和文字字信息处理。88在此之所以以用“应该”这这个模棱两可可的词是因为为我们不敢保保证一下子剥剥离得很清楚楚。一“刀子子”切下去泾泾渭分明、是是非明确当然然是最好不过过的,但我们们也应当记住住任何事物之之间都存在着着千丝万缕的的联系,其间间的所属关系系往往很难分分得很清。现实的情况是,国国内外从事这这项研究工作作的专业和非非专业人员全全加起来也不不上几十人,懂懂软件设计的的人员更是寥寥寥无几,而而且又都分散散于不同的单单位。如此少少的人
47、员来做做这项巨大的的工程其结果果是可想而知知的。一言以以蔽之,人员员数量和质量量的差距就是是藏文信息处处理最根本的的差距所在99。最好的解解决办法当然然是由专门的的学科点来加加速培养这方方面的专业人人才,但实际际上目前国内内几个重点研研究单位还没没有一个藏文文信息处理方方面的硕士点点,博士点就就更谈不上了了。因此,在目前的的现实情况下下,唯一可行行的办法就是是两条腿走路路:一方面在在有关部门的的支持下,进进行宏观规划划,加大投入入力度,尽早早建立学科人人才培养基地地;另一方面面只有通过多多种形式和国国内外多种渠渠道加速培养养人才,以减减缓差距拉得得更大。其次次来谈谈标准准的制定问题题。标准有国
48、国际标准和国国家标准之分分。迄今为止止,信息技术术领域已制定定的相关国际际标准上千项项,已制定的的国家标准也也不下几百项项,新的国际际、国家标准准又在不断地地推出。而在在藏文信息处处理方面制定定的国际标准准仅有 1 项,国家标标准也只有 3 项(其其实其中的键键盘布局国家家标准因未知知的原因还迟迟迟没有公布布)。且不说说国际、国家家标准中的许许多共用标准准的本地化问问题,单与藏藏文信息处理理直接相关的的并且急需要要我们自己制制定的标准就就不下几十项项,这就是差差距。那么在标准制定定上我们如何何才能变被动动为主动呢?笔者以为,首首先我们在制制定新标准时时必须要与国国际标准接轨轨,把新制定定的标准主动动地纳入到国国际标准体系系中去。这样样一方面有利利于更广泛地地信息交换和和标准交流,另另一方面有利利于今后新推推出的国际标标准对我们已已制定的标准准的支持,这这是缩短差距距并在有限的的时间内赶上上国际标准发发展潮流的关关键;其次,建建议国家有关关部门在制定定新标准和进进行国际标准准本地化工作作中应尽量兼兼顾与少数民民