《藏文信息处理技术的研究现状及展望cfqt.docx》由会员分享,可在线阅读,更多相关《藏文信息处理技术的研究现状及展望cfqt.docx(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、藏文信息处理技术的研究现状与展望*1陈玉忠 俞士汶(北京大学计算语言学研究所 100871)摘要本文主要对国内开展藏文信息处理以来的相关研究工作进行了介绍和评价。在此基础上对藏文信息处理的进一步发展进行了展望。目的是为了探讨如何加速推进藏文信息处理技术的发展。通过对藏文操作系统、藏文信息技术标准、藏语信息处理、综合应用等四个方面的历史和现状的介绍和评价,使我们得出如下的初步结论:目前状况下要加速藏文信息处理的发展,应重点开展藏文信息技术标准制定、藏文操作系统研制、藏文资源建设和人才培养工作,尤其是要把藏文操作系统的研制工作作为头等大事来抓。关键词藏文信息处理操作系统标准中图分类号 TP391;
2、H2 文献标识号 A文章编号 1、引言藏文已有近 1400 的历史,作为藏文化最主要和最基本的载体,用藏文记载的经典文献、古籍著述和译作浩如烟海。在国内用藏文记载的文献数量仅次于汉文历史文献,是中华民族文化遗产宝库中一颗璀璨的明珠。藏文自创制以来,无论过去作为藏民族传承佛教文化的主要工具,还是现在作为藏区传播科技知识的主要工具,甚至将来作为信息化社会中一个民族的主要标识符,其独特的人类文化价值和仍在广大藏区所发挥的巨大作用是不可估量的。自从人类进入以计算机和网络为主体的信息时代,古老的藏文字正面临着一场“生死存亡”的考验即能否跨入信息时代。藏文字一旦不能跨入信息时代,她必将失去语言文化载体的基
3、本功能和作用,就会被这个时代无情地抛弃。纵观国内外语言文字信息处理技术的发展历史和现状,我们可以清楚地看到,古老的藏文字能否跨入信息时代的关键就是能不能解决好藏文信息处理技术问题。因此,藏文信息处理是直接关系着藏文命运的一件大事,其重要意义是不言而喻的。鉴于目前几乎看不到反映藏文信息处理技术最新进展的综述性文章,相关领域的研究进展只是散见于各专业文献中。而另外一方面,新加入到这一领域的研究人员又非常渴望对藏文信息处理技术的现状能有个比较全面的了解,以便于开展各自的研究工作。此外,国家有关部门在宏观决策时也希望能有这方面的资料作为参考。因此,在这样一个背景下,对藏文信息处理技术的发展现状做一个全
4、面的考察是非常必要和及时的。由于藏文的故乡在中国,在这方面所作的研究和取得的成果也以国内居多,同时限于资料和篇幅,文章基本没有涉及国外学者在这方面的研究工作。文章的安排大致如下:第二部分对藏文信息处理中经常用到的几个术语进行了界定。第三部分首先把藏文信息处理划分为四个方面,以此为线索分别就其发展历史和现状作了一番简要的介绍,并说明了发展现状与实际需求之间的差距。第四部分我们在寻找现阶段差距的过程中提出了藏文信息处理中应重点关注的几个问题,并结合现状和发展趋势提出了我们的一些看法。1本文主要对国内开展藏文信息处理工作以来的相关研究工作进行了介绍和评价。由于一方面受篇幅限制,另一方面占有的相关资料
5、不全,再加之个人视野有限,有的重要研究工作文中没有提及势必难免,而对提及的研究工作评价不当或与实际工作有所出入也是很有可能的。疏漏有误之处恳请专家学者指正。本文写作过程中,得到李保利同学的诸多帮助,特此致谢。2、几个关键术语的界定在进入本文正题之前,首先花点笔墨对本文中用到的几个关键术语作出界定是很有必要的。这一方面有利于我们在清晰的背景下对所谈及的问题进行描述,另一方面便于在确定的层面上对相关问题展开讨论。首当其冲的就是我们用惯了的“中文信息处理”。“中文”是中国语言文字的简称,它包括汉文和中国境内其他少数民族的语言文字 1。很显然,“中文信息处理”自然包括汉文信息处理和中国境内其他少数民族
6、语言文字的信息处理。由于汉族是我国的主体民族,汉语又是国家法定的唯一官方语言,加之中文信息处理又以汉语信息处理为中心,因此,很多研究者经常用“中文信息处理”来特指汉语信息处理。我们认为这种称谓是不妥当的,也是不可取的。首先,这样容易产生误解,很容易使不了解具体情况的国内同胞和国外友人产生在中国只存在汉语信息处理的错觉;其次,这样不利于计算语言学术语的命名和规范,且不说“中文”二字的所指非常明确(中国语言文字或中国文字),如果以“中文信息处理”替代汉语信息处理,那么,汉文信息处理和少数民族语言文字信息处理的总称又是什么呢?除了“中文信息处理”之外我们很难再找到一个比它更贴切的术语。因此,我们认为
7、这种称谓是不科学的也是不可取的。我们的定义是:中文信息处理是利用计算机对中国语言文字信息(包括书面语的和口头的)进行处理22,包括汉文信息处理和藏文、蒙文以及维文等我国少数民族语言文字的信息处理。那么,“藏文信息处理”、“藏语信息处理”和“藏字信息处理”之间又是什么关系?各自又包括哪些具体研究课题呢?相关概念本文参照文献3和4中的描述性定义来进行说明。“藏文信息处理”可划分为“藏语信息处理”和“藏字信息处理”两个层次。藏字信息处理层面包括操作系统以及编码字符集、输入技术、字形描述与生成、存储、编辑、排版、字频统计和藏字属性库等课题;藏语信息处理层面包括机器翻译、信息检索、信息提取、文本校对、文
8、本生成、文本分类、自动摘要以及藏文文字识别和语音识别的后处理等等。两者之间也有交叉,藏语信息处理要以藏字信息处理的实现为基础。要提高藏字信息处理的智能水平,又要借助藏语信息处理的成果。3、藏文信息处理的历史和现状实现计算机语言文字信息处理必须依赖稳定的文字处理平台、统一的规范标准和可靠的语言知识资源,三者相辅相成、缺一不可。二十多年来,藏文信息处理在各个方面得到了长足的发展,取得了不少成绩。本节的介绍和讨论将主要围绕藏文操作系统、藏文信息技术标准、藏语信息处理、综合应用等四个方面来展开。鉴于藏文操作系统、藏文字符编码标准和藏语信息处理在藏文信息处理中又居于核心地位,为了使论述的主题更加集中和明
9、确,对这三个方面的发展历史和研究现状作了重点介绍。31、藏文操作系统311、基于 DOS 的藏文字处理技术探索2这一定义与文献2中的定义的主要区别在于本定义包含了我国少数民族语言文字。国内藏文信息处理的研究工作是从 20 世纪 80 年代初的字处理研究起步的5。最早见诸报道的是张连生于 1981 年用计算机进行的藏文词汇排序工作6。当时由于没有藏文操作系统,他使用英文操作系统,采用于道泉先生提出的以数码代替藏文的编码方案7,使用COBOL语言实现了一个藏文排序软件。此后,张连生于 1983 年在美国伊利诺斯大学利用PLATO计算机上的一个应用软件TUTOR,采用李方桂先生提出的罗马转写方案为藏
10、文输入编码方案,并通过TUTOR软件提供的图形叠加功能完成藏文字符显示,实现了一个集输入、显示和打印功能为一体的藏文字处理系统381984 年上海教育学院物理系俞乐等人在 VICTOR9000 微机上利用 BASIC 语言实现了一个具有输入、显示和打印功能的藏文字处理系统,并用 BASIC 编写了藏文报表软件9。在此前后,甘肃省计算中心胡彦发等人和西北民族学院合作也在 WANGVS/80 机上,用扩展BASIC 语言实现了一个藏文的字处理系统 ZWCL,他们还配套编写了藏文文献联机检索系统10。航天部 710 所罗圣仪等人在微机 PC-8001 和 IBM-PC 上实现了一个藏文字处理系统11
11、。该系统利用 TLLP 字符写入程序实现,并采用了一种藏文辅音字母和元音字母用拉丁转写、上下加字采用数字代码的编码方案。上述几个系统代表了这一时期藏文操作系统的发展水平。可以看到,当时的研究工作主要围绕藏文字处理系统在应用层面的基本实现方法展开。就字处理系统而言,在实现技术上尚有许多欠缺。具体表现在以下几个方面:(1)这些藏文字处理系统都是利用 BASIC 语言、TOTOR 软件等在应用软件层面实现的,而不是在操作系统层面实现的。因此,在这些系统下无法利用英文各类应用软件和编程语言;(2)都是单一文种(藏字)处理系统,无法与英文或汉文系统兼容;(3)还没有统一的相关技术标准(包括内部交换码、字
12、符集等)可参照,因而也无法实现各系统间的相互兼容;(4)系统的藏文字符集普遍偏小或不全,基本不具备梵音藏文字符的处理能力;(5)输入编码或采用拉丁转写或使用数字替代,输入繁琐且不便于记忆。当然,这一时期的探索工作也是非常有价值的,它为后来藏文基本字符集的确定、系统平台的开发积累了经验,提前作了技术上的储备工作。更加难能可贵的是,在当时的技术条件下有些科研人员还在语言信息处理层面进行了有益的探索7910。312、基于 DOS 的藏文操作系统开发 1980 年代中期,以 CCDOS 为代表的汉字信息处理技术极大地推动了与汉英文兼容的藏文操作系统的发展。1986 年青海省药品检验所俞汝龙、青海师范大
13、学赵晨星、青海民族学院毛继祖、熊涛等人与北京有线电厂合作,在 CCDOS2.13 下开发了与汉英文兼容的藏文操作系统 TCDOS12。后来在 TCDOS 基础上,熊涛等人与西北民族学院于洪志等人合作开发了可挂接在 WPS 下的藏文轻印刷系统兰海藏文系统13。在此前后,四川大学彭寿全等人开发了一个与汉英文兼容的藏文操作系统14。南京新技术研究所于江苏、葛小冲等人也开发了一个与汉英文兼容的藏文操作系统 ZWDOS15。1992 年 10 月,西藏大学尼玛扎西等人研究开发的TCE 藏汉英文信息处理系统通过了西藏自治区的审定16。这些研究促成了国内藏文信息处理领域内具有划时代意义和产生了深远影响的两个
14、与汉英文全兼容的实用化的藏文操作系统的诞生。其中之一是北大方正藏文系统,另一个则是华光藏文系统。在罗圣仪等人的研究基础上,中国藏学研究中心和航天部 710 所于 1988 年 8 月推出了3因为此类软件不具备系统一级的藏字支持功能,指称上为了与实际操作系统有所区别,在此我们暂称为字处理系统。藏文字处理及激光编辑排版印刷系统17,该系统后来与潍坊华光合作开发出了书林藏文排版和激光照排系统(简称华光藏文系统)。中国计算机软件与技术服务总公司、民族印刷厂、北京大学计算机研究所、中国民族语文翻译中心在华光藏文系统的基础上,于 1990 年底联合推出了北大方正藏文书报版系统(简称北大方正藏文系统)。以上
15、两个系统的藏文编码虽然没有相关国家标准可依,但由于这两个系统的编码有完整的对应关系,而且在国内外有着广泛的用户群,自然成为了国内事实上的“标准”系统。此后在很长一段时期内,这两个系统一直是国内藏文信息处理研究领域的基本平台。事实上,时至今日它们仍占据着广大藏区 90%以上的书版、报版印刷市场,也是大多数藏文信息处理研究者的首选基本平台。这一时期在国家的大力支持下,在国内各主要研究单位和企业的通力协作下,基于 DOS的藏文操作系统基本上与汉文操作系统同步实现了本地化工作。313、基于 WINDOWS 的藏文字处理软件研究进入 90 年代中期以来,随着软硬件技术的飞速发展,基于图形界面的 WIND
16、OWS 操作系统逐步替代了基于字符界面的 DOS 操作系统而成为了微机操作系统的主流。因此,基于图形界面的藏文 WINDOWS 操作系统的研制和开发便成为了这一时期藏字信息处理的核心任务之一。根据实现技术难度和相应功能的不同,藏文 WINDOWS 操作系统的开发有三种可选模式:一是直接在应用层面开发;二是挂接在现有汉英文 WINDOWS 系统下实现;三是系统内核一级实现藏化。由于 WINDOWS 系统结构庞杂,没有公开的系统内核代码可参照,加之产品更新换代速度极快,一般研究单位在系统一级实现藏化基本上是不可能的。因此,实际上可选的开发模式只有前两种。北大方正 1997 年推出了基于WIN31
17、的藏文维思彩色印刷系统,但藏文的输入、编辑过程仍需切换到DOS环境下进行;西北民族学院信息所于洪志、戴玉刚等人于 2000 年实现了一个基于WINDOWS的藏文字处理软件4,即同元藏文字处理软件18,其主要实现技术是通过WORD API的动态链接库WLL嵌入藏文输入法,并在WINDOWS下挂接一个TRUETYPE字库实现。在此前后,青海师范大学也采用类似的技术开发了一个基于WINDOWS的藏文字处理软件班智达藏文字处理软件19,并在汉藏机器翻译系统和藏药信息系统中有所应用20。2001 年西藏大学尼玛扎西、洛藏等人和四川火狐信息技术有限公司合作实现了一个基于WINDOWS的藏文字处理软件“火狐
18、”藏文字处理软件21。综上所述,目前实现的几个藏文字处理软件或在应用层面开发或部分在现有汉英文WINDOWS 下挂接实现。从这些系统所具备的功能来看,只具备一般的藏字处理功能,因此,我们最多只能称其为基于 WINDOWS 的藏文字处理软件,而不是真正意义上的藏文WINDOWS 操作系统。具体说来这些软件主要有以下缺憾:(1)所有系统设计时都没有采用国际标准编码。其中有的字库占用 00-FF 区 ASCII 码的码位,有的占用 GB-2312 的 10-15 区或 88-94 区的空余码位,有的字库干脆占用汉字GB-2312 的 15 区至 81 区的某段码位。(2)由于现有系统都没有采用国际标
19、准编码,就无法支持 INTERNET 藏文信息交换,更不能考虑到与汉英文在系统底层实现兼容处理和对其他应用软件的支持。4从这些系统所具备的功能来看,仍然不具备系统一级的藏文支持能力,即不具备真正的藏文WINDOWS操作系统的功能。为了与DOS下的“字处理系统”等有所区分,本文暂称为藏文字处理软件。(3)更有甚者只是针对某个WINDOWS应用软件实现藏文字处理功能,如SAMBHOTA5就是典型的仅在WORD上实现的一个藏文字处理软件。这类软件一旦脱离WORD字处理环境后就无法实现藏文字处理。(4)从技术实现角度来看,这些系统主要是在应用层面利用 WINDOWS 的 API 或WORD API 函
20、数挂接实现,因此,真正的系统一级的藏文 WINDOWS 操作系统的开发还任重而道远。重新审视这段藏文操作系统研发的历史,至少可以给我们今后开展藏文信息处理研究工作提供三点有益的启示:一是要培养一批懂藏语的专业软件开发队伍,这是藏文信息处理事业发展的根本;二是要有国家高强度的支持,这是藏文信息处理事业能够持续发展的保证;三是操作系统这样大型的系统软件开发必须要在政府强有力的支持下,要有大的企业参与开发才有可能形成实用的产品。这一点从汉字信息处理发展的历史来看是如此,从华光藏文系统和北大方正藏文系统的成功也证明了这一点。32、藏文信息技术标准化研究标准化是推动当今信息化社会进步的基础。信息技术标准
21、化是应用信息技术的前提,也是信息系统有效运行的保证22。没有相关标准作为技术先导和基础保证,藏文信息交换和信息处理技术也就无从谈起,藏文要成为信息化社会一员的愿望也很难实现。特别是INTERNET 得到迅猛发展和广泛普及的今天,藏文信息技术的标准化和国际化是藏文信息处理技术必须解决的首要问题。信息技术标准很多,据统计到 1997 年为止,国际标准化组织(ISO)已发布正式国际标准 900 多项,还有 300 多项标准正在制定当中。我国也已批准和发布信息技术国家标准450 余项23。已发布的这些标准中,有许多标准可在藏文信息处理中共用,但有些关键标准必须根据藏文的特点和要求另行制定。藏文信息技术
22、标准化的问题首先由国际标准化组织(ISO)于 1992 年提出,其核心任务是藏文编码体系的标准化问题。主要包括藏文编码字符集标准(交换码),包括基本集和构建集,藏文字符键盘布局标准(输入码)和藏文字形标准(字形码)等。经过 5 年的艰苦努力,在国家民委和国家技术监督局以及电子部的直接支持和指导下,由西藏自治区藏语文工作委员会办公室牵头,西藏大学、西藏技术监督局、西北民族学院、青海师范大学等单位于 1997 年共同完成了 GB16959-1997信息技术交换用藏文编码字符集基本集、GB/T16960.1-1997信息技术交换用藏文编码字符集(基本集)24*48 点阵字形第一部分:白体和 GB16
23、959-1997 藏文字符键盘布局等三项国家标准的研制任务。同年 7月由我国提交的藏文编码字符集国际标准在第 33 届 WG2 会议及 SC2 会议上经过国际标准化组织的多道严格程序和数轮投票正式获得通过,使藏文成为我国少数民族文字中第一个正式进入 ISO/IEC10646 标准编码体系结构的文字。藏文编码字符集标准是实现人-机、机-机、系统间信息交换的基础。在 ISO/IEC10646的基本平面中分配给藏文的有 192 编码空间,最后确定的编码字符为 169 个(小字符集)。包括藏文字母 30 个、梵音藏文字母 11 个、藏文组合用字符 58 个、藏文数字符 20 个、其他图形字符 49 个
24、、控制字符 1 个。除此之外,针对藏文近 6000 字(大字符集)的国家标准藏文编码字符集辅助集的研制工作也正在进行中。藏文字形标准只完成了 GB/T16960.1-1997信息技术交换用藏文编码字符集(基本5系国外开发,目前国内比较流行的一套藏文字处理软件。集)24*48 点阵字形第一部分:白体部分,其他字体标准也正在制定当中。藏文字符键盘布局标准将 GB16959-1997 中规定的 169 个藏文字符,一一分配到各个键位上。据称该标准键盘的编号系统、键数、键的排列分布和分组分级都采用了最新的国际标准。可以毫不夸张地说,藏文编码体系国家标准和藏文编码字符集国际标准的通过,标志着藏文开始步入
25、信息时代,为藏文在以计算机和网络为主体的信息化社会中实现信息处理和交换打下了坚实的基础,使这一古老的民族文字有可能在信息数代焕发出新的活力。33、藏语信息处理 语言信息处理技术包括机器翻译、信息检索、信息提取、文本校对、文本生成、文本分类、自动摘要以及文字识别和语音识别等应用领域 24。藏语信息处理研究工作在短短的十几年里取得了不少成绩,产生了积极的社会效益。最早利用计算机进行藏语信息处理层面的研究工作,其实文献6910中都有所涉及,但是由于受当时计算机软硬件条件和整个藏文信息处理技术的限制,这些研究很大意义上只是作为藏字处理系统的“点缀”品出现,而不是自觉地利用语言信息处理相关理论和技术开展
26、的研究工作。真正意义上的藏语信息处理研究工作始于二十世纪 90 年代。当时北大方正和潍坊华光藏文系统的研制成功和迅速普及,极大地推动了藏文信息处理技术的发展,促使藏语信息处理领域的许多应用技术产生了从无到有、从小到大的质的飞跃。本节主要从八个方面6来分别予以介绍,一方面希望能给有志于投身到这一领域的研究人员提供一个阶梯式发展的轨迹图,另一方面也希望能为这一领域年轻的科研人员在课题的选择和研究领域的拓展上有所启示。藏文字词频统计分析和语料库建设这方面的最早报道见于中国社会科学院民族研究所江狄、董颖红和中央民族大学周季文等人的研究工作252627。其中具有代表的要属文献26的作者所作的有关藏字基本
27、属性的统计工作。其具体做法是:首先在藏汉拉萨口语词典、拉萨口语读本.词汇表和藏语简志.词汇表中采集得到常用词语 30428 条,经查重处理得到 3926 藏字;再以这 3926 个字为材料,利用计算机统计分析了藏字的结构频度、字长、声母结构频度、韵母结构频度、藏字的位置字符及结构方式。这一工作虽然只对一少部分藏字进行了静态的统计,但这一工作的意义则远远大于结果本身。此后,中国藏学研究中心扎西次仁利用 2000 万字中华大藏经.丹珠尔的藏文对勘本对藏字的字符频、字频信息进行了更加全面和深入的统计分析,并分别在藏字字符频、字频方面得到了许多有价值的结果28。这一工作对藏文字库的制作、藏文教学都具有
28、重要的参考价值。除此之外,目前西北民族学院、中国藏学研究中心、青海师范大学和中国社会科学院民族研究所等单位在藏语语料库建设以及利用语料库进行藏文信息处理研究方面都有一定的探索和进展。藏文自动分词藏文也与汉语、日语等东方语言相似,词与词之间无明确的分割标记,要进行藏语信息处理技术研究同样存在着分词问题。扎西次仁曾设计过一个采用最大匹配算法的人机互助藏文分词和登录新词的演示系统30。罗秉芬、江狄曾提出过一个藏文计算机自动分词的基本规则31。陈玉忠于 2001 年设计实现了一个基于格助词和接续特征的藏文分词系统29,该系统的技术特点是:综合运用藏文字、词、句等各类形态特征,在藏文格6关于藏文在信息检
29、索、信息提取、文本分类以及自动摘要等方向上,笔者在国内还未见到相关文献报道,故在此没有专门列条目介绍。助词、接续特征、字性知识库以及词典的支持下,采用逐级定位的确定性算法实现藏文的自动分词。初步测试表明,系统分词正确率在 97%以上,且有不受领域限制、通用性强的特点。机器翻译机器翻译研究工作最早的报道见于青海师范大学陈玉忠(德盖才郎)、李延福等人在国家 863 计划支持下开展的汉藏科技机器翻译系统的研制工作3233。该项研究工作从 1994 年开始,1995 年就实现一个原型系统。该系统在翻译模型上选择了转换模型、系统机制上采用了基于规则的方法。他们还根据汉藏机器翻译的需要首次对藏语词语进行了
30、分类,在汉藏转换、藏语生成等方面也进行了比较深入的研究。该系统于 1998 年通过鉴定,系统规模为汉藏英对照电子词典 7 万余条,各类规则 800 语条,系统在 DEC486/66 微机上的翻译速度为 246 词/分,译文的可读性达 75% 34。后来,该课题组在第二个 863 计划的滚动支持下开展了实用化汉藏机器翻译系统的研制工作。对原系统在结构上作了大的改进,并在藏语格助词、动词时态以及汉藏短语和长定语处理方面取得了不少成果35 36。实用化汉藏机器翻译系统分为公文和科技两大翻译系统,其中科技系统又包括数学、物理、化学、计算机四个子系统。新系统于 2000 年底通过 863 计划专家组验收
31、,系统规模为汉藏英对照电子词典 18 万余条,公文系统规则 900 余条,科技系统规则达 1800 余条。测试表明公文系统的译文可读性达 78%以上,科技系统的译文可读性达 80%以上37。目前,课题组在有关方面的支持下开展成果转化工作。电子词典电子词典是计算机处理自然语言的基础资源,更是机器翻译等典型的自然语言应用系统的知识信息源。电子词典的规模、质量和信息容量已成为衡量某种语言自然语言处理发展水平的关键指标之一。因此,学界历来对电子词典的建设都非常重视。文献3437先后介绍了陈玉忠(德盖才郎)、李延福等人在研制汉藏机器翻译系统时开发的汉藏英三语对照电子词典。该词典总规模由 1995 年的
32、7 万余条增加到 2000 年的 18 万余条,总词典包括基本词典和科技词典两大部分。其中,基本词典的汉语词条及其词法句法属性主要参照了北京大学计算语言研究所的现代汉语语法信息词典;科技词典则是课题组应汉藏双语教学和汉藏机器翻译系统研制的需求,历时十年编译整理并经全国藏文名词术语委员会审定的词条(部分学科词条已由四川民族出版社出版)。整个词典的藏文部分标注了详细的语法、语义信息。这部电子词典无论从规模、质量还是从包含的语法语义信息来看,可堪称是目前国内外最大的一部藏文电子词典。我们有理由相信,这部词典必将会对藏外、外藏机器翻译系统开发以及其他藏文信息处理技术研究发挥重要的作用。藏文识别这方面最
33、早的报道始于清华大学自动化系王浩军、赵南元等人的研究工作38。他们根据藏文在字型和书写方式上的特点,实现了一种是用于藏文识别的预处理技术。整个预处理过程包括二值化、版面分析、倾斜校正、字符切分和归一化,在预处理过程中还提取了一些有关字丁的基本结构特征,可用于识别系统的粗分类和后处理。2002 年王维兰、丁晓青、祁坤钰等人报道了在藏文识别中相似字丁区分研究方面的最新进展,他们利用已实现的系统对61篇测试文本总共63503个样本字符数的测试表明:平均识别率为96.548%39。这一结果说明藏文识别已经向实用化产品开发方向迈进。语音数据库这方面的研究报道最早见于中国社会科学院民族研究所鲍怀翘等人在藏
34、语语音数据库研究方面的工作40。文章详细介绍了他们从 1989 年以来研究建立的第一个藏语拉萨话语音声学参数数据库。该数据库是在分析测量了藏语拉萨花 733 个单音节基础上形成的。全部声学数据分为声母(辅音)、核心元音、鼻音和声调四个数据库,共 30 项特征。该数据库同时还配置了排序检索、统计分析和绘图功能。此后,郑玉玲、孙宏开等人41 42在藏语方言 15 个调查点、3000 至 5000 词规模的语音数据库基础上,对各方言的词汇语音特征进行了单项统计、综合统计和方言亲属关系的计量描述。藏文字词校对中国藏学研究中心扎西次仁于 1998 年设计开发了一个基于 DOS 的藏文拼写检查系统43。在
35、此前后,北京怡和科技信息发展有限公司研制了桑布扎藏文校对系统44。34、综合应用二十多年来藏文信息处理技术在其他领域的应用研究也取得了不少成果45 47,产生了积极的社会效益和经济效益,并有力地推动了藏文信息技术发展。因篇幅所限,本文不作详细介绍。对这方面有兴趣的研究人员可参阅5 4647 48等相关文献的介绍。4、关于藏文信息处理的战略思考和展望 在对藏文信息处理技术的发展历史和研究现状有了一个清醒的认识和全局的把握的基础上,接下来首先应该做一番检讨:发现问题的症结,找到差距的根源。再根据我们的研究状况和实际需求,从宏观规划和微观设计两个视角来提出切合实际的展望。这样做无疑对我们进一步开展后
36、续工作是有益的而且也是非常必要的。纵观二十多年藏文信息处理技术的发展,无论是在藏字信息处理研究及其相关标准制定方面,还是在藏语信息处理应用开发方面,众多科研人员进行了不懈的努力和有益的探索,并取得了不少成绩,这是毋宁质疑的。但我们应当清醒地认识到,如果拿目前国内外语言文字信息处理技术的总体发展水平和研究状况作为基准,来衡量藏文信息处理技术的发展水平和研究状况,似乎其差距不可同日而语,而抓紧时间迎头赶上更是不言而喻的事情。但这种似是而非的说辞似乎显得有点苍白,起码这样笼统地来比较差距时具体的目标是不明确的。正确的做法应该是先静下心来做一番审视,抽取出问题的本质东西,在此基础上再作一番对比,弄清楚
37、差距究竟在哪里?是在具体的哪些点上因为什么原因产生了这些差距?哪些差距又是重要的或者说是关键的?哪些差距又是次要的或无关大局的?那些差距是共性的,即国内各少数民族语言文字信息处理当中都存在甚至包括汉语也存在?哪些差距又是个性的,即只有藏文信息处理当中存在?接下来的问题是我们如何尽快抓住本质的或事关全局的东西,如何采取切实可行的措施,在有限的时间内把它给解决好,从而缩短差距甚至赶上语言文字信息处理的世界发展潮流呢?本文以下试图通过回答这些问题来提出我们的一些思考和看法。藏文信息处理从大处来看,与一般的语言文字信息处理7有许多相同或相一致的地方,譬如说遵循的相关理论和原则,实现的关键技术和方法等等
38、。在这些方面都有着“一荣俱荣,一损俱损”的共同基础。因此,在寻找差距时首先得把这种共性的东西剥离出去,剩下的就应该是与藏文信息处理直接相关而且必须要单独处理的方面8。基于这种“简单”的认识来寻找问题的答案可能比较实际和明确,而且较容易抓住重点,解决起来也许比较简单。我们知道字信息处理的关键要素是计算机、编码体系标准、操作系统和人,而语言信息处理又是以字信息处理、相关语言标准和语言资源为基础。刨除具有共性的计算机和重复内容,那么与藏文信息处理直接相关的就剩下标准制定、操作系统研制、语言资源建设和人才培养了。下面我们从这四个方面入手来寻找造成差距的根源和解决问题的办法。先来看看人才培养问题。开展藏
39、文信息处理工作需要大量的懂藏语的专业技术人才,而7语言文字信息处理泛指语言信息处理和文字信息处理。8在此之所以用“应该”这个模棱两可的词是因为我们不敢保证一下子剥离得很清楚。一“刀子”切下去泾渭分明、是非明确当然是最好不过的,但我们也应当记住任何事物之间都存在着千丝万缕的联系,其间的所属关系往往很难分得很清。现实的情况是,国内外从事这项研究工作的专业和非专业人员全加起来也不上几十人,懂软件设计的人员更是寥寥无几,而且又都分散于不同的单位。如此少的人员来做这项巨大的工程其结果是可想而知的。一言以蔽之,人员数量和质量的差距就是藏文信息处理最根本的差距所在9。最好的解决办法当然是由专门的学科点来加速
40、培养这方面的专业人才,但实际上目前国内几个重点研究单位还没有一个藏文信息处理方面的硕士点,博士点就更谈不上了。因此,在目前的现实情况下,唯一可行的办法就是两条腿走路:一方面在有关部门的支持下,进行宏观规划,加大投入力度,尽早建立学科人才培养基地;另一方面只有通过多种形式和国内外多种渠道加速培养人才,以减缓差距拉得更大。其次来谈谈标准的制定问题。标准有国际标准和国家标准之分。迄今为止,信息技术领域已制定的相关国际标准上千项,已制定的国家标准也不下几百项,新的国际、国家标准又在不断地推出。而在藏文信息处理方面制定的国际标准仅有 1 项,国家标准也只有 3 项(其实其中的键盘布局国家标准因未知的原因
41、还迟迟没有公布)。且不说国际、国家标准中的许多共用标准的本地化问题,单与藏文信息处理直接相关的并且急需要我们自己制定的标准就不下几十项,这就是差距。那么在标准制定上我们如何才能变被动为主动呢?笔者以为,首先我们在制定新标准时必须要与国际标准接轨,把新制定的标准主动地纳入到国际标准体系中去。这样一方面有利于更广泛地信息交换和标准交流,另一方面有利于今后新推出的国际标准对我们已制定的标准的支持,这是缩短差距并在有限的时间内赶上国际标准发展潮流的关键;其次,建议国家有关部门在制定新标准和进行国际标准本地化工作中应尽量兼顾与少数民族语言文字信息处理的共用。“兼顾”者指在该标准中多加一句是否适用于国内少
42、数民族语言文字信息处理,“共用”者指在新标准的制定上少强调汉语信息处理的个性,多注重与国内其他少数民族语言文字信息处理的共性,这样制定出来的标准就有可能实现整个中文信息处理的共用,也更加容易成为国际标准。这一“多”一“少”不仅字字千金,更为重要的是缩短了少数民族语言文字信息处理标准制定方面的差距,并为她们尽早赶上世界发展潮流创造了积极的条件。再来探讨一下藏文 WINDOWS 操作系统的研制问题。基于国际标准编码体系的藏文WINDOWS 操作系统的研制是目前藏文信息处理工作中的头等大事。这同样也成为了国内几个主要少数民族语言文字信息处理中的首要任务。藏文 WINDOWS 操作系统造成的全方位差距
43、不仅仅是量的多少问题,而是质的有无问题,已成为制约藏文信息处理乃至国内藏区社会进步、经济发展的关键因素。由于与汉英文兼容的藏文 WINDOWS 操作系统研制问题事关重大,需要的投入也很大,非一般单位和企业力所能及之事。为此,笔者呼吁,国家应尽早制定相关政策,进行统一规划,拨出专项资金,集中多方力量,组织协同攻关。唯有这样,这一困扰藏文信息处理多年的问题才有可能最终得到解决。而且这一问题解决得越早越有利于藏区经济的发展,社会的进步。最后说说藏文资源建设问题。为讨论方便起见,我们这里把藏文资源建设分为藏字资源建设和藏语资源建设两大类。藏字资源建设包括藏文字性建设以及各类藏文字体库的设计和制作等。目
44、前藏文字体只制作了藏文白体字库,其它藏文字体的设计和制作也应尽早列入议事日程。而藏文字性库的建设不但对藏字信息处理有利,而且对藏语信息处理也是相当重要的。藏语资源建设主要包括电子词典建设、语料库建设和通用词表的制定。目前,藏文通用词表的研制方面仍是空白;唯一的汉藏英对照电子词典虽然规模不小,但由于对藏语的本体研究尚不够深入,许多对藏文信息处理有价值的属性未能挖掘和描述出来,因而其应用范围受到了一定的限制;现有的几个藏语语料库都是未作标注的生语料库,其应用价值也就非常有限。笔者认为,藏语资源建设方面今后的主要任务应该是:在充分借鉴现代汉语语法信息词典的设计框架基础上,应结合藏语的特点建立藏语语法
45、信息词典,同时要加强整理和细化9这也是国内其他少数民族语言文字信息处理却步不前的主要原因。现有电子词典特征属性描述工作,并尽早把它纳入到新的藏语语法信息词典当中来;充分利用现有生语料库资源,尽快制作一个可共享的 1000 万字以上的标注语料库,以便于开展相关的研究工作;在以上两项工作的基础上,应尽快研制出一个适于人机两用的藏文通用词表和藏文字性库。在这里请允许我借用苏雅拉图在“试论中国少数民族语言文字信息化问题”一文中提出的几条原则的主要部分,作为开展藏文信息处理今后工作的建议来结束本节的讨论:藏文信息处理工作要社会效益和经济效益并举,但应以社会效益为主,经济效益为辅;藏文信息处理各项工作应统
46、筹考虑综合兼顾;藏文信息处理要基础研究和应用研究并举,现阶段重点扶持操作系统和各类标准的研制。最后,真诚地欢迎各方有志青年投入到藏文信息处理当中来,这里天地广阔,大有可为,愿我们共同携手推进藏文进入信息时代。我们坚信,信息时代需要藏文,藏文在信息时代也必将发挥更大的作用,毕竟她是承载中华民族文化中具有悠久的历史传承和灿烂的文化遗产藏民族和藏文化的最优秀的语言文字,人类又进入了一个更加注重多元文化并存、世界文化共同繁荣发展的崭新时代。Tibetan Information Processing: Past, Present, and FutureChen Yu-Zhong, Yu Shi-Wen
47、 Institute of Computational Linguistics Peking University, P.R. China, 100871Abstract: To push on the research in Tibetan Information Processing, a survey on the state-of-the-art of research in Tibetan language computer processing was conducted. Tibetanoperating system, related technology standards,
48、 Tibetan information processing, and their applications were the four focuses in this investigation. After serious reflection, formulatingtechnology standards for Tibetan information processing, developing Tibetan operating system,building large scale linguistic resources, and bringing up professional people were regarded as four measures to make more advance in research of Tibetan information processing, among of which developing Tibetan operating system is the most important at present. Key Words: Tibe