中国语料库研究的历史与现状.docx-淘文阁

资源描述

《中国语料库研究的历史与现状.docx》由会员分享，可在线阅读，更多相关《中国语料库研究的历史与现状.docx（7页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、中国语料库研究的历史与现状中国语料库研究的历史与现状语言学的研究必须以语言事实作为根据，必须详尽地、大量地占有材料，才有可能在理论上得出比拟可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的，这是一种枯燥无味、费力费时的工作。计算机出现后，人们能够把这些工作交给计算机去作，大大地减轻了人们的劳动。后来，在这种工作中逐步创造了一整套完好的理论和方法，构成了一门新的学科语料库语言学corpuslinguistics，并成为了自然语言处理的一个分支学科。语料库语言学主要研究机器可读自然语言文本的收集、存储、检索、统计、语法标注、句法语义分析，以及具有上述功能的语料库在语言定量分析、词典编

2、纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。多年来，机器翻译和自然语言理解的研究中,分析语言的主要方法是句法语义分析。因而，在很长一段时间内，很多系统都是基于规则的，而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来，这样，这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言sub-language中获得一定的成功。为了摆脱窘境，自然语言处理的研究者者们开场对大规模的非受限的自然语言进行调查和统计，以便采用一种基于统计的模型来处理大量的非受限语言。不言而喻，语料库语言学将有可能在大量语言材料的基础上来检验传

3、统的理论语言学基于手工搜集材料的方法所得出的各种结论，进而使我们对于自然语言的各种复杂现象获得更为深入全面的认识。本文首先扼要介绍国外语料库的发展情况，然后，比拟具体地介绍中国语料库的发展情况和主要的成绩，使我们对于语料库研究得到一个鸟瞰式的认识。一、国外语料库大概情况如今，美国Brown大学建立了BROWN语料库布朗语料库，英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了LOB语料库。欧美各国学者利用这两个语料库开展了大规模的研究，其中最引人瞩目的是对语料库进行语法标注的研究。他们设计了基于规则的自动标注系统TAGGIT来给布朗语料库的100万词的语料作自动标注，正确

4、率为77%.他们还设计了CLAWS系统来给LOB语料库的100万词的语料作自动标注，根据统计信息来建立算法，自动标注正确率达96%,比基于规则的TAGGIT系统提高了将近20%.近期他们同时考察三个相邻标记的同现频率，使自动语法标注的正确率到达99.5%。这个指标已经超过了人工标注所能到达的最高正确率。如今，国外的主要语料库还有：London-Lund白话语料库：收篇目87篇，每篇5000词，共为43.4万词，有具体的韵律标注(prosodicmarking)。AHI语料库：美国Heritage出版社为编纂Heritage词典而建立，有400万词。OTA牛津文本档案库OxfordTextArc

5、hive：英国牛津大学计算中心建立，有10亿字节。BNC英国国家语料库(BritishNationalCorpus)：1995年正式发布，使用TEI编码(TextEncodingInitiative)和SGML通用标准置标语言的国际标准(TheStandardGeneralizedMarkupLanguage,ISO8879,1986年公布)。ACL/DCI美国计算语言学学会数据收集计划：美国计算语言学学会(TheassociationforComputationalLinguistics,ACL)建议的数据收集计划(DataCollectionInitiative,DCI)，其宗旨是向非赢利

6、的学术团体提供语料，以免除费用和版权的困扰，用标准通用置标语言SGML统一置标，以便于数据交换。LDC语言数据联合会(LinguisticdataConsortium):设在美国宾州大学，实行会员制，有163个语料库(包括Text的以及speech的)，分享语言资源。RWC日语语料库：日本新情报处理开发机构RWCP研制，包括（每日新闻）4年的全文语料，语素标注量达1亿条。亚洲各语种对译作文语料库：日本国立国语研究所研制，中野洋主持，北京外国语大学参加。为了推进语料库研究的发展，欧洲成立了TELRI和ELRA等专门学会。TELRI是跨欧洲语言资源基础建设学会(Trans-EuropeanLang

7、uageResourcesInfrastructure)的首字母缩写，JohnSinclair担任主席，由欧洲共同体提供经费，其目的在于建立欧洲诸语言的语料库，现已经建成柏拉图(Plato)的（理想国）(Politeia)多语语料库，建立了计算工具和资源的研究文档TRACTOR(ResearchArchiveofComputationalToolsandResources)，正在语料库的基础上建立欧洲语言词库EUROVOCA。TELRI每年召开一次Seminar。近期的一次Seminar在Lubljana,(Slovenia)召开(22.September26.September.2000)，

8、主题是从语料库中自动抽取知识Automaticknowledgeextraction。ELRA是欧洲语言资源学会(EuropeanLanguageResourcesAssociationi)的首字母缩写，由Zampolli担任主席，ELRA负责搜集、传播语言资源并使之商品化，对于语言资源的使用提供法律支持。ELRA建立了欧洲语言资源分布服务处ELDA(EuropeanLanguageresourcesDistributionAgency)，负责研制并推行ELRA的战略和计划。ELRA还组织语言资源和评价国际会议LREC(LanguageResources&EvaluationCongress)

9、,每两年一次。第一次会议于1998年在西班牙的Grenade举行；第二次会议在AthensGreece召开31.May02.June.2000，第三次会议于2002年在西班牙的LasPalmasdeGranCanaria召开(27.May02.June2002)。二、我国语料库的发展大概情况一早期的汉语语料库1、我国语料库研究的先河在我国，从20世纪20年代开场，就有学者建立文本的语料库，采用统计的方法来研究汉字的频率，其目的在于制定基础汉字的字表。当然，这样的语料库不是机器可读的，规模也很小，它是当代语料库的雏形，开我国语料库研究的先河，在我国语料库的发展史上是功不可没功的。著名教育学家陈鹤琴为了教学的目的，在对语料统计的基础上，编写了（语体文应用字汇），于1925年完成，于1928年由商务印书馆出版，陈书前有“绪论，讲明“中文应用字汇曾有多种，其中包括P.克仑茨(PastorP.Kronz)的研究和他本人的编写的（常用四千字表）。陈鹤琴做过两次统计，第一次统计使用了六种材料，包含554,478个汉字的语料，得不同汉字4261个；第二次使用包含34,818个汉字的语料，得出与4261个汉字相异的汉字458个。第二次统计所得的成果毁于战火，在（语体文应用字汇）中印出的只是第一次统计的结果。

展开阅读全文