搭配的统计分析.pdf-淘文阁

资源描述

《搭配的统计分析.pdf》由会员分享，可在线阅读，更多相关《搭配的统计分析.pdf（30页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、搭配的统计分析常宝宝北京大学计算语言学研究所什么是搭配(collocation)？A COLLOCATION is an expression consisting of two or more words that correspond to some conventional way of saying things.-Manning,C.D.&Schutze,H.,Foundations of Statistical Natural Language Processing,The MIT press,1999,151Within the area of corpus linguistic

2、s,COLLOCATION is defined as a pair of words(the node and the collocate)which co-occur more often than would be expected by chance.-From Wikipedia,the free encyclopedia搭配举例形容词+名词strong teapowerful computerstrong computer()powerful tea()a stiff breezea stiff wind()a strong breezea strong wind动词+名词knoc

3、k at the doorknock on his doorwatch the TV see the film词及其搭配词可能比邻出现，也可能中间间隔一些其他的词汇。搭配构成的一般原则有限组合性(non-compositionality)?搭配的意义一般不是其组成词汇意义的简单相加。someone has kicked the bucket-some one has diedwhite wine -yellow wine?搭配在译成另外一种语言时，通常不能逐词翻译，而应作为一个整体进行翻译。blue film-黄色电影(兰色电影)black tea-红茶(黑茶)完全不能由组成成分判断整体意义的

4、搭配包括固定搭配(fixed collocation)和成语(idiom)等。搭配构成的一般原则有限替换性(non-substitutability)?搭配的组成词汇通常不能用意义相近的词汇替换。white wine-yellow winestrong tea-powerful teapowerful computer-strong computer有限修饰性(Non-modifiability)?搭配的组成词汇通常不能再被其他的词汇修饰。has kicked the blue bucket()搭配的狭义理解和广义理解?广义上的搭配指语法上合法的词语序列常用的搭配提取方法统计方法与规则

5、方法常用的统计方法?基于频率的方法(frequency-based approach)?基于方差的方法(variance-based approach)?假设检验法(hypothesis testing)?互信息法(mutual information)频率法如果两个词总在一起出现，则这两个词很可能构成一个搭配。因此可以通过统计两个词(bigram)的共现频率的方法来发现并提取搭配。由于虚词的影响，通常最高频的词语组合是虚词的组合。(New York times newswire,Aug-Nov,1990)可通过词类组合模式进行过滤，剔除高频的虚词组合。?Justeson&Katz 用于过滤的

6、词类组合模式频率法搭配窗口(collocational window)词语及其搭配词未必比邻出现。例如：?she knocked on his door(3)?they knocked at the door(3)?100 women knocked on Donaldsons door(5)?a man knocked on the metal front door(5)前述频率法不能直接应用，此时可以通过定义搭配窗口的方法进行解决，统计词语和窗口范围内的其他所有词的共现频率。大小为-5,+5的搭配窗口w-5w-4w-3w-2w-1w w+1w+2w+3w+4w+5方差法若w1和w2出现的位

7、置相对固定，则二者有可能构成一个搭配。计算w1和w2两个词在语料库中位置偏移的均值。计算位置偏移的方差 2这里 n 是w1和w2共现的次数,di是第i 次共现二者的位置偏移,是位置偏移的均值。均值和方差刻画了两个词之间距离的分布情况。如果两个词的距离的方差较小，则有可能二者构成一个搭配。较小的方差意味着两个词之间的距离相对固定。方差计算举例对于knock和door均值是样本标准差是搭配词间的距离分布strong&oppositionstrong&supportstrong&for方差法假设检验高频共现以及低方差都有可能是机会导致，未必一定意味着搭配现象。?若 w1高频出现、w2高频出现，则 w

8、1w2通常也会高频共现，但未必构成搭配。采用假设检验的方法?首先假设w1w2是在语料库中是机会共现(co-occur by chance)，该假设通常称为原假设(null hypothesis)?基于原假设，利用样本数据进行检验，若不能推翻原假设，则w1w2不构成搭配，若原假设不成立，则w1w2构成搭配，即认为备择假设成立。(alternative hypothesis)假设检验若w1w2为机会共现，则w1、w2相互独立，即p(w1w2)=p(w1)p(w2)语料库可被视为N个bigram所组成的序列，定义随机变量X，若w1w2出现，则X=1，否则X=0。则随机序列服从二项分布。p(w1)、p

9、(w2)可作如下估计Nwcwp)()(11=Nwcwp)()(22=t-检验t-检验的基本原则是假定样本数据来自均值为的正态分布，然后通过对比样本均值和预期的均值之间的差异，判断样本是否来自于所假设的分布，从而推断出原假设是否成立。t-检验的计算公式这里 x 是样本均值，s2是样本方差，N 是样本大小，是假设的分布的均值。t-检验:例子假定在语料库中，new 出现了15,828次，companies出现了4,675次，语料库中共含14,307,668词次。newcompanies 出现了8 次。原假设是:p(new companies)=p(new)p(companies)期望均值应为p=3.

10、61510-7t-检验:例子样本均值是p，即 p(new companies)=8/14307668=5.591 10-7样本方差是p(1-p)，但由于p通常很小，故p(1-p)p，即5.591 10-7new companies的t-值可计算如下t-检验:例子由于t-值 0.999932小于2.576（置信水平为=0.005）,所以不能推翻原假设，故new companies不构成搭配。t-检验和其他检验常用来给搭配排序，置信水平在这里用处不大，即t-值越大，w1w2越可能是一个搭配。t-检验t C(w1)C(w2)C(w1 w2)w1 w2 4.4721 42 20 20 Ayatolla

11、h Ruhollah 4.4721 41 27 20 Bette Midler 1.2176 14093 14776 20 like people 0.8036 15019 15629 20 time last 通过了t-检验(t 2.756)所以:可以拒绝原假设，因此所考察的bigram形成搭配频率法无法做出判别，因为这些bigram共现频率相同未通过t-检验，(t 2.756)所以:不能拒绝原假设，因此所考察的bigram不形成搭配2检验在搭配研究中，另外一种常用的检验方法是2检验。t-检验假设概率分布为正态分布，这通常并不成立，2检验没有这个要求。2检验的主要思想是对比预期频率以及观察频

12、率，若二者差别较大，则拒绝原假设。最简单的2检验使用22的联列表，分别列出不同的频率2检验?2 用下述公式进行计算这里 i 代表联列表的行，j代表联列表的列,Oij代表单元格(i,j)中的观察值，Eij代表相应单元格的预期值2检验计算预期频率 Eij?原假设假定w1和w2相互独立，所以?E11的值应为17515820846678.NNN=+Expected w1=new w1 new W2=companies 5.17 c(new)x c(companies)/N 15828 x 4675/14307676 4669.83 c(companies)x c(new)/N 4675 x 14291

13、848/14307676 w2 companies 15 822.83 c(new)x c(companies)/N 15828 x 14303001/14307676 14 287 178.17 c(new)x c(companies)/N 14291848 x 14303001/14307676 NppEjiij(*)(*)=2检验计算2值查自由度为1的2值表，置信度为=0.05的2值应为3.84由于1.55 3.84，所以不能拒绝原假设，new companies不形成搭配1.5518628714178.17)287 14181 287(1482315822.83)15820(15466

14、94669.83)(46675.175.17)(822222+=对数似然比2检验对于稀疏数据效果有限，因此若w1、w2在语料库中出现次数很少，通常不使用2检验，对于稀疏数据，常用对数似然比检验法。使用对数似然比检验，对于w1w2通常作下面的假设。?H1(原假设):w2的出现独立于w1。?H2(备择假设):w2的出现依赖于w1。对数似然比可以定义为其中L(*)为似然函数)()(2)(221HLHLloglogvalue_LL=对数似然比若H1成立，则有若H2成立，则有定义似然函数)-;();(1)(1122112,pcnccb,pccbHL=Ncw|wpw|wpp21212)()(=112212

15、2112121)()(cNccw|wppccw|wpp=)-;();(1)(211221112,pcnccb,pccbHL=n-kkppknn,pkb)1();(=互信息点间互信息的概念来自于信息论事件x和y间的互信息描述了:?一个事件中所蕴含的关于另外一个事件的信息量?两个事件之间的关联度?若两个事件独立，则有I(x,y)=0?若两个事件高度依赖，一个出现必然意味着另外一个事件出现，则有)()()()(2ypxpx,yplogx,yI=)(1)()()()()()()(222yplogypxpxplogypxpx,yplogx,yI=互信息假定:c(Ayatollah)=42c(Ruholl

16、ah)=20c(Ayatollah,Ruhollah)=20N=143 076 668则:互信息也给出了w1w2是否可能成为搭配的一种排序。18.38668 307 1420668 307 1442668 307 1420Ruhollah),(Ayatollah2=logI互信息t-检验对于上述个例，互信息和t-检验排序结果相同互信息I(w1,w2)C(w1)C(w2)C(w1 w2)w1 w2 18.38 42 20 20 Ayatollah Ruhollah 17.98 41 27 20 Bette Midler 0.46 14093 14776 20 like people 0.29 1

17、5019 15629 20 time last t C(w1)C(w2)C(w1 w2)w1 w2 4.4721 42 20 20 Ayatollah Ruhollah 4.4721 41 27 20 Bette Midler 1.2176 14093 14776 20 like people 0.8036 15019 15629 20 time last 互信息对于两个事件是否独立可以给出较好的判别。?互信息值接近 0?两个事件相互独立但对于两个事件互相依赖，仅依靠互信息值有缺陷。?互信息值与事件的频率有关?低频率事件有可能获得较高的互信息值，因而对于稀疏数据，互信息结果未必可靠?改进措施 c(w1 w2)I(w1,w2)互信息

展开阅读全文