《搭配的统计分析.pdf》由会员分享,可在线阅读,更多相关《搭配的统计分析.pdf(30页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、搭配的统计分析常宝宝北京大学计算语言学研究所什么是搭配(collocation)?A COLLOCATION is an expression consisting of two or more words that correspond to some conventional way of saying things.-Manning,C.D.&Schutze,H.,Foundations of Statistical Natural Language Processing,The MIT press,1999,151Within the area of corpus linguistic
2、s,COLLOCATION is defined as a pair of words(the node and the collocate)which co-occur more often than would be expected by chance.-From Wikipedia,the free encyclopedia搭配举例形容词+名词strong teapowerful computerstrong computer()powerful tea()a stiff breezea stiff wind()a strong breezea strong wind动词+名词knoc
3、k at the doorknock on his doorwatch the TV see the film词及其搭配词可能比邻出现,也可能中间间隔一些其他的词汇。搭配构成的一般原则有限组合性(non-compositionality)?搭配的意义一般不是其组成词汇意义的简单相加。someone has kicked the bucket-some one has diedwhite wine -yellow wine?搭配在译成另外一种语言时,通常不能逐词翻译,而应作为一个整体进行翻译。blue film-黄色电影(兰色电影)black tea-红茶(黑茶)完全不能由组成成分判断整体意义的
4、搭配包括固定搭配(fixed collocation)和成语(idiom)等。搭配构成的一般原则有限替换性(non-substitutability)?搭配的组成词汇通常不能用意义相近的词汇替换。white wine-yellow winestrong tea-powerful teapowerful computer-strong computer有限修饰性(Non-modifiability)?搭配的组成词汇通常不能再被其他的词汇修饰。has kicked the blue bucket()搭配的狭义理解和广义理解?广义上的搭配 指 语法上合法的词语序列常用的搭配提取方法统计方法 与 规则
5、方法常用的统计方法?基于频率的方法(frequency-based approach)?基于方差的方法(variance-based approach)?假设检验法(hypothesis testing)?互信息法(mutual information)频率法如果两个词总在一起出现,则这两个词很可能构成一个搭配。因此可以通过统计两个词(bigram)的共现频率的方法来发现并提取搭配。由于虚词的影响,通常最高频的词语组合是虚词的组合。(New York times newswire,Aug-Nov,1990)可通过词类组合模式进行过滤,剔除高频的虚词组合。?Justeson&Katz 用于过滤的
6、词类组合模式频率法搭配窗口(collocational window)词语及其搭配词未必比邻出现。例如:?she knocked on his door(3)?they knocked at the door(3)?100 women knocked on Donaldsons door(5)?a man knocked on the metal front door(5)前述频率法不能直接应用,此时可以通过定义搭配窗口的方法进行解决,统计词语和窗口范围内的其他所有词的共现频率。大小为-5,+5的搭配窗口w-5w-4w-3w-2w-1w w+1w+2w+3w+4w+5方差法若w1和w2出现的位
7、置相对固定,则二者有可能构成一个搭配。计算w1和w2两个词在语料库中位置偏移的均值。计算位置偏移的方差 2这里 n 是w1和w2共现的次数,di是第i 次共现二者的位置偏移,是位置偏移的均值。均值和方差刻画了两个词之间距离的分布情况。如果两个词的距离的方差较小,则有可能二者构成一个搭配。较小的方差意味着两个词之间的距离相对固定。方差计算举例对于knock和door均值是样本标准差是搭配词间的距离分布strong&oppositionstrong&supportstrong&for方差法假设检验高频共现以及低方差都有可能是机会导致,未必一定意味着搭配现象。?若 w1高频出现、w2高频出现,则 w
8、1w2通常也会高频共现,但未必构成搭配。采用假设检验的方法?首先假设w1w2是在语料库中是机会共现(co-occur by chance),该假设通常称为原假设(null hypothesis)?基于原假设,利用样本数据进行检验,若不能推翻原假设,则w1w2不构成搭配,若原假设不成立,则w1w2构成搭配,即认为备择假设成立。(alternative hypothesis)假设检验若w1w2为机会共现,则w1、w2相互独立,即p(w1w2)=p(w1)p(w2)语料库可被视为N个bigram所组成的序列,定义随机变量X,若w1w2出现,则X=1,否则X=0。则随机序列服从二项分布。p(w1)、p
9、(w2)可作如下估计Nwcwp)()(11=Nwcwp)()(22=t-检验t-检验的基本原则是假定样本数据来自均值为的正态分布,然后通过对比样本均值和预期的均值之间的差异,判断样本是否来自于所假设的分布,从而推断出原假设是否成立。t-检验的计算公式这里 x 是样本均值,s2是样本方差,N 是样本大小,是假设的分布的均值。t-检验:例子假定在语料库中,new 出现了15,828次,companies出现了4,675次,语料库中共含14,307,668词次。newcompanies 出现了8 次。原假设是:p(new companies)=p(new)p(companies)期望均值应为p=3.
10、61510-7t-检验:例子样本均值是p,即 p(new companies)=8/14307668=5.591 10-7样本方差是p(1-p),但由于p通常很小,故p(1-p)p,即5.591 10-7new companies的t-值可计算如下t-检验:例子由于t-值 0.999932小于2.576(置信水平为=0.005),所以不能推翻原假设,故new companies不构成搭配。t-检验和其他检验常用来给搭配排序,置信水平在这里用处不大,即t-值越大,w1w2越可能是一个搭配。t-检验t C(w1)C(w2)C(w1 w2)w1 w2 4.4721 42 20 20 Ayatolla
11、h Ruhollah 4.4721 41 27 20 Bette Midler 1.2176 14093 14776 20 like people 0.8036 15019 15629 20 time last 通过了t-检验(t 2.756)所以:可以拒绝原假设,因此所考察的bigram形成搭配频率法无法做出判别,因为这些bigram共现频率相同未通过t-检验,(t 2.756)所以:不能拒绝原假设,因此所考察的bigram不形成搭配2检验在搭配研究中,另外一种常用的检验方法是2检验。t-检验假设概率分布为正态分布,这通常并不成立,2检验没有这个要求。2检验的主要思想是对比预期频率以及观察频
12、率,若二者差别较大,则拒绝原假设。最简单的2检验使用22的联列表,分别列出不同的频率2检验?2 用下述公式进行计算这里 i 代表联列表的行,j代表联列表的列,Oij代表单元格(i,j)中的观察值,Eij代表相应单元格的预期值2检验计算预期频率 Eij?原假设假定w1和w2相互独立,所以?E11的值应为17515820846678.NNN=+Expected w1=new w1 new W2=companies 5.17 c(new)x c(companies)/N 15828 x 4675/14307676 4669.83 c(companies)x c(new)/N 4675 x 14291
13、848/14307676 w2 companies 15 822.83 c(new)x c(companies)/N 15828 x 14303001/14307676 14 287 178.17 c(new)x c(companies)/N 14291848 x 14303001/14307676 NppEjiij(*)(*)=2检验计算2值查自由度为1的2值表,置信度为=0.05的2值应为3.84由于1.55 3.84,所以不能拒绝原假设,new companies不形成搭配1.5518628714178.17)287 14181 287(1482315822.83)15820(15466
14、94669.83)(46675.175.17)(822222+=对数似然比2检验对于稀疏数据效果有限,因此若w1、w2在语料库中出现次数很少,通常不使用2检验,对于稀疏数据,常用对数似然比检验法。使用对数似然比检验,对于w1w2通常作下面的假设。?H1(原假设):w2的出现独立于w1。?H2(备择假设):w2的出现依赖于w1。对数似然比可以定义为其中L(*)为似然函数)()(2)(221HLHLloglogvalue_LL=对数似然比若H1成立,则有若H2成立,则有定义似然函数)-;();(1)(1122112,pcnccb,pccbHL=Ncw|wpw|wpp21212)()(=112212
15、2112121)()(cNccw|wppccw|wpp=)-;();(1)(211221112,pcnccb,pccbHL=n-kkppknn,pkb)1();(=互信息点间互信息的概念来自于信息论事件x和y间的互信息描述了:?一个事件中所蕴含的关于另外一个事件的信息量?两个事件之间的关联度?若两个事件独立,则有I(x,y)=0?若两个事件高度依赖,一个出现必然意味着另外一个事件出现,则有)()()()(2ypxpx,yplogx,yI=)(1)()()()()()()(222yplogypxpxplogypxpx,yplogx,yI=互信息假定:c(Ayatollah)=42c(Ruholl
16、ah)=20c(Ayatollah,Ruhollah)=20N=143 076 668则:互信息也给出了w1w2是否可能成为搭配的一种排序。18.38668 307 1420668 307 1442668 307 1420Ruhollah),(Ayatollah2=logI互信息t-检验对于上述个例,互信息和t-检验排序结果相同互信息I(w1,w2)C(w1)C(w2)C(w1 w2)w1 w2 18.38 42 20 20 Ayatollah Ruhollah 17.98 41 27 20 Bette Midler 0.46 14093 14776 20 like people 0.29 1
17、5019 15629 20 time last t C(w1)C(w2)C(w1 w2)w1 w2 4.4721 42 20 20 Ayatollah Ruhollah 4.4721 41 27 20 Bette Midler 1.2176 14093 14776 20 like people 0.8036 15019 15629 20 time last 互信息对于两个事件是否独立可以给出较好的判别。?互信息值接近 0?两个事件相互独立但对于两个事件互相依赖,仅依靠互信息值有缺陷。?互信息值与事件的频率有关?低频率事件有可能获得较高的互信息值,因而对于稀疏数据,互信息结果未必可靠?改进措施 c(w1 w2)I(w1,w2)互信息