基于Web的比较式挖掘研究-中文信息技术专业委员会.ppt

上传人:得****1 文档编号:75980004 上传时间:2023-03-06 格式:PPT 页数:25 大小:1.29MB
返回 下载 相关 举报
基于Web的比较式挖掘研究-中文信息技术专业委员会.ppt_第1页
第1页 / 共25页
基于Web的比较式挖掘研究-中文信息技术专业委员会.ppt_第2页
第2页 / 共25页
点击查看更多>>
资源描述

《基于Web的比较式挖掘研究-中文信息技术专业委员会.ppt》由会员分享,可在线阅读,更多相关《基于Web的比较式挖掘研究-中文信息技术专业委员会.ppt(25页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、基于协同图排序的对比新闻自动摘要黄小江 万小军 肖建国北京大学计算机科学技术研究所北京大学计算机科学技术研究所研究背景n比较是一种重要的认知方式优劣、趋势、规律n互联网媒体的迅速发展n新闻分析技术的快速进步主题检测、相关推荐2 北京大学计算机科学技术研究所任务定义n比较语义n两个或多个对象在某个维度上的相同/不同形式n相对描述智利比海地贫困n绝对描述智利是一个富裕国家海地是一个极度贫困的国家3 北京大学计算机科学技术研究所任务定义n新闻话题一个种子事件或活动所有直接相关的事件和活动例:地震n发生n救援n重建n4 北京大学计算机科学技术研究所任务定义n新闻话题对比相关话题n奥巴马竞选活动n罗姆尼

2、竞选活动相关新闻要素n筹款能力n经济主张n外交主张n5 北京大学计算机科学技术研究所任务定义n对比新闻摘要内容n概括两个可比话题之间的共同点和不同点形式n两部分文本n每部分描述一个话题n两部分讨论话题中可比较的特性要求n对比性、代表性、全面性、可读性6 北京大学计算机科学技术研究所任务定义n对比新闻摘要北京时间5月12日14时28分,位于北纬31度、东经103.4度的四川省汶川县发生里氏7.8级地震,造成重大人员伤亡和重大财产损失。截至13日7时,四川汶川县地震已造成四川、甘肃、陕西、重庆、云南、山西、贵州、湖北8省市共11921人遇难,倒塌房屋50余万间。至15日上午,参与救援行动的解放军和

3、武警官兵、公安民警、干部群众和医务工作者等救援人员已从灾区抢救出伤员6万多人。4月14日7时49分,青海省玉树藏族自治州玉树县发生7.1级地震,给当地人民群众生命财产造成严重 损失。截至北京时间15日上午9时,发生在中国青海玉树的地震已经造成617人遇难,313人失踪,9110 人受伤,其中,970人伤势严重。截至17日,已调集至玉树震灾现场的各类救援人员达到15000余 人,累计搜救营救被困群众17000人。7 北京大学计算机科学技术研究所基于协同图排序的摘要方法n摘要系统框架新新新新闻闻话题话题11新新新新闻闻话题话题22预处理理句子挑句子挑选对比性比性代表性代表性全面性全面性句句子子排排

4、序序对对比比比比摘要摘要摘要摘要8 北京大学计算机科学技术研究所基于协同图排序的摘要方法n句子重要性对比性n与对比话题中的其他重要句子具有强对比性,则此句子重要代表性n与本话题中的其他重要句子具有强相似性,则此句子重要9 北京大学计算机科学技术研究所基于协同图排序的摘要方法n句子重要性对比性代表性10 北京大学计算机科学技术研究所基于协同图排序的摘要方法n句子关系图11 北京大学计算机科学技术研究所基于协同图排序的摘要方法n话题内代表关系基于句子之间的相似度tfisf 模型12 北京大学计算机科学技术研究所基于协同图排序的摘要方法n话题间对比关系对比程度n讨论事件属性的相关性梅西获得了2010

5、 年世界足球先生称号C.罗纳尔多是2009 年世界足球先生n比较点(属性名):名词/动词性n比较结果(属性值):形容词/副词/数词性13 北京大学计算机科学技术研究所基于协同图排序的摘要方法n话题间对比关系保留名词、动词tfisf 模型14 北京大学计算机科学技术研究所基于协同图排序的摘要方法n句子重要性对比性代表性15 北京大学计算机科学技术研究所基于协同图排序的摘要方法n句子选择贪心算法排序值更新n提升不同话题中的可比句子得分(可比性)n惩罚相同话题内的相似句子得分(冗余性)16 北京大学计算机科学技术研究所实验评估n数据集5组英文话题话题话题1话题话题2E1Haiti Earthquak

6、eChile EarthquakeE2Chilean Mining AccidentNew Zealand Mining AccidentE3Iraq WithdrawalAfghanistan WithdrawalE4Apple iPad 2BlackBerry PlaybookE52006 FIFA World Cup2010 FIFA World Cup17 北京大学计算机科学技术研究所实验评估n数据集5组中文话题话题话题1话题话题2C1汶川地震玉树地震C22009 年诺贝尔奖2009 年诺贝尔奖C32009 年奥斯卡奖2010年奥斯卡奖C4苹果iPad 2黑莓PlaybookC5200

7、6 年世界杯2010年世界杯18 北京大学计算机科学技术研究所实验评估n评价方法ROUGEn基于候选摘要与参考摘要之间的重叠程度nROUGE-2,ROUGE-SU4M-ROUGEn两部分摘要的ROUGE平均nM-ROUGE-2,M-ROUGE-SU419 北京大学计算机科学技术研究所实验评估n摘要模型Manifold/M:传统摘要,混合抽取Manifold/S:传统摘要,分别抽取CoRank/S:协同图计算,分别抽取CoRank/U:协同图计算,统一抽取20 北京大学计算机科学技术研究所实验评估n实验结果(英文)ROUGE-2ROUGE-SU4M-ROUGE-2M-ROUGE-SU4Manif

8、old/M0.1970.2440.1480.186Manifold/S0.2040.2380.1660.193CoRank/S0.2190.2630.1720.213CoRank/U0.2510.2920.1820.21921 北京大学计算机科学技术研究所实验评估n实验结果(中文)ROUGE-2ROUGE-SU4M-ROUGE-2M-ROUGE-SU4Manifold/M0.1330.1540.1120.130Manifold/S0.1280.1540.1080.131CoRank/S0.1400.1620.1150.137CoRank/U0.1570.1790.1420.16122 北京大学

9、计算机科学技术研究所23 北京时间5 月12 日14 时28 分,位于北纬31 度、东经103.4度的四川省汶川县发生里氏7.8 级地震,造成重大人员伤亡和重大财产损失。地震发生后,9000 多名解放军和武警官兵紧急调动赶赴地震灾区参加救灾行动。中国地震局启动了一级预案,由184 人组成的国家地震灾害紧急救援队和40 人组成的国家地震灾害现场工作队已抵达成都,正连夜乘坐军用卡车奔赴汶川地震灾区。汶川县干部群众正奋力抗震抢险。国家民政部会同财政部向四川地震灾区紧急下拨2 亿元中央自然灾害生活补助应急资金,帮助地震灾区群众解决生活困难。4 月14 日7 时49 分,青海省玉树藏族自治州玉树县发生7

10、.1 级地震,给当地人民群众生命财产造成严重损失。另据中国地震网消息,在7 时49 分的7.1 级地震前,还连续发生数次4 级以上地震。地震发生后,根据国务院的指示,中国地震局下达了派遣地震灾害紧急救援队伍的命令,启动地震应急救援协作联动机制,命令国家地震灾害紧急救援队和青海、西藏、甘肃、陕西、宁夏等地震灾害紧急救援队和现场应急工作队伍赶赴地震灾区开展抢险救援工作。玉树地震发生后,不少单位和个人纷纷伸出援手,为地震灾区群众捐款捐物。北京大学计算机科学技术研究所结论&展望n结论利用对比性和代表性,相互增强计算重要程度摘要句抽取考虑对比性和信息冗余n展望引入语义信息,计算句子之间的对比程度区分话题之间的共同点和不同点多话题、跨语言新闻对比24 Q&A谢谢!25/76

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁