智能计算助力互联网的进化44910.pptx

上传人:jix****n11 文档编号:77555623 上传时间:2023-03-15 格式:PPTX 页数:22 大小:685.36KB
返回 下载 相关 举报
智能计算助力互联网的进化44910.pptx_第1页
第1页 / 共22页
智能计算助力互联网的进化44910.pptx_第2页
第2页 / 共22页
点击查看更多>>
资源描述

《智能计算助力互联网的进化44910.pptx》由会员分享,可在线阅读,更多相关《智能计算助力互联网的进化44910.pptx(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、 主讲人:周富秋主讲人:周富秋 博士博士20092009年年1111月月2424日日智能计算助力互联网的进化公司简介海量公司是一家从事中文智能计算和数据挖掘的理论研究及技术开发的知识性创新企业,长期致力于智能计算的研究及其在互联网的应用从字符到语义从非结构化到结构化行为分析在核心技术基础上,提供智能计算基础件产品和互联网内容挖掘服务 互联网现状(1)CNNIC的最新报告显示,截止今年6月30日,我国网民规模、宽带网民数、国家顶级域名注册量三项指标持续稳居世界第一,其中:国家顶级域名注册量达 1296万网民规模达 3.38亿,较去年底增长 13.4%宽带网民规模达 3.2亿,占总网民数的 94.

2、3%手机上网用户达 1.55亿,半年内增长了 32.1%网络普及率达 25.5%互联网现状(2)纵观全球:互联网每天的点击数有 1000亿 次全球所有的网页之间有 55万亿 个连接互联网中有 10亿 个芯片每秒 2百万 封邮件;3.1万 条短信246HB 的存储空间-多么大的一个磁盘互联网上每秒产生的流量有 7TB 之多互联网消耗了全球电力的 5%互联网现状(3)数据累积量急剧增长、大量有价值的信息被淹没,呈现“信息过剩”信息是异域、异构、非结构化的,呈现“信息孤岛“实质“资源利用率低”:Google VS 百度互联网阴霾之概括:多 信息过量、难以消化杂 信息真假、难以识别乱 信息安全、难以保

3、证难 信息形式不一、难以统一处理互联网未来转量变为质变依赖网站模式创新:原创型、专业性、地域性、互动性。网站技术创新:智能计算、数据挖掘、信息融合。以内容为纽带,将整个互联网搭建成一个语义逻辑整体 从字符到语义篇章内篇章间篇章外词实体自然语言分词应用层次研究层次命名实体、事件、主题标注关键词技术知识网络:概念树自动消重无指导自动聚类半监督自动分类技术有指导自动分类(层级分类)命名实体识别新词发现知识网络:实体属性-关系库机器翻译NLP搜索基于命名实体的聚类基于命名实体的分类基于命名实体的关联半监督学习 从非结构化到结构化网页文本pdf图像影像非结构化不可计算定义类型属性运算逻辑值域结构化可计算

4、H2X信息抽取技术视觉还原技术版式识别技术 创建知识网络NBA科比麦迪乔丹朱芳雨CBA姚明链接中国男篮与美国男篮的桥梁通过命名实体识别、实体间关系挖掘获得关系统计数据,从而在互联网的海量数据中发现潜在的规律刘玉栋王治郅姚明即是NBA的强链接,又是NBA群与CBA群间的桥梁结构洞弱链接与强链接:发现潜在的信息桥梁解决方案:海纳在线数据挖掘服务格式分析HTML语法分析OCR、OFFICE/PDF等文档内容提取*版式分析基于视觉的模式识别体裁分析*语法分析词法分析句法分析、语体分析*语义分析命名实体识别信息抽取*形式化分析自然语言分析结构化信息RDF、RDF SchemeDOC,XLS,PDF,DB

5、图像,音频,视频TXT,XML,HTML解决方案:延伸阅读-用户体验和智能对应某发布网页,通过增加一些相关的文章题目与摘要,引导读者阅读更多的内容利用实体识别与关系分析等智能计算手段,实现 聚类、实体与主题提取精彩计算,随需而变点亮阅读、增加粘度 降低制作成本、盘活已有资源更精准,更易于互动、实现个性化传统的方法:热点词-只有发生了很久,才能通过统计得知是热点现在的方法:时间维度与类别维度-满文军 是明星,萧淑慎 是明星,吸毒只要和这些人相关就是敏感新闻未来的方法:时间维度,同现维度及敏感维度-大批银行倒闭之后,必然是经济危机的开始,于是可以预测未来解决方案:热点发现、跟踪与预测(1)未来的方

6、法乔布斯 披露健康状况 苹果 股票应声上涨乔布斯 宣布要休病假 苹果 股票应声下跌10 乔布斯与苹果股价:一种稳定的关系人物乔布斯杨惠妍巴菲特股票中石化中石油苹果乔布斯的健康情况直接影响到了苹果股价解决方案:热点发现、跟踪及预测(2)解决方案:智能检索与推送用户行为分析、意图识别、智能引导买房房地产房贷新盘0.10.50.2房价0.4时序统计房产名称专家预测用户行为分析命名实体属性库实体关系库 解决方案:舆情分析与跟踪别克昂克雷在论坛、博客等识别出的命名实体将可以获取民间的产品评价为什么要识别?句子中会有歧义,错误的提取产品名将会导致错误的分析基于知识网络的智能计算:实现通过网络了解民情、汇聚

7、民智通过用户行为分析,采用相应的多维度的兴趣描述、多方面的推送策略词群资讯分类知识树父节点敏感性T男女喜好年龄偏好总频率姚明、火箭NBA当下不敏感偏男性/80%14404117932贷款、房产房地产当下敏感偏男性/75%2450562144LV,PRADA流行当下不敏感偏女性/90%16353127针对男性、2440进行聚类,获得一个个子群体,通过更多的词群予以表示解决方案:个性化服务解决方案:网站净化服务“和讯网”垃圾帖过滤净化-疏导助力客户增效,即提升清除效果、网站运营、品牌价值省力,即节省人力、财力、心力创建稳定、和谐的网站环境达到客户期望的效果人员等成本节省 60%以上持续保持处理正确率 90%以上724 小时不间断服务10秒 内自动处理解决方案:网站净化服务(案例)互联网数据/内容挖掘路径主题抽取、深度标引比对、统计形成二次情报对决策具有指导意义知识情报消重、结构化、索引、分类具备基本利用价值信息广泛采集数量大价值低数据“海量”时代的到来信息匮乏新浪搜狐网易信息爆炸百度信息搜索海量深度挖掘媒体网站的未来将互联网的数据转换为情报/知识 情报/知识转换为决策 决策转换为利润 将媒体网站建成 安全网、诚信网、绿色网谢谢!

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 技术总结

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁