大规模14亿中文知识图谱数据我把它开源了.docx

上传人:安*** 文档编号:73276553 上传时间:2023-02-17 格式:DOCX 页数:8 大小:18.90KB
返回 下载 相关 举报
大规模14亿中文知识图谱数据我把它开源了.docx_第1页
第1页 / 共8页
大规模14亿中文知识图谱数据我把它开源了.docx_第2页
第2页 / 共8页
点击查看更多>>
资源描述

《大规模14亿中文知识图谱数据我把它开源了.docx》由会员分享,可在线阅读,更多相关《大规模14亿中文知识图谱数据我把它开源了.docx(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、大规模1.4亿中文知识图谱数据,我把它开源了|Just出品|AI科技大本营ID:rgznai100人工智能从感悟阶段逐步进入认知智能的经过中知识图谱技术将为机器提供认知思维才能以及关联分析才能可以应用于机器人问答系统、内容推荐等系统中。不过要降低知识图谱技术应用的门槛也需要公共平台上沉淀的各种数据以及技术。要构建知识生态共同奉献知识是关键。如今一个名为OwnThink的平台在GitHub上开源了中文知识图谱工程这也是目前已开源的最大规模的中文知识图谱数据是以实体、属性、值实体、关系、实体混合的形式组织数据格式采用csv格式总共有1.4亿个三元组。AI科技大本营ID:rgznai100采访了该知

2、识图谱开源工程的算法工程师Yener他是开源平台OwnThink的主要从事知识图谱、对话机器人、语义理解方面的研究。他表示知识图谱的开发经过是一个标准的百科知识图谱构建流程数据抽取来源于构造化数据、半构造化数据、非构造化数据对各大百科进展抽取后再对知识进展交融、实时更新等一系列操作。这个工程终究如何先给出GitHub链接s:/github/ownthink/KnowledgeGraphData在其官网上AI科技大本营尝试使用了其知识图谱功能窗口。在输入“周杰伦后会看到与其相关的大量链接实体。值得一提的是除了开源知识图谱工程外OwnThink平台还开放了对话机器人、语义理解、自然语言处理工具。机

3、器人采用了基于知识图谱的语义感悟与理解自然语言处理工具包的功能有中文分词、词性标注、命名实体识别、关键词提取、文本摘要、新词发现、情感分析等。以下为其1.4亿知识图谱数据下载途径同时还可以从网站上获取歧义关系、获取实体知识、获取属性值。数据下载方式百度网盘链接:s:/pan.baidu/s/1LZjs9Dsta0yD9NH-1y0sAw提取码:3hpp注解压密码是OwnThink首页地址s:/ownthink/解压后查看知识图谱规模$wc-lownthink_v2.csv140919781ownthink_v2.csv查看知识图谱数据$headownthink_v2.csv实体,属性,值胶饴,

4、描绘,别名:饴糖、畅糖、畅、软糖。词条,描绘,词条拼音ctio也叫词目是辞书学用语指收列的词语及其释文。词条,标签,文化红色食品,描绘,红色食品是指食品为红色、橙红色或者棕红色的食品。红色食品,中文名,红色食品红色食品,是否含防腐剂,否红色食品,主要食用成效,预防感冒缓解疲劳红色食品,适宜人群,全部人群红色食品,用处,增强表皮细胞再生以及防止皮肤衰老使用python进展读取测试importsysimportcsvwithopen(ownthink_v2.csv,r,encodingutf8)asfin:readercsv.reader(fin)forindex,readinenumerate(

5、reader):print(read)ifindex10:sys.exit(0)运行以上脚本输出结果 实体,属性,值胶饴,描绘,别名:饴糖、畅糖、畅、软糖。词条,描绘,词条拼音ctio也叫词目是辞书学用语指收列的词语及其释文。词条,标签,文化红色食品,描绘,红色食品是指食品为红色、橙红色或者棕红色的食品。红色食品,中文名,红色食品红色食品,是否含防腐剂,否红色食品,主要食用成效,预防感冒缓解疲劳红色食品,适宜人群,全部人群红色食品,用处,增强表皮细胞再生以及防止皮肤衰老红色食品,标签,非科学红色食品,标签,生活以下为AI科技大本营对OwnThink平台的Yener的对话内容AI科技大本营知识图

6、谱工程是怎样启动的您一个人开发吗效劳器资源及维护费用怎样解决Yener我是一名人工智能爱好者在人工智能方面不断努力着祈望有一天可以出现独立考虑的人工智能机器人。为了可以实现这样的机器人自己经常在考虑人是怎样学习的人是怎样理解的人的考虑方式是怎么样的考虑的经过中我发现人在考虑的时候好似总有一团知识混沌体围绕着自己考虑的主题也就是相关的知识当时自己就提出了一种叫“关联图谱的概念这个图谱可以从一个知识联想到另外一个知识知识之间可以包含有明确关系的关联关系可以以包含有潜移默化的关联关系。在学习与实现的经过中发现谷歌在2021年度发布了以及自己所想的类似概念叫“知识图谱后面也就将有明确关系的关联局部从“

7、关联图谱中单独拆分出来以“知识图谱这个概念为准了。OwnThink的知识图谱工程是我一个人做的并且在2017年度开场对外开放。这个工程主要是用个人业余时间来维护效劳器资源是自己掏钱买的云效劳器当然还有网友的捐赠支持这里也非常感谢那些帮助过、关心过OwnThink的人工智能爱好者。AI科技大本营简单介绍下这个知识图谱工程开发的经过Yener知识图谱的开发经过是一个标准的百科知识图谱构建流程数据抽取来源于构造化数据、半构造化数据、非构造化数据对各大百科进展抽取后再对知识进展交融、实时更新等一系列操作。非构造化抽取采用的是结合信息抽取模型数据标注格式也是采用的实体、属性、值或实体、关系、实体的混合标

8、注形式标注完就是常规训练、调参了。AI科技大本营为什么要开源Yener我是一名人工智能爱好者也非常期待可以独立考虑的人工智能机器人到来的那一天为了尽自己的一份绵薄之力将这个知识图谱工程开源让大众去解析知识图谱去免费使用知识图谱。AI科技大本营对开发者和构建行业知识图谱的企业有什么好处Yener知识图谱构建重要的是一个思想不管百科类的知识图谱还是金融知识图谱或是医疗知识图谱其实构建思想都是一样的。大众可以直接使用这个知识图谱当然假如是想要构建行业知识图谱这个工程可以以给大众提供一个参考可以帮助开发者快速去解析知识图谱、去构建自己所需要的行业知识图谱。AI科技大本营后续的更新方案是如何的Yener

9、目前这个知识图谱已经做到实时更新只需要对效劳器进展续费即可后续的开展方案是交融行业的知识图谱知识比方讲金融知识图谱、医疗知识图谱等等这些知识其实对行业是非常有用的以后大众可以直接使用当然数据也将会继续开源下载。AI科技大本营OwnThink还开放了对话机器人、知识图谱、语义理解、自然语言处理工具还会推出其他开源工程么OwnThink平台最终会朝什么方向开展Yener我们后续的开源工程是语音识别以及语音合成这是人工智能机器人链路上不可获取的一项技能人是有感悟以及认知的机器人也一样语音识别以及语音合成是感悟层对话机器人是属于认知层有了感悟以及认知才能算一个比拟完好的人工智能机器人语音识别以及语音合

10、成开源工程应该会在2020年度开场后续大众可以以在开源平台上clone然后直接使用这些工程。OwnThink最终的方向是类似于Wikipedia这样的组织我们将开放接口调用也将开源数据下载当然也会开源代码工具等。AI科技大本营做开源这件事的源动力是什么Yener最大的动力其实就是我的人工智能梦。兴趣是最好的教师目前我所做的也都是兴趣驱动。祈望有更多的爱好者参加我们为开源工程做奉献。*本文为AI科技大本营原创文章转载请微信联络1092722531精彩推荐2019中国大数据技术大会BDTC再度来袭豪华主席阵容及百位技术专家齐聚15场优选专题技术以及行业论坛超强干货技术剖析行业理论立体解读深化解析热门技术在行业中的理论落地。即日起限量5折票开售数量有限扫码购置先到先得推荐浏览程序员

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 工程图纸

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁