2022年大数据分析系统需求 .pdf

上传人:C****o 文档编号:34256408 上传时间:2022-08-15 格式:PDF 页数:13 大小:77.29KB
返回 下载 相关 举报
2022年大数据分析系统需求 .pdf_第1页
第1页 / 共13页
2022年大数据分析系统需求 .pdf_第2页
第2页 / 共13页
点击查看更多>>
资源描述

《2022年大数据分析系统需求 .pdf》由会员分享,可在线阅读,更多相关《2022年大数据分析系统需求 .pdf(13页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、目录大数据分析系统需求天津绍闻迪康科技咨询有限公司2018/5/28 仅为需求基本框架,需要根据贵公司产品、技术路线具体面议。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 13 页 - - - - - - - - - 一、系统定位 . 1二、功能模块 . 22.1 爬虫系统 . 32.1.1 数据源 . 32.1.2 爬虫系统功能 . 32.2 数据处理、存储、计算系统 . 42.2.1 数据处理模块 . 42.2.2 数据存储模块 . 42.2.3 数据计算模块 .

2、52.3 数据分析、可视化系统. 92.4 对外接口 . 10 2.4.1 会员制体系 . 10 2.4.2 其他 . 10 2.5 其他 . 11 2.5.1 数据痕迹 . 11 2.5.2 信息安全 . 11 2.5.3 注意事项 . 11 1、系统定位名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 13 页 - - - - - - - - - 从数据接入到数据应用,我们需要【大数据分析系统】包括几大功能模块:(1)爬虫系统(2)数据处理、存储、计算系统(3)数据人工

3、智能分析、可视化系统(4)外部接口其中第( 3)模块是核心,需要结合我们公司业务方向建设相关的数学模型,进行人工智能的自动分析。爬虫系统可以从指定网站自动的进行信息的抓取,对数据库中的已有词条进行更新或新建,或者从全站按照关键词抓取信息, 更新数据库中词条, 爬虫搜集到的数据也需要存储到系统中。数据库系统可以将公司现有资料分库录入系统,生成词条,词条之间相互关联,可以实现跳转,可视化查看;存储爬虫得到的数据。数据库中的词条或者数据源大多是国外的,例如美国,日本等,涉及到的人物或者其它词条会有多种语言的表达。系统可以结合爬虫的数据、库中本来的数据按照一定内容生成词条自身的时间轴, 多库之间词条的

4、的关系图。系统需要与外部互联的接口,包括微信平台,天蝎系统,邮件营销平台,调查问卷分析平台。2、功能模块名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 13 页 - - - - - - - - - 2.1 爬虫系统2.1.1 数据源1)网站,可能是信息变化不大的静态网站,也可能是信息在实时更新的动态网站, 例如博客或者论坛。 网站库不定时更新。2)数据库,需要模拟登陆,从一些数据库中抓取数据,例如论文或者专利数据库等,可能是从国内或者国外的数据库网站中。3)自媒体,例如F

5、acebook,twitter等,需要从中抓取一些个人信息, 例如一个人的邮箱, 可能需要与公司已有的天蝎系统结合,从天蝎系统已经分析出的个人信息Excel 中抓取所需信息。 (可具体商议)2.1.2 爬虫系统功能1)爬虫系统需要从指定数据源网站中实时抓取信息,通过实体抽取, 和数据库中的词条进行关联,自动更新数据库中已有的词条。2)可以设定关键词,从全站以及所有数据源中抓取信息,进行数据处理后,按照词条准确匹配,存入数据库;3)可以按照用户指定的关键词在指定的网站中抓取信息,生成结果。4)爬虫得到的信息生成的报告等可以进行导出。名师资料总结 - - -精品资料欢迎下载 - - - - - -

6、 - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 13 页 - - - - - - - - - 数据处理在更新或增加词条时需要将抓取到的信息与词条中的属性进行匹配,将对应的信息录入。可以是实时更新,自动匹配更新;可以是非实时的,有一定的人工干预。由于库中数据有一大部分是国外的, 有一些属性的显示方式并不唯一,需要有一定的匹配规则。2.2 数据处理、存储、计算系统2.2.1 数据处理模块系统需要可以对导入系统的文档等数据和爬虫得到的数据进行数据的预处理,进行分词切词,实体抽取(可能为中英日文)。需要可以自动增加新词条,对比现有词条实现词条

7、的实时更新;或者也可以非实时更新可以有一定的人工干预,进行词条的半自动化增长。处理过程需要考虑处理的规则和词条匹配的规则。2.2.2 数据存储模块存储在数据库中的数据分为几部分:1) 结构化数据分词条存储在数据库中,词条分为:调研人物库,专家库,论文库,专利库,领域库,专题库,快讯库。还需要存储词条的一些非业务属性:词条的负责人,参与人,时间周期,存储词条本身的时间轴,上传的名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 13 页 - - - - - - - - - 联系

8、痕迹等。2) 非结构化存储爬虫来的网页,文档(PDF 、Word 、Excel 、PPT 、图片、视频)图片,视频。2.2.3 数据计算模块数据库系统含有以下词条库:(1)调研人物库:生成人物简历,信息包括:照片,姓名。基本信息:单位,语言,国别,生日,所在地,曾住地。联系方式:电话传真 邮箱 即时通讯方式教育经历:时间学习单位专业 学历/ 学位工作经历:时间工作单位职位 备注官方网站:官方人物数据库社会人物数据库学术情况:研究领域论文情况:包括引用次数的表格和具体论文。专利情况编写书籍参与会议表格所受奖励表格合作项目:次数跨度涉及单位具体合作事件社会活动:媒体采访政治活动来华交流国内外自媒体

9、:在国外社交网站上的交友列表人脉关系:总结(共多少人等)姓名、职位的表格家庭情况调研总结及合作建议:调研总结合作建议名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 13 页 - - - - - - - - - 原始信息来源网站原始文档(2)专家库:生成专家简历,包括:照片,姓名基本信息:国籍出生年月出生地语言 种族联系方式:电话邮箱教育情况工作情况合作情况所属学会、协会或团体其他信息:研究领域获奖 头衔原始文档(3)领域库:有一定的分类,信息包括:从事研究相关领域的人员信

10、息:包括姓名,所在地,毕业院校,单位等从事相关行业的公司、机构信息:分国别进行公司介绍包括:名称,类型,地址,联系方式等本领域的研究成果等领域相关的会议,事件等信息:会议举办时间,主要参与人员,地点,名称。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 13 页 - - - - - - - - - 领域相关论文资料:论文名称,发表日期,作者等。领域相关:专题报告,名称,原始文件(4)专利库:信息包括:专利名称专利申请时间,国别专利相关领域,专利涉及单位或学校专利涉及人员(

11、5)论文库:信息包括:论文题目,作者,国别所属领域发表时间论文原文(6)专题库:将之前写过的专题报告做整理,信息包括:题目,提交时间,具体报告:可以查看。(7)快讯库:之前写过的快讯导入,或者手动添加,内容名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 13 页 - - - - - - - - - 为:快讯标题,添加时间,领域,具体内容,原始文档。系统本身包含以上几种词条库,库中数据实现可视化查看:1)以上数据首先需要从公司已有的文档中导入,自动匹配词条的属性, 生成词条

12、的可视化列表,其中词条的每一个属性作为一个标签, 用户可以自己勾选需要的属性,自定义在页面中显示。2)需要针对不同的国别对词条设置待遇、晋升机制的参考值:针对不同国家公务员,科研机构,高等院校有不同的待遇参考标准,需要在录入词条时能够人工选择,可以进行可视化对比。3)库中数据可以进行导入导出。4)数据库中每一个词条都要有相应的负责人,参与人,每一个词条都要有相应的创建更新时间和修改、更新浏览痕迹以及修改内容。对于一些词条, 员工可以上传关于此词条的联系痕迹,比如,专家库中,员工可以上传一些和这个专家的联系记录。系统可以统计每个员工使用了多少词条,进行可视化查看。名师资料总结 - - -精品资料

13、欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 13 页 - - - - - - - - - 系统中的存储数据主要包括结构化数据:词条数据; 非结构化数据:爬虫系统爬取的或者第三方导入的网页、文档(PDF 、Word、Excel 、PPT 、图片、视频)等。2.3 数据分析、可视化系统系统需要能够进行关联分析,生成可视化列表,主要功能为:1. 库中结构化数据本身要进行关联分析,不同库中的词条会有属性能够进行相互关联,点击一个库中某一词条的相关属性可以进行跳转到另一库中的相关词条中。 2.可以根据一个关键

14、词, 从已有数据库全部词条库、库中存储的非结构化数据(爬虫数据等)中提取出来,形成关系图。如人物关系图或者机构关系图。若是输入人物希望包含人物的人际关系图,排出交友情况,公司,领域,会议,研究等相关信息,交友情况要根据人物共同出现的次数排序。若是输入公司或者机构可以查看公司地点,国家,类型,建立日期公司或机构的人员,分支机构等基本情况。 若输入会议名称可以看到会议举办方,举办地点,主题,涉及领域,参会人员等。若输入领域可以查看领域相关的科研人员,领域得到研究成果,相关论文,研究机构等。关联需要可以查看到信息来源。3. 进行多维度分析, 例如人物库中, 可以生成一个人的时间轴,记录这个人的主要事

15、件。可以生成这个人的兴趣爱好图,家人关系图等。行业技术机构库中可以生成主要事件的时间轴等。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页,共 13 页 - - - - - - - - - 4. 输入两个关键词可以生成这两侧关键词之间的关系图,可以显示出多层关联,可以查看每层关联的证据。5. 可以对同一库中数据进行模糊查询,全文检索, 或者按属性条件进行各种组合的筛选查询。6. 可以实现 2-3 同库词条的的对比,可视化展示出来。2.4 对外接口2.4.1 会员制体系与微信开

16、发对接, 实现推送消息半自动化导入,系统数据库可以作为一项客户服务对用户有权限开放。1. 与公司已有的会员制微信体系的对接,系统后期作为客户可以使用的数据库商品,作为一项客户服务对用户有权限开放:需要可以把控客户的使用权限,让客户可以自动化便捷的使用数据库服务。2. 实现推送消息半自动化导入,能够将系统抓取的数据导出,可以人工的方式导入,进行微信的推送。2.4.2 其他1.可能与公司已有天蝎系统对接,实现一定格式的文档的导入作为爬虫系统的数据源。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - -

17、 - 第 11 页,共 13 页 - - - - - - - - - 2.可能与外部邮件营销系统对接,记录员工发送邮件地址,记录等。3.可能与调查问卷分析平台对接,将调查问卷的分析结果导入等。2.5 其他2.5.1 数据痕迹1.系统要有内部行为记录,可以查看:员工修改记录:查看修改词条痕迹以及具体的修改内容,员工使用记录;2.有外部行为记录:记录客户的查看信息,记录用户行为,可以对客户行为进行一定的分析。2.5.2 信息安全1. 系统需要注重系统中的数据信息安全,设置接口可以在文档上传到系统时将公司文档防泄密软件的加密文件解密。2. 可以在从系统传到微信或导出时将文档解密正常的查看;导出的推送

18、报告要有隐藏的水印。2.5.3 注意事项1. 系统可能分为几期开发。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 12 页,共 13 页 - - - - - - - - - 2. 爬虫系统需要考虑由于涉及数据源可能为海外,主要为英语和日语,国外网站会有不同的反爬机制。3. 需要驻场对接,更好的梳理了解公司业务逻辑。4. 系统完成后需要培训教程,帮助员工快速使用。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 13 页,共 13 页 - - - - - - - - -

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高考资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁