《大数据计算平台建设方案.doc》由会员分享,可在线阅读,更多相关《大数据计算平台建设方案.doc(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据计算平台建设方案1.1 需求概述根据应用,这个项目数据量30T,企业数据量非常大,需要大量并发,网络爬虫爬取的企业数据信息存储在数据中心。 此数据量跟企业记录相关。 同时,需要对清洗后的记录和计算好的推荐结果进行存储,但是这些数据不放在数据中心。此项目之后会做成实时计算,需要用到流式计算的相关计算和调度。计算量很大,可以多部署 DCS 进程,提高计算并发度,作业调度也要采用分部署调度架构。1.2 总体设计云数据采集中心与大数据计算平台的关系是,云数据采集中心提供存储和计 算资源,通过 API 的方式访问资源,大数据计算平台主要实现核心算法,包括图 像匹配算法,挖掘算法,智能推荐算法,知识
2、学习算法等等,也能够通过 API的方式建立统计应用、智能推荐应用等等。大数据计算平台 的需要的数据:包括网上实时爬取得、二次计算分析而获取的等等,都通过通用接口存储在云数据采集中心的分布式存储平台中(分布式文件 系统(S2DFS)、分布式数据库(D2B)。计算时候,通过接口发起作业,由云 数据采集中心的作业调度服务进程(JSS)负责调度,由数据计算服务进程(DCS) 负责计算处理,并把结果反馈给大数据计算平台的各个应用。根据 2.1.2 小节对 S2DFS分布式文件系统的详细介绍,本章节就不重复叙述, 由于要增加新的存储设备,对于新设备上安装分布式文件系统是否继续选用 S2DFS 还是 HDF
3、S,我们需要回答以下几个问题:第一,预算增加及扩展问题:要部署 HDFS,还得单独购买两台高性能设备 作为 HDFS 的元数据库服务器(注:两台设备,构成主备;配置不能 比我们现在选择的设备配置差,不然就会成为瓶颈,如果差了,数据 节点就扩展不了几台。)。第二,学习成本及进度问题:要使用 HDFS,必须熟悉它的 API,以及后面 带来的整个 HDFS 集群部署维护等工作,这个与可利用的团队资源相 冲突;S2DFS 提供标准的 POSIX 协议接口,应用程序代码不需作任 何改变就可以执行。如果采用 HDFS,为了保证应用系统的透明,那 么统一接口的底层必须要写两种代码,第一是对面 S2DFS,第
4、二是面 对 HDFS。新增加了开发、维护、测试的时间。第三,空间浪费及孤岛问题:S2DFS 与 HDFS 是两套不同体系的文件系统, 他们之间设备及存储空间是不能共用的,后面增加的6台,设备存储与前面部署的 10 台设备通过对原始数据处理压缩后,存储空间还有多余。二者构成了孤岛,同时造成空间浪费。第四,应用场景问题:HDFS 对存储网页等文件比较友好,毕竟它的基因就 是为互联网搜索而开发出来的。1.3 数据模型设计数据模型主要主企业数据模型与投资商数据模型两个部分。1.1.1 企业数据模型字段名备注name公司名称econ_kind企业类型regist_capi注册资本scope经营范围ter
5、m_start营业开始日期term_end营业结束日期belong_org所属工商局oper_name法人start_date成立日期status在业employees.job_title主要人员职位employees.sex主要人员性别employees.name主要人员姓名branches.name分支机构名称changerecords.change_item变更项目changerecords.change_date变更日期changerecords.before_content变更前内容changerecords.after_content变更后内容partners.stock_name
6、股东姓名partners.stock_type股东类型partners.identify_type证照/证件类型partners.identify_no证照/证件号码partners.should_capi_items.shoud_capi认缴出资额partners.should_capi_items.invest_type出资方式partners.should_capi_items.should_capi_date出资时间partners.real_capi_items.real_capi实缴出资额partners.real_capi_items.invest_type出资方式partner
7、s.real_capi_items.real_capi_date实缴时间1.1.2 投资商数据模型字段名备注name投资商名称econ_kind企业类型regist_capi注册资本scope经营范围term_start营业开始日期term_end营业结束日期belong_org所属工商局oper_name法人start_date成立日期status在业employees.job_title主要人员职位employees.sex主要人员性别employees.name主要人员姓名branches.name分支机构名称changerecords.change_item变更项目changereco
8、rds.change_date变更日期changerecords.before_content变更前内容changerecords.after_content变更后内容partners.stock_name股东姓名partners.stock_type股东类型partners.identify_type证照/证件类型partners.identify_no证照/证件号码partners.should_capi_items.shoud_capi认缴出资额partners.should_capi_items.invest_type出资方式partners.should_capi_items.should_capi_date出资时间partners.real_capi_items.real_capi实缴出资额partners.real_capi_items.invest_type出资方式partners.real_capi_items.real_capi_date实缴时间Investment_industry投资行业investment投资金额