基于Spark的机器学习资料48、系统整体架构再次介绍+技术串联介绍(将学习的技术全部整合到项目中).pdf-淘文阁

资源描述

《基于Spark的机器学习资料48、系统整体架构再次介绍+技术串联介绍(将学习的技术全部整合到项目中).pdf》由会员分享，可在线阅读，更多相关《基于Spark的机器学习资料48、系统整体架构再次介绍+技术串联介绍(将学习的技术全部整合到项目中).pdf（1页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、系统整体架构再次介绍+技术串联介绍项目结构：ETL-Mongodb-IK-HDFS-Spark ML/Spark Streaming-Kafka 课程学到的技术：scala、IK、Hdfs、Spark ML、Spark Streaming、Spark SQL、Kafka、Zookeeper、Mongodb、Spring-data-mongodb 等项目需要的工程结构：1、父类工程，主要是管理各个 jar 的版（ml-sdk）-java 实现 2、avro 序列化 jar，用于客户端和机器学习实现序列化和反序列化（*-store-api）-java 实现 3、kafka 发送数据 jar，给

2、 app 调用并实现切词并发送数据到 kafka（*-avro-kafka）-java 实现 4、工具类 jar，实现操作 hdfs、切词以及操作 mongodb（*-extract-facade）-java 实现 5、操作类 jar，调用工具类具体进行切词以及数据清洗并且存储到 Hdfs（*-extract）-java 实现 6、机器学习集合 jar，主要用来存放 record（ml-common）-scala 实现 7、机器学习算法 jar，主要进行 tf-idf 以及 kmeans 计算，主要实现企业上下游、供求上下游模型计算（ml-kmeans）-scala 实现 8、流式计算 jar，主要是接受客户端发送到 kafka 的数据加载模型进行计算（ml-kmeans-streaming）-scala 实现 9、测试模拟 jar，主要模拟实现用户加载 avro 序列化 jar 写数据到 kafka（*-test）-java 实现

展开阅读全文