《基于Spark的机器学习资料48、系统整体架构再次介绍+技术串联介绍(将学习的技术全部整合到项目中).pdf》由会员分享,可在线阅读,更多相关《基于Spark的机器学习资料48、系统整体架构再次介绍+技术串联介绍(将学习的技术全部整合到项目中).pdf(1页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、系统整体架构再次介绍+技术串联介绍 项目结构:ETL-Mongodb-IK-HDFS-Spark ML/Spark Streaming-Kafka 课程学到的技术:scala、IK、Hdfs、Spark ML、Spark Streaming、Spark SQL、Kafka、Zookeeper、Mongodb、Spring-data-mongodb 等 项目需要的工程结构:1、父类工程,主要是管理各个 jar 的版(ml-sdk)-java 实现 2、avro 序列化 jar,用于客户端和机器学习实现序列化和反序列化(*-store-api)-java 实现 3、kafka 发送数据 jar,给
2、 app 调用并实现切词并发送数据到 kafka(*-avro-kafka)-java 实现 4、工具类 jar,实现操作 hdfs、切词以及操作 mongodb(*-extract-facade)-java 实现 5、操作类 jar,调用工具类具体进行切词以及数据清洗并且存储到 Hdfs(*-extract)-java 实现 6、机器学习集合 jar,主要用来存放 record(ml-common)-scala 实现 7、机器学习算法 jar,主要进行 tf-idf 以及 kmeans 计算,主要实现企业上下游、供求上下游模型计算(ml-kmeans)-scala 实现 8、流式计算 jar,主要是接受客户端发送到 kafka 的数据加载模型进行计算(ml-kmeans-streaming)-scala 实现 9、测试模拟 jar,主要模拟实现用户加载 avro 序列化 jar 写数据到 kafka(*-test)-java 实现