《企业实践报告-.pdf》由会员分享,可在线阅读,更多相关《企业实践报告-.pdf(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、.企业实践报告(2017-2018 年度第 1 学期)数据挖掘在电子商务中的应用 专业 物联网工程 学生 班级 学号 指导教师 完成日期 2017.12.6 .目 录 目录 2 1 概述 3 1.1 企业实践目的 3 1.2 企业实践容与要求 3 1.3 相关开发技术与开发环境搭建 3 2 系统需求分析 4 2.1 系统目标 4 2.2 系统功能需求 4 3 系统概要设计 5 3.1 系统的功能模块划分 5 3.2 系统流程 5 4 系统详细设计 6 4.1 模块流程 6 5 代码调试 7 5.1 遇到的问题与其解决方法 7 6 软件运行与测试 8 6.1 软件运行流程 8 6.2 软件测试
2、8 7 小结 10 .3/10 1 概 述 1.1 企业实践目的 1 为了将自己所学知识运用在实践中,在实践中巩固自己的知识,调节理论与实践之间的关系,培养实际工作能力和分析能力,以达到学以致用的目的。2获得更多与自己专业相关的知识,扩宽知识面,增加社会阅历。3接触更多的人,在实践中锻炼胆量,提升自己的沟通能力和其他社交能力。4培养更好的职业道德,树立好正确的职业道德观 1.2 企业实践容与要求 这几年伴随移动互联网的转型发展,传统的贸易下经历一次重大的变革,电子商务显示出巨大的市场价值和发展潜力。电子商务是商业领域的一种新兴商务模式,它是以网络为平台、现代信息技术为手段、以经济效益为中心的现
3、代化商业运转模式,其最终目标是实现商务活动的网络化、自动化与智能化。这几年中国互联网迎来了理性数据驱动和价值回归之年。于是,在这个数据爆炸却又用户增量趋于饱和的时代,如何借助智能数据挖掘、商务智能等大数据技术,充分利用数据价值解决现实问题、制定企业日常决策,在现有流量基础上真正实现“存量掘金”成为了企业亟需解决的的重要命题。数据分析的目的:一方面是发现问题,并且找到问题的根源,最终通过切实可行的方法解决存在的问题;另一方面,基于以往的数据分析,总结发展趋势,为网络营销决策提供支持。1.3 相关开发技术与开发环境搭建 Python 的安装 主要介绍了电子商务与关联规则中的经典算法Apriofi
4、算法,以与 Apriofi 算法的代码和执行过程,指出了 Apriori 算法的瓶颈和改进方法。随着数据库管理系统的广泛应用,各个领域的数据和信息量急剧增加,为了更好地利用这些数据,就要对这些数据进行更深层次的分析,从中挖掘出有价值的数据信息。由于缺乏挖掘数据背后隐藏知识的技术,导致了数据爆炸。于是,人们尝试用成熟的数据库管理系统来存储数据,用机器学习的方法来分析数据,这两者的结合促成了数据库中的知识发现的产生,并且成为人工智能和数据库应用等领域近年来的研究热点。历史上,从数据中发现模式的提法很多,如知识发现、知识提取、信息收割、数据采集等等。在数据库领域一般称为数据挖掘,而在机器学习领域则更
5、多地称作知识发现。数据挖掘是随着数据库技术的发展而出现的一种全新的信息技.术。2 系统需求分析 2.1 系统目标 电子商务是信息和知识经济时代的宠儿,充满无限商机。在电子商务时代,企业竞争成功的关键是要了解客户、与客户保持稳固的关系。利用数据挖掘技术帮助企业进行动态分析和调整分析在挑战中就有可能获胜。本文对面向电子商务的数据挖掘技术进行研究和分析。2.2 系统功能需求 电子商务的大数据 数据挖掘的研究融合了多个不同学科领域的技术与成果,使目前的数据挖掘出现多种 多样的技术。利用这些技术方法可以检查那些异常形式的数据,利用各种统计模型和数学 模型对这些数据进行解释,找出隐藏在这些数据背后的市场规
6、律和商业机会1718。.5/10 3 系统概要设计 3.1 系统的功能模块划分 3.2 系统流程 1数据层。数据挖掘的对象是数据。为了便于挖掘,各种来源的数据经过预处理(据的清洗、数据的集成、数据的过滤等)以后,都将存于一个统一模式的数据库或者数 仓库。这个模式的设计综合考虑挖掘任务、实施算法、数据的特点等各种因素,可以 挖掘能够最优化。2数据挖掘引擎。数据挖掘引擎集成了数据挖掘的算法。它根据知识库、挖掘 据库或者数据仓库中的数据得到许多模式,然后对这些模式进行评估、筛选,最终可以 到有意义的且用户感兴趣的模式。3用户界面。用户界面是人机交互的界面。用户界面将这些模式用直观的且易于 户理解的方
7、式表现给用户。另外,用户可以(有时也必须)通过用户界面指导模式评估 挖掘引擎、数据的组织模式。.4 系统详细设计 4.1 模块流程 数据挖掘是一个多步骤的处理过程,该过程从大型数据库中挖掘先前未知的、有效的可实用的信息,并使用这些信息做出决策或丰富知识。这个过程是交互和迭代的,其中多过程需要用户的参与。数据挖掘过程主要包括四个步骤如图 2-2 所示:问题定义/确定业务对象、数据准备数据挖掘、结果表达和分析。虽然我们把各个步骤按顺序排列,但数据挖掘过程并不是性的。要取得好的结果就要不断反复和重复这些步骤。图 2-2 数据挖掘视为知识发现过程的一个步骤 1 问题定义清晰地定义业务问题和认清数据挖掘
8、的目标是进行数据挖掘的第一步,也是最重要步。要想充分发挥数据挖掘的价值,首要的条件是要对用户的目标有一个清晰明确的定义因此,在挖掘之前要明确业务的目标和需求。2数据准备确定好挖掘目标后,就要开始为挖掘准备相关的数据。准备数据就是根据挖掘需求集资料,并建立可挖掘的数据库。准备数据所花费的时间在整个数据挖掘过程中是最多的这一阶段主要分为两步:第一步根据挖掘目标建立合理的数据库模式即数据选取;二步是对数据进行预处理。根据用户的挖掘目标,搜索所有与业务对象相关的部和外部数据信息,并从数据中提取与挖掘相关的数据。它与对数据进行采样和选择预测变量是有区别的,这里只是略的除去一些冗余或无关的数据。为了进一步
9、的分析数据,提高挖掘效率,去除无用或关的信息,.7/10 整理不完整的、含噪声的和不一致的信息,确定将要进行的挖掘操作的类型我们必须对数据进行预处理。数据预处理就是对选取出的数据进行加工,把这些不完整的、含噪声的和不一致的据转化为完整的、不含噪声的和一致的数据。数据预处理一般包括数据清理、数据集成、数据变换、数据归约等阶段。5 代码调试 5.1 遇到的问题与其解决方法 plain view plaincopy 1.伪代码描述:2./找出频繁 1 项集 3.L1=find_frequent_1-itemsets(D);4.For(k=2;Lk-1!=null;k+)5./产生候选,并剪枝 6.C
10、k=apriori_gen(Lk-1);7./扫描 D 进行候选计数 8.For each 事务 t in D 9.Ct=subset(Ck,t);/得到 t 的子集 10.For each 候选 c 属于 Ct 11.c.count+;12.13./返回候选项集中不小于最小支持度的项集 14.Lk=c 属于 Ck|c.count=min_sup 15.16.Return L=所有的频繁集;17.第一步:连接(join)18.Procedure apriori_gen(Lk-1:frequent(k-1)-itemsets)19.For each 项集 l1 属于 Lk-1 20.For ea
11、ch 项集 l2 属于 Lk-1 21.If(l1 1=l2 1)&(l1 2=l2 2)&(l1 k-2=l2 k-2)&(l1 k-1l2 k-1)22.then 23.c=l1 连接 l2 /连接步:产生候选 24./若 k-1 项集中已经存在子集 c 则进行剪枝 25.if has_infrequent_subset(c,Lk-1)then 26.delete c;/剪枝步:删除非频繁候选 .27.else add c to Ck;28.29.Return Ck;30.第二步:剪枝(prune)31.Procedure has_infrequent_sub(c:candidate k-
12、itemset;Lk-1:frequent(k-1)-itemsets)32.For each(k-1)-subset s of c 33.If s 不属于 Lk-1 then 34.Return true;35.Return false;6 软件运行与测试 6.1 软件运行流程 6.2 软件测试 分析不只是对数据的简单统计描述,应该是从表面的数据中找到问题的本质,然后需要针对的确定的主题进行归纳和总结。常用的分析方法有以下几种:.9/10 1.趋势分析:将实际达到的结果,与不同时期报表中同类指标的历史数据进行比较,从而确定变化趋势和变化规律的一种分析方法;具体的分析方法包括定比和环比两种方法
13、,定比是以某一时期为基数,其他各期均与该期的基数进行比较;而环比是分别以上一时期为基数,下一时期与上一时期的基数进行比较;2.对比分析:把两个相互联系的指标数据进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以与各种关系是否协调;在对比分析中,选择适宜的对比标准是十分关键的步骤,选择的适宜,才能做出客观的评价,选择不适宜,评价可能得出错误的结论;3.关联分析:如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测;它的目的是为了挖掘隐藏在数据间的相互关系;4.因果分析:因果分析是为了确定引起某一现象变化原因的分析,主要解决“为什么”的问题;因果分
14、析就是在研究对象的先行情况中,把作为它的原因的现象与其他非原因的现象区别开来,或者是在研究对象的后行情况中,把作为它的结果的现象与其他的现象区别开来;四、提出方案 1.评估描述:对评估情况进行客观描述,用数据支持你的观点;2.编制统计图表:运用柱状图和条形图对基本情况进行更清晰的描述;运用散点图和折线图表现数据间的因果关系;3.提出观点:根据现实情况的数据分析,提出你的观点,预判的发展趋势,给出具体的建议性的改进措施;4.演示文档:基于以上三点进行归纳总结,列出条目,制作一份详细的演示文档,能够演示和讲解给部门领导;.7 小结 研究电子商务过程中,商品的采购者都需要通过Web方式与商品的供应商
15、与其合作者之间建立信息流的交互。面向电子商务的数据挖掘的特点就是运用关联、分类、聚类等技术手段,从Web数据库中提取出可以指导市场策略的有用数据。它是基于“消费者过去的行为预示着其今后的消费倾向”的原理,通过收集、分析和处理从网上获取的有关消费者消费行为的数据,经过提取、洗涤和加工使潜在的、隐含的和事先不知的信息变为潜力巨大的有价值信息,确定特定消费群体或个体的消费习惯、爱好、倾向,进而指导企业调整营销策略,给客户提供动态的个性化的高效率服务,将大大削减成本,为商家带来巨大的利润。最早成功应用于高投入、高风险、高回报的金融领域,近年来在电信、保险、零售等客户资源信息密集的行业中应用也非常广泛。美国财富杂志500强之一的第一数据公司(First Data Corp)就在为第一国家银行(First National Bank)、美国在线交易(Ameritradeholding Co)、奥马哈保险公(Mutual ofOmahaCo)等著名的金融证券和保险公司提供数据挖掘的产品服务,这些企业在风险控制、挖掘客户、降低成本方面的年收益数以亿。