《(本科)01 数据可视化与分析基础概述ppt课件.pptx》由会员分享,可在线阅读,更多相关《(本科)01 数据可视化与分析基础概述ppt课件.pptx(37页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、课程主讲人:01 数据可视化与分析基础概述Data Visualization and Analysis Basis 数据可视化与分析基础教师:张丹珏 Email: Add:实验楼9103课 程 简 介32022年5月11日上海杉达学院 信息技术基础教学部随着大数据时代的来临,大数据分析也应运而生,本课程使用Oracle和Modeler软件作为数据可视化与分析工具,该两款软件是商业智能与数据分析软件,能够满足企业与科研绝大多数的分析需求,相比于专业软件,它入门简单且功能强大,通过拖、拉、点击等操作即可完成,无需太多的专业背景(无需编程),每个人都可以轻松掌握,真正实现了“亲自上阵”,“所见即所
2、得”。课程内容主要包含数据可视化与分析概述、数据整理与连接、可视化图表、数据计算、分类决策、关联分析和数据报告撰写等。针对我校学生的特点,本课程适合非计算机专业的学生学习,对于以后的工作和学习都有很好的实用性。课 程 目 标42022年5月11日上海杉达学院 信息技术基础教学部具备基本的数据可视化与分析概念;熟练掌握Oracle AD(Oracle Analytics Desktop)应用软件,具备使用该软件对数据进行可视化图表制作及数据分析的能力;初步掌握IBM SPSS Modeler应用软件,具备使用该软件对数据进行挖掘分析能力;能够根据数据分析结果撰写数据分析报告。课 程 安 排520
3、22年5月11日上海杉达学院 信息技术基础教学部p 第1周 概述p 第2、3周 数据可视化初步p 第4、5周 数据图表制作p 第6周 数据公式与函数p 第7、8周 数据可视化案例智慧树网址:课程号:K841938QQ学习群名称:数据可视化与分析基础(群号:1134040744)群文件中将共享课程中所使用的课件等学习资料。注:群中共享的文件仅限学习使用,不能用于其它用途。p 第9、10周 数据挖掘p 第11、12周 数据分析报告p 第13、14周 数据分析案例p 第15周 数据库基本操作p 第16周 课程考核软 件 说 明62022年5月11日上海杉达学院 信息技术基础教学部 Oracle可视化
4、软件安装Windows系统:运行Mac系统:运行 【注意】如系统中已安装360等防护软件,可能会将Oracle AD隔离,需要设置为信任文件。 Oracle 可视化官网:软 件 说 明72022年5月11日上海杉达学院 信息技术基础教学部 IBM SPSS Modeler安装程序(64位):modeler 18.zip 1、解压modeler 18.zip。 2、运行SPSS_Modeler_18中的setup.exe应用程序,完成后不启动。 3、运行SPSS_Modeler_18_Premium中的setup.exe应用程序,完成后不启动。 4、打开SPSS_Modeler_18 破解目录,
5、将文件“lservrc”复制到安装文件夹内,并覆盖原文件。默认安装文件夹:C:Program FilesIBMSPSSModeler18.0bin IBM SPSS Modeler主页: 课 程 考 核82022年5月11日上海杉达学院 信息技术基础教学部p 总评成绩=平时成绩(40%)+期末考核成绩(60%)p 平时成绩:包含考勤、上课表现、课堂练习等。期末考核:包含数据分析报告、演讲等。p 每组3-4人,每组5分钟演讲+5分钟现场制作。p 补考以考试形式进行:现场制作4张图表和1个数据挖据流程。编号编号项目项目要求要求分值分值 1 1演讲的仪表、仪态等演讲的仪表、仪态等 5 5 2 2演示
6、文档演示文档要有封面、分析过程和要有封面、分析过程和结论结论5 53 3可视化图表可视化图表人均人均=5=5张,形式多样张,形式多样20204 4数据挖据数据挖据每组至少一个数据建模每组至少一个数据建模10105 5数据分析数据分析条理性、合理性条理性、合理性20206 6报告撰写报告撰写结构合理、排版正确结构合理、排版正确人均字数人均字数=1000=1000字字20207 7现场制作现场制作 2020 100100大 数 据 简 介大 数 据 简 介2022年5月11日上海杉达学院 信息技术基础教学部10大数据(big data), 又称巨量资料,是指需要新处理模式才能具有更强的决策力、洞察
7、发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。大数据具有4V特征:4VVolume(大量)Velocity(高速)Variety(多样)Value(价值)50 x35 ZB20202010全球80% 数据为非结构性超过300亿RFID 感测装置价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法迅速地完成数据的价值“提纯”是目前大数据背景下亟待解决的难题。数 据 可 视 化数 据 可 视 化122022年5月11日上海杉达学院 信息技术基础教学部数据可视化主要旨在借助于图形化手段,清晰有效地传达数据中蕴含的信息.本质是将复杂的数据用视觉展示的方式增强用户对数据的理解,以准
8、确、形象、快速的传达方式凸显数据的含义。数据可视化综合应用计算机科学、图形学、可视化设计、心理学等多个领域的知识,运用符合人类视觉系统的方式为用户提供简洁、直观、形象、有趣、易于理解的数据展示,从而帮助用户了解数据,应用数据。数 据 可 视 化2022年5月11日上海杉达学院 信息技术基础教学部13数据可视化软件: Oracle AD:Oracle推出的一款数据可视化产品,也是Oracle BI产品BIEE的一部分。它不仅支持本地部署,也可以在云端方便地访问,甚至在个人的桌面端,用户也可以随时随地自如地分析来自个人或企业内部的数据。 PowerBI:微软旗下的一款一体化的BI和分析平台。可视化
9、能够直接从报告中创建,可以同整个组织的用户共享。除了大量的内置可视化样式外,也可以在AppSource社区不断创建新的可视化样式,或者如果你想自己编码,那么可以使用开发人员工具(Developer Tools)从头开始创建并与其他用户共享。它还包括一个自然语言界面,允许通过简单的搜索词建立不同复杂度的可视化。 Tableau:Tableau公司开发的能够帮助用户查看并理解数据的商业智能软件,具有分析快速、简单易用、不限数据源、智能仪表板、自动更新、瞬时共享等特点。收费版功能较多,有Tableau Desktop、Tableau Prep、Tableau Online、Tableau Serve
10、r等多个版本。数据可视化工具:Echarts()、GAPMINDER、D3、RAWGraphs、Datawrapper、Tableau Online、Plotly、Visualize Free等。数 据 挖 掘数 据 挖 掘2022年5月11日上海杉达学院 信息技术基础教学部15数据挖掘(Data mining),又译为资料探勘、数据采矿,一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。数据挖掘常见的分析方法:分类、估计、预测、相关性分组或关联规则、聚类复杂数据类型挖
11、掘等。数据挖掘软件和工具:IBM SPSS Modeler、R、Oracle Data Mining、Weka、RapidMiner、KNIME等。数 据 分 析数 据 分 析172022年5月11日上海杉达学院 信息技术基础教学部数据分析的概念简单来说,对数据进行分析。较为专业的说法,指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析的目的把隐藏在大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策。数据分析的分类描述性数据分析:侧重于概括和表述数据的整体状况
12、。探索性数据分析:侧重于在数据中发现新的特征。验证性数据分析:侧重于验证已有假设的真伪。数据分析的作用现状分析:描述过去发生了什么。原因分析:描述现状为什么发生。预测分析:描述将来会发生什么。 数据分析分为以下3大类:描述性数据分析、探索性数据分析、验证性数据分析。4. 数据分析 数据通过处理和分析,用图形,如柱形图、饼图、折线图等进行展现,能让人们一目了然地发现数据的本质以及作用。5. 数据展现 数据分析的最后一步,是整个数据分析过程的总结,是给决策者的一种参考,为决策者提供科学、严谨的决策依据。6. 报告撰写 明确分析目的和思路有助于帮助分析者提供清晰的指引方向,保证数据分析的有效进行。1
13、. 明确分析目的和思路 为数据分析提供基础,一般数据来源于4种渠道:权威机构、互联网、市场调查、企业数据库。2. 数据收集 对收集到的数据进行加工整理,形成适合数据分析的样式,其目的是从大量的、杂乱无章、难以理解的数据中,抽取并导出对解决问题有价值、有意义的数据,从而提高数据分析的效率。3. 数据预处理182022年5月11日上海杉达学院 信息技术基础教学部数 据 分 析 步 骤数据分析方法数 据 分 析 方 法 论2022年5月11日上海杉达学院 信息技术基础教学部20 数据分析方法论是从宏观角度出发,指导数据分析师进行一个完整的数据分析的过程,它是一个指南针,为数据分析师指明数据分析的正确
14、方向。 数据分析方法论是指数据分析的思路,是数据分析的前期规划,指导着后期数据分析工作的开展,数据分析方法论好比装修设计图,它为数据分析工作提供了工作框架和指引,而数据分析方法好比装修的工具和技术,它为数据分析提供技术的方法和保障。数 据 分 析 方 法 论 PEST 分 析212022年5月11日上海杉达学院 信息技术基础教学部PEST分析: 政治环境(Political) 经济环境(Economic) 社会环境(Social) 技术环境(Technological) 以中国互联网行业分析为例,采用PEST分析法整理分析思路,构建中国互联网行业分析框架。数 据 分 析 方 法 论 5W2H
15、分 析 (七 何 分 析)222022年5月11日上海杉达学院 信息技术基础教学部5W2H分析:Why、What、Who、When、Where、How、How much 以用户购买行为分析为例,我们需要了解公司产品的用户购买行为是怎么样的数 据 分 析 方 法 论 4P 营 销 理 论232022年5月11日上海杉达学院 信息技术基础教学部4P营销理论: 产品(Product) 价格(Price) 渠道(Place) 宣传(Promotion) 公司业务分析数 据 分 析 方 法 论 用 户 行 为 理 论242022年5月11日上海杉达学院 信息技术基础教学部用户行为是指用户为获取、使用物品
16、或者服务所采取的各种活动,用户对产品首先需要有一个认知、熟悉的过程,然后试用,再决定是否继续消费使用,最后成为忠诚用户。 可以利用用户行为理论,把用户在网站上的访问、浏览、搜索、注册、登录、订购等关键指标的逻辑关系进行梳理与分析。数 据 分 析 方 法 论 逻 辑 树 分 析 法252022年5月11日上海杉达学院 信息技术基础教学部逻辑树又称问题树、演绎树或分解树等。将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展,逻辑树主要是帮助数据分析师理清自己的思路,避免进行重复和无关的思考。 针对公司利润增长缓慢的问题进行分析。常见数据分析法则数 据 分 析 法 则 帕 累 托 法 则272
17、022年5月11日上海杉达学院 信息技术基础教学部 帕累托法则,也叫二八定律、关键少数法则、不平衡原则等,被广泛应用于社会学及企业管理学等。 19世纪末20世纪初意大利经济学家帕累托发现,在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的。帕 累 托 法 则282022年5月11日上海杉达学院 信息技术基础教学部 总而言之,在原因和结果、投入和产出、努力和报酬之间存在的这种不平衡关系,可以分为两种不同类型: 多数,它们只能造成少许的影响;少数,它们造成主要的、重大的影响。 管理学:通常一个企业80%的利润来自它20%的项目。 经济学:20%的人手里掌握着80
18、%的财富。 心理学:20%的人身上集中了人类80%的智慧。 日常生活中的“二八法则”:20%的人成功,80%的人不成功;20%的罪犯的罪行占所有犯罪行为的80%;20%的汽车狂人,引起80%的交通事故;20%的已婚者,占离婚人口的80%;世界上大约80%的资源,是由世界上20%的人口所消耗;20%的产品或20%的客户,为企业赚得约80%的销售额。数 据 分 析 法 则2022年5月11日上海杉达学院 信息技术基础教学部29四象限法则:指通过对两种维度的划分,运用坐标的方式表达出想要的价值,由价值直接转变为策略,从而进行一些项目的推动。四象限法是一种策略驱动的思维,广泛应用于战略分析,产品分析,
19、市场分析,客户管理,用户管理,商品管理等,其优点是直观,清晰,可以对数据进行人工的划分,划分结果可以直接应用于策略。通过运用四象限法则分析数据,可以快速的找到问题的共性原因,建立分组优化策略。同期群分析:指按时间维度对用户建立分组,观察分组用户的行为特征表现,其目的在于透过现象找到结果。以时间维度建立同期群,除按时间维度考虑,也可以对来源渠道等维度建立同期群。假设分析:在没有直观数据或者线索能分析的情况下,可以采用假设分析的方法进行综合考虑,以假设先行的方法进行推断,通过人工设置一个变量或者比率来进行反证。如:新产品的预期销量、未来某段时间内的景区热门度之类的。假设分析是一种启发思考驱动的思维
20、,它更多的是一种思考方法,即假设、验证、并加以判断。数 据 分 析 法 则2022年5月11日上海杉达学院 信息技术基础教学部30指数法:主要有线性加权、反比例、log三种方法,是一种目标驱动的思维,是将无法利用的数据加工成可利用的,从而进行分析。指数法的优点是目标驱动力强,直观,简洁,有效,对业务有一定的指导作用,一旦设立指数不易频繁变动。对比法:对比分析在基于相同数据标准下,由其他影响因素所导致的数据差异,而对比分析的目的在于找出差异后进一步挖掘差异背后的原因,从而找到优化的方法。漏斗分析:能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。其最常用的是转化率和流失
21、率两个互补型指标。案 例 展 示啤 酒 + 尿 布322022年5月11日上海杉达学院 信息技术基础教学部 美国沃尔玛根据顾客的消费数据得到以下信息:男士被妻子派去买尿布的时候,他们就会顺手为自己买些啤酒。 销售时,可在尿布的销售区域附近摆放些啤酒,这样既能更好地满足消费者需求,也使销量大幅增长。亚 马 逊 的 购 物 推 荐332022年5月11日上海杉达学院 信息技术基础教学部 亚马逊会根据用户浏览和购买的产品信息,向用户推荐产品,为他们购买产品提供参考。 亚马逊根据用户的喜好推荐合适的产品,以及与喜好有关联的货物,这样不仅能满足用户需求,还能增加销量。Google 的 流 感 预 测34
22、2022年5月11日上海杉达学院 信息技术基础教学部 MBAonline网站发布了一张题为“互联网的一天”的图表,表明人们在网上活动留下了大量的数据。 2009年流感爆发时,Google通过分析5000万条美国人最频繁检索的词条,例如“咳嗽和发烧应该用哪些药物”等,通过建模得到一个比官方数据更及时有效的检测机制,通过与美国政府巳有的原始数据进行比对,提前半个月预测出流感的爆发时间和传播途径。 纸 牌 屋 的 创 作352022年5月11日上海杉达学院 信息技术基础教学部 制作纸牌屋的公司并不是一家影视公司,而是一家纯粹的信息科技公司,该公司拥有一个网络平台,每天用户会产生高达3000多万个行为
23、、400万个用户评价、300万次搜索记录。 根据用户的喜好制作的影视剧能带来庞大的观剧人群,也能在广告的投放上做到快速有效。大 数 据 误 区362022年5月11日上海杉达学院 信息技术基础教学部芳华的观众比战狼2消费了更多的热饮? 在某行业会议,某航母级互联网影业的发言人说:“通过大数据挖掘,我们发现不同观众的相关卖品偏好。比如芳华的观众比战狼2消费了更多的热饮。这些都是以前我们所不知道的,也无法预测的。”当这一番言论出来之后,潜台词就是:中年人比年轻人消费了更多的热饮。 可是,有人就提出了异议,战狼2是7月底夏天上映,芳华12月15日冬季上映,冬天热饮的需求谁都知道会比夏天的大的多得多。 所以,数据分析的时候要考虑到多种影响因素,否则就会得到错误的结果。