5-2-3二维数据可视化教学课件PPT.pptx

上传人:春哥&#****71; 文档编号:25336296 上传时间:2022-07-11 格式:PPTX 页数:27 大小:3.46MB
返回 下载 相关 举报
5-2-3二维数据可视化教学课件PPT.pptx_第1页
第1页 / 共27页
5-2-3二维数据可视化教学课件PPT.pptx_第2页
第2页 / 共27页
点击查看更多>>
资源描述

《5-2-3二维数据可视化教学课件PPT.pptx》由会员分享,可在线阅读,更多相关《5-2-3二维数据可视化教学课件PPT.pptx(27页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、5-2-3二维数据可视化弘 德 明 志 博 学 笃 行第5章 数据可视化-Matplotlib第5讲 二维图形可视化3主讲人:刘志远弘 德 明 志 博 学 笃 行Contents目录01相关图相关图02词云图词云图弘 德 明 志 博 学 笃 行01相关图弘 德 明 志 博 学 笃 行相关图弘 德 明 志 博 学 笃 行互相关图可用于利用互相关图可用于利用matplotlib.pyplot.xcorr()函数实现。该函数原函数实现。该函数原型的语法如下:型的语法如下:xcorr(x, y, normed=True, detrend=, usevlines=True, maxlags=10, *,

2、 data=None, *kwargs)该函数常用的参数及其含义解释如下:该函数常用的参数及其含义解释如下:(1)x,y:长度为:长度为n的数组,作为相关性计算的数据序列;的数组,作为相关性计算的数据序列;(2)normed:默认为:默认为True,表示表示对输入对输入向量向量规范化规范化到单位到单位长度长度,向量,向量之间的互关联之间的互关联没有没有时间延迟或者时间延迟或者时差。时差。相关图互相关图弘 德 明 志 博 学 笃 行弘 德 明 志 博 学 笃 行互相关图( 3 ) d e t r e n d : 消 除 输 入 数 据 序 列: 消 除 输 入 数 据 序 列 x 中 的 趋 势

3、中 的 趋 势 。 可 以 采 用可 以 采 用matplotlib.mlab中的中的detrend函数消除,默认为函数消除,默认为detrend_none。去去趋势是数据预处理的一种常用方法,如差分法、去平均值法等趋势是数据预处理的一种常用方法,如差分法、去平均值法等。(4)usevlines:默认值为:默认值为True,是指是指用用Axes.vlines() 绘制相关图形的垂绘制相关图形的垂直线条。若为直线条。若为False,则使用,则使用plot(),利用标准的,利用标准的Line2D属性设置线条风属性设置线条风格,该属性通过参数传入格,该属性通过参数传入xcorr()函数。函数。(5)

4、maxlags:延迟的最大值,延迟的最大值,整型,默认值为整型,默认值为10弘 德 明 志 博 学 笃 行去趋势Detrend存在线性趋势消除趋势后如股票的价格随时间的变化呈现线性趋势,但要分析股市的价格波动,最如股票的价格随时间的变化呈现线性趋势,但要分析股市的价格波动,最好要去除观测的基准值,以便更好地体现价格波动的情况。好要去除观测的基准值,以便更好地体现价格波动的情况。弘 德 明 志 博 学 笃 行弘 德 明 志 博 学 笃 行数据集google中对flowers关键字一年的搜索量趋势1.041.041.161.221.462.341.161.121.241.301.441.221.2

5、61.341.261.401.522.561.361.301.201.121.121.121.061.061.001.021.041.021.061.021.040.980.980.981.001.021.021.001.020.960.940.940.940.960.860.920.981.081.040.740.981.021.021.121.342.021.681.121.381.141.161.221.101.141.161.281.442.581.301.201.161.061.061.081.001.000.921.001.021.001.061.101.141.081.001.0

6、41.101.061.061.061.021.040.960.960.960.920.840.880.901.001.080.800.900.981.001.101.241.661.941.021.061.081.101.301.101.121.201.161.261.422.181.261.061.001.041.000.980.940.880.980.960.920.940.960.960.940.900.920.960.960.960.980.900.900.880.880.880.900.780.840.860.921.000.680.820.900.880.981.081.362.0

7、40.980.961.021.200.981.001.080.981.021.141.282.041.161.040.960.980.920.860.880.820.920.900.860.840.860.900.840.820.820.860.860.840.840.820.800.780.780.760.740.680.740.800.800.900.600.720.800.820.860.941.241.920.921.120.900.900.940.900.900.940.981.081.242.041.040.940.860.860.860.820.840.760.800.800.8

8、00.780.800.820.760.760.760.760.780.780.760.760.720.740.700.680.720.700.640.700.720.740.640.620.740.800.820.881.021.660.940.940.961.001.161.021.041.061.021.101.221.941.181.121.061.061.041.020.940.940.980.960.960.981.000.960.920.900.860.820.900.840.840.820.800.800.760.800.820.800.720.720.760.800.760.7

9、00.740.820.840.880.981.440.960.880.921.080.900.920.960.941.041.081.141.661.080.960.900.860.840.860.820.840.820.840.840.840.840.820.860.820.820.860.900.840.820.780.800.780.740.780.760.760.700.720.760.720.700.64弘 德 明 志 博 学 笃 行相关图互相关图弘 德 明 志 博 学 笃 行import matplotlib.pyplot as pltimport numpy as npimpor

10、t osos.chdir(ud:data) #数据文件所在的路径数据文件所在的路径from search_data import data #导入搜索的数据导入搜索的数据avg=np.average(data) #计算计算data的平均值的平均值z = x - avg for x in data #去除真实数据的平均值去除真实数据的平均值#生成与生成与data长度相同的随机数据长度相同的随机数据rand_data = np.random.random(365)assert len(data) = len(rand_data)rand_avg=np.average(rand_data) #计算随

11、机数据的平均值计算随机数据的平均值rz = x - rand_avg for x in rand_data #去除随机数据的平均值去除随机数据的平均值fig = plt.figure() #创建图形区创建图形区相关图互相关图弘 德 明 志 博 学 笃 行ax1 = fig.add_subplot(311) #为真实数据创建子区为真实数据创建子区ax1.plot(data)ax1.set_xlabel(Google Trends data for flowers)ax2 = fig.add_subplot(312) #为随机数据创建子区为随机数据创建子区ax2.plot(rand_data)ax

12、2.set_xlabel(Random data with normal distribution)#绘制绘制互相关图互相关图,发现数据之间存在的模式或相似程度,发现数据之间存在的模式或相似程度ax3 = fig.add_subplot(313) #为数据的互相关创建子区为数据的互相关创建子区ax3.set_xlabel(Cross correlation of random data)ax3.xcorr(z, rz, usevlines=True, maxlags=None, normed=True, lw=2)ax3.grid(True) #添加网格,更容易理解图表添加网格,更容易理解图表

13、plt.ylim(-1,1) #y轴的最值轴的最值plt.tight_layout() #使用紧凑布局,使标签和刻度显示效果良好使用紧凑布局,使标签和刻度显示效果良好相关图互相关图弘 德 明 志 博 学 笃 行自相关表示一个给定的时间序列在一个连续的时间间隔上与自身在时间上的自相关表示一个给定的时间序列在一个连续的时间间隔上与自身在时间上的延迟之间的相似度延迟之间的相似度。时间序列分析数据引出了许多不同的科学应用和财务流程时间序列分析数据引出了许多不同的科学应用和财务流程,如股市中的价格,如股市中的价格波动、趋势分析等。在波动、趋势分析等。在分析未知数据时,自相关可以帮助我们检测数据是否是随分

14、析未知数据时,自相关可以帮助我们检测数据是否是随机的。使用自相关图,可以提供如下问题的答案:数据是随机的吗?这个时间序机的。使用自相关图,可以提供如下问题的答案:数据是随机的吗?这个时间序列数据是一个白噪声信号吗?它是正弦曲线形的吗?它是自回归的吗?这个时间列数据是一个白噪声信号吗?它是正弦曲线形的吗?它是自回归的吗?这个时间序列数据的模型是什么?序列数据的模型是什么?使用使用一年的一年的google trends搜索量趋势和符合正态分布的搜索量趋势和符合正态分布的365个随机数据。以此,个随机数据。以此,分析两个数据集合的自相关性分析两个数据集合的自相关性,又会出现什么结果,又会出现什么结果

15、?相关图自相关图弘 德 明 志 博 学 笃 行#创建一个图形区,包含创建一个图形区,包含2*2个子区,且不共享坐标轴个子区,且不共享坐标轴fig,ax=plt.subplots(nrows=2,ncols=2,sharex=False,sharey=False)fig.suptitle(Comparing autocorrelations) #添加总标题添加总标题ax0,0.plot(data) #在第在第1个子区中绘图个子区中绘图#在第在第2个子图中绘制真实数据的自相关图个子图中绘制真实数据的自相关图ax0,1.acorr(z, usevlines=True, maxlags=None, n

16、ormed=True, lw=2)rand_data = np.random.random(365) #生成长度相同的随机数据生成长度相同的随机数据assert len(data) = len(rand_data)avg_r = np.average(rand_data) #计算平均值计算平均值rz = x - avg_r for x in rand_dataax1,0.plot(rand_data) #在第在第3个子图中绘图个子图中绘图#在第在第4个子图中绘制随机数据的自相关图个子图中绘制随机数据的自相关图ax1,1.set_xlabel(Autocorrelation of random

17、data)ax1,1.acorr( rz, usevlines=True, maxlags=None, normed=True, lw=2)相关图自相关图弘 德 明 志 博 学 笃 行自自相关图演示示例相关图演示示例相关图自相关图弘 德 明 志 博 学 笃 行弘 德 明 志 博 学 笃 行自相关图绘制结果分析说明与结论 左侧是原始数据的图表,其中搜索量数据的模式容易识别;正态分布的随机数据图表,其模式不是很明显,但仍然有可能。 右侧是原始数据去平均值后的自相关图,在随机数据上计算自相关性并绘制自相关图表,可以看到在0处的相关性很高,这是我们所期望的,数据在没有任何时间延迟的时候和自身是相关的。

18、但在无时间延迟之前和之后,信号几乎为0。因此我们可以安全地推断初始时间的信号和任何时间延迟上的信号没有相关性。弘 德 明 志 博 学 笃 行弘 德 明 志 博 学 笃 行自相关图绘制结果分析说明与结论 从真实的数据Google搜索量趋势,我们可以看到在0s时间延迟上有相同的表现,我们也可以预料对于任何自相关信号都会有相同的表现。但是我们看到在0s时间延迟之后的大约20、60和110天存在很强的信号。这表明在Google搜索引擎上这个特殊的搜索关键字以及人们搜索它的方式之间存在一个模式。 相关和因果关系是两个非常不同的概念。如果想要识别未知数据的模式和试图把数据匹配到一个模型时,通常应用自相关。

19、识别给定数据集合模型的第一步,就是查看数据与自身的相关性。弘 德 明 志 博 学 笃 行02词云图弘 德 明 志 博 学 笃 行词云图是对文本中出现频率较高的词云图是对文本中出现频率较高的“关键词关键词”予以可视化的呈现,通过大量予以可视化的呈现,通过大量低频低质文本信息的过滤,使得浏览者能够快速地掌握文本的主题低频低质文本信息的过滤,使得浏览者能够快速地掌握文本的主题。1 1234词频统计词频统计词词云图绘制云图绘制关键词抽取关键词抽取分词分词JiebaJieba库库词云图弘 德 明 志 博 学 笃 行安装:安装:在在Python环境中,要制作词云图,需要预先进行环境中,要制作词云图,需要预

20、先进行jieba库和库和wordcloud库的安装,而库的安装,而wordcloud库依赖于库依赖于numpy库和库和Microsoft Visual C+ Redistributable组件。因此,除组件。因此,除numpy库,需要选择合适的版本,下载并安库,需要选择合适的版本,下载并安装装Microsoft Visual C+ Redistributable for Visual Studio 2015, 2017 and 2019,否则会出错,无法正常否则会出错,无法正常安装安装和使用和使用wordcloud库。库。提示:提示:要下载要下载wordcloud库离线文件,可使用加利福尼亚大

21、学提供的库离线文件,可使用加利福尼亚大学提供的P y t h o n 第 三 方 库 , 网 址 , 选 择 合 适 的 版 本 下 载 , 如第 三 方 库 , 网 址 , 选 择 合 适 的 版 本 下 载 , 如wordcloud 1.5.0 cp36 cp36m win32.whl,然后使用,然后使用pip install 进行离线安装。进行离线安装。词云图弘 德 明 志 博 学 笃 行import matplotlib.pyplot as pltimport jiebafrom wordcloud import WordCloud,ImageColorGeneratorimport

22、osos.chdir(ud:data)#添加需要自定义的分词添加需要自定义的分词jieba.add_word(侯亮平侯亮平)jieba.add_word(沙瑞金沙瑞金)jieba.add_word(赵东来赵东来)#读取要分析的文本读取要分析的文本人民的名义人民的名义.txt词云图弘 德 明 志 博 学 笃 行with open(utf-8) as f: mytext=f.read()def clearwords(text): #定义一个空列表,保存去除停用词后的分词定义一个空列表,保存去除停用词后的分词 wordlist= liststr=/.join(jieba.cut(mytext,cut

23、_all=True) #打开停用词表打开停用词表 stop_(stopwords.txt,encoding=utf-8) try: #读取停用词读取停用词 stop_text=stop_() finally: stop_() #将停用词格式化,用将停用词格式化,用n分开,返回一个列表分开,返回一个列表 stop_words=stop_text.split(n) #换行符换行符词云图弘 德 明 志 博 学 笃 行 #遍历分词表,去除停用词遍历分词表,去除停用词 for myword in liststr.split(/):if not(myword.split() in stop_words a

24、nd len(myword.strip()1: wordlist.append(myword) return .join(wordlist)seg_words=clearwords(mytext)words=WordCloud( background_color=white, #词云图的背景色,默认为黑色词云图的背景色,默认为黑色 width=600, #词云图的宽度词云图的宽度 height=400, #词云图的高度词云图的高度 max_words=300, #指定词云显示的最大单词数量,默认为指定词云显示的最大单词数量,默认为200 #指定词云中词语步进间隔,若指定词云中词语步进间隔,若1

25、,可提高计算的速度,但拟合度会差可提高计算的速度,但拟合度会差 font_step=2, 词云图弘 德 明 志 博 学 笃 行#出现最多的单词的最大字号,若为出现最多的单词的最大字号,若为None,则采用词云图的高度,则采用词云图的高度 max_font_size=1000, min_font_size=10, #可用的最小字号可用的最小字号 #指定字体文件(指定字体文件(TTF、TTC)所在的路径)所在的路径 font_path=.fontssimhei.ttf ).generate(seg_words) #根据文本产生词云根据文本产生词云plt.imshow(words,interpolation=bilinear) #绘制图片绘制图片plt.axis(off) #消除坐标轴消除坐标轴plt.show() #显示词云图显示词云图词云图弘 德 明 志 博 学 笃 行图图5.29 “人民的名义人民的名义”对应的词云图对应的词云图词云图弘 德 明 志 博 学 笃 行小结小结1、相关图的含义及绘制方法。、相关图的含义及绘制方法。2、词云图的绘制方法。、词云图的绘制方法。弘 德 明 志 博 学 笃 行谢谢大家

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 初中资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁