《4-1-1数据结构与数据类型教学课件PPT.pptx》由会员分享,可在线阅读,更多相关《4-1-1数据结构与数据类型教学课件PPT.pptx(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、4-1-1数据结构与数据类型弘 德 明 志 博 学 笃 行第第4 4章章 数据处理和分析数据处理和分析-Pandas-Pandas第第0101讲讲 数据结构与数据类型数据结构与数据类型主讲人:马学强弘 德 明 志 博 学 笃 行Contents目录01PandasPandas主要功能特点主要功能特点PandasPandas的安装和导入的安装和导入02常用常用数据结构数据结构03数据类型数据类型04弘 德 明 志 博 学 笃 行01Pandas的主要功能特点弘 德 明 志 博 学 笃 行弘 德 明 志 博 学 笃 行Pandas主要功能特点Pandas是完成数据工程任务的理想工具,其主要功能有:
2、u 在浮点和非浮点数据中轻松处理缺失数据(NaN);u大小可变性:可以从DataFrame或更高维度的对象中插入和删除;u自动或显式数据对齐:对象可以明确地与一组标签对齐,用户也可以简单地忽略标签,让Series、DataFrame等在计算中自动对齐数据;u强大、灵活的“组”功能,可以对数据集进行拆分、组合操作,用于数据的分组、聚合和转换;Pandas(Python Data Analysis Library)是基于Numpy库的数据分析库,能够提供快速、灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观,成为Python环境下高效且强大的数据分析包之一。弘 德 明 志
3、 博 学 笃 行弘 德 明 志 博 学 笃 行Pandas主要功能特点(续)u基于智能标签的切片、花式索引和数据子集;u灵活的数据重塑和数据集的旋转、合并、分类等;u轴的分层标记,使得每个刻度可能有多个标签;u强大的I/O工具,用于从不同类型的文件(如CSV、TXT、XML、XLSX、HDFS等)和数据库中保存或加载数据;u特定的时间序列功能:日期范围生成和频率转换、移动窗口统计、移动窗口线性回归、日期转换和滞后等。弘 德 明 志 博 学 笃 行02Pandas的安装和导入弘 德 明 志 博 学 笃 行弘 德 明 志 博 学 笃 行Pandas安装与导入Pandas作为Python的外部扩展库
4、,使用前必须进行下载、安装和导入。以Windows环境为例:Pandas下载安装完成以后,要使用Pandas的相应功能,需要首先导入到Python环境:import pandas as pdimport pandas as pd 在线安装:命令提示符下,执行命令pip install pandaspip install pandas,会自动选择版本和依赖库进行安装。 离线安装:从网站www.lfd.uci.edu/gohlke/pythonlibs/或/预先下载相应版本的whl文件,然后在命令提示符下执行pip install 弘 德 明 志 博 学 笃 行03Pandas常用数据结构弘 德
5、明 志 博 学 笃 行弘 德 明 志 博 学 笃 行数据结构Pandas建立在Numpy库之上,关注数据的应用,积极表达数据与索引间的关系,提供了许多适合计算和分析的数据结构与类型,主要有:(1) 具有异构类型列的表格数据,如SQL或Excel电子表格;(2) 有序和无序的时间序列数据;(3) 具有行和列标签的任意矩阵数据(均匀类型或异构);(4) 任何其他形式的观察、统计数据集。良好的数据结构及其运算,是有效进行数据处理的前提和基础。Pandas最重要的结构:系列(Series)、数据帧(DataFrame)、面板(Panel),Panel在目前的版本中已弃用)。弘 德 明 志 博 学 笃
6、行弘 德 明 志 博 学 笃 行数据结构主要特点使用时,主要考虑的因素:使用时,主要考虑的因素:较高维是较低维的容器:如DataFrame是Series的容器;数据集的方向,减少用户思考:如DataFrame使用行列,而不是轴为0或1;结构的可变性:允许操作的前提,包括结构大小是否可变、值是否可变。数据结构数据结构英文名称英文名称维数维数描述描述系列系列Series1使用一维标记的均匀数组,结构大小不变。数据帧数据帧DataFrame2使用二维标记,表结构大小可变,列为潜在的异质类型。面板面板Panel3使用三维标记,是大小可变的数组。弘 德 明 志 博 学 笃 行弘 德 明 志 博 学 笃
7、行Series与DataFrame销售团队绩效评级表Series-系列系列是具有均匀数据的一维数组结构。如,由10,23,56,.组成的整数集合可以是一个系列。系列具有数据均匀、尺寸大小不变、数据的值可变等特点。采用的数据类型DataFrame-数据帧数据帧是一个具有异构数据的二维数组,大小可变、值可变的特点。姓名姓名年龄年龄性别性别等级等级Maxsu25男4.45Katie34女2.78Vina46女3.9Lia42女4.6列列类型类型姓名姓名字符串年龄年龄整数性别性别字符串等级等级浮点型弘 德 明 志 博 学 笃 行04数据类型弘 德 明 志 博 学 笃 行弘 德 明 志 博 学 笃 行基
8、本数据类型Pandas支持的基本数据类型包括整型(int)、浮点型(float)、布尔型(bool)、日期时间型(timedelta64、datetime64)和对象型(object,字符串和混合类型均视为object类型)。在大多数情况下,Pandas使用Numpy数组和这些基本数据类型(dtypes)作为系列(Series)和数据帧(DataFrame)中某个列的数据类型。此外,Pandas也扩展了Numpy的数据类型,这些扩展的数据类型适合于Pandas中的少数情况。弘 德 明 志 博 学 笃 行弘 德 明 志 博 学 笃 行扩展数据类型数据类型数据类型相关的支持类相关的支持类常用关键字
9、常用关键字说明说明日期日期/时间型时间型DatetimeTZDtypeTimestamparrays.DatetimeArraydatetime64nsdatetime64ns,tz对时区(Time Zone)敏感,不受Numpy支持。分类型分类型CategoricalDtypeCategoricalCategory适用于有限但不唯一的可分类数据集,在Pandas内部可分成有限且唯一的分类集合(categories)和对应的分类编码(codes),对大数据集而言,可有效降低存储量。时间段型时间段型PeriodDtypePeriodarrays.PeriodArrayperiodfreq表示单个
10、时间跨度或某个时间段,如一天、一小时以时间戳(timestamp)+时间周期长度(freq)的形式界定。稀疏型稀疏型SparseDtypearrays.SparseArraySparsedtype适用于float64(nan)、int64(0)、bool(False)基础类型的数据集。为节约内存,匹配空值的数据被省略时,稀疏对象被“压缩”;稀疏对象中通过SparseIndex对象跟踪数据被“稀疏”的位置。区间型区间型IntervalDtypeIntervalarrays.IntervalArrayInterval类似于数学上的区间集合,如(0,2。整型整型(可空可空)Int64Dtype ,
11、arrays.IntegerArrayInt64等表示可以取值为NaN的整数数据集。弘 德 明 志 博 学 笃 行05数据类型的简单使用弘 德 明 志 博 学 笃 行弘 德 明 志 博 学 笃 行DataFrame对象 df = pd.DataFrame(A: np.random.rand(3),B: 1,C: foo, #创建数据帧对象 D: pd.Timestamp(20010102), E: pd.Series(1.0 * 3).astype(float32), F: False, G: pd.Series(1 * 3, dtype=int8) df #显示DataFrame对象内容 A
12、 B C D E F G0 0.213864 1 foo 2001-01-02 1.0 False 11 0.927746 1 foo 2001-01-02 1.0 False 12 0.658905 1 foo 2001-01-02 1.0 False 1 df.dtypes #各列的数据类型A float64B int64C objectD datetime64nsE float32F boolG int8dtype: object弘 德 明 志 博 学 笃 行弘 德 明 志 博 学 笃 行数据类型转换 pd.Series(1,2,3,4,5,6.) #创建系列时整型强制转换为浮点型0 1
13、.01 2.02 3.03 4.04 5.05 6.0dtype: float64#创建对象时,可指定相应的数据类型,或采用默认的数据类型 df2 = pd.DataFrame(A: pd.Series(np.random.randn(8), dtype=float16), B: pd.Series(np.random.randn(8), C: pd.Series(np.array(np.random.randn(8),dtype=uint8) df2.dtypes #对象各列的数据类型A float16B float64C uint8dtype: object df2.astype(floa
14、t32) #强制类型转换为float32类型弘 德 明 志 博 学 笃 行弘 德 明 志 博 学 笃 行数据类型转换的兼容性import datetime as dt #导入Python标准库 m=1.1,2,3 pd.to_numeric(m) #兼容,转换为数值类型array(1.1, 2. , 3. ) m=2019-07-09,dt.datetime(2019,3,2) pd.to_datetime(m) #兼容,转换为日期/时间型DatetimeIndex(2019-07-09, 2019-03-02, dtype=datetime64ns, freq=None) m = apple
15、, datetime.datetime(2016, 3, 2) pd.to_datetime(m, errors=coerce) #不兼容,则置为空值,如NaTDatetimeIndex(NaT, 2016-03-02, dtype=datetime64ns, freq=None) m=apple,2,3 pd.to_numeric(m,errors=ignore) #不兼容,保留原值,但提升类型array(apple, 2, 3, dtype=object)在强制数据类型转换时,存在兼容性问题。如果数据类型之间不兼容,将提示错误,不能完成转换。弘 德 明 志 博 学 笃 行谢谢大家1.Pandas的功能特点有哪些?的功能特点有哪些?2.Pandas最常用的两个结构类型是什么?有什么特点?最常用的两个结构类型是什么?有什么特点?3.数据类型的转换是否存在兼容性问题?数据类型的转换是否存在兼容性问题?