《Python数据分析与应用案例教程》教案 第21课 二手房数据分析与房价预测数据分析与可视化.docx

上传人:太** 文档编号:74387470 上传时间:2023-02-25 格式:DOCX 页数:10 大小:45.14KB
返回 下载 相关 举报
《Python数据分析与应用案例教程》教案 第21课 二手房数据分析与房价预测数据分析与可视化.docx_第1页
第1页 / 共10页
《Python数据分析与应用案例教程》教案 第21课 二手房数据分析与房价预测数据分析与可视化.docx_第2页
第2页 / 共10页
点击查看更多>>
资源描述

《《Python数据分析与应用案例教程》教案 第21课 二手房数据分析与房价预测数据分析与可视化.docx》由会员分享,可在线阅读,更多相关《《Python数据分析与应用案例教程》教案 第21课 二手房数据分析与房价预测数据分析与可视化.docx(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、课题第21课二手房数据分析与房价预测数据分析与可视化课时2 课时(90 min )教学目标知识技能目标:(1)练习使用Pandas分析数据(2 )练习使用Matplotlib可视化展示数据(3 )练习使用Scikit-learn中的线性回归模型预测数据 素质目标:了解国家的发展方向,增强民族自信心和自豪感教学重难点教学重点:使用Pandas分析数据教学难点:使用Matplotlib可视化展示数据教学方法案例分析法、问答法、讨论法、i井授法教学用具电脑、投影仪、多媒体课件、教材、APP教学设计第1节课:考勤(2 min ) 一问题导入(5 min ) 一传授新知(28 min )一课堂实践(10

2、 min )第2节课:问题导入(8 min ) 一传授新知(20 min )一课堂讨论(12 min ) 一课堂小结(3 min ) 一作业布置(2 min )教学过程主要教学内容及步骤设计意图第一节课考勤(2 min)【教师】使用APP进行签到【学生】按照老师要求签到培养学生的组 织纪律性,掌握学 生的出勤情况问题导入(5 min)【教师】提出问题我们已经学习了案例分析及数据预处理的相关知识,那么数据如何进行分析 呢?【学生】思考、举手回答通过提问的方 法,了解学生对数 据分析的知识,进 而引出新知传授新知 (28 min)【教师】总结学生的回答,并引入新知,讲解数据分析与可视化的相关知识7

3、.3数据分析与可视化7.3.1 各区二手房数量和均价分析计【教师】按照教材步骤进行问题分析及程序演示:各区二手房数量和均价分析可以通过下面4个步骤来实现。(1)导入“最新发布的北京二手房数据一预处理.xlsx文件中的数据,并设置 中文字体。(2 )创建新画布,设置大小为(12, 6)。(3 )将球按所在区分组,并使用size()函数获取每个分组的统计个数;然后, 创建一行一列的子图axl ,以统计个数的行标签为x轴数据、数值为y轴数据、颜 色为(0.894, 0, 0.498)绘制柱状图,并设置y轴标题、图例和图表标题.通过教师讲解、 课堂讨论、多媒体 演示等方式,使学 生了解数据分析 与可视

4、化等相关 知识,包括各区二 手房数量和均价 分析和二手房面 积和总价区间占 比分析(4)将数据按所在区分组,并将分组数据的单价列按均值聚合,然后使用 twinx()函数创建一个共享x轴的子图ax2 ,以均值为y轴数据、蓝色点画线星号为 线条样式绘制折线图,并设置y轴标题、图例和每个数据的文本标签。实现代码如 下。import matplotlib.pyplot as pitimport numpy as npimport pandas as pddf = pd.read_excel(最新发布的北京二手房数据一预处理.xlsx)plt.rcRaramsfont.sans-serif = SimH

5、eiplt.figure(figsize=(12, 6)#绘制各区二手房数量柱状图df_count = df.groupby(所在区)size。axl = plt.subplot(l, 1,1)x = df_count.indexheight = df_countaxl.bar(x, height, width=0.6, color= (0.894, 0, 0.498)axl.set_ylabel(房源数量)axl.legend(数量)loc=upper left)plttitlef各区二手房数量和均价双轴图)#绘制各区二手房均价折线图df.price = df.groupby(所在区)单价(

6、元/平方米).agg(mean)ax2 = axl.twinx()y = df_priceax2.plot(x, y, b-.*)ax2.set_ylabel(房源均价/ (元/平方米),)ax2.legend(均价)loc=upper right)for a, b in zip(x, y):ax2.text(a, b, %d % b, ha=center)plt.showQ(详见教材)中【学生】观察、记录、理解小【学生】教师演示完成后,学生按照教材提示和教师演示进行实际操作,并 对比程序运行结果(详见教材)中【教师】巡视课堂记录,对学生进行个别指导)【教师】提出学习任务:对比程序结果,进行结

7、果分析。小【学生】观察、记录、理解、分析【教师】总结学生的分析结果本次采集的房源数据中,西城区的房源均价最高,平谷区的房源均价最低,且 相差较大;均价超过10万元的区有东城和西城;朝阳区的房源数量最多,其均价处 于中间水平。二手房面积和总价区间占比分析【教师】按照教材步骤进行问题分析及程序演示:首先,创建新画布,设置大小为(12, 6);然后,将数据按面积区间分组及获取 其统计个数,创建第一个子图,以统计个数的数值为扇区数据、行标签为扇区标签、 两位小数百分比为比例格式绘制饼状图,并设置子图标题;最后,将数据按总价区 间分组及获取其统计个数,创建同一行的第二个子图,以统计个数的数值为扇区数 据

8、、行标签为扇区标签、两位小数百分比为比例格式绘制饼状图,并设置子图标题。 实现代码如下。plt.figure(figsize=(12, 6)#绘制北京二手房面积区间占比饼状图 df_area_count = df.groupby(面积区间)size() plt.subplot(l, 2,1)x = df_area_countlabel = df_area_count.indexplt.pie(x, labels=label, autopct=%.2f%) plttitlef北京二手房面积区间占比饼状图) #绘制北京二手房总价区间占比饼状图 df_totalPrice_count = df.gr

9、oupby (总价区间)size。 plt.subplot(l, 2, 2) x = df_totalPrice_countlabel = df_totalPrice_count.indexplt.pie(x, labels=label autopct=%.2f%) plttitleC北京二手房总价区间占比饼状图) plt.show()(详见教材)中【学生】观察、记录、理解计【学生】教师演示完成后,学生按照教材提示和教师演示进行实际操作,并 对比程序运行结果(详见教材)中【教师】巡视课堂记录,对学生进行个别指导【学生】聆听、思考、理解、记忆课堂实践(10 min)【教师】提出问题:通过课堂讨论

10、, 加深学生对二手 房面积和总价区 间占比分析结果 的理解请同学们观看二手房面积和总价区间占比饼状图,可以看出哪些内容?【学生】聆听、思考、讨论、小组代表回答问题【教师】总结学生的回答从图中可以看出,本次采集的房源数据中,120平方米以下的房源占大部分, 且60 90平方米的房源最多;200万 800万元的房源占大部分,且200万 400 万元的房源最多。第二节课问题导入(8 min)【教师】提出问题我们已经学习了二手房面积和总价区间占比分析,那么二手房房龄与均价有哪些 关系?【学生】聆听、思考、回答问题通过提问的方 法,引导学生主动 思考,激发学生的 学习兴趣传授新知 (20 min)【教师

11、】总结学生的回答,井引入新知,讲解二手房房龄与均价相关性的相关知识二手房房龄与均价的相关性分析“【教师】按照教材进行问题分析并按照步骤迸行二手房房龄与均价的相关性分 析演示:商品房产权一般只有70年,因此购房时需要考虑房源房龄。此处,使用散点图 分析二手房房龄与均价的相关性。首先,将数据按房龄分组并求均值聚合;然后,创建新画布,设置大小为(12. 6), 以聚合数据的行标签为x轴数据、单价歹1(即均值)为y轴数据、颜色为(0.894, 0. 0.498)绘制散点图,并设置x轴、y轴和图表标题.实现代码如下。df_average = df.groupby(房龄)agg(mean)plt.figu

12、re(figsize=(12, 6)x = df_average.indexy = df_average单价(元/平方米)plt.scatter(x, y, color= (0.894, 0, 0.498)通过教师讲解 和课堂练习,使学 生了解二手房房 龄与均价的相关 性分析,是否靠近 地铁的不同装修 二手房均价分析, 预测房价的相关 知识plt.xlabel,房龄)plt.ylabelC均价/ (元/平方米),)plt.title(二手房房龄与均价的相关性散点图)plt.show()(详见教材)【学生】观察、记录、理解【学生】教师演示完成后,学生按照教材提示和教师演示进行实际操作,并对 比程

13、序运行结果(详见教材)【教师】巡视课堂记录,对学生进行个别指导*【教师】提出学习任务:对匕维序结果,进行结果分析。【学生】观察、记录、理解、分析*【教师】总结学生的分析结果.- a x-M寸 +Q WN B12WK xcoc从图中可以看出,本次采集的房源数据中,房龄和均价有一定的正相关,随着房 龄的增加,整体均价有一定幅度的增长,这可能是房龄越大,房源地理位置越靠近中 心的原因。是否靠近地铁的不同装修二手房均价分析小【教师】按照教材进行问题分析并按照步骤进行是否靠近地铁的不同装修二手 房均价分析演示:是否靠近地铁意味着交通是否方便,而不同的装修则意味着购房后是否可以直 接入住或不同的装修费用。

14、对是否靠近地铁的不同装修房源均价的分析,可以为购房 者是否将这两个因素纳入考虑范围中提供参考.此处,使用多柱状图分析是否靠近地 铁的不同装修二手房的均价。首先,以单价为统计字段、以装修和房源标签分别为行字段和列字段、以均值 为统计指标绘制透视表;然后,创建新画布,以区间为0, 4)和等差为1的数列为x 轴数据、以透视表的不近地铁列为y轴数据绘制第一组柱状图,以增加宽度的等差数 列为X轴数据、以透视表的近地铁列为y轴糠绘制第二组柱状图,并设置X轴和y 轴标题、图例、x轴刻度标签和图表标题。实现代码如下。dfl = pd.pivot_table(df, values:单价(元/平方米),index

15、:装修, columns:房源标签aggfunc=mean)plt.figureOwidth = 0.3x = np.arange(4)plt.bar(x, dfl不近地铁width)x = x + widthplt.bar(x, dfl近地铁 1 width)plt.xlabel(装修)plt.ylabel。均价/ (元/平方米),)plt.legend(dfl.columns)plt.xticks(np.arange(4) + width / 2, dfl.index)plt.titleC是否靠近地铁的不同装修二手房均价柱状图)plt.show()(详磁材)【学生】观察、记录、理解【学生】

16、教师演示完成后,学生按照教材提示和教师演示进行实际操作,并对 比程序运行结果(详见教材)中【教师】巡视课堂记录,对学生进行个别指导A【教师】提出学习任务:对比程序结果,进行结果分析.【学生】观察、记录、理解、分析计【教师】总结学生的分析结果从结果可以看出,本次采集的房源数据中,靠近地铁比不靠近地铁的均价要高; 精装修的均价最高,毛坯的均价最低,但差距不是很大。7.4使用线性回归模型预测房价【教师】按照教材进行使用线性回归模型预测房价分析:市场上的房价受多种因素影响,通过对它们进行分析,有助于对未来房价的走势 进行预测。多元线性回归适用于分析受多因素影响的连续数据。由多个自变量的最优组合来 估计

17、或预测因变量,比只用一个自变量进行估计或预测更有效,更符合实际。本节利 用多元线性回归模型,通过某房产网站上最新发布的北京二手房蜂,预测北京二手 房未来的房价。在建立回归模型时,选择面积、户型(室和厅)、所在区(北京16个行政区和 亦庄开发区)、装修(毛坯、简装和精装)、结构(塔楼、板楼、板塔结合和平房)、 房源标签(近地铁和不近地铁)、朝向(东、南、西、北、东北、东南、西南和西北) 和房龄作为自变量,单价作为因变量。根据二八原则,以80%的样本数据作为训练集,训练线性回归模型,其余20%的样本数据作为测试集。【教师】按照教材进行问题分析及编程步骤演示:Python提供了机器学习库Scikit

18、-learn用于建立回归模型,实现过程如下。(1)导入Python库,并设置图表的中文字体。import pandas as pdimport matplotlib.pyplot as pitfrom sklearn import model_selectionfrom sklearn.Iinear_model import LinearRegressionplt.rcParamsfont.sans-serif = SimHei(2)导入预处理文件中的数据,并选择自变量和因变量。df = pd.read_excel(最新发布的北京二手房数据加处理.xlsx)unit_price = df1单价

19、(元/平方米)house.area = df面积(平方米)house_type = df室,厅house_regin = df通州广朝阳昌平丁顺义,丰台广海淀广西城房山, 石景山冒大兴怀柔丁东城丁门头沟丁密云丁延庆丁平谷丁亦庄开发区house-finish = df毛坯丁简装丁精装house.structure = df塔楼丁板楼丁板塔结合丁平房is.subway = df近地铁丁不近地铁house_dirt = df东冒南丁西,北丁东北丁东南丁西南广西北house_year = df房龄#选择自变量x和因变量yx = pd.concat(house_area, house_type, hou

20、se_regin, house_finish, house_structure, is_subway, house_dirt, house_year, axis=l)y = unit_price(3 )划分训练集和测试集,然后通过训练集训练线性回归模型,并根据测试集 的自变量对北京二手房房价进行估计.#划分训练集与测试集x_train, x_test, y_train, y_test = model_selection.train_test_split(x, y, test_size=0.2)LR = LinearRegressionO#建立线性回归模型reg = LR.fit(x_train

21、, y_train)#训练模型predicted = reg.predict(x_test)#对测试集的自变量进行估计(4 )使用折线图绘制实际值和估计值的后50个数据.plt.figure(figsize=(12, 6)n = 50plt.plot(range(n), y_test-n:f#编!1 实际值折线图plt.plot(range(n), predicted-n:, r-.)#绘制估计值折线图plthgend(实际值丁估计值,)pltxlabelCJs 50 个数据)plt.ylabel(单价/ (元/平方米),)plt.title(二手房房价实际值和估计值折线图)plt.show(

22、)(详见教材)计【教师】提出学习任务:对比程序结果,进行结果分析.“【学生】观察、记录、理解、分析计【教师】总结学生的分析结果从结果可以看出,使用线性回归模型计算的北京二手房估计值与实际值稍有偏 差,但整体趋势基本一致,可以通过该模型粗略预测北京二手房房价。【提示】教师讲解程序运行结果小【学生】聆听、思考计【教师】按照教材进行不同房源信息问题分析及编程步骤演示:(5)定义两组房源信息,如海淀和昌平的80平方米、2室1厅、精装、塔楼、 靠近地铁、朝南、15年的房源信息,并添加到自变量的测试集中,然后使用第4步 中的线性回归模型预测北京二手房房价。# 定义两组房源的自变量信息,添加到x.test中

23、# 80平方米、2室1厅、海淀、精装、塔楼、靠近地铁、朝南、15年x_test.loclen(x_test) = 80, 2,1, 0, 0, 0, 0, 0,1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,1, 1, 0, 0, 0,1, 0, 0, 1, 0, 0, 0, 0, 0, 0,15# 80平方米、2室1厅、昌平、精装、塔楼、靠近地铁、朝南、15年x_test.loclen(x_test) + 1 = 80, 2,1, 0, 0,1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,1,1, 0, 0

24、, 0,1, 0, 0, 1, 0, 0, 0, 0, 0, 0,15predicted = reg.predict(x_test)#预测数据# 输出最后两个预测值print(8O平方米、2室1厅、海淀、精装、塔楼、靠近地铁、朝南、15年的房 价预测值(元/平方米):n predicted-2)print,80平方米、2室1厅、昌平、精装、塔楼、靠近地铁、朝南、15年的房 价预测值(元/平方米):n predicted-l)【教师】提出学习任务:对比程序结果,进行结果分析.小【学生】观察、记录、理解、分析小【教师】总结学生的分析结果结果可以看出,同样面积、户型、装修、结构、是否靠近地铁、朝向和

25、房龄的房 源,海淀和昌平的预测房价相差很大,基本符合73.1节中各区二手房均价的分析。【提示】教师介绍机器学习的线性回归模型的使用方法【学生】聆听、思考【学生】聆听、思考、理解、记录课堂讨论(12 min)【教师】讲述复兴之路”案例,提出问题,请同学们分小组讨论:你知道中国哪些关于国民经济和社会发展的策略?【学生】聆听、结组、思考、讨论、小组代表发言【教师】聆听学生的回答通过课堂讨论, 使学生能够了解 更多关于国家发 展方向的知识课堂小结 (3 min)【教师】简要总结本节课的要点本节课学习了数据分析与可视化的相关知识,包括各区二手房数量和均价分析, 二手房面积和总价区间占比分析,二手房房龄与均价的相关性分析,是否靠近地铁的 不同装修二手房均价分析及使用线性回归模型预测房价等相关内容,希望大家在课下 多加练习,巩固所学知识。【学生】总结回顾知识点总结知识点血 固学生对相关知 识的印象作业布置 (2 min)【教师】布置课后作业完成课后本章考核7”的习题。【学生】完成课后任务通过课后作业 复习巩固学到的 知识,提高理论接 收能力教学反思本节课通过实际案例让学生了解数据分析与可视化的知识,学生通过实践掌握了相关知识并且锻炼 了技能,但由于案例综合性较强,部分学生不能全面掌握,需要其他同学的帮助进行知识巩固。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 解决方案

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁