基于探索性数据分析的全国过夜游客研究大学论文.doc

上传人:沧海****B 文档编号:91492221 上传时间:2023-05-27 格式:DOC 页数:13 大小:208KB
返回 下载 相关 举报
基于探索性数据分析的全国过夜游客研究大学论文.doc_第1页
第1页 / 共13页
基于探索性数据分析的全国过夜游客研究大学论文.doc_第2页
第2页 / 共13页
点击查看更多>>
资源描述

《基于探索性数据分析的全国过夜游客研究大学论文.doc》由会员分享,可在线阅读,更多相关《基于探索性数据分析的全国过夜游客研究大学论文.doc(13页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、探索性数据分析课程论文 论文题目: 基于探索性数据分析的全国过夜游客研究 学生姓名: 学生学号: 所在学院: 年级专业: 任课教师: 完成日期: 年 月 日 基于探索性数据分析的全国过夜游客研究()【内容摘要】基于2013年全国31个省、直辖市、自治区住宿业年末从业人数和入境过夜游客截面数据进行探索性数据分析,通过茎叶图、五数总括图、箱线图了解数据进而改进数据并建立普通回归模型,结果表明年末从业人数是影响入境过夜游客的因素。【关 键 词】探索性数据分析,入境游客,住宿业,从业人员我国旅游资源丰富,旅游业在全国国民经济中占据重要的地位,是我国主要支柱产业之一。随着社会的发展,我国经济、文化和生态

2、建设都取得了长足的进步,旅游业的发展也相当繁荣。旅游业的可持续性发展对其他领域的可持续发展具有一定的促进作用,而整个社会的可持续发展又为旅游业创造了良好的条件。其中,旅游业对餐饮、住宿的助推作用越来越明显。住宿业在满足游客消费需求的同时,已成为一个地区或城市经济社会发展水平、对外总体形象的重要标志。近年来我国住宿业规模迅速扩大,住宿从业人员不断增多,整体素质不断提升,市场影响力不断增强,构成了我国旅游竞争力重要方面,为促进我国服务业繁荣发展和旅游服务水平整体提升做出了积极贡献。旅游业的发展离不开住宿业的发展和支持,住宿业给游客提供休息和服务,并留下良好印象,优质的住宿服务有助于提升我国旅游业在

3、国际中的形象。对我国的各个省、市、自治区来说,相互之间也存在竞争,如各地通过深度开发具有本地特色的旅游产品来吸引游客。研究我国入境过夜游客和住宿业从业人员的关系,是因为各地除了开发本地特色、提高旅游服务水平吸引游客以外,还能通过建设高水平的酒店来吸引游客。一个地方过夜游客人数的增加,除了给住宿业带来更多收入以外,还意味着当地潜在的其他旅游相关行业收入的增加。研究旅游业与住宿业的关系,有助于解释不同地区旅游人数和旅游收入的变化,从而更好的为发展旅游业服务。一、初步认识数据展现所收集的原始数据,并对所收集的数据进行大致的了解,以便于后续的探索性分析。(一) 原始数据由中国统计年鉴2013年数据整理

4、可得表1所示我国各省、市、自治区入境过夜游客人数和住宿业年末从业人数数据如下。表1 2013年我国各省、市、自治区入境过夜游客人数和住宿业年末从业人数序号地区入境过夜游客(万人)住宿业年末从业人数(人)1北 京450.131508082天 津75.86252023河 北84.27644754山 西53.84464775内蒙古161.61320626辽 宁256.04567197吉 林124.3202618黑龙江152.86220729上 海614.098140210江 苏288.0311848311浙 江337.5714570812安 徽271.955112713福 建294.02874691

5、4江 西123.894111415山 东285.9811707916河 南127.389648517湖 北267.967061918湖 南230.669277519广 东3397.929671920广 西281.745100521海 南75.645664322重 庆115.174087723四 川209.568879924贵 州62.43258025云 南287.886251726西 藏22.32508027陕 西253.477486628甘 肃9.782474729青 海4.65717230宁 夏2.54829931新 疆68.8824544 来源:中国统计年鉴(2013)(二) 描述性统计

6、 根据原始数据,运用SPSS描述统计可以得出如下2所示描述统计量。表2 描述统计量描述统计量N极小值极大值均值标准差方差住宿业年末从业人数31508029671967554.3557495.5863305742459.303入境过夜游客数量312.543397.90290.0765593.22745351918.812有效的 N (列表状态)31 由表2描述统计量可以看出,全31个数据皆为有效数据,不村在缺失值。两个变量极小值与极大值之间存在极大差距,而且均值与方差相比于数据的极小值存在极大差距,说明原始数据的离散程度较大,且有可能存在异常值。由于数据可能存在各种缺陷,没有可以直接使用的模型,

7、因此运用探索性数据分析的方法对数据进行处理。二、探索性分析(一)入境过夜游客数量1. 茎叶图 如图1所示,可以看出31个地区的入境过夜游客人数的分布相对集中,三分之一的地区平均入境过夜游客在250万和290万之间。有三个异常值远远大于平均值,剩余的三分之二在以50万到80万为峰值的正态分布中。从整体来看,这个批并不对称,但有相对集中的趋势。还需要对这个批进行其他方式的表述。 Frequency Stem & Leaf 4.00 0 . 0002 6.00 0 . 566778 4.00 1 . 1222 2.00 1 . 56 2.00 2 . 03 9.00 2 . 556788889 1.

8、00 3 . 3 .00 3 . .00 4 . 1.00 4 . 5 2.00 Extremes (=614) Stem width: 100.00 Each leaf: 1 case(s)图1 入境过夜游客数量的茎叶图2.五数总括图下图2为入境过夜游客数量的无数总括图,由图形可以看出:相比较于均值290,中位数161更倾向于左偏,因此可以得知有离群的极大值点。而四分展布由75.64到285.98,可知存在大量离群值,为了更直观的表现五数总括的特点,做箱线图。#31游客数量M16161.61F875.64285.9812.543397.9图2 入境过夜游客数量的五数总括图 3.箱线图 如图三

9、所示,数据存在明显的左偏趋势,序号为9尤其是序号为19的变量值极度偏离。出去异常值外,中位数与上下四分位数没有明显的偏向,而四分展布能够基本概括所有的数据。图3 入境过夜过夜游客数量箱线图4.数据变换通过以上分析可知,数据存在异常值,而且是非对称分布。为了能够对数据进行分析,首先应该进行数据变换。对数据进行对数变换,取自然对数,使数据能够消除异常值并适当的对沉调整。由图4调整后的箱线图可以看到:仍然存在异常值,但是箱的位置处于中间,中位数也没有对上四分位数或下四分位数的明显偏向,偏度、展布、与位置均较好。由此可知,对数据进行对数变换,取得的效果较理想。图4 去自然对数的入境过夜游客数量的箱线图

10、 (二)住宿业年末从业人数 1.茎叶图 Frequency Stem & Leaf 3.00 0 . 000 7.00 0 . 2222233 7.00 0 . 4445555 4.00 0 . 6677 5.00 0 . 88899 2.00 1 . 11 .00 1 . 2.00 1 . 45 1.00 Extremes (=296719) Stem width: 100000 Each leaf: 1 case(s)图5 住宿业年末从业人数茎叶图 如图5所示,可以看出31个地区的住宿业年末从业人数的分布相对集中。有2个异常值远远大于平均值,三分之二的地区从业人数在2万到9万之间大致均匀分

11、布。从整体来看,这个批并不对称,但有相对集中的趋势。想要进一步了解,还需要对这个批进行其他方式的表述。 2.五数总括图下图6为入境过夜游客数量的五数总括图,由图形可以看出:相比较于均值67554,中位数56643更倾向于左偏,因此可以得知有离群的极大值点。而四分展布由25202到88799,能够较为稳妥的包含大概三分之一的数据,但是极大值与极小值之间差距显著,因此也可以证明这批数据的方差极大。#31从业人数M1656643F8252028879915080296719图6 住宿业年末从业人数五数总括图 3.箱线图 如图7所示,数据存在明显的左偏趋势,下四分位数的尾部长度大概为上四分位数长度的2

12、倍,可知小数据较集中而大数据叫离散。序号为19的变量值极度偏离。除去异常值外,中位数与上下四分位数没有明显的偏向,而四分展布能够基本概括所有的数据。图7 住宿业年末从业人数箱线图4.数据变换通过以上分析可知,数据存在异常值,而且是非对称分布。为了能够对数据进行分析,首先应该进行数据变换。对数据进行对数变换,取自然对数,使数据能够消除异常值并适当的对称调整。由图7调整后的箱线图可以看到:仍然存在异常值,但不是极大值而是极小值但是箱的位置处于中间,中位数也没有对上四分位数或下四分位数的明显偏向,偏度、展布、与位置均较好。由此可知,对数据进行对数变换,取得的效果较理想。图8 调整后的住宿业年末从业人

13、员的箱线图 三、回归分析(一)回归结果表3 回归分析Dependent Variable: LOG(Y)Included observations: 31VariableCoefficientStd. Errort-StatisticProb.C-9.2906891.695153-5.4807380.0000LOG(X)1.3116880.1566538.3732180.0000R-squared0.707398Mean dependent var4.854761Adjusted R-squared0.697308S.D. dependent var1.415998S.E. of regres

14、sion0.779045Akaike info criterion2.400846Sum squared resid17.60044Schwarz criterion2.493361Log likelihood-35.21311Hannan-Quinn criter.2.431004F-statistic70.11079Durbin-Watson stat1.420226Prob(F-statistic)0.000000由Eviews软件操作可得分析结果,由以上结果可知:R=0.707398 ,说明回归线对数据的拟合度。虽然拟合的不够完美,但是在可以接受的范围;由p值可知t检验显著,即自变量不

15、显著为0,;由于只有一个变量,因此F检验与t检验相同,也说明自变量不显著为0,因此F检验的p值为0;由DW检验,即自相关检验,查DW分布表可知,检验显著,即回归方程不存在自相关性。 (二)残差检验 有残差图可以看出拟合效果良好,残差大致分布在-1和1之间,均值趋于0,方差为常数。残差可以通过检验,因此回归分析可以通过检验。图9 残差图 再看残差的散点形态,看起来也大概在0的上下分布。由0做一条直线,大概把残差分为上下两部分,因此可以看出拟合效果良好。图10 转换变量后的回归标准化残差图11 转换变量前的回归标准化残差 再对比转换变量前的回归标准化残差(图11),可以发现,变量经过转换后,残差发

16、生了明显的变化,至少是消除了残差的线性的。 四、总结通过以上的探索性分析以及简单的线性回归分析,可以得出以下结论:对于存在异常值、非对称分布的数据,可以进行对数变换。虽然对于异常值的修正没有显著的效果,但是对于整个批的数据而言,其位置、展布、偏度等方面都能得到显著性的改善。通过对各地区入境过夜游客人数和住宿业年末从业人数的数据分析,可以拟合一条拟合效果良好的回归直线,对于显著改善与原始数据并能通过各种检验的回归直线而言,可以得出入境过夜游客人数和年末从业人数之间的关系:各地区住宿业年末从业人数每增加1,则各地区入境过夜游客增加1.3,这个回归是显著的。参考文献:1孙丽君. 探索性数据分析方法及应用D.东北财经大学,2005.2袁奥博,徐艳. 海南市县过夜游客人数与饭店行业特征关系研究基于17个市县面板的计量分析J. 四川旅游学院学报,2015,01:36-40+45.3中国统计年鉴(2013)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁