《中国房地产影响因素与地区分类及基于多元线性回归与BP神经网络的房价预测.doc》由会员分享,可在线阅读,更多相关《中国房地产影响因素与地区分类及基于多元线性回归与BP神经网络的房价预测.doc(18页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流中国房地产影响因素与地区分类及基于多元线性回归与BP神经网络的房价预测.精品文档.中国房地产影响因素与地区分类及基于多元线性回归与BP神经网络的房价预测北京邮电大学 薛元、陈立、朱嵩目录摘要3Abstract3一、问题背景4二、思路5三、分析过程63.1 主成分分析63.2 聚类分析103.3判别分析15四、模型验证及相关预测154.1 线性回归预测154.2 BP神经网络预测16五、结论18六、附录19附录A 2009年全国各地区影响房屋销售价格因素表19附录B 全国31个省区市的主成分得分表(按主成分得分排序)21参考文献22摘要房地产市
2、场的发展一直是近年来社会关注的焦点。尤其是这两年全国房价普遍飞涨,连带引起中国一系列社会经济问题之后,政府对于房价又采取了一系列调控措施。本文首先致力于探究影响房价的全方面因素,运用主成分分析得到地区经济实力,人口密度,CPI是影响房价的三大主要原因。其次,本文利用聚类分析的方法把中国房地产市场分成了五类进行类讨论,并用判别分析验证了我们所采取的分类的准确性。最后,我们分别应用多元线性回归预测以及神经网络预测给出了2010年个别地区房价的预测值。其中,前者给出的北京、上海、福建、广东和甘肃等五个省市的房屋价格预测向量是(13200,14378,8003,9201,4832)后者对应的价格向量是
3、(12683,13055,7322,8308,4067)。关键词:主成分分析、聚类分析、判别分析、多元线性回归预测、神经网络预测AbstractThe development of real estate has been always concerned by whole society, especially when the prices of real estate soar dramatically in recent years, which have caused a series of social and economic problems. Thus, the govern
4、ment has taken a series of measures to control the prices. In the outset of this article, we discuss the general factors which could affect the real estate prices, and by Principal Component Analysis, we get the conclusion that regional economic condition, density of population and CPI are the major
5、 factors. As following, we divide 31 regions of China into 5 clusters by Cluster Analysis and verify our classification by Discriminant Analysis. At last, we predict the real estate prices of some certain regions by the methods of Multiple Linear Regression and Neural Network, respectively. Specific
6、ally, as to Beijing, Shanghai, Fujian, Guangdong and Gansu, the vector of the predictive prices of real estate of the 5 regions is (13200, 14378, 8003, 9201, 4832) by Multiple Linear Regression, while (12683, 13055, 7322, 8308, 4067) by Neural Network.Keywords:Principal Components Analysis,Cluster A
7、nalysis,Discriminant Analysis,Multiple Linear Regression,Neural Network一、问题背景自本世纪初以来,中国大陆迎来了一波前所未有的房地产投资浪潮,内地房地产业迅速升温。内地房地产投资额从2001年的6245亿元急剧攀升到2010年的48267年亿,增长幅度达到672.89%。再加上建筑原材料资源的不断紧缺,成本上涨,人力资源紧俏,房屋建设成本也在不断提高。在此背景下,房价得到快速拉升。以北京市为例,2001年住宅用商品房平均销售价格为4716元/平方米;到了2009年涨到了13799元/平方米,部分地段部分楼盘的价格甚至超过了
8、10万元/平方米。因此,国务院先后采取了土地、金融、税收等调控手段,以抑制房价过快增长。2011年,在国务院办公厅关于进一步做好房地产市场调控工作有关问题的通知中指出:要进一步落实地方政府责任,加大保障性安居工程建设力度,调整完善相关税收政策,加强税收征管,强化差别化住房信贷政策,严格住房用地供应管理,合理引导住房需求,落实住房保障和稳定房价工作的约谈问责机制,坚持和强化舆论引导。国八条的出台为中国房价调控带来了一丝曙光,但也不免使人产生疑惑:房价调控真的有用吗?未来房价的走势又将是怎样的?为了解决这个问题,我们就要从影响房价的因素入手,通过对影响房价的因素的构成进行分析来对房价进行拟合。从中
9、找出房价结构模型,并利用该模型对未来房价进行模拟预测,以期从中寻找到一些可以有效抑制房价过快增长的措施。本项目中采用了多元统计分析中的主成分分析、聚类分析、判别分析、线性回归分析以及神经网络等多种分析方法,利用2010年国家统计局统计年鉴中的统计数据对影响房价的因素进行了模拟、验证并对未来房价进行了预测。通过验证我们可以知道,这组方法是切实可行的。二、思路问题提出结论对比预测结果BP神经网络预测线性回归预测模型检验及预测判别分析离差平方和法对比重心聚类法离差平方和法组内连接法聚类分析主成分分析模型假设三、分析过程3.1 主成分分析主成分分析(Principal Components Analy
10、sis)由美国著名数理统计学家哈罗德霍特林(Harold Hotelling,1895-1973)于1933年提出的一种多元统计方法。主成分分析利用降维的思想,在损失可以接受的信息量的前提下,把原本多个变量综合为少数几个变量,以达到简化问题、便于分析问题的目的。适合做主成分分析的问题要求原始变量之间有较强的相关性,包含可以提取的重叠信息。因此,首先需要对问题做相关性度量的检验。这里选择了通常认为与商品房住宅有关的7个变量来做主成分分析。原始数据详见附录A。通过Markway 5.0软件,我们把这7个变量之间的Pearson相关系数矩阵求出如下:表1 Pearson相关系数矩阵相关系数CPI地方
11、财政收入人口密度人均可支配收入人均GDP消费水平房屋造价CPI1.0000-0.40350.0925-0.4071-0.2711-0.3348-0.2345地方财政收入-0.40351.0000-0.16270.74580.65530.73260.5461人口密度0.0925-0.16271.0000-0.2936-0.2750-0.2582-0.0984人均可支配收入-0.40710.7458-0.29361.00000.92500.95890.6923人均GDP-0.27110.6553-0.27500.92501.00000.91450.6993消费水平-0.33480.7326-0.2
12、5820.95890.91451.00000.6924房屋造价-0.23450.5461-0.09840.69230.69930.69241.0000其中有13个相关系数大于0.3,占所有相关系数个数的61.90%;另外下方的巴特莱特球性检验表也表明该组数据适合做主成分分析。表2 巴特莱特球性检验表参数值卡方值175.3955自由度21显著性0.0000由于这几个变量受量纲影响非常大,因此这里采用原始变量的相关矩阵,得到全部七个主成分如下:表3 主成分表主成分特征根方差贡献率%累计贡献率%14.298061.399961.399920.954313.632775.032630.872312.4
13、60787.493340.42276.039193.532550.33624.803298.335760.08151.164999.500670.03500.4994100.0000考虑85%的累计贡献率,取前三个主成分,可以得到对于7个原始变量分别的信息提取量:表4 原始变量的信息提取率提取结果CPI0.9669地方财政收入0.6968人口密度0.9836人均可支配收入0.9439人均GDP0.9008消费水平0.9267房屋造价0.7059可以看出除了地方财政收入和房屋造价有一定的信息损失外,余下5个变量的信息基本都被提取。由主成分载荷矩阵表5 主成分载荷矩阵主成分1主成分2主成分3CPI
14、-0.4572-0.23780.8374地方财政收入0.81660.1362-0.1069人口密度-0.31490.92030.1935人均可支配收入0.9707-0.01790.0363人均GDP0.9284-0.04780.1916消费水平0.9555-0.00240.1167房屋造价0.77830.17210.2654除以各个主成分的特征根的平方根,可以得到三个主成分由7个原始变量线性表示的系数:表6 主成分-原始变量线性系数表主成分1主成分2主成分3CPI-0.220532711-0.243427360.896602655地方财政收入0.3938911020.139423071-0.1
15、14457635人口密度-0.1518935930.9420782130.207180098人均可支配收入0.468222009-0.018323590.038866344人均GDP0.447818392-0.0489311510.205145771消费水平0.460890213-0.0024567940.124950477房屋造价0.3754169050.1761726180.284163297从系数表中可以看出,主成分2和3分别主要提取的是人口密度和CPI信息,但主成分1的系数较为均衡,不太容易解释。下面通过主成分法对数据做因子分析,利用因子分析中的因子旋转,来更好的解释对这3个综合变量。
16、经过方差极大正交旋转后的因子载荷矩阵以及提取率如下:表7 因子载荷矩阵因子1因子2因子3CPI-0.18210.96570.0328地方财政收入0.7465-0.3704-0.0479人口密度-0.12460.03350.9834人均可支配收入0.9199-0.2436-0.1957人均GDP0.9276-0.0805-0.1841消费水平0.9338-0.1691-0.1613房屋造价0.8368-0.02530.0708表8 因子提取率提取值CPI0.9669地方财政收入0.6968人口密度0.9836人均可支配收入0.9439人均GDP0.9008消费水平0.9267房屋造价0.7059
17、从表中可以清楚地看出,因子1主要包含的是地方财政收入、人均可支配收入、人均GDP、消费水平和房屋造价等因素,因此可以把它解释为地区的经济发达程度,因子2和3则可以解释为地区的CPI和人口密度。从上面的主成分分析和因子分析可以看出,影响一个地区的商品房住宅的因素主要包括经济状况、CPI以及人口密度。结合31个地区的主成分(未旋转因子)得分表(详见附录B),我们绘制了主成分得分排名图:图1 各个省区市主成分得分排名图注:图中序号表示该地区主成分得分的排名,图中所示区域的颜色越深表明其排名越靠前。3.2 聚类分析主要思想:为了把大量样本分为一些有意义的类别,我们采用聚类分析的方法。首先,聚类分析会构
18、造一个统计量来衡量样本间的相似程度。其次,把经过初始分类的样本进行合并,其准则是相似度大的样本先和为一类。然后不断循环直到所有样本都合并完毕。最后画出样本聚类谱系图。由于选择不同的统计量会有不同的聚类结果,我们考察了组内连接法,重心聚类法,离差平方和法,希望能获得和实际最贴近的分类。最后我们选用离差平方和并将所有样品分成五类。具体的谱系图如下:图2 对31个省区市分层聚类的谱系图注:纵轴分类单元代号分别为:1-北京市;2-天津市;3-河北省;4-山西省;5-内蒙古自治区;6-辽宁省;7-吉林省;8-黑龙江省;9-上海市;10-江苏省;11-浙江省;12-安徽省;13-福建省;14-江西省;15
19、-山东省;16-河南省;17-湖北省;18-湖南省;19-广东省;20-广西壮族自治区;21-海南省;22-重庆市;23-四川省;24-贵州省;25-云南省;26-西藏自治区;27-陕西省;28-甘肃省;29-青海省;30-宁夏回族自治区;31-新疆维吾尔自治区根据上步进行的主成分分析对31个省区市进行分类,得到如下分类表:表9 31个省区市分类情况分类第一类第二类第三类第四类第五类包含的省区市北京天津河北山西吉林上海江苏内蒙古黑龙江西藏浙江辽宁江西青海广东安徽河南宁夏福建湖南山东四川湖北贵州广西云南海南陕西重庆甘肃新疆区域个数2410114我们可以从每个类中抽取两个省区市,通过观察对比其七个
20、因素的标准化数据来证明这种聚类是合理有效的。图3-1 北京和上海七个因素(标准化)对比图3-2 江苏和浙江七个因素(标准化)对比图3-3 福建和山东七个因素(标准化)对比图3-4 西藏和青海七个因素(标准化)对比注:1、上述四幅图的横轴的七个因素依次为CPI、地方财政收入、人口密度、人均可支配收入、人均GDP、消费水平和房屋造价;2、标准化方法为:其中,为各个地区各个因素的原始指标值,为31个省区市各个因素指标值的最小值,为31个省区市各个因素指标值的最大值,为标准化后的指标值。聚类分析的结论:1, 第一类中包含北京和上海两个城市,它们是中国房地产业的领头羊,是房地产业最发达的两个城市,其房价
21、及房价相关因素的指标远远超过其他所有地区;2, 第二类中包括广东、江苏等省市。它们是紧随第一类领头羊的第二梯队。他们的房价增长势头迅猛,现行价格较高,也是中国房地产的活跃分子;3, 第三类城市中包括福建、重庆等省区市。它们数量众多,代表了中国中等水平的房地产价格市场。虽然现行的价格不高,但在可以预见的将来,其上升空间极大,是中国未来经济发展强有力的拉动者;4, 第四类城市包括甘肃、新疆、黑龙江等省区市。它们的数量也很大,代表了中国大片欠发达地区的较低水平的房地产价格市场。这些地区的房地产水平可以说从一定程度上体现了中国较为落后的一面。所以未来这些城市若要加快发展脚步可以先从振兴房地产市场开始;
22、5, 最后一类地区是青海西藏等。这些省区市大多为中国较为贫穷落后的地方,房价低也是情理之中的事情,也从另一个侧面体现了这次分类的合理性。3.3判别分析主要思想:判别分析希望通过已有的样品分类,即训练样本来生成一个判别函数,然后再对新的样品进行判类。本文主要希望通过判别分析来验证以上聚类分析的准确性及合理性,最后我们得到误判表如下:表10 判别分析回代结果(百分比)类别12345总计180.00000.00000.00000.000020.0000100.000020.0000100.00000.00000.00000.0000100.000039.09090.000090.90910.0000
23、0.0000100.000040.00000.00000.0000100.00000.0000100.000050.00000.00000.00000.0000100.0000100.0000从上表可以看出再次进行判别分析后的误判率很低,进一步说明前文中的聚类分析的结果是合理的。四、模型验证及相关预测4.1 线性回归预测在2009年全国各省区市房价及其相关因素的数据的基础上,我们希望建立一个多元线性回归模型以实现对中国未来各省区市房价的预测。将已有数据利用Markway 5.0软件的线性回归模块运行之后我们得到如下结果:表11 线性回归模型分析表RR 平方修正的R 平方估计的标准误差对数似然值
24、AICSC值0.93580.87570.83781,093.8674-256.282217.050517.4205表12 线性回归方差分析表平方和自由度均方F值显著性回归193,805,604.9317727,686,514.990223.13870.0000残差27,520,553.9071231,196,545.8220总和221,326,158.838730并得到了线性回归方程:其中W:平均房屋销售价格;c:CPI;l:地方财政收入;p:人口密度;d:人均可支配收入;g:人均GDP;s:消费水平;h:房屋造价。从上表可以看出R及R平方值很接近于1,并且显著性值也很接近于0,因此该次回归方
25、程的建立是较为成功的。最后我们将2010年房价的相关因素指标值带入到线性回归方程中区得到了北京、上海、福建、广东和甘肃等五个省市的住宅房屋价格向量:(13200,14378,8003,9201,4832)其值与现实生活较为贴切。其中北京和上海的房价预测值偏低,但福建、广东和甘肃的预测值较为准确。4.2 BP神经网络预测主要思想:BP神经网络是后向传播网络(Back Propagation Neural Network),通过迭代的处理一组训练样本,将每个样本的网络预测与已知的真实值相比较进行学习。对于每个训练样本,修改权值矩阵使得网络预测和真实值之间的均方差达到最小。这种修改“后向”进行,即由
26、输出层经过每个隐藏层,再到输入层。然后利用已有的训练样本,我们可以利用未来房地产各项相关指标进行预测。具体如下:1,训练样本的网络预测值和真实值的比较图:图4 变量(平均售价)训练拟合图2,利用2010年的房地产各项相关指标我们预测了北京、上海、福建、广东和甘肃这五个地区的房地产价格。表13 预测结果表记录号平均售价_预测值112,683.7167213,055.887037,322.852648,308.157654,067.3187最后我们将多元线性回归预测的各地区房地产价格向量(13200,14378,8003,9201,4843)与神经网络预测的各地区房地产价格向量(12683,140
27、55,7322,8308,4067)进行比较,发现两种方法尽管在数值上有一定差异,在在组内分量的相对大小保持上还是较为良好的,说明这两种算法的稳定性较好。五、结论本文通过对2009年中国内地各个省区市的CPI、地方财政收入、人口密度、人均可支配收入、人均GDP、消费水平和房屋造价等七个影响房屋销售价格的因素进行分析,运用多元统计的方法,将房屋销售价格模拟为这七个因素的线性组合形式,并利用该模型,通过训练样本,对未来的房价进行了预测。总体来说,所建立的模型能够较好地对房价走势进行合理的预测,对北京、上海、福建、广东和甘肃等几个省市房价预测的误差较小,这说明所建立的模型是有效的。基于以上讨论结果,
28、我们提出几点建议:1、控制CPI涨幅仍然是今后的重点。由于CPI是影响房价的一个重要因素,CPI的走势直接影响到房价的走势,如果能较好地控制CPI的涨幅,使之回归到一个理性健康的状态,这将对控制房价起到较为显著的作用;2、加快地区经济平稳快速发展。通过文中相关图表不难看出,一个地区的经济水平将直接影响到当地的房价水平。经济发达地区的房价往往也处于高位。但由于近些年来一些地区为了凸显表面经济绩效,经济发展愈发畸形化,只注重了发展的速度,却忽视了发展的质量,没有将经济发展同当地实际情况有机地联系起来,造成了房价虚高,房价与当地实际经济水平脱节。今后应当加强经济管控力度,使房价能够适应当地经济发展的
29、速度,这样才能有效地控制房价;3、加强房地产业监管力度。现在一些地方出现了房地产投资商恶意圈房囤房,企图哄抬房价的现象。政府应当起到市场调节者的作用,通过出台法规政策来对房地产业进行合理有效的监管,杜绝囤房现象的发生,净化房地产市场环境,为稳控房价积极努力。六、附录附录A2009年全国各地区影响房屋销售价格因素表地区CPI地方财政收入人口密度人均可支配收入人均GDP消费水平房屋造价北京市98.45832026808912242673870452240442406天津市99.0252821991627162140262574174752734河北省98.825106712312344147182
30、4581121952099山西省99.0474805827929311399721522106171864内蒙古自治区99.664985085889511584940282147841764辽宁省100.00131591219719221576135239147741866吉林省99.9196487094313961400626595120611442黑龙江省99.8105641662743211256622447105921628上海市99.59212540297530302883878989316083353江苏省99.59033228780021522055244744159652281
31、浙江省98.73382142513117422461144641212512221安徽省98.8825863917521141408616407.66113011940福建省98.2997932428221931957733840157391600江西省99.4147581301247571402217335100331425山东省99.94242198632414151781135894160272033河南省98.82311126063848861437220597118841277湖北省99.2922814865318451436722677120802336湖南省99.67628476
32、17832761508420428130001840广东省97.62263649811024022157541166210982611广西壮族自治区97.9243620988813911545116045125851419海南省99.455178242025681375119254102152600重庆市98.3638655170116371574922920133142111四川省100.66791174592727371383917339117011601贵州省98.594416476132171286310309112231490云南省100.5172698252535611442413
33、539116611914西藏自治区101.4793008941574135441529595631821陕西省99.9887735270455301412921688122232443甘肃省100.862286589838141193012872107651619青海省103.15587738121891269219454108451569宁夏回族自治区100.344611157559021402521777131511392新疆维吾尔自治区100.1595388784849221225819942105461482附录B全国31个省区市的主成分得分表(按主成分得分排序)地区主成分1主成分2主
34、成分3按主成分提取比重的主成分得分上海市6.07740.82981.92024.08023582北京市4.3807-0.6715-0.11142.58171549广东省3.65980.8368-1.15892.21457822浙江省2.9874-0.3059-0.33071.74957177天津市2.39530.31050.6291.58997157江苏省2.34680.02540.15621.46245166山东省1.1952-0.8220.17460.64285224福建省0.6437-0.2298-1.13930.22156706辽宁省0.3652-0.59670.22670.17093
35、029内蒙古自治区0.2898-1.4226-0.1107-0.02993028陕西省-0.77842.25331.0191-0.04336591河北省-0.14290.0209-0.6593-0.16695497重庆市0.0384-0.4708-1.0729-0.17429882湖北省-0.2012-0.4041-0.2203-0.20594429湖南省-0.71750.41790.0352-0.37876881海南省-0.73220.11650.1732-0.41167181山西省-0.86710.301-0.5712-0.56202436安徽省-0.7103-0.2282-0.8467-
36、0.5723005河南省-1.2391.6612-0.7907-0.63210226云南省-1.31050.47490.7033-0.65150065四川省-1.2336-0.22880.4854-0.72739484广西壮族自治区-0.6823-0.7962-1.979-0.77362828黑龙江省-1.57731.07330.1582-0.80151331吉林省-1.0493-1.2685-0.2271-0.84483383江西省-1.76751.4147-0.2661-0.92451695新疆维吾尔自治区-2.0491.36570.4529-1.01428035宁夏回族自治区-1.298
37、9-1.79820.0244-1.03879968贵州省-1.63540.4563-1.1929-1.08959601甘肃省-2.19440.43090.8499-1.18141575西藏自治区-1.8769-1.37431.1434-1.19613991青海省-2.3161-1.37162.5256-1.29295506注:本表由特征值百分比作权重对三个主成分求和得出。参考文献1何晓群.多元统计分析(第二版).北京:中国人民大学出版社,20082张尧庭,方开泰.多元统计分析引论.北京:科学出版社,19823中国国家统计局.中国统计年鉴2010.北京:中国统计出版社,20104吴喜之.统计学:从数据到结论.北京:中国统计出版社,20095何晓群,刘文卿.应用回归分析(第二版).北京:中国人民大学出版社,2007