《基于大数据的国际航班价格预测模型研究-赵明莉.pdf》由会员分享,可在线阅读,更多相关《基于大数据的国际航班价格预测模型研究-赵明莉.pdf(56页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、分龚号U D C密级蟹开 暑囊;l产篝。硕士研究生学位论文基于大数据的国际航班价格预测模型研究申请人:赵明莉学 号:2150106培养单位:数学科学学院学科专业:应用统计研究方向:火数据分析指导教师:王楠完成日期:2017年6月l口万方数据分类号一U D C密级鍪开舅翥声夕擎硕士研究生学位论文基于大数据的国际航班价格预测模型研究申请人:赵明莉学 号:2150106培养单位:数学科学学院学科专业:应用统计研究方向:大数据分析指导教师:王楠完成日期:2017年6月1日撩陟,蓑进篓:譬弋万方数据中文摘要中文摘要随着社会的快速发展以及人们生活水平的提高,旅游已经逐渐成为了生活的必需品,机票是旅游产品中
2、必不可少的一个环节。机票价格是旅游大数据领域研究的一个重要内容,机票价格是随着市场销售情况动态变化的,如果某个航班销售的好航空公司会涨价,相反,如果航班销售不好航空公司就会开舱降价。此外,各航空公司之间除了通过价格竞争获取客源之外,航空公司之间还同时签订价格保护协议,例如起飞前3天内的价格不低于8折销售等。因此,航班的价格变化是一个十分复杂的问题,对于价格的预测有着相当大的难度,与此同时价格预测技术有着巨大的商业应用前景和市场价值。本文从数据挖掘的角度分析了基于大数据技术对于机票价格进行预测的可行性,尤其是国际航班的机票价格预测的可行性。首先,本文阐述了大数据理论的发展和大数据研究的关键技术,
3、基于大数据的数据挖掘方法及其应用。针对所研究的问题还阐述了旅游大数据的定义、旅游大数据的发展概况以及旅游大数据中航班价格变化的历史积累对于航班价格预测所起到的作用。其次,本文对国际航班价格预测模型中所要应用的人工神经网络模型进行了介绍,说明了人工神经网络基本原理、人工神经网络特点、BP神经网络,重点介绍了最近流行的基于大数据的深度学习网络模型。本文建立了基于大数据和人工神经网络的国际航班价格预测模型,并利用该模型对于真实的国际航线北京到巴黎(PEKCDG)的航班在日期2017年3月13日至2017年4月24日的价格数据进行了详细的分析和预测。通过计算机系统自动采集航线、航班的价格变化数据,从2
4、016年11月至2017年2月,系统每6小时一次进行数据采集,累计采集该航线数据4万余条。本文以大量的真实历史数据作为训练样本,对神经网络模型进行训练,然后利用训练后的模型对实时的航班价格进行预测,模型预测的结果与实际情况进行对比分析,总体上模型是有效的,模型预测准确率可以达到70左右。该模型的研究工作有重要的实践意义和良好的应用前景,且该模型还有继续研究和改进的空间。关键词:大数据;数据挖掘;机器学习;人_rio经网络;MATLABI一万方数据黑龙江大学硕士学位论文AbstractWith the rapidly development of society and the improvem
5、ent of peopleS livingstandards,tourism has gradually become a necessity of lifeAt the same time,airtickets are an indispensable part of tourism productsTickets price is an importantelement of tourism,which is changeable with the market salesIf a flight sells well,the airlines will increase its price
6、,on the contrary,the airlines will cut the priceFurthermore,the airlines will sign a price protection agreement in addition to pricecompetitionFor example,the price within 3 days before takeoff should not be lessthan 20offTherefore,flightS price changes is a very complex issue and it isrelatively di
7、fficult to forecastAt the same time,price forecasting technology has ahuge market and a very good prospectIn this paper,we analyze the feasibility of forecasting the tickets price from theperspective of data mining,especially the tickets price forecasting of internationalflightFirstly,we describe th
8、e development of big data theories,the technology ofbig data,the data mining method and application based on big dataMoreover,we also elaborate the definition and development of tourism big data)the influenceof flight price changes on the forecast resultsSecondly,we introduce the artificialneural ne
9、twork model that applied in the international flight price and explain thebasic principles and characteristics of artificial neural networkFinally,we focuson the deep learning network model based on big data,which is popular in recentyearsIn our method,we establish an international flight price fore
10、casting modelbased on big data and artificial neural network,and use it to analyze and forecastthe price of real international airline that from Beijing to ParisThe computersystem automatically collected data every 6 hours from November 20 1 6 to February2017,then forty thousand historical data were
11、 collectedIn this paper,we use alarge number of real historical data as training samples,and then use the trainedmodel to predict the realtime flight pricesWe compare the results of the modelprediction with the real situation,and the results show that the model is effective一TT万方数据AbstractFrom the re
12、sults,we can see that the model accuracy rate can reach about 70Onthe whole,the research of this model has important practical significance and it hasa great improvement spaceKeywords:big data;data mining; machine learning;neural network;MATLABIII万方数据黑龙江大学硕士学位论文目录中文摘要 IAbstract II目录IV第1章绪论 111研究的背景
13、112研究的内容 213研究的方法 214本章小结 3第2章大数据及数据挖掘理论 521大数据概念及相关技术 5211大数据的理论 5212大数据的关键技术 522数据挖掘理论 7221数据挖掘概述 7222数据挖掘过程 8223数据挖掘算法 9224国内数据挖掘的发展现状1123常用数据分析软件介绍11231 SQL11232 MATLAB 12233 R语言1424本章小结15第3章基于大数据的人工神经网络模型1631人工神经网络的基本原理16311人工神经元模型16一TV万方数据目录312激活函数313人工神经网络的特点32 BP神经网络321 BP神经网络的概述322 BP神经网络的核
14、心算法323 BP神经网络的算法改进33基于大数据的深度学习网络模型34本章小结第4章航班预测模型的建立及其算法实现41神经网络预测模型训练数据的获取及预处理411数据获取412缺失值的处理方法42基于神经网络的预测模型421神经网络模型的设计422神经网络模型的训练与预测423基于MATLAB软件的预测模型实现及结果分析43模型的实际应用44本章小结总结及展望参考文献致谢独创性声明78999345666022568l23891111122222233333344444万方数据第1章绪论11研究的背景第1章 绪论人们的生活水平曰益提高,外出旅行得到越来越多人的青睐。由于飞机具有速度快、用时短的
15、特点,坐飞机出行成为了越来越多人的首要选择,而机票的价格变化也成为人们关心的一个话题。此外,互联网行业的兴起,不仅使网上订票更加方便,而且使机票预订的各种数据也在爆炸式增长。互联网行业的崛起、大数据时代的来临使得我们获取数据更加便捷,大量的真实数据为我们研究机票的价格变化提供了基础,而这种价格波动是有规律可循的,特别是对于国际航班,这种规律会更加明显。对于机票价格的变化规律,人们普遍认为,距离起飞时间越近,价格可能会越高,提前多天的时候进行订票价格可能会更便宜。然而实际大数据的研究显示并非距离起飞时间越近,价格越高,有的航班距离起飞时间越近反而价格会降低,造成这种情况的原因有很多,比如航班客座
16、率低、相关航班的价格竞争等等多种偶发因素,且这种偶发并非偶然现象。我们经过对比发现航班在起飞前15天价格的波动比较明显,距离离港日期30天内的价格变化趋势见图1-1,在这个时间段对航班价格波动进行准确预测有着关键意义。t I,S7InH HuN”n抖再抖F,一ll邮椭幽prm恤图11:价格趋势Figure 1-1 Ticket price trends一1一万方数据黑龙江大学硕士学位论文12研究的内容本文主要是研究如何基于航班价格变化的海量数据运用BP神经网络方法从机票历史记录信息中挖掘出票价波动的规律,并用此方法对新的数据进行预测分析。本文的主要的研究内容有如下三个方面:大数据理论、样本数据
17、处理以及基于神经网络的票价预测模型。(1)大数据理论:由于大数据还没有固定的定义,所以本文主要是详细阐述了不同的人,不同的领域对大数据的多种定义以及大数据的3V、4V以及发展到目前5V特征分别代表的含义,并进一步研究了大数据的相关技术理论。(2)样本数据处理:样本数据处理的主要目的就是在尽可能保证样本有效信息量的情况下,减少无关的数据,填补缺失的数据等,从而提高数据的质量,为下一步的数据挖掘做准备。(3)基于神经网络的票价预测模型:本文主要是基于大量的真实航班历史数据通过BP神经网络方法进行建模,分析出机票价格变化的规律。首先,研究了在选取训练集和测试集的时候不同的抽样方法随机抽样和boots
18、trap抽样对模型预测准确性的影响。然后,本文又研究了不同神经网络训练参数取值对预测结果的影响。由于神经网络模型的参数比较多,本文综合考虑了BP神经网络预测模型的多个参数,如学习率,训练次数,目标误差,隐层神经元的个数等,通过不断的调整参数的取值,找出模型预测准确率比较高的参数值。13研究的方法论文主要研究的问题是基于大数据的国际航班价格预测模型。我们已经知道国际航班机票价格的波动规律是比较明显的,如何在海量的真实数据样本中挖掘出我们感兴趣的、对我们有意义的规律是我们需要研究的。本文具体的研究过程可以分为四个阶段:数据处理阶段、划分训练集和测试集阶段、模型建立阶段以及结果分析阶段。在数据处理阶
19、段本文主要是用常数填补法处理缺失值;在划分训练集和测试集阶段主要是用随机抽样的方法选取训练集和测试集;在模型建立阶段,主要是用BP神经网络进行模型的建立;在结果分析阶段主要是用可视化分析技术对结果进行展示。一2一万方数据第1章绪论在数据处理阶段,本文从实际问题和需求出发,通过与企业的合作获得大量的航班历史数据,以大量的真实的航班历史数据作为数据分析的样本,但真实数据往往存在缺失值问题。在综合考虑真实数据的缺失类型后,在诸多处理缺失值数据的方法中,本文选择了常数填补法。在选取训练集和测试集阶段,本文通过MATLAB中的rand函数产生均匀分布的随机数,并通过排序打断顺序来实现对原始样本的随机抽样
20、。在模型建立阶段,本文运用神经网络的方法对真实国际航班数据进行分类学习,学习出该航线机票价格波动的规律,然后用学到的模型对测试数据进行检验,评估模型的好坏,并通过不断的修正模型的参数使模型达到全局最优,过程如图1-2所示。在所有的神经网络方法中,BP神经网络被人们广泛应用,所以本文运用单隐层的BP神经网络模型对航班历史数据进行训练学习,并对新数据进行预测分析。将预测结果与实际结果进行比较,根据比较来调整预测模型,最大化模型的预测准确率图12:模型建立过程图Figure 1-2 Model building process在对模型的预测结果进行分析阶段,本文主要是通过可视化分析技术对预测结果进行
21、作图展示,并利用表格对不同参数的模型的预测结果进行比较分析,使结果更加直观。14本章小结本章主要是对问题的研究做了简单的介绍。首先,本章阐述了问题研究的背景,生活水平的提高,大数据时代的到来,使旅游大数据成为热门话题。面对多一3一 U万方数据黑龙江大学硕士学位论文种多样的航班海量数据,如何对数据有效利用,并为我们带来收益是重中之重。其次,介绍了本文研究的主要内容,大数据理论,样本数据处理,神经网络票价预测模型。最后,本章介绍了问题研究的主要方法:常值填补缺失值,随机抽样,BP神经网络,可视化分析。4万方数据第2章大数据及数据挖掘理论第2章 大数据及数据挖掘理论21 大数据概念及相关技术互联网、
22、云计算等新兴信息技术的快速发展,促使了数据量急剧的增加,推动了大数据时代的到来。未来学大师阿尔文托夫勒曾在一本书中将大数据称为“第三次浪潮的华彩乐章”【1】。大数据就是互联网发展到一定阶段的必然产物,这使一些原本很难收集和使用的数据开始容易被利用起来。211 大数据的理论目前对于大数据的概念还没有明确的定义。维基百科上对大数据的定义是:数据量规模巨大到无法通过常用的软件进行获取、处理、整理成为有助于企事业进行决策的信息。全球知名的麦肯锡公司在报告研究中指出: “数据,已经进入到各个行业领域和人们生活的方方面面,而对于大规模数据的采集和使用,预示着新一波的生产率的增长”。国际数据中心(IDC)在
23、2011年报告中指出:“大数据技术创造了一个技术和体系的新时代,该技术可以从海量多变的数据中利用现有方法提取出数据中有意义的信息”。此外,还有不少对大数据定义的讨论2-s。综上所述,对大数据的定义都有一些共同的特点,即大数据就是指数据量庞大、数据类型多样化的数据集,并且没有办法用传统的软件对其进行获取和处理。大数据的特征由最初的3V模型到4V模型再到目前扩展的5V模型体现了对大数据理解的不断完善。Grobelink将大数据的特征概括为3V模型,包括大量(Volume)、高速(Velocity)和多样(Variety)【9】;不久有人指出大数据还具有低价值密度(Value)的特征,由此形成为4V
24、模型;到目前为止,IBM提出了5V的特点,在4V的基础上,添加了真实性(Veracity)特点。212 大数据的关键技术大数据技术就是从多种多样的数据中捕获有价值的信息。大数据技术一般一5一万方数据黑龙江大学硕士学位论文包括:数据采集、数据预处理、数据存储与管理、数据分析及挖掘、数据可视化【10】。(1)数据采集:数据采集是数据分析和数据挖掘的基础,也是数据处理的第一步。该技术一般是通过传感器、移动互联网、RFID射频识别【1l】等方式进行实现,常用的数据采集工具有Hadoop的Chukwa,Cloudera的Flume等。(2)数据预处理:数据分析对数据的质量要求比较高,特别是大数据大量、多
25、样的特点使原始数据的质量、格式各不相同,因此在数据分析之前需要对数据进行预处理,提高数据的质量。数据预处理技术主要有三个方面:数据集成、数据清洗以及数据冗余消除。(3)数据存储与管理:大数据的存储与管理是用存储器将采集到的数据进行存储,并建立数据库对数据进行管理和调用。(4)数据分析及挖掘:在大数据比较流行的时代,我们面临的数据量越来越大,很难用传统的一些技术对数据进行处理。为了解决这些难题,从这些复杂多样的数据中找出对我们有价值的信息,我们就需要突破传统的数据分析方法。大数据的数据分析方法包括遗传算法(Genetic Algorithm,GA)、机器学习(Machine Learning,M
26、L)、回归分析、自然语言处理等。受达尔文进化论的启发,遗传算法是将问题模拟为生物进化的过程,通过选择、交叉、变异等步骤不断迭代,寻找出适应度函数值较高的样本。机器学习就是让机器模仿人的思维,学会人类识别事物的方法,而大数据环境下的机器学习主要用于特征选择、分类、聚类、关联分析。由于大数据集所面对的特征值特别多,所以我们需要对特征进行选择,在原始特征中找出最具代表性的特征,剔除无用的特征,提高算法处理速度,缩减程序运行时间。特征选择的方法有很多:当数据量比较大时,进行特征选择的传统的自组织映射(Self-organizingMap,SOM)方法速度就会比较慢,Sagheer等提出了快速自组织映射
27、法(FastSOM,FSOM)12;Anaraki等提出模糊粗糙集特征选择方法【13】,该方法带有阈值且是基于模糊下的近似(Fuzzy LowerApproximationbased Fuzzy Rough SetFeature Selection with Threshold,T-LFRFS),相对于传统的方法,准确率高,运行时间短:Quevedo等提出了用输入变量排名算法对大数据进行降维和特征提取【14】;此外,还有学者相继提出了一些大数据特征选择技术的方法1s一-8】。除了特征选择,机器学习的另一个重要用途就是分类,但是传统的分类算法不一6一万方数据第2章大数据及数据挖掘理论再适用于大的
28、数据集。目前被广泛使用的分类方法主要有支持向量机分类、决策树分类、神经网络分类。针对传统的机器学习分类算法不再适用于大数据集的问题,Lau等提出支持向量机在线学习算法191,其速度更快,泛化能力更好:Laskov等提出了增量支持向量机学习方法【20】;Kim提出了适用于大数据集的数据特征选择和分类算法,此外,决策树分类以及神经网络与极端学习机也由于其在解决分类问题上的优势,受到了人们的青睐。众所周知,大数据的核心是对数据价值的利用,而机器学习是利用数据价值的关键技术,所以机器学习是处理大数据的重要方法之一。(5)数据可视化:在数据处理过程中,结果的展现是至关重要的,传统的方法就是以文本的形式进
29、行展现,但随着数据量的增加,数据分析结果也越来越复杂,这时数据可视化技术成为了展现大数据分析结果最有力的方式。该技术将分析结果可视化,可以形象直观的将结果展现给用户。22数据挖掘理论221数据挖掘概述在数据量爆炸式增长的时代,数据挖掘(Data Mining,DM)得到了极大的关注。人们迫切需要从这些数据中捕获有利用价值的信息,并将获得的信息用于各个行业进行决策。对于数据挖掘概念的提出,人们普遍认为最早是Fayyad在1995年知识发展会议上提出来的22】。数据挖掘的本质就是从大量数据中自动或半自动的寻找出潜在的、有意义的、容易理解的信息的智能性技术,是统计学、人工智能技术等技术的综合【23】
30、,其大部分价值在于利用数据挖掘技术改善预测模型。20世纪80年代出现了新的说法,即数据库中的知识发现(Knowledge Discovery in Database,KDD),由于知识发现输出的是规则,数据挖掘输出的是模型,所以数据挖掘可以看作为KDD的重要部分。7万方数据黑龙江大学硕士学位论文222数据挖掘过程数据挖掘的过程可分为三个阶段:数据准备阶段、数据挖掘阶段、结果表达与解释阶段。数据挖掘过程如图2-1: 姆峰卜塑P塑等图21:数据挖掘流程图Figure 21 Data mining flow chart数据准备阶段:这一阶段又分为数据集成、数据选取和数据的预处理。数据集成:近几十年来
31、,数据的爆炸式增长,断增加。由于数据的获取来源可能不同,使得数据的采集、存储以及传播量也不数据的格式、数据的质量、数据的内容都会不同,数据集成就是将这些可能来源不同的数据进行合并统一存储,解决数据的模糊性。数据选取:数据选取的方法就是从原始数据中选取进行数据挖掘所需的样本,识别出我们下一步分析所要用到的数据集合,进一步缩小数据的范围,从而提升数据挖掘的质量。数据的预处理:数据的特点为大容量、含噪音(不完整、不正确)、异质(多种数据类型混合),所以在对数据处理之前我们需要对数据进行预处理,检查数据数据是否有缺失、剔除异常数据、删除重复数据等。数据挖掘阶段:此阶段就是利用统计分析、机器学习等方法,
32、从数据中寻找出有价值的信息,其主要步骤可以分为三个方面。首先,我们需要明确数据挖掘的目标:确定数据挖掘的类型,是分类还是预测:然后,我们需要选择数据挖掘算法:根据上一步确定的目标进一步选取出比较合适的数据挖掘算法;最后,我们就可以进行数据挖掘,通过所选的算法,基于数据挖掘的目标,提取出数据中一R一万方数据第2章 大数据及数据挖掘理论有意义的信息并以一定的数据格式表达出来。结果表达与解释阶段:这一阶段会对数据挖掘所提取的信息进行分析解读,寻找出最有价值的信息,然后将输出的结果信息进行可视化并给予评价。如果我们对数据挖掘的结果并不满意,可以重复上述的过程。223数据挖掘算法数据挖掘的精髓是数据挖掘
33、算法。数据挖掘算法有很多,在2006年数据挖掘国际会议ICDM上,人们选出了应用最广、影响最大的十个数据挖掘算法,分别为C45、KMeans、SVM、Apriori、EM、PageRank、Adaboost、朴素贝叶斯、KNN 124】和CART25】。(1)C45算法是基于ID3算法的一个改进算法,是机器学习中很重要的分类决策树算法之一。决策树算法是通过分析和归纳大量数据的属性,然后进行有目的的分类,希望从数据中找出潜在的、有意义的信息。ID3算法是在决策树各个结点通过信息增益的规则选择特征,由于ID3算法存在过度拟合现象以及不能用来处理连续属性值等问题,Quinlan基于ID3算法做了进一
34、步的改进,提出了C45算法,该算法在特征选择时用信息增益比准则代替了信息增益准则【26】。(2)KMeans算法也称为K均值或K平均,是数据挖掘中比较经典的聚类算法之一。聚类就是对大量没有指导信息的数据集,按照数据的相似程度对数据进行划分,将数据划分为多个簇,使簇内的数据尽可能达到最高的相似度,而簇间的数据尽可能达到最低的相似度,可见聚类完全是按照数据的分布进行分类划分,换句话说,就是将数据分成K个类。此算法简单易行、运行速度快、对大数据集聚类效果比较明显,具有高效性和可伸缩性,但过分依赖于初始值的选择,对噪声数据比较敏感且必须事先给出K值。(3)20世纪90年代Vapnik阐述了支持向量机的
35、概念【27】,它是一种监督式的学习方法,广泛用于分类和回归问题中。该算法是一种分类模型,通过间隔最大化原则在特征空间中建立一个线性分类器,它可以将特征向量进一步映射到更高维的空间,并在此空间中建立最大间隔超平面。该算法适合解决小样本、非线性以及高维问题,是一种以结构风险最小化原理为基础的新算法,能够保证得到全局最优解。一9一万方数据黑龙江大学硕士学位论文(4)Apriori算法最初是由Imielinski和Swami等人于1993年提出来的比较经典的一种算法【2s】,在关联规则问题中被广泛使用。该算法是一种先验概率算法,采用逐层及按照层次顺序进行搜索的迭代方法对频繁项集进行数据挖掘。首先,由项
36、集l开始,找出满足一定条件的集合记为L1,然后,利用项集L1开始寻找项集2满足一定条件的集合L2,以此类推,直到找不到任何频繁k项集。(5)EM算法又称为最大期望算法,是一种迭代算法,主要是用于解决含有隐变量(隐变量是指我们没有办法观测到的变量)的模型参数的极大似然估计问题,最初是由Dempster等人总结提出【29】。EM算法分为两步,分别为E步和M步,E步,求期望;M步,求极大值。(6)PageRank算法可以说是Google算法中非常重要的一部分,用于衡量一个网站的好坏。PageRank是在搜索引擎中根据网页之间的相互连接关系来计算网页排名的一种技术,也可将其称为“链接流行度”。(7)A
37、daboost算法就是一种迭代算法,它的主要思想就是对同一个训练集进行迭代,每次训练出一个弱分类器,然后将得到的多个弱分类器进行组合形成一个强分类器。Adaboost算法有很多优点,可以得到具有很高精度的分类器,用法简单且不用进行特征筛选,最主要的是出现过拟合现象的几率比较小【31】。(8)KNN算法是由Cover与Hart两人于1968年提出的,是机器学习中比较简单的算法,主要用于分类,理论上比较成熟【32】。该算法思想很简单:如果某个样本在特征空间n个最相似的样本中多数属于哪个类别,则该样本就属于哪个类别,但当样本属于不平衡样本时,误差就会比较大。(9)朴素贝叶斯算法是分类问题中应用比较普
38、遍的算法之一,该算法先通过训练数据集学习联合概率分布,然后对某一个特定的输入z,根据贝叶斯定理求出后验概率最大的输出作为Y,其中后验概率是根据已有的信息、特定的规则、先验概率所计算出来的。朴素贝叶斯法在使用时有条件独立性假设,这就会使分类的准确率降低,所以如果进行分类的特征关联性比较大时,朴素贝叶斯算法就不在适用。(10)CART算法(Classification and Regression Tree)又称为分类与回归树。模型是Breiman等人在1984年提出来的【33】,通过递归建立二叉树进行相应一1 0万方数据第2章大数据及数据挖掘理论的剪枝来达到预测的目的,而二叉树展示比较简单、易于
39、理解、方便使用,所以CART算法是应用比较广泛的非参数分类和回归方法。该算法在生成二叉树的过程中,通过对回归问题使用平方误差最小化准则,对分类问题使用基尼指数最小化准则的方法对特征做出进一步选择。224 国内数据挖掘的发展现状国内对数据挖掘的研究相对国外来讲发展比较晚,没有形成集中的力量,我国首次支持该领域的研究项目是在1993年。国内越来越多的高校和科研部门先后开展了关于数据挖掘的相关理论及应用的研究,研究单位包括清华大学、中科院研究所等。例如清华大学的周立柱教授带领的研究小组,四川大学的唐常杰教授带导的有关时间序列分析领域的研究小组,中国科技大学的蔡庆生教授带领的研究小组等,都取得了比较重
40、要的研究成果。国内比较重要的会议有全国数据库学术会议(National DataBase Academic Conference)。然而这些研究都是基于传统计算机领域的技术,从统计学角度,把统计学研究的内容与数据挖掘技术相结合是近几年兴起。2013年浙江省杭州市成功举办了第十七次全国统计科学讨论会,该会议的主题为“大数据背景下的统计”。该讨论会对大数据背景下统计学的发展和变化进行了探讨和分析。23 常用数据分析软件介绍231 SQLSQL Server是目前应用较为广泛的大型数据库管理系统。SQL(StructuredQuery Language)的主要作用就是和各种数据库建立联系,可以执行多
41、种操作。从功能上SQL可以分为四部分:数据查询(Data Query)、数据操纵(DataManipulation)、数据定义(Data Definition)以及数据控制(Data Contr01),命令见表21。SQL具有非过程化、一体化、简洁、统一的语法结构等特点,且SQL语句在书写时不区分大小写。万方数据黑龙江大学硕士学位论文表21:SQL命令Table 21 SQL commandSQL功能 命令数据定义数据查询数据操纵数据控制CREATE,ALTER,DROPSELECTINSERT,UPDJ气TA,DELETEGRANT,REVOKE232 MATLABMATLAB是由Math
42、Works公司出品的商业数学软件,其运算的基本数据单元是矩阵,具有编写简单、使用方便、运行较快等语言特点。MATLAB的主要功能分为如下几个方面:数值和符号计算、大量的工具箱、绘图功能、Simulink仿真。本文在预测模型实现时主要是基于MATLAB神经网络工具箱(NeuralNetwork Toolbox)来完成的,在此对工具箱的相关函数做简要介绍,工具箱中提供了大量与BP网络相关的函数【3435】,BP神经网络常用函数表如表22。表22:神经网络常用函数表坠坠!竺兰二兰盟呈竺!型旦etwork commonly used function table12万方数据第2章 大数据及数据挖掘理论
43、在BP网络创建的所有函数中本文主要是用了newff函数。格式如下:net=newff(PT,S)net=newff(尸T,S,TE BTF,BLF,尸E IPF,OPF)说明:net为创建的新神经网络,返回一个length(S)+1层(不包括输入层)的神经网络;P表示创建的神经网络中的输入层;T表示创建的神经网络中的输出层;S用于指定隐含层神经元的个数,若有多个隐含层,则写成行向量的形式;TF是传输函数,隐含层默认为S型正切函数,输出层默认为纯线性函数;BTF是神经网络的训练函数:BLF是神经网络的权值、阈值学习函数,默认为梯度下降动量的学习函数:PF性能函数,默认为均方误差;一1 3万方数据
44、黑龙江大学硕士学位论文IPF指定输入数据的归一化函数,本文用了mapminmax函数对数据进行归一化处理;OPF数据的反归一化函数。利用已知的训练样本对神经网络进行训练,采用了train函数,格式为net=train(net,只T),其训练参数见表23。表23:神经网络常用训练参数表Table 2-3 Neural network training parameters table233 R语言20世纪90年代,新西兰奥克兰大学的两位统计学教授Robert Gentle-man和Ross Ihaka,编写了一种能执行S语言的软件,并将该软件的源代码公开,R软件由此而来,软件中的命令统称为R语言
45、。R语言主要被用来进行数据挖掘、数据分析以及数据的可视化,其作为编程语言具有很多优势:免费使用,代码全部公开,可以修改,非常透明方便;可以在多种操作系统下运行,比如Windows、Linux和UNIX系统;可以自定义函数进行批处理运算,语法比较灵活;界面友好,拥有一个非常实用的帮助系统,且具有很好绘图功能;利用R中自带的统计函数,我们能够很容易的学习和掌握R语言的语法规则。这些优势使R软件被广泛使用,而在本文中用R进行数据的处理以及画图进行可视化分析。14万方数据第2章 大数据及数据挖掘理论24 本章小结本章首先介绍了大数据的相关理论知识,包括定义,特征及关键技术,然后阐述了数据挖掘的相关内容,数据挖掘的过程,数据挖掘的十大算法,国内数据挖掘的发展现状。最后详细说明了常