《数理统计学课程设计共14页.doc》由会员分享,可在线阅读,更多相关《数理统计学课程设计共14页.doc(14页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、如有侵权,请联系网站删除,仅供学习与交流数理统计学课程设计【精品文档】第 11 页关于中小型银行大数据的统计分析学 院专 业*班 级*学 号*姓 名指导教师沈阳航空航天大学年 月目录前言1一、采集样本及数据整理21、数据的搜集方法及说明22、数据整理:给出频数、频率分布表及说明53、画出直方图和折线图并给出说明54、 画出经验分布函数7二、假定总体服从正态分布,给出,的估计81、矩估计法82、极大似然估计8三、参数区间估计101、方差未知,求数学期望的置信区间102、数学期望,均未知,求方差的置信区间10四、参数的假设检验111.样本统计数据的t检验112.样本统计数据的检验11五、 非参数假
2、设检验13六、结论15参考文献16前言数理统计是一门对随机现象进行有限次的观测或试验的结果进行数量研究,并依之对总体的数理规律性作出具有一定可靠性推断的应用数学学科。也就是说,数理统计学是统计学的数学基础,它是研究怎样有效地收集、整理和分析带有随机性的数据,以对所考察的问题作出推断和预测,直至为采取一定的决策和行动提供依据和建议的数学分支。近几十年来,数理统计的广泛应用是非常引人注目的。在社会科学中,选举人对政府意见的调查、民意测验、经济价值的评估、产品销路的预测、犯罪案件的侦破等,都有数理统计的功劳1。在经济领域,从某种商品未来的销售情况预测,甚至整个国家国民经济状况预测及发展计划的制定都要
3、用到数理统计知识2。在自然科学、军事科学、工农业生产、医疗卫生等领域,哪一个门类都离不开数理统计。它的用处之大不胜枚举。笼统地说,数理统计学的理论和方法,与人类活动的各个领域在不同程度上都有关联。因为各个领域内的活动,都得在不同的程度上与数据打交道,都有如何收集和分析数据的问题,因此也就有数理统计学用武之地。可以这么说,现代人的生活、科学的发展都离不开数理统计。从某种意义上讲,数理统计在一个国家中的应用标志着这个国家的科学水平3。数理统计可以看做是概率论的推广应用,其众多内容都是建立在概率论基础之上的4。但是,数理统计作为纯数学的一个方向,如果仅仅研究数理统计的数学性质,就脱离了数学在科学研究
4、中应有的价值。正如数学以其逻辑性和严密性被其他学科作为有力工具运用于分析应用中一样,数理统计也因为其逻辑性和严密性被引用到银行的领域中。本文就是对这方面的应用,通过用计算机领域中的信息安全技术,对全国中小型银行的大数据处理个数的统计。其间分别进行了数据模型的选择和建立,数据的采集,数据的整理,对数据进行的统计推断,给出矩法估计、极大似然估计、给出参数估计区间、给出的t检验和检验,进行非参数拟合优度检验,从而得出相应的结论。一、采集样本及数据整理1、数据的搜集方法及说明 众所周知,数据的搜集方法有直接搜集方法和间接搜集方法,直接搜集是直接向调查对象搜集反映调查单位的原始资料数据。而我采用的是间接
5、搜集方法,也就是通过网络搜集到已经加工整理过的、能够说明总体现象的数据。本文采集的是2012年5月1日中国部分中小型银行利用信息安全技术对大数据处理个数。如表11所示: 表1-1 中国部分中小型银行数据统计地区银行名称截止时间大数据(亿)湖北孝感市商业银行2011-10-178.54辽宁丹东市商业银行2011-10-1162.33湖南岳阳市商业银行2011-10-1399.56浙江象山县绿叶城市信用社2011-10-1457四川宜宾市商业银行2011-10-1702.22黑龙江牡丹江市商业银行2011-10-1850.5云南曲靖市商业银行2011-10-11000.55山西晋中市商业银行201
6、1-10-11023.4山西阳泉市商业银行2011-10-11233.85四川遂宁市商业银行2011-10-11355.7湖北黄石市商业银行2011-10-11379.6山东枣庄市商业银行2011-10-11388重庆重庆三峡银行2011-10-11501陕西宝鸡市商业银行2011-10-11503.8河南信阳市商业银行2011-10-11722辽宁鞍山市商业银行2011-10-11795.1河北邢台市商业银行2011-10-11800湖北荆州市商业银行2011-10-11800河南安阳市商业银行2011-10-11800河南焦作市商业银行2011-10-11801.23内蒙古乌海市商业银行2
7、011-10-11803.47山东济宁市商业银行2011-10-11810河南许昌市商业银行2011-10-11810.32辽宁抚顺市商业银行2011-10-11812.11内蒙古呼和浩特市商业银行2011-10-11812.75江西九江银行2011-10-11815.56河北秦皇岛市商业银行2011-10-11816河南平顶山市商业银行2011-10-11928.38青海青海银行2011-10-11946.5湖南湘潭市商业银行2011-10-11958.78湖南株洲市商业银行2011-10-12000湖南衡阳市商业银行2011-10-12000福建泉州市商业银行2011-10-12012.8
8、7江西赣州银行2011-10-12055.47河南南阳市商业银行2011-10-12106辽宁阜新市商业银行2011-10-12107湖北宜昌市商业银行2011-10-12111.64广西桂林市商业银行2011-10-12165.8黑龙江齐齐哈尔市商业银行2011-10-12178浙江湖州市商业银行2011-10-12186.8河北沧州市商业银行2011-10-12207.54河南新乡市商业银行2011-10-12217广东湛江商业银行2011-10-12225浙江浙江泰隆商业银行2011-10-12227.56河北张家口市商业银行2011-10-12231.08广西柳州市商业银行2011-1
9、0-12240.77河北冀中银行2011-10-12244浙江嘉兴市商业银行2011-10-12247广西广西北部湾银行2011-10-12247.56河北廊坊银行2011-10-12247.81辽宁营口银行2011-10-12249辽宁葫芦岛市商业银行2011-10-12258.36山东东营市商业银行2011-10-12503浙江浙江民泰商业银行2011-10-12507山东德州市商业银行2011-10-12534辽宁朝阳市商业银行2011-10-12548黑龙江大庆市商业银行2011-10-12556.6浙江浙江稠州市商业银行2011-10-12577.56山西大同市商业银行2011-10
10、-12589.4山东莱芜市商业银行2011-10-12601.63浙江金华市商业银行2011-10-12605山东临商银行2011-10-12609河南洛阳市商业银行2011-10-12627福建厦门市商业银行2011-10-12631.23山东日照市商业银行2011-10-12643.8山西太原市商业银行2011-10-12652山东潍坊市商业银行2011-10-12668.4浙江台州市商业银行2011-10-12675.71山东威海市商业银行2011-10-12677.6宁夏宁夏银行2011-10-12679.97浙江绍兴市商业银行2011-10-12680新疆乌鲁木齐市商业银行2011-
11、10-12681.5山东齐商银行2011-10-12682江西南昌银行2011-10-12688.5山东烟台市商业银行2011-10-12689甘肃兰州市商业银行2011-10-12699浙江温州银行2011-10-12871贵州贵阳市商业银行2011-10-12886.74河南郑州市商业银行2011-10-12900山东青岛市商业银行2011-10-12901辽宁锦州市商业银行2011-10-12926.7福建海峡银行2011-10-12936.21云南富滇银行2011-10-12945.31湖北汉口银行2011-10-12977.54山东齐鲁银行2011-10-12998.13河北石家庄市
12、商业银行2011-10-13005重庆重庆银行2011-10-13009.87吉林吉林银行2011-10-13015.24黑龙江哈尔滨银行2011-10-13044.76内蒙古包商银行2011-10-13100.9湖南长沙银行2011-10-13108.56四川成都银行2011-10-13112.53广东东莞银行2011-10-13118浙江杭州市商业银行2011-10-13119.68辽宁大连银行2011-10-13520辽宁盛京银行2011-10-13531.26广东广州银行2011-10-13533.6天津天津银行2011-10-13,546.72安徽徽商银行2011-10-13,547
13、.10江苏南京银行2011-10-13,548.60浙江宁波银行2011-10-13,712.00广东深圳平安银行2011-10-13,716.00江苏江苏银行2011-10-13,855.42上海上海银行2011-10-13,988.50北京北京银行2011-10-14,417.65从表1-1中,可以非常明显得看到各中小型银行的大数据处理个数,下面我们对各银行做下讨论与研究。2、数据整理:给出频数、频率分布表及说明从上面的表中看到,银行大数据(单元:亿)的样本观察值的最小值是湖北省孝感市商业银行的个数,最大值是位于北京市的北京银行,取a=78,b=4418,全距L=4418-78=4340,
14、把数据分布的区间(78,4418等分为10个子区间,等组距为,i=1,2,10。通过计数求出落在各子区间的大数据个数,则得频数和频率分布,列入表1-2。表1-2 大数据频数和频率分布表序号大数据子区间组中值频数频率12345678910(78,512(512,946(946,1380(1380,1814(1814,2248(2248,2682(2682,3116(3116,3550(3550,3984(3984,4418295729116351597203124652899333337674201425142522208320.040.020.050.130.240.210.190.080.0
15、30.0213、画出直方图和折线图并给出说明 由于等组距,故在横轴上截取子区间,且各子区间的宽度等于组距434,第i个小矩形的高为组频数,由此从直方图的分布上可以大致看出大数据的分布。直方图1-1和折线图1-2所示。图1-1 频数大数据子区间直方图图1-2 频数大数据子区间折线图由图1-1和图1-2可见,直方图大致呈对称形状,可以认为大数据近似服从正态分布,其数学期望大致在2300附近。4、 画出经验分布函数由于依赖顺序统计量的观察值,所以是一个随机变量,它的可能取值为:,1,故表示n次独立试验中,事件发生的频率。样本X1,X2,Xn中n个随机变量相互独立,导致事件发生的概率等价于进行n次伯努
16、力试验,事件发生k次的概率,即其中是总体X的分布函数。二、假定总体服从正态分布,给出,的估计1、矩估计法 从总体中随机抽取25个样本: 162.33, 702.22, 1233.85, 1501, 1795.1, 1800, 1928.38, 2000, 2107, 2217,2240.77, 2247.81, 2507, 2577.56, 2627, 2668.4, 2681.5, 2699, 2926.7, 2998.13, 3015.24, 3108.56, 3533.6, 3716, 4417.65 将样本值代入,得出和的矩估计值: 的矩估计值为 =2376.5 的矩估计值为 =810
17、220.12、极大似然估计对正态总体,是二维参数,设有样本,则似然函数及其对数分别为将分别关于两个分量求偏导并令其为0,即得到似然方程组解此方程组,可得的极大似然估计为将之代入第二方程,得出的极大似然估计所以的极大似然估计量为 的极大似然估计量为 将样本值代入,得出,的极大似然估计值 =2376.5810353.15三、参数区间估计1、方差未知,求数学期望的置信区间 当已知时,选取样本的函数服从标准正态分布,即给定置信水平0.95,使分位数为,上式等价于则的置信水平为0.95的置信区间为2、数学期望,均未知,求方差的置信区间选取样本的函数为给定置信水平0.95,使从分布表查出分位数为,于是样本
18、方差为844117.9则的置信水平为0.95的置信区间为四、参数的假设检验1.样本统计数据的t检验 假设所有银行所处理的大数据个数都为2400亿个。 (1) 原假设和备择假设 (2) 选取检验统计量当原假设为真时,检验统计量为(3) 确定拒绝域给定显著水平,使查t分布表得临界值为,则拒绝域为或。(4) 样本标准差为,计算检验统计量的观察值,(5) 作判断由于,因此接受原假设。认为所有银行所处理的大数据均为2400亿个。2.样本统计数据的检验 (1) 原假设和备择假设 (2) 选取检验统计量当原假设为真时,检验统计量为(3) 确定拒绝域样本方差为844117.9,给定显著性水平,使则拒绝域为(0
19、,10.856或42.980,)。(4) 计算检验统计量的观察值(5)作判断 因为,所以接受原假设。五、 非参数假设检验拟合优度检验 频率分布如表1-2所示,通过画直方图,粗略知大数据个数服从正态分布,数学期望大致在2300左右。检验在显著性水平下,各银行的大数据个数X是否服从正态分布。原假设和备择假设为, 不真其中,均为未知参数。,的极大似然估计值分别为 =2376.5, 以表1-2为基础,原假设为真时,计算随机变量X 落在各小区间的概率。等价检验假设计算结果列于表5-1。表5-1 各区间概率序号大数据子区间频数12345678910(78,512(512,946(946,1380(1380
20、,1814(1814,2248(2248,2682(2682,3116(3116,3550(3550,3984(3984,4418 1425222080.01920.03670.07760.13410.17670.18880.16080.10930.06010.025114.080518.553519.82416.88411.47650.64960.00572.23990.23890.57511.05311.74051056.5028 合并后的区间个数为k=7,随机变量分布中含有两个未知参数,因此当原假设为真时,检验统计量为给定显著性水平,使临界值为,则拒绝域为9.448,)。检验统计量的观察
21、值为因此,因此接受原假设,可以认为大数据个数服从正态分布N(2376.5,900.1962)。六、结论 本文第一部分对全国中小型银行的大数据处理情况分别进行采集、数据整理,给出了频数、频率分布表并画出了直方图和折线图并给出说明,通过得到的图可以看出期望大致在2300左右。第二部分给出,的估计,包括矩估计和极大似然估计,从而得到估计的期望和方差。第三部分是参数区间估计,有方差未知时,在置信水平为0.95时得到的数学期望的置信区间;还有数学期望,均未知,也是置信水平为0.95时所得到的方差的置信区间。第四部分是参数的假设检验,有样本统计数据的t检验,通过判断接受原假设,可以认为所有银行所处理的大数
22、据均为2400亿个。还有样本统计数据的检验,通过分析,可以接受原假设。最后第五章是非参数假设检验,也就是对总体分布不作任何假设,至多设总体服从连续分布,这种就是非参数假设检验。这章就是针对总体分布未知,检验总体是否服从正态分布,利用样本观察值对总体分布作出推断5 。实际上是检验样本与理论分布的拟合优度,这一节所用的就是拟合优度检验,通过检验得出,可以认为样本服从正态分布N(2376.5,900.1962)。参考文献1 梁相龙.论数理统计在客观现实中的意义与作用J.Forum on Contemporary Education,2011(02)2 李志浩.数理统计与现代金融B.征信,2012(4)3 陆冬梅.数理统计在客观现实中的意义与作用分析A.赤峰学院学 报,2011(8)4 盛骤,谢式千等.概率论与数理统计M.浙江大学,高等教育出版社,20015 滕素珍,冯敬海.数理统计学M.大连理工大学出版社,2006