《第1讲统计.pdf》由会员分享,可在线阅读,更多相关《第1讲统计.pdf(57页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、商务统计分析商务统计分析北京大学光华管理学院商务统计与经济计量系联系方式?教员:?张俊妮,光华2号楼,4736275-7922,?助教:?周李超(13811942472,)2学习目标?理解量化量化的重要性和数据的作用数据的作用?减少由“不确定性不确定性”带来的烦恼?理解统计思想统计思想对管理的重要性?数据分析的常用软件常用软件?会计、金融、营销、生产、经济3教材与参考?教材:商务与经济统计商务与经济统计(原书第9版),戴维.R.安德森 等著,张建华等译,机械工业出版社,2006年1月。?参考:Excel统计分析与决策,于洪彦主编,高等教育出版社,2001年2月。4课堂纪律规范?上课之前,请摆好
2、名牌、关闭笔记本电脑以及手机。?每次上课,请在第2节课前到助教处签到。每人至多1次缺席。从第2次缺席起,每次缺席扣总成绩10%。?每次上课,请在第2节课前到助教处交作业。凡在规定时间内没能交上作业的,一律算作迟交。每人至多1次迟交作业(一个星期以内必须补交)。从第2次迟交起,每次迟交作业以零分计。5考核方式?30%个人作业?30%小组中期案例讨论?40%个人期末考试6统计学是什么??统计学:1.收集数据2.整理分析数据3.由数据得出结论?统计学 vs.数学?7统计学的发展史统计学的发展实际收集数据的需要概率理论的数学发展计算机的出现常用统计软件?SAS (功能极强,不易学,价格昂贵)?SPSS
3、(功能较强,易学,价格适中)?Minitab(包括所有基本的统计功能,易学,价格便宜,只能处理中小型数据)?Excel(不是专业统计软件,但有一些统计分析功能,很方便)9统计学分类描述统计推断统计统计学10基本概念?总体与样本?总体:所有个体的全体(例如:全国人口)?样本:观测到的个体(例如:全班同学)?参数与统计量?参数:关于总体的度量(例如:全国平均身高)?统计量:关于样本的度量(例如:全班同学平均身高)?统计量是对参数的估计11描述统计?利用表格、图形或者数值(社会经济统计中的指标指标)来展示和刻画数据中的信息?均值(Mean)中位数(Median)nxi12推断统计?利用样本样本获得的
4、数据对总体总体的性质进行估计或者检验。总体的性质通常用概率模型概率模型刻画。?我们是在处理我们是在处理偶然性偶然性,没有没有100的必然的必然!13在商务管理中的应用?金融会计:盈利预测、不良资产定价、投资组合的评价与比较、风险管理?营销:新产品(服务)定价、广告预算的制定与分配比例、市场调研、销售预测、客户细分?生产作业管理:产品的失效率的分布、产品可靠性的度量、库存量的决定、质量管理。14在商务管理中的应用?经济:需求曲线的估计?人力资源管理:招聘(或培训)中的考试分数及效果的度量、补偿金额的确定?其它:垃圾邮件识别、手写识别、DNA表达、数据挖掘.15在商务管理中的应用?可变电阻器数据?
5、在生产过程中按时间顺序取得的200个观测值?目的:统计过程控制16在商务管理中的应用?道琼斯平均指数(每月收盘)(1976.11981.8)?目的:预测?6 05 04 03 02 01 01 0 0 09 0 08 0 0In d e xDJ17在商务管理中的应用?银行数据:给什么样的人发信用卡?给什么样的企业发放贷款??连锁店数据:预测新店的利润,预测新店对其他店的影响。?电信数据:客户消费模式、防止高价值客户流失、使不活跃客户活跃起来、使低价值客户上升为高价值客户。18第一讲:第一讲:对数据作统计描述城乡每周通话次数数字移动电话类型性别城市20神州行男农村20神州行男农村40神州行男城市
6、30全球通男城市10全球通男城市20全球通女城市20长白行男城市40神州行男城市60全球通男城市20全球通男城市20全球通男城市20全球通男城市20全球通男城市20长白行男城市20全球通男城市25全球通男城市30全球通男城市7全球通女城市20全球通男城市10全球通男数据变量的分类?按照取值类型:品质型数据(Qualitative data)和数量型数据(Quantitative data);品质数据:用于鉴别每一个体品质的标记或名称数量数据:表示多少21数据结构的分类?截面数据(Cross-sectional data):在同一时点或近似同一时点收集的数据。?时间序列数据(Time serie
7、s data):在一系列时点收集的数据。?面板数据(Panel Data):多个个体在一系列时点收集的数据。22年份月份社会消费品零售额19901651.682572.33572.54557.565568.626569.027549.998557.969607.1610613.6411638.0412732.3619911706.412698.853641.32品质数据的描述方法频数分布:按变量(数据特征)取值数归类成既不重叠又不遗漏的一列数据组,其各个组别所包含的数据数目(频数)的表格汇总。相对频数(频率):每一组的相对频数=该组的频数/数据总数N百分比频数(率):每一组的百分比频数=100
8、*该组相对频数%24你发现了什么??数字移动电话类型汇总 相对频数百分比累计百分比长白行20.11010全球通140.77080神州行40.220100总计20110025柱状图频数21440246810121416长白行全球通神州行类型26长白行10%全球通70%神州行20%百分比饼图27数量数据的描述方法频数分布?组数:根据数据情况确定。?组限:每组的上限值、下限值。?组距(组宽度):各组上下限值之差。28数量数据的描述方法频率0-20320-401440-60260-80129数量数据的描述方法直方图05101510305070其他频数30刻画两个变量的关系?交叉分组列表:数字移动电话类
9、型男女总计长白行202全球通12214神州行404总计1822031散点图身高体重的散点图01020304050607080150160170180190身高体重32数据描述的数值方法通过统计量来概括数据中的信息。?如何刻画数据的位置;?如何刻画数据的变异程度;?如何检测异常值;?如何刻画两个变量之间的关系。33数据位置的度量?平均数?中位数?众数?四分位数?百分位数34平均数(Mean)数据值的算术平均数据值的算术平均:最常用的中心位置度量最常用的中心位置度量受极端值影响受极端值影响nxnii=1nxxxni+=2=x0 1 2 3 4 5 6 7 8 9 100 1 2 3 4 5 6 7
10、 8 9 10 12 14平均数平均数=5平均数平均数=635中位数(Median)重要的中心位置度量重要的中心位置度量在递增排序后的数据列中,在递增排序后的数据列中,若若 n 是 奇数,中位数是正中央的数是 奇数,中位数是正中央的数.若若 n 是 偶数,中位数是正中央的两数的平均值是 偶数,中位数是正中央的两数的平均值.不受极端值的影响不受极端值的影响0 1 2 3 4 5 6 7 8 9 100 1 2 3 4 5 6 7 8 9 10 12 14中位数中位数=5中位数中位数=536众数(Mode)发生频数最高的数据值发生频数最高的数据值不受极端值的影响不受极端值的影响众数可能不存在众数可
11、能不存在可能有多个众数可能有多个众数可用于数量型或品质型数据可用于数量型或品质型数据0 1 2 3 4 5 6 7 8 9 10 11 12 13 14众数众数=90 1 2 3 4 5 6没有众数没有众数37百分位数(Percentile)?第p百分位数:?使得至少有p%的数据小于或等于这个值。?计算:1.将原数据从小到大排列2.计算i=(p/100)n3.若i是整数,则第p百分位数为第i个数同第i+1个数字的算术平均值。4.若i不是整数,则取整。38四分位数(Quartile)?将排序后的数据分为四个等份将排序后的数据分为四个等份?25%25%25%25%Q1Q2Q311 12 13 16
12、 16 17 18 21 Q1=12.539变异程度的度量?极差(全距)?方差?标准差?标准差系数40 极差极差=最大值最大值 最小值最小值 忽略数据的分布忽略数据的分布极差(Range)全距全距=12-7=57 8 9 10 11 12全距全距=12-7=57 8 9 10 11 1241重要度量重要度量对于总体对于总体:对于样本对于样本:方差(Variance)()NXi=22()122=nXXsi42最重要的变异程度的度量最重要的变异程度的度量反映了关于平均值的变异程度反映了关于平均值的变异程度对于总体对于总体:对于样本对于样本:标准差(Stand.Dev.)()NXi=2()12=nX
13、Xsi43标准差的比较11 12 13 14 15 16 17 18 19 20 21Data AMean=15.5s =3.33811 12 13 14 15 16 17 18 19 20 21Data BMean=15.5s=.925811 12 13 14 15 16 17 18 19 20 21Data CMean=15.5s=4.5744变异系数?反映反映 相对于平均值的变异程度相对于平均值的变异程度?可用来比较两组或多组数据可用来比较两组或多组数据?公式公式(对样本对样本):100%=XSCV45标准差系数的比较?Stock A:去年的平均价格去年的平均价格=$50?标准差标准差=
14、$5?Stock B:去年的平均价格去年的平均价格=$100?标准差标准差=$5100%=XSCV标准差系数标准差系数:Stock A:10%Stock B:5%46异常值的检测的经验法则?对于钟型分布(正态分布)的数据:?约68%的数据与平均数相差在1个标准差之内;?约95%的数据与平均数相差在2个标准差之内;?几乎所有的数据与平均数相差在3个标准差之内;?与平均数的距离超过3个标准差的数据应作为异常值对待。47在过程控制中的应用?可变电阻器数据?在生产过程中按时间顺序取得的200个观测值?目的:统计过程控制48两个变量相关性的度量?相关系数(Correlation coefficient)
15、?描述的是线性相关关系的程度?取值-1,+149=nyxyxnnyyxxsiniiniiiniiixy111n1i111)(yxxyssSr=样本相关系数 的取值区间是:-1,1.5152535455简单理解?当点沿y轴的变化不依赖于其在x轴的位置或反之时,则r 将接近0,我们称x与y不相关。?当各点在平面上大致沿一条正斜率直线分布时,r便大于0,我们称x与y正相关。?当各点在平面上大致沿一条负斜率直线变化时,r便小于0,我们称x与y负相关.?在极特殊的情况下,所有点都准确落在一条具有正(或负)斜率的直线上,这时r的值为1(或 1)。56课后作业?个人作业:?P.44 39,41?P.83 59,67?团队作业:?构建5-6人的小组?设想一个实际数据案例?准备第五周:分组报告?每组交一页小组计划:?小组成员、拟定案例题目57