《2023年统计学必知知识点合集.docx》由会员分享,可在线阅读,更多相关《2023年统计学必知知识点合集.docx(41页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、记录学知识点合集1. 实验和事件:对某事物或现象所进行的观测或实验叫实验,把结果叫事件。2. 基本领件(elementary event):假如一个事件不能分解成两个或更多个事件,就称为基本领件。一次观测只能有一个基本领件。3. 样本空间:一个实验中所有的基本领件的全体称为样本空间。4. 古典概型:假如某一随机实验的结果有限,并且各个结果出现的也许性相等,则某一事件A发生的概率为该事件所包含的基本领件个数m与样本空间中所包含的基本领件个数n的比值。5. 记录概型:在相同条件下随机实验n次,某事件A出现m次(mn),则m/n称为事件A发生的频率。随着n增大,该频率围绕某一常数p上下波动,且波动幅
2、度逐渐减小,趋于稳定,这个频率的稳定值就是该事件的概率。6. 概率加法:(1)两个互斥事件:P(A+B)=P(A)+P(B);任意两随机事件:P(A+B)=P(A)+P(B)-P(AB)。7. 事件独立(independent):一个事件发生与否不会影响另一个事件发生的概率,公式为:P(AB)=P(A)P(B)。互斥(相依赖)一定不独立,不独立不一定互斥(相依赖)。8. 全概率公式:根据某一事件发生的各种因素的概率,计算该事件的概率。计算公式为:。9. 贝叶斯公式:在条件概率的基础上寻找事件发生的因素。计算公式为:,分母就是全概率公式。也称为逆概率公式。该公式是在观测到事件B已发生的条件下,寻
3、找导致A发生的每个因素Ai的概率。P(Ai)称为验前概率,P(Ai |B)是验后概率。10. 0-1分布:。0-1分布也称为两点分布,即非A即B。关于是否的概率统统是0-1分布。性别。11. 二项分布:现实生活中,许多事件只是具有两种互斥结果的离散变量。如男性和女性、某种化验结果的阴性阳性,这就是二项分布。参数为n,p,记为XB(n,p)。E(X)=np,D(X)=npq。当成功的概率很小,而实验次数很大时,二项分布接近泊松分布,此时=np。即P0.25,n20,np5。二项定理近似服从正态分布。二项分布是0-1分布的n重实验,表达含量为n的样本中,有X个所需结果的概率。12. 二项分布的正态
4、近似:,其中a=,b=,q=1-p。13. 超几何分布:。即二项分布中,无放回的情况。14. 泊松分布(poisson distribution):用来描述在一指定期间范围内或在指定的面积之内某事件出现的次数的分布。如某公司中每月发生的事故次数、单位时间内到达某一服务柜台需要服务的顾客人数、人寿保险公司天天收到的死亡声明个数、某种仪器每月出现故障的次数等。公式为:,E(X)=,D(X)=。是给定期间间隔内事件的平均数。15. 盼望:各也许值xi与其相应概率pi的乘积之和为该随机变量X的盼望,即。16. 概率密度满足的条件:(1)f(x)0;(2)。连续型随机变量的概率密度是其分布函数的倒数。;
5、。17. 正态分布(normal distribution):正态分布的概率密度为:,xR。记作X()。18. 正态分布图形特点:(1)f(x)0,即整个概率密度曲线都在x轴上方;(2)f(x)相对于x= 对称,并在x=处取到最大值,最大值为;(3)曲线的陡缓由决定,越大,越平缓,越小,曲线越陡峭;(4)当x趋于无穷时,曲线以x轴为渐近线。19. 正态分布的例子:某地区同年龄组儿童的发育特性、某公司的销售量、同一条件下产品的质量以平均质量为中心上下摆动、特别差和特别好的都是少数,多数在中间状态,如人群中的高个子和矮个子都是少数,中档身材居多等。20. 标准正态分布,即在正态分布中,=0,=1,
6、有,即XN(0,1)。用表达分布函数,表达概率密度。(-x)=1-(x)。21. 方差:即每个随机变量取值与盼望值的离差平方的盼望值。随机变量的方差计算公式为:。22. 标准差:随机变量的方差的平方根为标准差,记。标准差与随机变量X有相同的度量单位。23. 盼望、标准差、离散系数的使用:假如盼望相同,那么比较标准差;假如盼望不同,那么比较离散系数。24. 3准则:由标准正态分布得:当XN(0,1)时,P(|X|1)=2(1)-1=0.6826;P(|X|2)=2(2)-1=0.9545;P(|X|3)=2(3)-1=0.9973.这说明X的取值几乎所有集中在-3,3之间,超过这个范围的不到0.
7、3%。将结论推广到一般正态,即XN(,)时,有P(|X-|) =0.6826;P(|X-|2) =0.9545;P(|X-|3) =0.9973。可以认为X的值一定落在(-3, +3)内。25. 矩:(1)为样本k阶矩,其反映出总体k阶矩的信息,当k=1时,即均值;(2)为样本k阶中心矩,它反映出总体k阶中心矩的信息,当k=2时,即方差;(3)为样本偏度,它反映总体偏度的信息,偏度反映了随机变量密度函数曲线在众数两边的对称偏斜性;(4)为样本峰度,它反映出总体峰度的信息,峰度反映密度函数曲线在众数附近的峰的尖峭限度。26. 充足记录量:记录量加工过程中一点信息都不损失的记录量称为充足记录量。2
8、7. 因子分解定理:充足记录量鉴定方法。当X=(X1,X2,,Xn)是来自正态分布N(,2)的一个样本时,若已知,则是2的充足记录量,若2已知,则是的充足记录量。28. 精确抽样分布和渐近分布:在总体X的分布类型已知时,若对任一自然数n,都能导出记录量T=(X1,X2,Xn)的分布数学表达式,这种分布就是精确抽样分布,涉及卡方、F,t分布;当n较大时,用极限分布作为抽样分布的一种近似,这种极限分布称为渐近分布,如中心极限定理。29. 卡方分布:设随机变量X1,X2,Xn互相独立,且Xi服从标准正态分布N(0,1),则它们的平方和服从自由度为n的分布。E()=n;D()=2n;具有可加性;当自由
9、度增长到足够大时,分布的概率密度曲线趋于对称,当n趋于无穷时,的极限分布是正态分布。30. t分布:也称为学生氏分布。设随机变量XN(0,1),Y(n),且X与Y独立,则,其分布称为t分布,记为t(n),n是自由度。t分布的密度函数是偶函数。当n2时,E(t)=0,;当n3时,D(t)=n/(n-2)。t(n)的方差比N(0,1)大一些。自由度为1的分布称为柯西分布,随着n增长,t分布的密度函数越来越接近标准正态分布的密度函数。实际应用中,当n30时,t分布于标准正态分布很接近。另有一个关于t分布的抽样分布:,称为服从自由度为(n-1)的t分布。31. F分布:设随机变量Y与Z独立,且Y和Z分
10、别服从自由度为m和n的分布,随机变量X如下:。则成X服从第一自由度为m,第二自由度为n的F分布,记为XF(m,n)。E(X)=n/(n-2),n2;D(X)=,n4。32. t分布与F分布的关系:假如随机变量X服从t(n)分布,则X2服从F(1,n)的F分布。这在回归系数显著性检查中有用。33. 的抽样分布(sampling distribution):当总体分布为正态分布时,的抽样分布仍然是正态分布,此时E()=,D()=2/n,则。其说明当用样本均值去估计总体均值时,平均来说没有偏差(无偏性);当n越来越大时, 的散布限度越来越小,即用估计越来越准确。34. 中心极限定理(central
11、limit theorem):不管总体的分布是什么,只要总体的方差2有限且规定n30,此时样本均值的分布总是近似正态分布,即N(,2/n)。35. 样本比例的抽样分布:假如在样本大小为n的样本中具有某一特性的个体数为X,则样本比例为:。是总体比例,即p=X/n=。36. 两个样本均值之差的分布:若为两个总体,则:;若是两个样本,则:;。37. 样本方差的分布:设X1,X2,Xn为来自正态分布的样本,则设总体分布为N(,2),则样本方差S2的分布为:。38. 两个样本方差比的分布:设X1,X2,Xn是来自正态分布的样本,y1,y2,yn也是来自正态分布的样本,且Xi与yi独立,则。39. 参数估
12、计(parameter estimation):用样本记录量去估计总体的参数。40. 点估计(point estimate):用样本记录量的某个取值直接作为总体参数的估计值。41. 区间估计(interval estimate):是在点估计的基础上,给出总体参数估计的而一个区间范围,该区间通常由样本记录量加减估计误差得到。42. 置信区间(confidence interval):在区间估计中,由样本记录量所导致的总体参数的估计区间称为置信区间。43. 置信水平(confidence level):假如将构造置信区间的环节反复多次,置信区间中包含总体参数真值的次数所占的比例为置信水平,也称为置
13、信度或置信系数。其含义为:假如做了100次抽样,大约有95次找到的区间包含真值,而不是95%的也许落在区间,由于记录量不涉及概率问题。44. 无偏性(inbiasedenss):指估计量抽样分布的盼望等于被估计的总体参数。设总体参数为,估计量为,假如E()=,则称为的无偏估计量。45. 有效性(efficiency):指对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。46. 一致性(consistency):指随着样本量的增大,点估计量的值越来越接近被估总体的参数,换个说法,一个大样本给出的估计量要比一个小样本给出的估计量更接近总体参数。47. 样本量与置信水平、总体方差和估计误差
14、的关系:样本量与置信水平成正比,在其他条件不变的情况下,置信水平越大,所需的样本量也就越大;样本量与总体方差成正比,总体的差异越大,所规定的样本量也越大;样本量与估计误差的平方成反比,即可接受的估计误差的平方越大,所需的样本量就越小。48. 圆整法则:将样本量取成较大的整数,也就是将小数点后面的数值一律进位成整数。49. 两类错误:一类是原假设H0为真却拒绝,这类错误用表达,称为弃真;另一类是原假设为伪而我们却接受,这种错误用表达,也称存伪。50. 两类错误的控制原则:假如减小错误,就会增大犯错误的机会;若减小错误,也会增大犯错误的机会。规则是:一方面控制错误,这是由于原假设是什么经常是明确的
15、,而备择假设是什么则经常是模糊的。51. P值:P值是当原假设为真时所得到的样本观测结果或更极端结果出现的概率。P值越小,拒绝原假设的理由就越充足。P值的长处是它反映了观测到的实际数据与原假设之间不一致的概率值。52. 双侧检查与单侧检查:双侧检查重要是检查是否相等,如90年的婴儿体重与89年婴儿体重是否相等;另一种是单侧检查,即关心的假设问题带有方向性,如灯泡的使用寿命,汽车行驶距离等;另一种是数值越小越好,如废品率、生产成本等。53. 记录量的选择:在一个总体参数的检查中,重要记录量有三个,z、t和。z和t用于均值和比例检查,用于方差检查。记录量选择环节如下:(1)是否是大样本,假如是,那
16、么假如总体呈正态分布,样本记录量也呈正态分布;假如总体不呈正态分布,样本记录量渐进服从正态分布;此时可以使用z记录量(2)假如是小样本,那么观测,假如已知,样本记录量将服从正态分布,此时可以用z记录量(3)假如未知,则只能使用样本标准差,样本记录量服从t分布,应采用t记录量。t记录量的精度不如z记录量,这是总体信息未知所需要付出的代价。54. 总体比例检查公式:。P为样本比例,0是总体比例的假设值。55. 总体(population):包含所研究的所有个体的集合,组成总体的每一个元素称为个体。当总体的范围难以拟定期,可根据研究的目的来定义总体。56. 样本(sample):样本是从总体中抽取的
17、一部分元素的集合,构成样本的元素的数目称为样本量。57. 参数(parameter):参数是用来描述总体特性的概括性数字度量。58. 记录量(statistic):记录量是用来描述样本特性的概括性数字度量。抽样的目的就是根据样本记录量估计总体参数。记录量中不能包含未知参数。59. 变量(variable):说明现象某种特性的概念,特点是从一次观测到下一次观测结果会呈现出差别或变化。变量分为分类变量、顺序变量、数值型变量,数值型变量又分为离散型变量和连续型变量。60. 概率抽样(probability sampling):也称随机抽样,指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入
18、样本。概率抽样分为简朴随机抽样、分层抽样、整群抽样、系统抽样和多阶段抽样。61. 简朴随机抽样(simple random sampling):从涉及总体N个单位的抽样框中随机的一个一个的抽取n个单位作为样本,每个单位的入样概率是相等的。62. 非概率抽样(non- simple random sampling):指抽取样本时不依据随机原则,而是根据研究目的对数据的规定,采用某种方式从总体中抽出部分单位对其实行调查。涉及方便抽样、判断抽样、自愿样本、滚雪球抽样和配额抽样。63. 抽样误差(sampling error):指由于抽样的随机性引起的样本结果与总体真值之间的误差。64. 频数(fre
19、quency):是落在某一特定类别或组中的数据个数。把各个类别及落在其中的相应频数所有列出,并用表格形式表现出来,称为频数分布。65. 列联表(contingency table)和交叉表(cross table):由两个或两个以上变量交叉分类的频数分布表称为列联表。二维的列联表又称为交叉表。66. 帕累托图(pareto chart):按各类别数据出现的频数多少排序后绘制的条形图。通过对条形图排序,容易看出哪类数据出现得多,哪类数据出现的少。67. 饼图(pie chart):是用圆形及圆内扇形的角度来表达数值大小的图形,它重要用于表达一个样本中各组成部分的数据站所有数据的比例,对于研究结构
20、性问题十分有用。68. 环形图(doughnut chart):把饼图叠在一起,挖去中间部分就是环形图。环形图可显示多个样本部分所占的相应比例,从而有助于构成的比较研究。69. 累积频数(cumulative frequencies):将各种有序类别或组的频数逐级累加起来得到的频数,通过累积频数可以很容易看出某一类别以下或某一类别以上的频数之和。70. 组中值(class midpoint):是每一组中下限值与上限值中间的值,组中值可以作为该组数据的一个代表值,但是用组中值有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布,否则会产生误差。71. 直方图(histogr
21、am):合用于展示分组数据分布的图形,用于大批量数据的分析。72. 茎叶图(stem-and-leaf display):反映原始数据分布的图形,由茎叶两部分组成,其图形是由数字组成的。可以看出数据的分布形状及数据的离散情况且能保存原始信息,合用于小数据。73. 箱线图(box-plot):由最大值、最小值、中位数、两个四分位数组成,重要用于反映原始数据分布的特性,还可以进行多组数据分布特性的比较。74. 线图(line plot):重要用于反映现象随时间变化的特性。75. 散点图(scatter diagram):用二维坐标展示两个变量之间关系的图形。76. 气泡图(bubble chart
22、):可用于展示三个变量之间的关系。一个变量是横轴、一个变量是纵轴、一个变量用气泡大小表达。77. 雷达图(radar chart):也称蜘蛛图。设有n组样本S1,S2Sn,每个样本测得P个变量X1,X2XP,要绘制这P个变量的雷达图,具体做法是,先画一个圆,然后将圆P等分,得到P个点,令这P个点分别相应P个变量,再将这P个点与圆心连线,得到P个辐射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表达,再将同同样本的值在P个坐标上的点连线。这样,n个样本构成的n个多边形就是雷达图。雷达图在显示或对比各变量的数值总和时十分有用,假定各变量的取值具有相同的正负号
23、,则总的绝对值与图形所围成的区域成正比。此外,运用雷达图可以研究多个样本之间的相似度。78. 众数(mode):一组数据中出现次数最多的变量值,用表达。重要用于测度分类数据、顺序数据、数值数据的集中趋势,不受极端值影响,一组数据分布的最高峰点所相应的数值即为众数。只有在数据量较大时,众数才故意义。79. 中位数(median):中位数时一组数据排序后处在中间位置上的变量值,用表达。中位数重要用于测度顺序数据和数值型数据的集中趋势,但不合用于分类数据。中位数位置为:(n+1)/2;中位数的值为。中位数是一个位置代表值,其特点是不受极端值影响,在研究收入分派时很有用。80. 平均数也称为均值(me
24、an),是集中趋势的最重要测度值,重要合用于数值型数据,不合用于分类数据和顺序数据。平均数分为简朴平均数和加权平均数,简朴平均数(simple mean)的计算公式为:。根据分组数据计算的平均数称为加权平均数(weighted mean)。设原始数据被分为k组,各组的组中值分别用表达,各组变量值出现的品数分别用表达,则样本加权平均数的计算公式为:,其中n=。平均数是一组数据的重心所在,是数据误差互相抵消后作用的结果。81. 几何平均数(geometric mean):是n个变量值乘积的n次方根,用G表达,计算公式为:。几何平均数重要用于计算平均率,当所掌握的变量值自身是比率的形式时,采用几何平
25、均法更合理。在实际中,几何平均数重要用于计算现象的平均增长率。82. 异众比率(variation ratio):指非众数组的频数占总频数的比例,用表达,计算公式为:。fm是众数组的频数,fi是变量值的总频数。异众比率重要用于衡量众数对一组数据的代表限度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;异众比率越小,非众数组的频数占总频数的比重越小,众数的代表性越好。异众比率可用于分类数据、顺序数据和数值型数据。83. 四分位差(quartile deviation):也称为内距或四分间距(inter-quartile range):是上四分位数与下四分位数之差,用表达,
26、计算公式为:。四分位差反映了中间50%数据的离散限度,其数值越小,中间的数越集中;数值越大,中间的数越分散。四分位数不受极值影响。可用于顺序数据和数值数据,但不能用于分类数据。84. 极差(range):也称为全距,用R表达,指一组数据的最大值和最小值之差。计算公式为:。极差容易受极端值影响。85. 平均差(mean deviation):也称为平均绝对离差(mean absolute deviation):是各变量值与其平均数离差绝对值的平均数。用表达。平均差以平均数为中心,反映了每个数据与平均数的平均差异限度,能全面反映一组数据的平均差异限度,但由于为避免出现0而取绝对值,所以实际中应用较
27、少。根据未分组数据计算平均差的公式为:;根据分组数据计算平均差的公式为:。86. 方差(variance)与标准差(standard variance):方差是各变量值与其平均数离差平方的平均数。方差的平方根是标准差。设样本方差为,根据分组和未分组数据计算样本方差的公式为:,其中n-1是自由度。标准差更具有实际意义。87. 自由度(degree of freedom):自由度指附加各独立的观测值的约束或限制的个数。当样本数据的个数为n时,若样本平均数拟定后,则附加给n个观测值的约束个数是1个,因此只有n-1个数据可以自由取值。例如,假定样本有3个数,2,4,9,则=5,那么假如前两个值取5和8
28、,则第三个数必须取2才干使=5,所以有一个数是不能自由取值的,所以自由度是n-1。88. 标准分数(standard score):是变量值与其平均数的离差除以标准差后的值,也称为标准化值或z分数,计算公式为:。标准分数给出了一组数据中各数值的相对位置。比如,假如某个数值的标准分数为-1.5,就知道该数值低于平均数1.5倍的标准差。标准分数具有均值为0,标准差为1的特性,事实上z分数只是对数据进行了线性转换。用于数据标准化和检测离散数据。89. 经验法估计数据的相对位置:当一组数据对称分布时,约有68%的数据在平均数1个标准差内;约有95%的数据在平均数2个标准差内;约有99%的数据在平均数3
29、个标准差内。三个标准差之外的数据称为离群点。90. 切比雪夫不等式(Chebyshevs inequality):经验法只适合对称分布数据,而切比雪夫不等式合用于任何分布的数据,但只给了下界,即所占比例至少是多少。切比雪夫不等式公式为:。根据该公式可知,至少有(1-1/)个数据落在k个标准差之内,对于k=2,该不等式的含义是,至少有75%的数据落在2个标准差之内。91. 离散系数:也称为变异系数(coefficient of variation),是一组数据的标准差与其相应的平均数之比,计算公式为:。离散系数是测度数据离散限度的相对记录量,重要是用于比较不同样本数据的离散限度。离散系数大,说明
30、数据的离散限度大。离散系数是比较平均水平不同或计量单位不同的不同组别的变量值的离散限度。92. 离散测度总结:分类数据重要用异众比率来测度离散限度;顺序数据重要用四分位数来测度离散限度;数值数据重要用方差和标准差测度离散限度;而对于不同的样本数据,用离散系数比较离散限度。93. 偏态(skewness):偏态是对数据分布对称性的测度。测度偏态的记录量是偏态系数(coefficient of skewness),记作SK。根据未分组和分组的原始数据计算偏态系数的公式为:。假如一组数据的分布是对称的,则偏态系数等于0,表白分布是对称的,若偏态系数大于1或小于-1,则称为高度偏态分布;若偏态系数在0
31、.51或-1-0.5,则是中档偏态分布。根据分组的SK公式中,很明显是将离差的三次方的平均数除以,是将偏态系数转化为相对数。94. 相对数:是两个有联系的指标的比值,它可以从数量上反映两个互相联系的现象之间的对比关系。95. 峰态(kurtosis):是对数据分布平峰或尖峰限度的测度。测度峰态的记录量是峰态系数(coefficient of kurtosis),记作K。峰态通常与标准正态分布比较而言的。假如数据服从标准正态分布,则峰度为0,否则为平峰分布或尖峰分布。根据未分组和分组数据计算峰态系数的公式为:,。当K0时为尖峰分布,数据的分布更集中;当K0.8,说明盖度相关;0.5-0.8说明中
32、度相关,0.3-0.5说明低度相关,r0.3,说明不相关。133. r的显著性检查方法:(1)提出假设:H0:=0;H1:0;(2)计算检查的记录量:;(3)决策:根据给定的和df=n-2,查t分布表,得出t/2(n-2)的临界值。若|t|t/2,则拒绝零假设,表白总体的两个变量之间存在显著性管系。134. 斯皮尔曼相关系数(Spearman):该系数用来度量顺序水准变量间的线性相关关系。它是运用两变量的秩次大小作线性分析。合用条件有二:第一,两个变量的变量值是以等级顺序表达的资料;(2)一个变量的变量值是等级数据,另一个变量的变量值是等距或比率数据,且两总体不规定是正态分布,样本容量不一定大
33、于30。缺陷是计算精度不高。斯皮尔曼系数用rR表达,公式为:,其中D是两个变量每对数据等级之差;n是两列变量值的对数。135. 肯德尔系数(kendall):肯德尔等级相关系数用于反映分类变量相关性的指标,合用于两个变量均为有序分类的情况。这种指标采用非参数检查方法测度变量间的相关关系,运用变量的秩计算一致对数目和非一致对数目。假如两变量具有较强的正相关,则一致对数目U较大,否则一致对数目和非一致对数目应当相近。肯德尔系数计算公式如下:。136. 偏相关分析:其是在扣除其他因素的作用大小以后,重新来测度这两个因素间的关联限度。这种方法的目的在于消除其他变量关联性的传递效应。偏相关系数计算公式为
34、:。137. 距离分析:距离分析是对观测量之间或变量之间相似或不相似的限度的一种测度,根据变量的不同类型,可以有许多距离、相似限度测量指标供用户选择。但由于距离分析只是一个预分析过程,所以距离分析不会给出P值,而只能给出各变量/记录间距离的大小,以供用户自行判断相似性。调用距离分析过程可对变量内部各观测单位间的数值进行距离相关分析,以考察互相间的接近限度,也可用于考察变量的相似限度。在距离分析中,重要运用变量间的相似性测度和不相似性测度度量研究对象之间的关系。138. 回归分析:侧重于测度变量之间的关系强度,并通过一定数学表达式将这种关系描述出来,进而拟定一个或几个变量(自变量)的变化对另一个
35、特定变量(因变量)的影响限度。139. 回归分析解决的问题:(1)拟定变量之间的表达式;(2)对关系式的可信限度进行检查,并从影响某一特定变量的诸多变量中找出哪些变量的影响是显著的,那些是不显著的;(3)预测。140. 自变量和因变量:被预测或被解释的变量称为因变量;用来预测或用来解释因变量的变量称为自变量。如预测一定的贷款余额条件下的不良贷款是多少,被预测的不良贷款,是因变量,用来预测的是贷款余额,是自变量。141. 一元线性回归:当回归中只涉及一个自变量时称为一元回归,若因变量y与自变量x之间的为线性关系时,是一元线性回归。142. 回归模型(regression model):描述因变量y如何依赖于自变量x和误差的方程称为回归模型。只涉及一个自变量的一元线性回归模型可表达为y=0+1x+。143. 误差项:是一个服从正态分布的随机变量,且独立,即N(0,2)。独立性意味着对于