《简单相关分析与简单线性回归分析精选文档.ppt》由会员分享,可在线阅读,更多相关《简单相关分析与简单线性回归分析精选文档.ppt(85页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、简单相关分析与简单线性回归分析本讲稿第一页,共八十五页學習目標學習目標1.1.瞭解簡單相關分析的意義。瞭解簡單相關分析的意義。2.使用相關分析的時機。使用相關分析的時機。3.3.瞭解共變異數的計算與意義。瞭解共變異數的計算與意義。4.4.瞭解相關係數的計算與檢定程序。瞭解相關係數的計算與檢定程序。5.5.瞭解簡單迴歸分析的意義。瞭解簡單迴歸分析的意義。6.6.學習估計與檢定迴歸係數。學習估計與檢定迴歸係數。7.利用估計的迴歸方程式作預測。利用估計的迴歸方程式作預測。8.8.檢定迴歸方程式的適合性。檢定迴歸方程式的適合性。本讲稿第二页,共八十五页本章架構本章架構 14.1 14.1 簡單相關分析
2、簡單相關分析14.2 14.2 簡單線性迴歸分析簡單線性迴歸分析 14.3 14.3 簡單線性迴歸方程式的估計簡單線性迴歸方程式的估計最小平方法最小平方法 14.4 14.4 迴歸方程式的適合度迴歸方程式的適合度14.5 14.5 迴歸方程式的檢定迴歸方程式的檢定 14.6 14.6 利用估計線性迴歸方程式進行預測利用估計線性迴歸方程式進行預測14.7 14.7 殘差分析殘差分析本讲稿第三页,共八十五页14.1 簡單相關分析簡單相關分析 14.1.1 14.1.1 共變異數的意義共變異數的意義14.1.2 14.1.2 相關係數的意義相關係數的意義 14.1.3 14.1.3 相關係數的估計相
3、關係數的估計 14.1.4 14.1.4 相關係數的檢定相關係數的檢定本讲稿第四页,共八十五页14.1 簡單相關分析簡單相關分析(續續)相關分析相關分析(correlation analysis)(correlation analysis)探討數值變數間線性關係的程度與方向的方法,共變異數探討數值變數間線性關係的程度與方向的方法,共變異數(covariance)(covariance)與相關係數是用來瞭解兩變數間線性關係的與相關係數是用來瞭解兩變數間線性關係的工具。工具。如果變數間無法區分出所謂的依變數如果變數間無法區分出所謂的依變數(dependent(dependent variable)
4、variable)與自變數與自變數(或獨立變數或獨立變數)(independent variable)(independent variable)時,時,則使用相關分析來探討變數間的線性關係;如果變數則使用相關分析來探討變數間的線性關係;如果變數是可以區分的話,則使用線性迴歸分析來探討變數間是可以區分的話,則使用線性迴歸分析來探討變數間的線性關係。的線性關係。本讲稿第五页,共八十五页14.1.1 共變異數的意義共變異數的意義共變異數共變異數(covariance)(covariance)測量兩個數值變數間的線性關係。測量兩個數值變數間的線性關係。線性關係線性關係 當一個變數變動時,另一變數則呈
5、同方向或相反方向變動。當一個變數變動時,另一變數則呈同方向或相反方向變動。本讲稿第六页,共八十五页14.1.1共變異數的意義共變異數的意義(續續)母體共變異數母體共變異數 其中其中N N代表母體總數。代表母體總數。樣本共變異數樣本共變異數 其中其中n n代表樣本數。代表樣本數。本讲稿第七页,共八十五页14.1.1共變異數的意義共變異數的意義(續續1)共變異數的性質共變異數的性質 1.1.共變異數的值介於共變異數的值介於-到到 之間。之間。2.2.X X與與Y Y的共變的共變異數大於零異數大於零,表示,表示X X與與Y Y同方向變動同方向變動。3.3.X X與與Y Y的共變的共變異數小於零異數小
6、於零,表示,表示X X與與Y Y反方向變動。反方向變動。4.4.X X與與Y Y的共變的共變異數等於零異數等於零,表示兩變數間沒有線性關,表示兩變數間沒有線性關係,但並不表示兩者之間沒有其他關係存在係,但並不表示兩者之間沒有其他關係存在。本讲稿第八页,共八十五页14.1.1共變異數的意義共變異數的意義(續續3)當兩變數與的共變異數大於零時,可以看出與大部分落於當兩變數與的共變異數大於零時,可以看出與大部分落於第一與第三象限,也就是兩者移動的方向是一致的,亦即第一與第三象限,也就是兩者移動的方向是一致的,亦即正的線性關係。正的線性關係。(如圖如圖14.114.1之左上圖之左上圖)當兩變數與的共變
7、異數小於零時,可以看出與大部分落於當兩變數與的共變異數小於零時,可以看出與大部分落於第二與第四象限,也就是兩者移動的方向是相反的,亦即第二與第四象限,也就是兩者移動的方向是相反的,亦即負的線性關係。負的線性關係。(如如圖圖14.114.1之右上圖之右上圖)當兩變數與的共變異數等於零時,可以看出與均勻落當兩變數與的共變異數等於零時,可以看出與均勻落於所有四個象限,而看不出兩者間線性移動的關係,於所有四個象限,而看不出兩者間線性移動的關係,但卻可能存在其他非線性關係。但卻可能存在其他非線性關係。(如如圖圖14.114.1之下方二圖之下方二圖)本讲稿第九页,共八十五页14.1.1共變異數的意義共變異
8、數的意義(續續2)圖圖14.114.1:不同共變異數值情況下:不同共變異數值情況下X X與與Y Y的散佈圖的散佈圖本讲稿第十页,共八十五页例例14.1 停留時間與消費額的關係停留時間與消費額的關係 某遊樂區經理想了解遊客停留時間與消費額的關係,於是蒐集了某遊樂區經理想了解遊客停留時間與消費額的關係,於是蒐集了1010位遊客的資料如表位遊客的資料如表14.1 14.1 表表14.1 1014.1 10位遊客的停留時間與消費額位遊客的停留時間與消費額 本讲稿第十一页,共八十五页續例續例14.1 由表由表14.114.1可知可知本讲稿第十二页,共八十五页14.1.2 相關係數的意義相關係數的意義 相
9、關係數(相關係數(correlation coefficient)correlation coefficient)乃是指皮爾生相關係數乃是指皮爾生相關係數(Pearson correlation coefficient)Pearson correlation coefficient),其用途在於測量兩個數,其用途在於測量兩個數值變數間的線性關係。值變數間的線性關係。當兩變數有相關存在,並不代表兩者一定存在因果關當兩變數有相關存在,並不代表兩者一定存在因果關係,但是當相關程度高的時候,彼此的預測能力也高。係,但是當相關程度高的時候,彼此的預測能力也高。本讲稿第十三页,共八十五页相關係數應用實例一
10、相關係數應用實例一歐亞股市與美股連動性歐亞股市與美股連動性計算至計算至計算至計算至2003/3/24 2003/3/24 資料來源:資料來源:資料來源:資料來源:Bloomberg Bloomberg 整理:怡富投顧整理:怡富投顧整理:怡富投顧整理:怡富投顧 本讲稿第十四页,共八十五页相關係數應用實例二相關係數應用實例二 我國在漸邁入高齡化社會的同時我國在漸邁入高齡化社會的同時,整體社會每年平均花在醫療保健整體社會每年平均花在醫療保健上的費用上的費用,將益為提高。由此可看出將益為提高。由此可看出 :年齡是影響個人每年花在年齡是影響個人每年花在醫療保健費用多寡的原因之一。醫療保健費用多寡的原因之
11、一。個人每年花在醫療保健費用和個人總財富累積這兩個因素個人每年花在醫療保健費用和個人總財富累積這兩個因素,同時受同時受年齡的影響年齡的影響,才使得醫療保健費用和個人總財富累積兩個變數才使得醫療保健費用和個人總財富累積兩個變數間間接地具高度線性相關,而其實醫療保健費用和個人總財富間間接地具高度線性相關,而其實醫療保健費用和個人總財富累積兩個變數間並不具有因果關係。但是累積兩個變數間並不具有因果關係。但是,如果醫療保健費用和如果醫療保健費用和總財富累積兩個變數總財富累積兩個變數,都去除掉年齡的影響後都去除掉年齡的影響後,將發現這兩個因將發現這兩個因素呈低度線性相關。也就是說素呈低度線性相關。也就是
12、說,去除掉年齡的影響後去除掉年齡的影響後,醫療保健費醫療保健費用和總財富累積的偏相關係數變得很接近用和總財富累積的偏相關係數變得很接近 0 0。“只要常看病只要常看病,口袋裏口袋裏的孫中山就會愈多的孫中山就會愈多”的奇怪推論的奇怪推論,在去除幕後的藏鏡人在去除幕後的藏鏡人年齡之後年齡之後,自可迎刃而解。自可迎刃而解。(資料來源資料來源易得太資訊易得太資訊(統計桃花源統計桃花源)本讲稿第十五页,共八十五页14.1.2 相關係數的意義相關係數的意義(續續)母體相關係數母體相關係數 其中其中 X X,X X為隨機變數為隨機變數X X的平均數與標準差;的平均數與標準差;Y Y,Y Y為隨機變數為隨機變
13、數Y Y的平均數與標準差;的平均數與標準差;XYXY為隨機變數為隨機變數X X與與Y Y之共變異數。之共變異數。本讲稿第十六页,共八十五页14.1.2 相關係數的意義相關係數的意義(續續1)若若X X與與Y Y為成對資料則母體相關係數可表為為成對資料則母體相關係數可表為本讲稿第十七页,共八十五页14.1.2 相關係數的意義相關係數的意義(續續2)相關係數的性質相關係數的性質:1.相關係數的值介於 1 與 1 之間。2.當XY=1,表示X與Y為完全正相關,亦即當X變動時,Y亦以相同方向變動;反之,亦然。3.當XY=1,表示X與Y為完全負相關,亦即當X變動時,Y亦以相反方向來變動;反之,亦然。4.
14、當XY=0,代表X與Y完全沒有線性關係,不過並不代表兩者之間沒有其他型態關係(如拋物線關係)存在。本讲稿第十八页,共八十五页14.1.3 相關係數的估計相關係數的估計 我們必須假設之母體為一二維常態分配我們必須假設之母體為一二維常態分配(Bivariate normal(Bivariate normal distribution)distribution),然後抽出樣本資料,然後抽出樣本資料 ,來計算樣本相,來計算樣本相關係數,而其定義如下:關係數,而其定義如下:其中其中本讲稿第十九页,共八十五页例例14.2 續例續例14.1 若試問停留時間與消費額之相關係數為何,可利用若試問停留時間與消費額
15、之相關係數為何,可利用ExcelExcel來計算相關係數,來計算相關係數,步驟如下:步驟如下:1.輸入表14.1的資料。2.點選工具、資料分析、相關係數。3.輸入資料範圍$A$1:$B$10,並按確定。4.結果可得rXY=0.425265。本讲稿第二十页,共八十五页14.1.3 相關係數的估計(續)相關係數的估計(續)圖圖14.2 14.2 不同的不同的 XYXY時,時,X X與與Y Y的散布圖的散布圖本讲稿第二十一页,共八十五页14.1.4 相關係數的檢定相關係數的檢定 XYXY=0=0的檢定的檢定 1.1.假設假設 H H0 0:XYXY=0=0 H H1 1:XYXY 0 02.2.檢定
16、統計量檢定統計量 當當 XYXY=0=0且且(x,y)(x,y)來自二元常態分配時,來自二元常態分配時,檢定統計量檢定統計量 t*t*為一自由為一自由度為度為 n n2 2 的的 t t 分配。分配。本讲稿第二十二页,共八十五页例例14.3 續例續例14.2 在例在例14.114.1中,試在中,試在=0.05=0.05的水準下,檢定停留時間與消費額是否的水準下,檢定停留時間與消費額是否有關係存在。可設定虛無與對立假設為有關係存在。可設定虛無與對立假設為 H H0 0:XY XY=0=0 H H1 1:XYXY 0 01.1.檢定統計量檢定統計量:2.2.拒絕域拒絕域:本讲稿第二十三页,共八十五
17、页例例14.3 續例續例14.2(續(續)3.3.相關係數相關係數:4.4.檢定統計量之值檢定統計量之值:5.所以不拒絕所以不拒絕H H0 0,亦即無充分證據顯示停留時間與消費,亦即無充分證據顯示停留時間與消費額間有相關存在。額間有相關存在。本讲稿第二十四页,共八十五页14.1.4相關係數的檢定相關係數的檢定(續續)XY=0的檢定 1.假設 H0:XY=0 H1:XY 02.檢定統計量採用Fisher轉換 Zr本讲稿第二十五页,共八十五页14.1.4 相關係數的檢定相關係數的檢定(續續1)XYXY=0 0的檢定的檢定 當當n n 30 30時,時,Z Zr r近似於常態分配,即近似於常態分配,
18、即 ,其中,其中 所以可以透過所以可以透過Z Z檢定來完成,亦即檢定來完成,亦即本讲稿第二十六页,共八十五页例例14.4 廣告費用與銷售量廣告費用與銷售量 某公司想瞭解廣告費用與銷售量之間的相關,於是蒐集了過某公司想瞭解廣告費用與銷售量之間的相關,於是蒐集了過去去3636個月的資料,並計算得相關係數為個月的資料,並計算得相關係數為0.680.68,試在,試在0.050.05的顯著水準下,檢定下列的假設的顯著水準下,檢定下列的假設:H H0 0:XYXY=0.75 =0.75 H H1 1:XYXY 0.75 0.75先求本讲稿第二十七页,共八十五页例例14.4 廣告費用與銷售量(續)廣告費用與
19、銷售量(續)再求檢定統計量值再求檢定統計量值 ,所以不拒絕,所以不拒絕H H0 0 ,亦即無充分,亦即無充分證據顯示廣告費用與銷售量之間的相關係數不為證據顯示廣告費用與銷售量之間的相關係數不為0.75 0.75。本讲稿第二十八页,共八十五页14.2 簡單線性迴歸分析簡單線性迴歸分析 14.2.1 14.2.1 簡單線性迴歸模型與假設條件簡單線性迴歸模型與假設條件 14.2.2 14.2.2 線性迴歸方程式線性迴歸方程式本讲稿第二十九页,共八十五页14.2 簡單線性迴歸分析簡單線性迴歸分析(續續)簡單線性迴歸分析簡單線性迴歸分析(simple regression analysis):(simp
20、le regression analysis):利用一個變數來預測利用一個變數來預測(或解釋或解釋)另一個變數,找出兩個變數另一個變數,找出兩個變數間的關係模式的方法。間的關係模式的方法。散布圖散布圖(scatter diagram)(scatter diagram)之功能之功能:為確定自變數為確定自變數 X X 與依變數與依變數 Y Y 之間之間,是否適合用簡單線性,是否適合用簡單線性迴歸分析(如果散布圖呈現出線性關係,則迴歸分析(如果散布圖呈現出線性關係,則 X X 與與 Y Y 應是應是適合利用簡單線性迴適合利用簡單線性迴歸分析來瞭解其間的關係)。歸分析來瞭解其間的關係)。本讲稿第三十页
21、,共八十五页自變數與依變數自變數與依變數 迴歸分析適用在研究者可以掌握因果關係,以後採用的相關性分析。迴歸分析適用在研究者可以掌握因果關係,以後採用的相關性分析。自變數即是獨立變數,在因果關係中,它是獨立的,因其並不依賴其自變數即是獨立變數,在因果關係中,它是獨立的,因其並不依賴其他變數。依變數,即是在此因果關係中人們關切的變數。他變數。依變數,即是在此因果關係中人們關切的變數。被假設變數的因與果之間,必須有著某種理論的聯繫,須符合以下五被假設變數的因與果之間,必須有著某種理論的聯繫,須符合以下五條件:條件:1.1.一個變數之變化必須聯繫於另一個變數的變化。一個變數之變化必須聯繫於另一個變數的
22、變化。2.2.原因之變數在時間上必須早於或居先於另一變數。原因之變數在時間上必須早於或居先於另一變數。3.3.因與果之關係必須大致可信。因與果之關係必須大致可信。4.4.所主張之關係必須與其他證據一致。所主張之關係必須與其他證據一致。5.5.所指認的因素必須是最重要的因素。所指認的因素必須是最重要的因素。(資料來源資料來源石之瑜石之瑜迴歸方法作為社會科學方法的省思迴歸方法作為社會科學方法的省思)本讲稿第三十一页,共八十五页練習思考題練習思考題 若要分析豬肉的需求與其價格的關係時,若要分析豬肉的需求與其價格的關係時,1.請問如何利用迴歸分析來分析之?2.承1,若以相關分析來分析,則有何異同?本讲
23、稿第三十二页,共八十五页例例14.5 廣告支出與營業額廣告支出與營業額ABCABC公司的行銷經理想了解公司廣告支出公司的行銷經理想了解公司廣告支出(X X)與營業額與營業額(Y Y)之間的關係於是蒐集了過去之間的關係於是蒐集了過去1010年的廣告支出與營業額的資年的廣告支出與營業額的資料如料如表表14.314.3,試問他,試問他(她她)是否適合利用簡單線性迴歸分析是否適合利用簡單線性迴歸分析來了解廣告支出與營業額的關係來了解廣告支出與營業額的關係?本讲稿第三十三页,共八十五页例例14.5 廣告支出與營業額廣告支出與營業額(續續)表表14.3 1014.3 10年的廣告支出與營業額資料年的廣告支
24、出與營業額資料(單位:萬元單位:萬元)本讲稿第三十四页,共八十五页例例14.5 廣告支出與營業額廣告支出與營業額(續續1)將表將表14.314.3的數據繪製成圖的數據繪製成圖14.314.3,由圖,由圖14.314.3中可看出,廣告中可看出,廣告支出與營業額間似乎存在著線性關係,因此簡單線性迴歸支出與營業額間似乎存在著線性關係,因此簡單線性迴歸分析應是適合用來分析廣告支出與營業額間的關係。分析應是適合用來分析廣告支出與營業額間的關係。圖圖14.3 14.3 廣告支出與營業額的散布圖廣告支出與營業額的散布圖 本讲稿第三十五页,共八十五页14.2.1 簡單線性迴歸模型與假設條件簡單線性迴歸模型與假
25、設條件簡單線性迴歸模型簡單線性迴歸模型(simple regression model)(simple regression model):Y Y=+X X+在在 X X=x xi i的情況下,若的情況下,若y yi i為為X X=x xi i下的觀測值,則下的觀測值,則 其中其中 i i是是X X=x xi i下的誤差項。下的誤差項。本讲稿第三十六页,共八十五页14.2.1 簡單線性迴歸模型與假設條件簡單線性迴歸模型與假設條件(續續)假設條件假設條件1.Y為依變數,是需要被預測(或)解釋的變數。2.X為自變數,是用來預測的變數,沒有誤差。3.、為未知常數。4.N(0,2)。5.Cov(i,j
26、)=0;ij。本讲稿第三十七页,共八十五页14.2.2 線性迴歸方程式線性迴歸方程式 簡單線性迴歸方程式簡單線性迴歸方程式(simple linear regression equation)(simple linear regression equation)或簡或簡單線性迴歸線單線性迴歸線(simple linear regression line)(simple linear regression line)因此在因此在 X X=x xi i的情況下,若的情況下,若y yi i為為X X=x xi i下的觀測值,那麼下的觀測值,那麼 本讲稿第三十八页,共八十五页14.2.2 線性迴歸方程
27、式(續線性迴歸方程式(續)在實務上,在實務上,E(E(Y Y)的意義為當的意義為當X X給定時情況下給定時情況下Y Y的期望值的期望值(平平均數均數)。的意義則為當的意義則為當X X=0=0時,時,E(E(Y Y)的值。的值。的意義則為當的意義則為當X X增加一個單位,增加一個單位,E(E(Y Y)的平均變化量。的平均變化量。另外,由於假設條件中自變數另外,由於假設條件中自變數X X沒有誤差,因此依變數沒有誤差,因此依變數Y Y因為隨機誤項的緣故,也是一個隨機變數。因為隨機誤項的緣故,也是一個隨機變數。而簡單線性迴歸方程式,可以視為通過不同值下之平均而簡單線性迴歸方程式,可以視為通過不同值下之
28、平均數的直線。此可由圖數的直線。此可由圖14.414.4中更清楚看出。中更清楚看出。本讲稿第三十九页,共八十五页14.2.2 線性迴歸方程式線性迴歸方程式(續續1)圖圖14.4 14.4 迴歸方程式與迴歸方程式與Y Y的分配關係的分配關係本讲稿第四十页,共八十五页14.3 簡單線性迴歸方程式的估計簡單線性迴歸方程式的估計最小平方法最小平方法 如果如果a a與與b b,分別代表,分別代表 與與 的估計統計量,的估計統計量,代表代表Y Y的估計值,則的估計值,則估計線性迴歸方程式估計線性迴歸方程式(estimated linear regression equation)(estimated li
29、near regression equation):在在X X=x xi i的情況下,則估計線性迴歸方程式:的情況下,則估計線性迴歸方程式:本讲稿第四十一页,共八十五页14.3 簡單線性迴歸方程式的估計簡單線性迴歸方程式的估計最小平方法最小平方法(續續)最小平方法最小平方法(least square method)(least square method)若若 Q Q 代表所有代表所有 與與 間之差的平方和間之差的平方和,則最小平方法的,則最小平方法的原理便是在原理便是在 Q Q 為最小的情況下,所找出的為最小的情況下,所找出的 a a 與與 b b ,即為,即為 與與 的估計式的估計式。本讲
30、稿第四十二页,共八十五页14.3 簡單線性迴歸方程式的估計簡單線性迴歸方程式的估計最小平方法最小平方法(續續1)微積分的原理 本讲稿第四十三页,共八十五页14.3 簡單線性迴歸方程式的估計簡單線性迴歸方程式的估計最小平方法最小平方法(續續2)迴歸係數的其他計算公式迴歸係數的其他計算公式:其中,其中,為為X X的變異數,的變異數,為為X X與與Y Y的樣本共變異數。的樣本共變異數。本讲稿第四十四页,共八十五页最小平方法的重要性最小平方法的重要性統計學史家思泰格拉(Stigler)“最小平方法是十九世紀統計學的主題曲。從許多方面來看,它之於統計學就相當於十八世紀的微積分之於數學。”本讲稿第四十五页
31、,共八十五页例例14.6 續例續例14.5 試由表試由表14.314.3的資料計算出廣告支出與營業額間的估計的資料計算出廣告支出與營業額間的估計線性迴歸方程式。線性迴歸方程式。由表由表14.314.3我們整理得我們整理得表表14.414.4以方便計算以方便計算a a與與b b。本讲稿第四十六页,共八十五页例例14.6 續例續例14.5(續續)表表14.4 ABC14.4 ABC公司的估計線性迴歸方程式之計算公司的估計線性迴歸方程式之計算本讲稿第四十七页,共八十五页14.4 迴歸方程式的適合度迴歸方程式的適合度 究竟估計迴歸方程式配適的好不好?它又可以用來解釋多少究竟估計迴歸方程式配適的好不好?
32、它又可以用來解釋多少比例的呢?要回答這些問題,就得考慮迴歸方程式的適合度比例的呢?要回答這些問題,就得考慮迴歸方程式的適合度(goodness of fit)(goodness of fit)。在簡單線性迴歸分析中,我們用判定係數在簡單線性迴歸分析中,我們用判定係數(coefficient of(coefficient of determination)determination)值的大小來決定迴歸方程式的適合度,然值的大小來決定迴歸方程式的適合度,然而在介紹判定係數之前,我們必須先找出測量依變數而在介紹判定係數之前,我們必須先找出測量依變數Y Y變異的成份出來。變異的成份出來。本讲稿第四十八
33、页,共八十五页14.4 迴歸方程式的適合度迴歸方程式的適合度(續續)迴歸模型之變異分解迴歸模型之變異分解 本讲稿第四十九页,共八十五页14.4 迴歸方程式的適合度迴歸方程式的適合度(續續1)變異的分解變異的分解:本讲稿第五十页,共八十五页14.4 迴歸方程式的適合度迴歸方程式的適合度(續續2)變異的計算公式變異的計算公式:本讲稿第五十一页,共八十五页14.4 迴歸方程式的適合度迴歸方程式的適合度(續續3)判定係數判定係數(coefficient of determination(coefficient of determination;R2R2)1.R2 之值介於0與1之間。2.R2 愈高,代
34、表估計線性迴歸方程式的配適度愈好。3.若將判定係數以百分比表示時,則R2 可視為總變異可用估計迴歸方程式解釋的程度,也就是Y可以被X解釋的程度。本讲稿第五十二页,共八十五页14.4 迴歸方程式的適合度(續迴歸方程式的適合度(續4)判定係數的計算公式判定係數的計算公式:本讲稿第五十三页,共八十五页14.4 迴歸方程式的適合度(續迴歸方程式的適合度(續5)上述之判定係數,並沒有考慮到上述之判定係數,並沒有考慮到SSTSST與與SSESSE的自由度,如的自由度,如果再將這個觀念加入,那麼我們就定義另一個新的判定係數,果再將這個觀念加入,那麼我們就定義另一個新的判定係數,稱之為調整判定係數稱之為調整判
35、定係數(adjusted coefficient of(adjusted coefficient of determination)determination),一般以,一般以 表示之,而表示之,而 一般而言一般而言 會比會比R R2 2小,在不同判定係數值的比較時,由於小,在不同判定係數值的比較時,由於多考慮了自由度,因此以來作比較會客觀些。多考慮了自由度,因此以來作比較會客觀些。本讲稿第五十四页,共八十五页例例14.7 續例續例14.6 如何求例如何求例14.614.6之估計迴歸方程式的判定係數,可由表之估計迴歸方程式的判定係數,可由表14.414.4算出算出 本讲稿第五十五页,共八十五页
36、例例14.7 續例續例14.6(續續)判定係數為判定係數為 以以ABCABC公司的例子而言,我們可說公司的例子而言,我們可說85.07%85.07%的總變異可由的總變異可由估計的迴歸方程式解釋,或是營業額可以被廣告支出估計的迴歸方程式解釋,或是營業額可以被廣告支出解釋的部份是解釋的部份是85.07%85.07%。調整判定係數為調整判定係數為本讲稿第五十六页,共八十五页14.5 迴歸方程式的檢定迴歸方程式的檢定14.5.1 14.5.1 與與 的顯著性檢定的顯著性檢定 14.5.2 14.5.2 迴歸方程式的迴歸方程式的F F檢定檢定本讲稿第五十七页,共八十五页14.5 迴歸方程式的檢定迴歸方程
37、式的檢定(續續)由於由於 與與 的估計式的估計式a a與與b b都是依變數都是依變數Y Y的函數,而的函數,而Y Y的變的變異數亦是隨機誤差項異數亦是隨機誤差項 的變異數的變異數 2 2 ,因此就需求出,因此就需求出 2 2的估的估計式。計式。估計隨機誤差項估計隨機誤差項 的變異數的變異數 2 2:SSE SSE的均方誤差的均方誤差(mean square error)MSE(mean square error)MSE可以經數學證明可以經數學證明作為作為 2 2的不偏估計式,故的不偏估計式,故 ,其中,其中 本讲稿第五十八页,共八十五页14.5.1 與與 的顯著性檢定的顯著性檢定 因為因為Y
38、Y為一常態分配,所以為一常態分配,所以a a與與b b的抽樣分配亦為常態分配,的抽樣分配亦為常態分配,其中其中 本讲稿第五十九页,共八十五页14.5.1 與與 的顯著性檢定的顯著性檢定(續續)有關有關 的檢定的檢定 1.1.假設假設:H H0 0:=0 vs.=0 vs.H H1 1:0 02.2.檢定統計量:檢定統計量:3.3.決策法則:決策法則:或或 時,拒絕時,拒絕H H0 0。註註:1.1.當樣本數大於等於當樣本數大於等於3030時時,則可使用,則可使用z z檢定,其檢定統檢定,其檢定統計量不變。計量不變。2.2.當然亦可針對當然亦可針對 作單尾檢定。作單尾檢定。本讲稿第六十页,共八十
39、五页14.5.1 與與 的顯著性檢定的顯著性檢定(續續1)的(1)%信賴區間:本讲稿第六十一页,共八十五页例例14.8 續例續例14.7 試在顯著水準為試在顯著水準為0.050.05的情況下,檢定廣告支出是否對營業的情況下,檢定廣告支出是否對營業額有影響。額有影響。1.虛無與對立假設為:H0:=0 vs.H1:0 2.檢定統計量之值:其中本讲稿第六十二页,共八十五页例例14.8 續例續例14.7(續續)3.因為 ,所以拒絕 H0,亦即資料顯示廣告支出對營業額有影響。4.在ABC公司的例子而言,的95%區間估計如下:本讲稿第六十三页,共八十五页14.5.1 與與 的顯著性檢定的顯著性檢定(續續2
40、)有關有關 的檢定的檢定1.1.假設假設:H H0 0:=0 vs.=0 vs.H H1 1:0 02.2.檢定統計量:檢定統計量:3.3.決策法則:決策法則:或或 時,拒絕時,拒絕H H0 0。註註:當樣本數大於當樣本數大於等於等於3030時時,則可使用,則可使用z z檢定,其檢定統計量不變。檢定,其檢定統計量不變。本讲稿第六十四页,共八十五页14.5.1 與與 的顯著性檢定的顯著性檢定(續續3)的的(1(1)%)%的信賴區間的信賴區間 本讲稿第六十五页,共八十五页14.5.2 迴歸方程式的迴歸方程式的 F 檢定檢定有關迴歸方程式解釋能力檢定有關迴歸方程式解釋能力檢定1.虛無與對立假設 H
41、H0 0:迴歸方程式不具解釋能力:迴歸方程式不具解釋能力(=0)=0)H H1 1:迴歸方程式具解釋能力:迴歸方程式具解釋能力(0)0)2.檢定統計量:2.決策法則:,時拒絕H0。本讲稿第六十六页,共八十五页14.5.2 迴歸方程式的迴歸方程式的 F 檢定(續)檢定(續)表表14.5 14.5 變異數分析表變異數分析表本讲稿第六十七页,共八十五页例例14.9 續例續例14.6 試用試用F F檢定來決定廣告支出是否對營業額有影響,可由例檢定來決定廣告支出是否對營業額有影響,可由例14.614.6的估的估計迴歸方程式,我們整理得到表計迴歸方程式,我們整理得到表14.6 14.6 表表14.6 AB
42、C14.6 ABC公司變異數分析表公司變異數分析表 因此拒絕因此拒絕H H0 0,亦即資料顯示線性迴歸方程式具解釋能力。,亦即資料顯示線性迴歸方程式具解釋能力。本讲稿第六十八页,共八十五页14.6 利用估計線性迴歸方程式進行預測利用估計線性迴歸方程式進行預測在求得估計迴歸方程式後,如果它的配適度很高,亦在求得估計迴歸方程式後,如果它的配適度很高,亦即判定係數即判定係數R R2 2很高,那麼我們就可以利用它來估計在很高,那麼我們就可以利用它來估計在某一特定值下,依變數的值為何某一特定值下,依變數的值為何?在在 下,對依變數的估計可分為兩種,第一種是估下,對依變數的估計可分為兩種,第一種是估計全部
43、可能值的平均數,以計全部可能值的平均數,以 表之,另一種則是估計個表之,另一種則是估計個別的值,以別的值,以 表之。表之。本讲稿第六十九页,共八十五页14.6 利用估計線性迴歸方程式利用估計線性迴歸方程式進行預測進行預測(續續)X X=x x0 0下估計下估計1.1.點估計值點估計值 ,2.2.的的(1-(1-)%)%區間估計區間估計註:當大樣本時,註:當大樣本時,t tn-2,n-2,/2/2以以z z/2/2代之。代之。本讲稿第七十页,共八十五页例例14.10 續例續例14.6 若該行銷經理想預測當廣告支出為若該行銷經理想預測當廣告支出為2525仟元時,營業額的仟元時,營業額的平均值為何?
44、又其平均值為何?又其95%95%的信賴區間為何?的信賴區間為何?估計迴歸方程式為估計迴歸方程式為在廣告支出為在廣告支出為2525仟元時,平均營業額的預測為仟元時,平均營業額的預測為99.0799.07仟元。仟元。本讲稿第七十一页,共八十五页例例14.10 續例續例14.6(續續)平均營業額的平均營業額的95%95%區間估計為區間估計為 亦即,在廣告支出為亦即,在廣告支出為2525仟元,仟元,95%95%的信賴區間水準下,平的信賴區間水準下,平均營業額的信賴區間為均營業額的信賴區間為96.9796.97仟元到仟元到101.17101.17仟元之間。仟元之間。本讲稿第七十二页,共八十五页14.6
45、利用估計線性迴歸方程式利用估計線性迴歸方程式 進行預測進行預測(續續1)X X=x x0 0下估計下估計 其中其中 本讲稿第七十三页,共八十五页14.6利用估計線性迴歸方程式利用估計線性迴歸方程式 進行預測(續進行預測(續2)的的(1-(1-)%)%區間估計區間估計 註:當大樣本時,註:當大樣本時,t tn-2n-2,/2/2以以z z/2/2代之。代之。本讲稿第七十四页,共八十五页例例14.11 續例續例14.6 廣告支出為廣告支出為2525仟元時的營業額預測值為何?又仟元時的營業額預測值為何?又95%95%的信賴的信賴區間為何?區間為何?當廣告支出為當廣告支出為2525仟元時的營業額預測值
46、為仟元時的營業額預測值為99.0799.07千元。千元。本讲稿第七十五页,共八十五页例例14.11 續例續例14.6(續續)95%95%信賴區間為信賴區間為 在廣告支出為在廣告支出為2525仟元,仟元,95%95%的信賴水準下,營業額的信賴的信賴水準下,營業額的信賴區間為區間為92.1992.19仟元到仟元到105.95105.95仟元之間。仟元之間。本讲稿第七十六页,共八十五页14.6 利用估計線性迴歸方程式進行預測(續利用估計線性迴歸方程式進行預測(續 3)與與 比較比較1.的信賴區間較 窄。2.當 愈靠近 ,則 與 愈小,因此信賴區間就愈窄。3.愈大,信賴區間亦愈寬。4.自變數 X 的變
47、異愈大,則 與 愈小,因此信賴區間就愈窄。本讲稿第七十七页,共八十五页14.7 殘差分析殘差分析簡單線性迴歸模型的假設條件 1.隨機誤差項 之分配為常態分配。2.隨機誤差項 之變異數均等。3.隨機誤差項 彼此獨立。4.迴歸模型為線性模型。本讲稿第七十八页,共八十五页14.7 殘差分析殘差分析(續續)一般而言,殘差分析包括對迴歸模型進行下列三個性質的檢一般而言,殘差分析包括對迴歸模型進行下列三個性質的檢查:查:1.1.常態性常態性:觀察殘差項是否遵循常態分配,而非有某特定機率分配可依循。觀察殘差項是否遵循常態分配,而非有某特定機率分配可依循。2.2.齊質性齊質性:齊質性若成立,則殘差變異數並不會
48、隨著齊質性若成立,則殘差變異數並不會隨著x x的改變而改變,故殘差的改變而改變,故殘差圖呈帶狀分佈時,符合齊質性。圖呈帶狀分佈時,符合齊質性。3.3.獨立性獨立性:獨立性若成立,則接連兩個樣本之殘差值不應存在正相關或負相關,獨立性若成立,則接連兩個樣本之殘差值不應存在正相關或負相關,四個變數不存在任何正相關或負相關關係,彼此間屬於橫斷面的資料,四個變數不存在任何正相關或負相關關係,彼此間屬於橫斷面的資料,所以符合獨立性。所以符合獨立性。本讲稿第七十九页,共八十五页14.7 殘差分析(續殘差分析(續1)殘差分析殘差分析(residual analysis)(residual analysis)由
49、殘差與自變數由殘差與自變數 X X 的散布圖的散布圖、殘差與依變數、殘差與依變數 Y Y 的散布圖、的散布圖、殘差的常態機率圖,來檢查上述條件是否滿足的方法。殘差的常態機率圖,來檢查上述條件是否滿足的方法。殘差殘差(residual)(residual):為實際依變數觀測值與估計迴歸方程式所算出的估計值的為實際依變數觀測值與估計迴歸方程式所算出的估計值的差,一般以差,一般以e e表之,而第表之,而第i i個殘差則記為個殘差則記為e ei i,亦即,亦即 本讲稿第八十页,共八十五页14.7 殘差分析殘差分析(續續2)殘差對自變數殘差對自變數X X的散佈圖的散佈圖圖圖14.6 14.6 三種不同殘
50、差與自變數三種不同殘差與自變數X X的散布圖的散布圖 本讲稿第八十一页,共八十五页14.7 殘差分析殘差分析(續續3)圖圖14.6 14.6 三種不同殘差與自變數三種不同殘差與自變數X X的散布圖的散布圖(續續)本讲稿第八十二页,共八十五页14.7 殘差分析(續殘差分析(續4)將將ABCABC公司的殘差與公司的殘差與X X的散佈圖繪於圖的散佈圖繪於圖14.714.7圖圖14.7 ABC14.7 ABC公司的殘差與公司的殘差與X X的散佈圖的散佈圖本讲稿第八十三页,共八十五页14.7 殘差分析殘差分析(續續5)由圖由圖14.714.7中,我們可看出,它似乎並未提供足以質疑假設條中,我們可看出,它