《网站用户行为模型分析研究(论文).pdf》由会员分享,可在线阅读,更多相关《网站用户行为模型分析研究(论文).pdf(60页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 i論文名稱:網站用戶行為模型分析之研究 總頁數:60 校(院)所組別:私立中國文化大學資訊管理研究所 畢業時間及提要別:九十三第一學期碩士學位論文提要 研究生:陳啟仁 指導教授:蔡敦仁 論文提要內容:近年來由於網際網路的快速發展及上網人口的迅速增加,使得電子商務的應用與競爭更加激烈,因此一對一行銷與網站個人化推薦系統的觀念也開始風行。為了達到上述的目的,網站推薦系統必須要先記錄使用者瀏覽的點選歷史,然後透過資料挖掘的技術,找出使用者過去潛在的瀏覽模式,以提供網站個人化推薦及一對一行銷的依據。本研究將運用適合分析關聯性問題的關聯法則,找出使用者點選項目間的關聯性;另結合使用者存取時間、目標網頁
2、、偏好度(Pref.)及停留時間等資料作為推薦系統參考因素。透過相關數據的輔助分析及比較瀏覽序列長度的方法,最後驗證個人化推薦服務效能,網站管理者可以輕易做到推薦使用者最佳瀏覽網頁。一般資料挖掘大致可區分為兩種模式一為假設檢定(Hypothesis Testing),另 一 為 知 識 發 掘(Knowledge Discovery),本研究中採用假設驗證的實驗方法,並模擬一電腦教學網站建構雛形系統,以作為本研究實做驗證的機制。iiThe Research of analyzing model of the way in which the website users behavior Stu
3、dent:Chi-Jen Chen Advisor:Prof.Dwen-Ren Tsai Chinese Culture University ABSTRACT Due to the increasing development in the internet and the web users rises rapidly.The application and competition of E-business are more intense.And the one-on-one marketing and personal websites idea follow.In order to
4、 achieve this goal,the system has to record the log of users browsing path,so called the way in which the web users behaviors.We can find the past potential user by the technology of data mining in order to provide the basis of adaptive website and one-on-one marketing.And the research will be appli
5、ed to the association rule which are suitable for analyzing associated problem,finding the association of the page that users choose.By the support of the association rule the website could easily adjust the structure of web pages to the best browsing structure of the users,and being regarding as th
6、e basis of supporting suitable services.Generally speaking data mining includes two parts“Hypothesis Testing”and“Knowledge discovery”.We use the method of hypothesis testing.Finally we build a simply e-learning website to proof that the hypothesis is working.iii誌謝辭 首先,在這三年的學習和工作中,特別感謝我的指導教授蔡敦仁所長給我的指
7、導和幫助,他不僅教會了我許多知識,他還讓我掌握了做理論研究的方法。同時他嚴謹的治學態度、正直的品格和孜孜不倦的工作作風也給了我很大影響,使我受益匪淺,在此表示深深的敬意和感謝!其次感謝資管所的其他老師和所有同學,在研究生三年的學習和生活中他們給了我無私的幫助。最後感謝我的朋友和家人對我的支持,是他們使我擁有良好的心態來完成我的研究工作。啟仁 謹誌於 中國文化大學資訊管理研究所 中華民國九十三年十二月 iv內 容 目 錄 中文摘要 i 英文摘要 ii 誌謝辭iii 內容目錄 iv 表目錄 v 圖目錄 vi 第一章 緒論 1 第一節 研究背景 1 第二節 研究動機 3 第三節 研究目的 4 第四節
8、 研究範圍及限制 6 第五節 論文架構 7 第二章 文獻探討 8 第一節 電子商務概況 8 第二節 網站個人化探討 12 第三節 網站使用者模式及應用 14 第四節 網路瀏覽行為分析模式 15 第三章 研究方法 24 第一節 問題定義 25 第二節 資料過濾 25 第三節 使用者偏好分析 28 第四節 網頁關聯性分析 30 第五節 網頁推薦 32 v第六節 結果驗證 32 第四章 實驗設計與結果分析 33 第一節 系統架構 33 第二節 實驗環境 33 第三節 模擬網站 34 第四節 實驗資料與實驗結果 38 第五節 分析與討論 45 第五章 結論與未來研究方向 48 第一節 結論 48 第二
9、節 未來研究方向 49 參考文獻 50 vi表 目 錄 表 2-1 關聯法則演算法比較21 表 3-1 前置處理後之使用者瀏覽記錄25 表 3-2 時間限制(七月份之瀏覽記錄)27 表 3-3 使用者限制(網頁存取次數高於 8 之使用者)27 表 3-4 興趣度限制(停留時間高於 15 秒)27 表 3-5 單一使用者之瀏覽記錄28 表 3-6 個別使用者之偏好值29 表 3-7 使用者偏好之目標網頁30 表 3-8 使用者之目標網頁集合31 表 3-9 刪除重覆網頁之使用者目標網頁集合31 表 4-1 實驗環境34 表 4-2 網頁編號對照表38 表 4-3 使用者偏好之目標網頁39 表 4
10、-4 實驗結果之高頻項目集(min_sup=14)40 表 4-5 修剪後之高頻項目集(min_sup=14)41 表 4-6 網頁之推薦結果42 表 4-7 網頁推薦前後之瀏覽序列比較表44 vii圖 目 錄 圖 1-1 我國企業數位學習市場趨勢3 圖 1-2 我國 e-Learning 市場發展概況4 圖 1-3 網站伺服器紀錄5 圖 2-1 電子商務模型圖8 圖 2-2 網站挖掘分類10 圖 2-3 簡單的網站架構範例23 圖 3-1 研究流程圖24 圖 4-1 實驗步驟示意圖33 圖 4-2 模擬網站架構圖35 圖 4-3 實驗網站首頁36 圖 4-4 實驗網站電腦知識學習網站37 圖
11、 4-5 Apriori 演算法程式 40 圖 4-6 網頁推薦43 圖 4-7 推薦前後瀏覽長度比較圖45 1第一章 緒論 第一節 研究背景 網際網路最早的起源是在 1960 年代末期,美國國防部為了軍事用途發展出的通訊系統 ARPANet。其目的是建立分散式的、存活力強的全國性電腦資訊網路。ARPAnet 基於分封交換的概念,在網路建設和應用發展的過程中,逐步産生了 TCPIP 這一廣泛應用的網路標準。以 ARPAnet 作爲主幹網的 Internet 産生於 1983年,隨著 TCPIP 協定被人們廣泛接受和 UNIX 作業系統的發展,越來越多的電腦連接到 Internet 上。目前,I
12、nternet 已經成爲全世界最大的電腦網路。網際網路的普遍應用改變了既有的商業模式,不僅改變了世界的面貌,也對國家與國家、企業與企業甚至個人與個人間之商業競爭、社會文化、教育學術等各個層面造成了本質化之改變。在聯合國貿易與發展會議之電子商務與發展之二一年報告中,聯合國秘書長安南(Kofi A.Annan)即指出,過去十年來電子商務的出現與發展已改變世界之經濟面貌。已開發國家普遍運用資訊通信科技,大幅地提升國家的競爭力;同樣地,對開發中國家而言,資訊通信科技的普遍應用所產生之電子化革命對經濟之成長與發展提供了前所未有的機會;相對地,在相關技術發明與應用上落後的特定國家,將永遠無法趕上先進國家使
13、用資訊通訊科技所產生之競爭優勢。雖然近年來世界各地網路公司的泡沫化瓦解,造成許多人對電子商務的實際可行性存疑。但網路公司的電子商務經營模式或 2許有更進一步研究改進之必要,然而資訊通信科技的普遍應用卻早已對全球的商業結構造成革命性之影響。資訊通信科技不僅有助於產業生產力之提升,亦對生產者、消費者、競爭者與供應者間之關係與互動模式造成影響。資訊通信科技之普遍應用將持續對全球商業經濟造成正面影響,提升產業整體生產力。而由於電腦運算能力成本之下降,以及企業間不斷針對電子商務之特性研究調整其組織架構以因應網際網路所帶來的商機,都將使得全球生產力之提升度維持不墜。在台灣地區據統計網際網路使用人口,於 1
14、996 年 8 月在政府NII 資訊通信基本建設計畫方案全力推廣下,爆發驚人的成長潛力。根據資策會電子商務推廣中心 FIND 資料顯示,1996 年 6 月,台灣上網人口僅有 44 萬左右;到了 1998 年底,即突破 3 百萬使用人口大關,提前九個月達成 NII 三百萬人上網目標;在上網人口達成 300 萬人的階段目標後,我國網路用戶數仍呈現快速成長之態,繼而在 1999 年 6 月,再次以 4 百萬亮眼新頁揭開台灣網路發展新序幕,直到 2001 年 12 月底,每半年都有 60 萬以上的成長量,是我國上網人口快速成長階段。而 2002 年開始我國上網人口邁向另一個階段,成長逐漸趨緩,另一方
15、面顯示我國網際網路市場已日趨成熟。另外連網主機總數更高達 354 萬部,由此可見Internet 越來越成爲人們科技研究工作甚至是日常生活中重要的一部分。在眾多的網路應用當中,數位學習是近年來頗受關注的一項,各式各樣的遠距教學系統、網路大學、網路補習班等皆應運而生。隨著網路科技的進步以及各種新興媒體的興起,現在的學習者可以透過網路,隨時上線進修。不管是課前預習、課堂中討 3論、課後複習,亦或是不斷地重看重聽,都能不受時空的限制,這是傳統的教育模式所無法達到的境界。第二節 研究動機 根據資策會電子商務研究所的研究報告指出,我國企業數位學習市場從 2001 年至 2004 年將會成長八倍之多,達到
16、 30 億元以上規模。如圖 1-1 所示。圖 1-1、我國企業數位學習市場趨勢 資料來源:資策會(http:/www.find.org.tw)2004 年 6 月 而我國 e-Learning 市場的發展則是在 2003 年成長到了 13 億多的規模。如圖 1-2 所示。4 圖 1-2、我國 e-Learning 市場發展概況 資料來源:資策會(http:/www.find.org.tw)2003 年 6 月 此外,2002 年六月國科會第 157 次委員會正式通過數位學習國家型科技計畫總體規劃書,並獲行政院核定後於 2003 年 1月起正式實施。其中數位學習國家型科技計畫分為三大主軸:提昇國
17、家知識競爭力、帶動數位學習相關產業發展以及推動新一波學術研究等。因此資策會分析指出,全球數位學習產業趨勢中,數位學習產業預估 2006 年產值新台幣 500 億元。而資策會電子商務推廣中心 FIND 的資料中還提到,在國外方面,Cisco 針對全球線上學習市場規模所進行的調查中指出,到西元 2005 年時,全球將有 85%的教學活動在網路上進行,其中更有 70%的受訪者認為網路教學效果將優於傳統教學活動。第三節 研究目的 5廣泛的應用網際網路技術導致從網路上獲取的資料量日益增加,因此網站資料挖掘(Data mining)的技術應運而生,它可從大量的訊息中快速且即時找尋有用的知識,提高資訊的利用
18、率。學者Zaiane(1998)及 Han(2000)指出網站記錄挖掘(Web log mining)技術是從伺服器中的記錄文件內大量的用戶訪問(Session)資料中抽取有用資料的過程,透過對網站記錄檔的分析,可模擬出用戶的行為模式,進一步可對於分析網站效能、網站設計及結構最佳化產生相當大的幫助。網站建置的過程中為了提供更好的網路服務,通常仰賴網站伺服器的運作情況及網站內容的訪問狀況作為指標,而這些要求 將可透過網站伺服器內記錄檔(Log file)的統計及分析來達到,而一個受歡迎的網站也可由網站記錄檔大小觀察出來。網站伺服器記錄檔記錄了用戶訪問網站的資訊,典型的網站伺服器記錄檔包括以下訊息
19、:IP 位置、請求時間、方法(如 GET)、被請求文件的 URL、HTTP 版本、返回碼、傳輸字數及代理(AGENT)如圖 1-3。圖 1-3、網站伺服器紀錄#Software:Microsoft Internet Information Services 5.0#Version:1.0#Date:2003-08-01 00:00:00#Fields:date time c-ip cs-username s-ip s-port cs-method cs-uri-stem cs-uri-query sc-status time-taken cs(User-Agent)2003-08-01 00:
20、00:00 10.45.34.5-10.24.158.230 80 POST/discuss/Chat.asp-302 0 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1)2003-08-01 00:00:00 10.45.34.5-10.24.158.230 80 GET/discuss/F.gif-304 0 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1)6但由於網站中記錄檔的資料量龐大,對於每一個網站管理者而言,想及時了解網站用戶合理鏈結結構也相對的困難。本研究運用網站資料挖掘技術於
21、網站紀錄檔(Web log),運用關聯法則尋找使用者最佳瀏覽路徑,並調整網頁結構,再以網頁的訪問率作為驗證依據。因為訪問過程中包含了用戶的 URL 及所瀏覽的鏈路資訊,因此只要能夠對訪問過程進行關聯法則運算,就可以方便獲取不同用戶對網站感興趣部分,並藉由網站資料挖掘技術於網站紀錄檔,以挖掘出使用者存取網頁樣式的部份,作為調整網站結構布局的依據;另外再結合用戶瀏覽序列長度驗證網站顧客鏈結路徑是否有效縮減,達到個人化推薦網站之目標,最後透過模擬網站實驗方式映證此方法的有效性。第四節 研究範圍及限制 本研究範圍以非營利組織網站為例,並在其網路內建置教學網站,作為內部員工教育及訓練平台運用,資料來源為
22、該網站內伺服器紀錄檔(Web log)資料,並擷取九十三年七月一日至七月三十一日止,共計 1275 筆資料,參與實驗對象為非具備電腦基礎知識人員為主,參考相關資料進行關聯規則及使用者偏好分析,做為網站內個人化教學網頁推薦依據;另因網站資料挖掘方向繁多,僅就相關演算法範例說明比較並增強特性,以提高個人化推薦系統之正確性。本研究限制說明如下 一、目前網路上有許多的瀏覽者都廣泛地使用我的最愛及搜尋引擎來增進網頁瀏覽之效率。在這種情況下,網路伺服器將無法正確地記錄下所有使用者的瀏覽記錄,以致於有所遺漏,因此 7網站內暫不納入上述功能,以便實驗能精確紀錄使用者瀏覽路徑。二、很多時候網頁的內容是經由動態網
23、頁程式如 ASP、PHP與 JSP 等所產生的,而非傳統由靜態的 HTML 所呈現。因此不同的使用者在同一個網頁上所見到的內容並不都一樣,這種情形同樣會造成資料蒐集的限制,因此研究中以靜態網頁呈現,以便系統執行追蹤。三、某些特定類型的網站內網頁內容的快速變動,如新聞網或電子報等,其內容變動與更新的頻率通常都非常地高,而網站內容一經變動,其伺服器中之使用者瀏覽記錄便不具連貫性與參考性。所以快速變動型的網站內容並不適合作為本研究資料挖掘之用。第五節 論文架構 本研究內容是基於網站資料挖掘技術及其在網站推薦上的應用,第一章介紹研究背景及其動機,其中介紹網站挖掘相關技術及應用領域。第二章就電子商務發展
24、概況及其應用實體架構說明;另就其核心技術如關聯規則及瀏覽模式作一分析比較。第三章介紹本研究研究流程並提出基於偏好度及關聯網頁的網站推薦評價方法;第四章就提出評價方法進行實驗分析,第五章結論中驗證本研究之方法可推廣應用於教學型網站。8第二章 文獻探討 第一節 電子商務概況 電子商務依經濟部商業司於 2000 年所定義為任何經由電子化形式所進行的商業交易活動;而政府、企業及個人在其中扮演重要的角色。由於不同經營型態具有不同之互動模式,服務提供者對不同之商業型態,規劃多樣的功能,除依據營運目標所需之系統架構,另必須對使用者行為加以考量,已達成整體營運目標(如圖 2.1)。資料來源:Menasce,D
25、.A.,&Almeida,V.A.F.(2000).Scaling for E-Business Technologies,Model,Performance,and Capacity Planning.Prentice-Hall.營運模型資源模型顧客模型功能模型營運特性及參數顧客行為模式服務架構及功能系統架構及服務需求營運觀點技術觀點外部測量內部測量電子商務模型圖圖 2、1 9網際網路發展快速且具便利性,越來越多政府機構、企業及個人在網際網路上發布訊息或尋找相關資訊,雖然網際網路上聚集了大量的數據,但由於網站是半結構或動態的,導致上網尋找資料有如大海撈針一般,因此各入口網站均積極研發搜尋引擎
26、,以提高關鍵字搜尋的命中率,但是仍無法針對特定用戶給予特殊的服務,因為每一個人感興趣的事物是不同的。Raymond Kosala 及 Hendrik Blockeel(2000)指出現今網站存在的問題有下列四項:1.由於網站搜尋工具缺乏精準,因此尋找相關資訊困難。2.如何於網站中創造新的知識。3.如何產生個人化資訊。4.從顧客及使用者中了解網站設計的架構。因此對網站進行有效資源使用及知識發現是相當具有挑戰性。尤其針對資料庫作資料挖掘,以目前網站之數據資料已達兆位元計算(Terabytes),將造成網站存取資料上的困難。網站頁面的複雜性遠比傳統任何文字檔來得多。且頁面缺乏統一的結構,它包含遠比書
27、籍或其他檔案多了許多內容及風格。網站可視作一個巨大的圖書館,若圖書館中大量的資料沒有根據任何有關排列順序加以組織、分類索引、或標題及作者,對使用者而言要得到需求的資訊是非常困難的。網站是一個動態性極強的資訊來源,網站不僅以極快的速度成長,且其中資訊亦不斷的更新,如新聞、股票市場、公司廣告都不斷的更新各自的頁面,連帶帶動鏈結資訊和訪問紀錄的頻繁更新。網站每天所面對的是一個廣泛且形形色色的用戶群體,各用戶有不同的背景、興趣及使用目的,而大多數的用戶並不了解網 10路結構或搜尋的模式,因此常容易在網路的世界中迷失方向,也容易在搜尋的過程中因等待時間過長而失去耐心;另網站中所提供之內容並非對每一個使用
28、者都是有用的,因此會影響用戶在網站中搜尋的結果。以上所述相關網站中所延伸之種種問題,正推動著網站資源運用之相關研究工作,而其中由資料挖掘(Data mining)所延伸的網站挖掘(Web mining)為最具挑戰的議題,它實現對網頁存取模式、網站結構及內容尋找的關鍵方法,同時亦加速網站使用的便利性。網站挖掘一般可定義為:從網際網路中的相關資源及使用行為中萃取有興趣的或有用的模式和隱藏的訊息,Cooley 等人(Cooley,Mobasher&Srivastava,1997)對於一般網際網路資料挖掘可區分為三類:網站內容挖掘(Web content mining)、網站結構挖掘(Web stru
29、cture mining)及網站使用紀錄挖掘(Web usage mining)等(如圖 2-2)。11 圖 2-2、網站挖掘分類 資料來源:Cooley,R.,Mobasher,B.,&Srivastava,J.(1997).Web Mining:Information and Pattern Discovery on the World Wide Web.Proceedings of the 9th International Conference on Tools with Artificial Intelligence(ICTAI 97)(pp.0558-0568),Newport B
30、each,CA.一、網站內容挖掘(Web content mining)網站內容挖掘是從文字檔內容或其描述中萃取知識的過程。基於概念索引的資源發現及基於代理(Agent)的技術均屬此類,其中運用的方式有兩種:直接挖掘文字檔的內容或在其他搜尋工具的基礎上進行改進。採用第一種方式是針對網站的查詢語言,利用自發式規則來尋找個人網頁資料;採用第二種方式是對搜尋引擎的搜尋結果進行進一步處理,以得到更為精確和有用的資訊,屬於此類的有 WEBSQL 及對搜尋引擎的返回結果進行聚類的技術等處理。二、網站結構挖掘(Web structure mining)網頁內容挖掘WEB PAGE CONTENT MININ
31、G搜尋結果挖掘SEARCH RESULT MINING網路內容挖掘WEB CONTENT MINING網路架構挖掘WEB STRUCTURE MINING一般存取模式追蹤GENERAL ACCESS PATTERN TRACKING客戶使用模式追蹤CUSTOMIZED USAGE TRACKING網路使用紀錄挖掘WEB USAGE MINING網路挖掘WEB MINING 12網站結構是從網際網路的組織結構和鏈結關係中推導知識,由於文字檔之間的互連,網際網路能夠提供內容之外的重要訊息。利用這些訊息可以對頁面進行排序並發現重要頁面,此外在多層次網站資料庫(Multi Layer Data Bas
32、e,MLDB)中也利用頁面的鏈結結構。三、網站使用紀錄挖掘(Web usage mining)Srivastave(2000)指出:Web 使用紀錄挖掘的目的主要是從網站的訪問紀錄萃取感興趣的模式。網際網路中的每一個伺服器都保留使用者的存取紀錄(Web access log),紀錄關於訪問及瀏覽的相關資訊,藉由分析這些數據可以幫助了解用戶行為,進而改進網站的結構,或為用戶提供適性化及個人化的服務。這方面的研究主要有兩個方向:一般的訪問模式追蹤和適性化的使用紀錄追蹤。一般的訪問模式追蹤透過追蹤及分析紀錄,可以了解用戶的訪問模式及傾向,以改造網站的組織結構,進而達到適性化的目的;而個人化的使用用戶
33、紀錄追蹤則傾向於分析單一用戶的偏好,其目的是根據不同的用戶訪問模式,為每個用戶提供訂製的網站服務。第二節 網站個人化探討 學者 Eirinaki 及 Vazirgiannis(2003)對網站個人化的定義為:網站個人化是根據用戶的瀏覽行為制訂網站的內容與結構,使其適合不同用戶特定需要的過程。由上述的定義中可知個人化的過程只使用了用戶的動態行為特徵,但並未使用用戶的靜態資訊,例如年齡、性別、偏好等。實際在實現個人化的時候如果用戶的靜態特徵和動態行為特徵綜 13合考慮可能會有更好的效果。但用戶一般都很注意個人資訊的保密性(Volokh,2000),網站()的調查顯示,80%的用戶願意向網站提供自己
34、的姓名、性別、年齡、教育背景和興趣,但大多數用戶不願意提供私人較敏感性的資料,例如個人身分資料和信用卡號等,另外該公司另一項調查顯示,僅 28%的用戶願意網站向其他網站共用自己的相關資訊。為了實現個人化服務,首先需要追蹤和學習用戶的興趣和行為,並設計一種合適的表達方式。為了把相關資源推薦給用戶,必須重新組織好資源,選取資源的特徵,並採用合適的推薦方式。一般而言,用戶進入網站使用個人化服務系統的時候,系統大都要求用戶先註冊自己的基本資訊和感興趣的內容,系統也可以隱藏式地收集用戶資訊。在製訂好一個用戶描述檔(User Profile)之後,系統可以讓用戶自行修改,也可以由系統適性化地修改,這樣,系
35、統就可以隨用戶興趣的變化而變化。系統要適性化修改用戶資料,必須根據學習的資料來源以分析目前用戶的行為,從而調整用戶興趣的權重或調整用戶興趣層次結構。根據學習的資訊來源,用戶追蹤的方法可概分可分為兩種:外部資料及系統資訊。外部資料是指系統要求用戶對推薦的資源進行回饋和評價,從而達到系統學習的目的。系統資訊不要求用戶提供什麼資訊,所有的追蹤都由系統自動完成,系統資訊又可分為行為追蹤和網站挖掘(Web mining)。外部資料是簡單而直接的做法,系統可以要求用戶回饋自己對推薦資源的喜好程度。一般情況下,這種做法很難收到實效,因為很少有用戶向系統主動表達自己的喜好。比較實際的做法是行為追蹤,因為用戶的
36、很多動作都能暗示用戶的喜好。用戶行為可以由查詢、瀏覽頁面和文章、標記書籤、回饋資訊、滑鼠點選、14拖動捲軸、前進、後退等等表達出來,Claypool 等三人於 2001 年的研究顯示(Claypool,Le,Waseda,2001),簡單的動作(例如滑鼠點選)不能有效地表示用戶的興趣,而瀏覽頁面和拖動捲軸所花的時間可以有效地表示用戶的興趣。Lieberman(1995)的研究顯示,用戶查詢、訪問頁面、標記書籤能有效表達用戶的興趣。目前,基於網站資料挖掘技術發展迅速,利用網站紀錄(Web Log)可以獲得頁面的點選次數、頁面停留時間和頁面訪問順序等資訊。透過分析網站紀錄可以獲得相關頁面、相似用戶
37、群體和用戶訪問模式等資訊,個人化服務系統可以利用這些資訊創建或更新用戶描述檔。網站挖掘中最常使用的方法是根據網頁的點選次數來評價用戶對該網頁的興趣,其實這種方法是不完整的,而且經常是不正確的。但該方法可用於輔助其他網站紀錄分析技術。儘管網站資料的資訊不夠全面,但還是可以從中發現許多有意義的資訊,比如透過收集用戶請求順序的日期和時間,可以分析出用戶在每個網頁上所花費的時間,從而可以推斷用戶對該資源感興趣的程度;通過收集用戶感興趣的領域,有利於對用戶感興趣的內容進行分類;透過分析用戶請求的順序有利於預測用戶將來可能的行為,從而推薦合適的資訊,在網站推薦系統中具有相當良好的成效。第三節 網站使用者模
38、式及應用 網站使用記錄挖掘的技術,主要是透過用戶端、伺服器端及代理伺服器端蒐集用戶使用記錄並對記錄檔作分析,其中用戶端及代理伺服器端雖可提供使用者完整資料,但由於 Applet 及 Script不支持代理功能或功能被用戶關閉導致收集資料困難,大多數從 15事網站使用記錄挖掘研究時,大致上採用伺服器端記錄資料進行分析研討(Srivastava,Cooley,Deshpande&Tan,2000),這種紀錄檔目前有兩種格式,NCSA 的 ASCII 格式紀錄檔(NCSA)或是 W3C所制定的擴充紀錄檔格式(Extended Log File Format),都可以用來記錄使用者存取資料的動作。經由
39、上述的紀錄檔我們可以對其作網站挖掘的動作(Tao,1999)。例如網站使用記錄挖掘中的路徑分析、關聯規則分析、連續順序模型探索、分類規則探索、群組探索或時間趨勢分析等分析的工具(Cooley et al.,1997)。本研究焦點為運用關聯法則分析用戶對各頁面訪問間關係,求得使用者瀏覽路徑,並找出使用者期望的目標網頁。第四節 網路瀏覽行為分析模式 使用者在網頁的點選歷程中,隱藏著潛在的行為模式,可能代表使用者的特殊喜好或興趣,這些資訊即是瞭解使用者並提供個人化服務的最好依據。利用網站紀錄(Web logs)可以分析系統的效能,改善網站的架構,瞭解網路的流量及使用者的行為與反應。若僅藉由網頁被讀取
40、的次數來判斷受歡迎的程度,是較不適當的做法,Sullivan(1997)提出從網站紀錄中,觀察並分析使用者和網站間互動關係的方法,並利用這些資訊來使網站架構最佳化。此法主要著重於時間與流量的分析,並從分析結果尋找最佳化的設計。利用使用者的瀏覽記錄,可以分析系統的效能,改善網站的架構,並且瞭解使用者的動機與反應。另外在資料挖掘的分析方法中,關聯法則(Association rule)方法亦非常適合應用於網路瀏覽行為的分析,因此本研究就關聯法則將依序探討之。首先,針對關聯法則作一簡單的介紹。所謂關聯法則,表達 16的是項目(Item)之間在交易(Transaction)過程的關聯性。通常會以下述範
41、例形式表達:“A?B”(可稱為A 關聯 B或B 關聯於 A)例如:買鐵鎚,通常也會買鐵釘。那麼,我們可以這麼表示:“鐵鎚?鐵釘”(鐵鎚 關聯 鐵釘或 鐵釘 關聯於 鐵鎚)在超級市場中或許會發現買麵包也會買牛奶的規則,但是麵包和牛奶的關聯廣為人知,並不是資料挖掘所著重的結果。重要的是,從各種不同的需求觀點,收集組織內部、外部,市場環境等各方面的資料,再配合其領域的專業知識,發掘目前未知但有意義的關聯。例如,美國的研究學者發現,只要在超級盃足球賽舉行期間,尿布與啤酒的銷售量總是會一起攀升。若以傳統眼光來看,兩者可能會被以為是巧合,而加以忽略。但是,研究發現了兩者的微妙關係,因為美國當地男人在看球賽
42、時會習於喝啤酒,所以啤酒的銷售量上升可以理解。而在每當去購買啤酒時,也會因為妻子的要求去順便購買了尿布等家用產品。至此之後,就有業者於超級盃舉行期間,特意地將兩樣商品擺在相近的選購位置,果然使得銷售量更較以往出色。以關聯法則的型式看來,是啤酒?尿布。關聯法則有兩個評估標準,分別是支持度(Support)和可信度(Confidence)。一、支持度(Support):為項目 A 與項目 B(於交易資料庫中)同時出現在同一筆交易的機率,在此例中即為同時出現項目 A 及項目 B 的交易總筆數交易總筆數)。二、可信度(Confidence):為在出現項目 A 的交易數中,也同時出現項目 B 的機率,在
43、此亦可表示為(Support AB 17SupportA)。這兩個指標通常被用來作為評估規則是否成立的標準。支持度和可信度的門檻設定過高會不容易產生規則,遺漏可能的重要關聯規則;但是門檻設定值過低又會產生許多雜亂不可靠的規則。所以支持度和可信度的設定值還需要靠分析者的經驗。在網際網路的分散式的資訊環境中,使用者經由超連結進行文件的存取。由於使用者進行瀏覽時,通常具有特定的資訊需求,因而可從瀏覽過程中推論出使用者在網頁資訊的取用模式及所隱含興趣偏好。歸納使用者網頁瀏覽模式的目的,在於改進網站的設計,以及協助管理者作網站規劃。關於網站紀錄的資料探索,Chen(Chen,Jong&Yu,1998)等
44、人採取關聯法則與序列分析的觀念,以找出使用者存取網頁的最大瀏覽序列(Maximal reference sequences),以及使用者最常瀏覽的瀏覽路徑,其主要用法可區分為三個步驟,分述如後:一、在網站紀錄資料中,找出使用者的最大瀏覽軌跡(Maximal trip traversal references)。每一個紀錄檔(Log file)都是成對出現的,包含一個來源和一個目的地。因此把使用者的每一個瀏覽序列寫成(S1,d1),(S2,d2),(Sn,dn)。但第一個開始的路徑,它 的 來 源 是 不 存 在 的。因 此 每 個 使 用 者 的 瀏 覽 序 列 為即為最大瀏覽軌跡,代表使用者
45、在此次瀏覽的最大路徑。所以假設網站紀錄檔中有一使用者紀錄為(#,A),(A,B),(B,C),(C,D),因此可整理出使用者的最大瀏覽軌跡為 ABCD。二、得到最大瀏覽路徑後,再利用演算法找出符合門檻值的瀏覽序列,此序列即稱為強關聯瀏覽序列。由於此步驟必須進行大量的資料庫存取與計算,因此該文獻中運用的 DHP(Direct hashing and pruning)演算法便被提出。DHP 的觀念就是當你產生候 18選 k 序列(Candidate k-references,Ck)時,可以利用雜湊表(Hash table)來找出其頻率來決定強關聯 k 序列(Large k-references,L
46、k),以有效減少每次掃描資料庫的大小。三、最後,由強關聯瀏覽序列中找出最大瀏覽樣式。網站瀏覽序列代表在網站環境中,使用者最熱門的瀏覽路徑。Agrawal 等在 1993 年設計了一個基本演算法,提出了挖掘關聯規則的一個重要方法,這是一個基於兩階段頻集的方法,將關聯規則挖掘演算法的設計可以分解爲兩個子問題:一、找到所有支援度大於最小支持度的項目集(Itemset),這些項集稱爲頻繁項目集(Frequent itemset)。二、使用第 1 步找到的頻率項目集産生期望的規則。這裏的第 2 步相對簡單一點。如給定了一個頻率項目集Y=I1I2.Ik,k2,産生只包含集合I1,I2,.,Ik中的項的所有
47、規則(最多 k 條),其中每一條規則的右部只有一項,(即形成如YIiIi,1ik)。一但這些規則被生成,那麽只有那些大於用戶給定的最小可信度的規則才被留下來。對於規則右部含兩個以上項的規則,在其以後的工作中進行了研究,本研究後面考慮的是這種情況。爲了生成所有頻率項目集,使用了遞推的方法。其核心演算法如下:19(1)L1=large 1-itemsets;(2)for(k=2;Lk-1;k+)do begin(3)Ck=apriori-gen(Lk-1);/新的候選集(4)for all transactions tD do begin(5)Ct=subset(Ck,t);/事務 t 中包含的候
48、選集(6)for all candidates c Ct do(7)c.count+;(8)end(9)Lk=c Ck|c.countminsup(10)end(11)Answer=kLk;首先産生頻繁項目繁 1-項集 L1,然後是頻繁 2-項集 L2,直到有某個 r 值使得 Lr 爲空,這時演算法停止。這裏在第 k 次迴圈中,過程先産生候選 k-項集的集合 Ck,Ck 中的每一個項集是對兩個只有一個項不同的屬於 Lk-1 的頻集做一個(k-2)-連接來産生的。Ck 中的項集是用來産生頻集的候選集,最後的頻集 Lk 必須是 Ck 的一個子集。Ck 中的每個元素需在交易資料庫中進行驗證來決定其是
49、否加入 Lk,這裏的驗證過程是演算法性能的一個瓶頸。這個方法要求多次掃描可能很大的交易資料庫,即如果頻繁最多包含 10 個項,那麽就需要掃描交易資料庫 10 遍,這需要很大的輸入及輸出(IO)負載。Agrawal 等人引入了修剪技術(Pruning)來減小候選集 Ck 的大小,由此可以顯著地改進生成所有頻集演算法的性能。演算法中引入的修剪策略基於這樣一個性質,一個項目集是頻繁集若僅當它的所有子集都是頻繁集。那麽,如果 Ck 中某個候選項集有一個 20(k-1)-子集不屬於 Lk-1,則這個項目集可以被修剪掉不再被考慮,這個修剪過程可以降低計算所有的候選集的支持度的花費。藉由引入雜湊樹(Hash
50、 Tree)方法來有效地計算每個項集的支持度。上述方法的都是基於 Apriori 的頻集方法。即使進行了優化,但是 Apriori 方法一些固有的缺陷還是無法克服:一、可能産生大量的候選集。當長度爲 1 的頻集有 10000 個的時候,長度爲 2 的候選集個數將會超過 10M。還有就是如果要生成一個很長的規則的時候,要産生的中間元素也是巨大量的。二、無法對稀有資訊進行分析。由於頻集使用了參數min-sup,所以就無法對小於 min-sup 的事件進行分析;而如果將min-sup 設成一個很低的值,那麽演算法的效率就成了一個很難處理的問題。下面將介紹兩種方法,分別用於解決以上兩個問題。為了解決問