《专题讨论二资料挖掘于网际空间中之地理参照资讯Data Mining ....ppt》由会员分享,可在线阅读,更多相关《专题讨论二资料挖掘于网际空间中之地理参照资讯Data Mining ....ppt(35页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、專題討論二資料挖掘於網際空間中之地理參照資訊Data Mining Georeferenced Information in Cyberspace 指導老師:朱 子 豪評閱老師:孫 志 鴻評閱同學:許 秋 玲報告學生:曾 偉 綸2001/04/10 一、研究動機資訊與通訊科技迅速發展由網際網路提供的各式各樣的服務所架構出來的網際空間(cyberspace)網際空間中的地理(grographies of cyberspace)二、研究目的網際空間上的服務和活動多和實體空間上的重疊或取代,而活動本身的地理資訊是否也嵌入網際空間中。在這資訊超載且無結構化的網際空間中,如何能找出並有效利用現存的資訊
2、本研究目的分成兩個部分:第一部份:挖掘出嵌入在網際空間的地理參照資訊(Georeferenced Information)。DOTGEO定義地理參照資訊為表現地理表現地理座標資訊位置、地方或物件的資訊座標資訊位置、地方或物件的資訊。第二部分:將抽取出來的地理參照資訊嘗試作傳統地理資訊分析,如空間分析、市場分析等應用。這裡列出幾個可能的應用分析:加強電子商務的服務:統計使用者於伺服器端所要求之服務或查詢的關鍵詞,找出某項服務在某區為的需求量最大。增加搜尋引擎的正確性:傳統搜尋引擎是以此網頁被連結的次數作為排名的標準。但針對某些種類查詢往往不具實用性。評估網站是否全球性抑或是區域性 三、文獻回顧網
3、際網路的興起網際空間(Cyberspace)的定義資料挖掘(Data Mining)網域名稱服務(Domain Name Service,DNS)網網 際際 空空 間間 的的 定定 義義作作 者者一個人類神經系統和電訊網路系統完全結合的狀態,科技進步到人類可以用無所不再的網路進行溝通,人的意志穿梭在一個個綿密的網路中,實體空間中的互動、接觸完全被人工虛擬世界中的符碼所取代,人與人的互動遂建構在一個由交感幻覺所形成的虛擬世界中。WilliamGibson,1984網際空間是資訊世紀的家鄉-在未來城市居民命中注定去居住的地方。JohnPerryBarlow,1991.網際空間,是位於所有電腦之內和
4、佔據其間的靈魂空間。SardarZ.&RavetzJ.R.,1995.由電腦空間經由電腦通訊網路而形成新的抽象空間。MichealBatty,1997計算機通訊網絡的出現,形成了空間事物的一種新的組織形式,打破了傳統的時間-空間聯繫方式,突破了傳統的地理障礙形成一種新的地理空間。張捷等,2000資料挖掘資料挖掘又稱知識探勘(Knowledge Discovery)是一種從大量資料中自動從大量資料中自動擷取重要的、潛在有用的資訊類型或知擷取重要的、潛在有用的資訊類型或知識識的過程。藉由一個電腦程式,可以日以繼夜地在數量龐大的資料中找出有用的資料類型或知識模型。資料挖掘的功能可包含下列五項功能:(
5、1)分類(classification)(2)推理(estimation)(3)預測(prediction)(4)關連分組(affinity grouping)(5)同質分組(clustering)常用的Data Mining分析工具 Case-based Reasoning Data Visualization Fuzzy Query and Analysis Knowledge Discovery Neural Networks 網域名稱服務(Domain Name Service)Packets transferring over IP protocalDomain Name IP ad
6、dress網域名稱依照使用單位的特性,大致分類為以下七大種頂級網域名稱(Top-Level Domains,TLDs):MIL :軍事單位 EDU:教育機構 GOV:政府機構 COM:商業機構 ORG:法人機構NET:網路機構 COUNTRY-LEVEL:國家網域名稱DNS的階層架構圖研究方法 一、挖掘地理參照資訊一、挖掘地理參照資訊 1.利用網域名稱查詢 2.利用WHOIS資料庫 3.利用traceroute工具查詢 4.利用主機的網頁伺服器 5.查詢主機時間 6.網域名稱服務的延伸 7.網路服務提供者(ISPs)的命名原則 二、後端地理資訊分析二、後端地理資訊分析 一、利用網域名稱查詢 以
7、UNIX系統為例:ccsun/users/nslookup 140.112.1.6Server:dns.ntu.edu.twAddress:140.112.254.4Name:bbs.ntu.edu.twAddress:140.112.1.6誤差可能原因美國的單位並不用加上國家網域名稱 有許多例外情形下,國家網域名稱往往並不代表實體空間中所代表的位置。Ex:Moldova(.md)www.eyedoctor.md Tonga(.to)welcome.to,go.to 不定期更新管理的DNServer 二、利用WHOIS資料庫WHOIS資料庫是各單位在向主管機關註冊網域名稱時所填寫的基本資料,內
8、容有管理者的聯絡方式(Email)、住址住址、網域名稱、IP位址、居住城市、居住國家、更新日期等。誤差可能原因通常在WHOIS資料庫註冊的單位是比較高層次的單位,而無法確切的知道每個單機(host)的資料。資料庫定期維護更新的問題 三、利用traceroute工具查詢 traceroute工具可查詢資料封包從起始點到終點所行經的路徑以及速度。因此我們可以大致由封包行進的趨勢判斷資料封包的目的地落在何處。以UNIX系統為例:ccsun/users/traceroute traceroute 140.117.11.55traceroute to 140.117.11.55(140.117.11.5
9、5),30 hops max,40 byte packets 1 140.112.8.254(140.112.8.254)2.056 ms 1.647 ms 1.605 ms 2 140.112.5.1(140.112.5.1)3.043 ms 2.777 ms 2.792 ms 3 TANet-NSYSU.edu.tw(203.72.38.117)11.504 ms 10.938 ms 10.441 ms 4 210.200.43.193(210.200.43.193)11.875 ms 13.191 ms 15.190 ms 5 140.117.11.55(140.117.11.55)14
10、.953 ms 14.064 ms 17.066 ms誤差可能原因當骨幹網路的鋪設不合最短路徑原則,則較難依資料傳遞路徑去判斷出目的主機的所在地,除非能事先掌握資料封包路由原則(routing)。以TANET為例,從花蓮的主機傳送資料封包到台東的主機,傳輸路徑將受限於TANET骨幹網路的拓樸。四、利用主機的網頁伺服器(Uri Raz)譬如找尋一個主機:cyberpunk.geog.ntu.edu.tw,我們可以先嘗試www.geog.ntu.edu.tw,通常此網頁伺服器會有相關之地理空間資訊。五、查詢主機時間(Uri Raz)有時候對方主機會提供當地時間讓使用者查詢,此時就可以時間判斷當地所
11、在的時區,大致的地理位置範圍。例如:ccsun/users/telnet 140.112.8.55Trying 140.112.8.55.Connected to 140.112.8.55.Escape character is.SunOS 5.7Last login:Tue Apr 3 15:53:47Tue Apr 3 15:53:47 from 140.112.201.129Sun Microsystems Inc.SunOS 5.7 Generic October 1998You have new mail.六、網域名稱服務的延伸 Request For Comments(RFC)RF
12、C 1712 的資料封包格式 MSB LSB +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+/LONGITUDE /+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+/LATITUDE /+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+/ALTITUDE /+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+RFC 1876 的封包格式 MSB LSB +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+0|VERSION|SIZE|+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+2|HOR
13、IZ PRE|VERT PRE|+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+4|LATITUDE|+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+6|LATITUDE|+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+8|LONGITUDE|+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+10|LONGITUDE|+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+12|ALTITUDE|+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+14|ALTITUDE|+-+-+-+-+-+-+-+
14、-+-+-+-+-+-+-+-+-+(octet)七、網路服務提供者(ISPs)的命名原則(Uri Raz)例如ATT的撥接線路命名原則:AT&T:.dial- :線路編號 :即router所在位置,如”los-angeles-2”(所在城市及router編號)Port is 2-254 for the dial-up ports,and 1 for the router itself.:所在州郡的代碼 後端地理資訊分析 理論上來說,抽取出來的地理參照資訊(Georeferenced Information)就如同傳統地理資訊系統(GIS)所處理的地理資訊,因此也應該可以用同樣的分析去處理地理參照資訊。四、未來研究方向1.繼續資料挖掘方面的文獻回顧,因為目前仍未引用到真正的資料挖掘的精髓,希望將來能自動化的產出知識。2.網路基本協定的深入,對於TCP/IP、DNS等協定還需要進一步深入瞭解,以找尋其他可以更正確挖掘出地理參照資訊的方法。3.蒐集研究區內網際空間及網際地方之背景資料(骨幹網路拓樸、撥接帳號命名規則等),再以所研擬之研究方法實作之。報告完畢敬請批評指教