网页序列分析系统课程设计.doc

上传人:豆**** 文档编号:17268443 上传时间:2022-05-23 格式:DOC 页数:17 大小:330KB
返回 下载 相关 举报
网页序列分析系统课程设计.doc_第1页
第1页 / 共17页
网页序列分析系统课程设计.doc_第2页
第2页 / 共17页
点击查看更多>>
资源描述

《网页序列分析系统课程设计.doc》由会员分享,可在线阅读,更多相关《网页序列分析系统课程设计.doc(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流网页序列分析系统课程设计.精品文档.目录第一章 绪论1第二章 数据基本分析22.1数据说明22.2质量分析22.3 基本描述分析2第三章 数据预处理43.1 数据处理过程43.2 数据预处理方法43.3 数据预处理结果6第四章 数据模型构建84.1 数据流的构建8第五章 模型结果分析125.1结果的分析处理125.2 结果合理性分析13第六章 应用系统设计166.1模型接口166.2人机接口196.3软件测试24结论30参考文献31结束语32第一章 绪论由于网站的结构设计,对特定用户而言信息获取的代价与所经过的浏览路径长度成正比,这些位于路径

2、中间的不必要的文档就无疑增加了用户获取信息的代价。本文利用Clementine数据挖掘的方法和技术对用户所访问的页面序列进行挖掘,构建网页推荐的模型,实现对当前站点排序方式的优化,从而最大限度地优化用户访问体验,提高当前站点信息获取的整体效率。关键词 网页推荐;Clememtine数据挖掘;访问序列传统的Web网站以系统自身为中心,为了容纳大量的信息,以图结构组织网站,页面之间存在着比较复杂的层次关系。这些预先设计好的浏览路径(网站的结构)严格按照设计者编辑好的层次返回页面,因此,为了获取特定的信息,从同一页面出发的所有用户都不得不重复地经过很多与自己毫无关系的、不希望看到的中间链接页面,使得

3、用户为了获取少量的信息付出较大的代价。如果在确保网页内容的前提下,实现网站物理结构的调整和再组织,就可以避免混乱。站点路径优化实际上就是站点管理者优化其站点结构,它的出现就是为了提高用户的访问效率以及用户对站点的忠诚度。第二章 数据基本分析2.1数据说明本数据来自网络信息服务(IIS)网站和1999年9月28日全天日志记录,每行连续数据表示单个用户24小时内浏览网页的记录,连续数据中的数字表示用户对相应网页的浏览请求,该访问请求不会被记录成详细的记录,即具体的网址,而只是单单记录了网页类型。这些网页类型分别是 frontpage, news, tech, local, opinion, on-

4、air, misc, weather, health, living, business, sports, summary, bbs (bulletin board service), travel, msn-news, and msn-sports。通过超高速缓冲器(寄存器)每个网页的服务请求不会被记录到服务日志,因此,它不会体现在数据中。2.2质量分析此次分析的数据总共有989818,平均每个用户点击网页的次数是5.7次,每个不同类型的网页有10到5000个不同的URL(网页地址)。从数据的质量上看,这是一个较大的数据集,数据的量足够大,可以用于数据的挖掘分析,且数据来源于Internet

5、 Information Server (IIS),有足够可信度。用户平均点击网页的数据也有5.7次,适合用于分析点击网页序列,每种类型的网页也有足够多的不同网址,符合客观要求。因此从数据质量上看,所选取的数据有分析的必要。2.3 基本描述分析 截取部分数据如下:1 1 2 3 2 2 4 2 2 2 3 3 5 1 6 1 1 6 6 7 7 7 6 6 8 8 8 8 6 9 4 4 4 10 3 10 5 10 4 4 4 1 1 1 11 1 1 1 12 12 1 1 每一行代表一个用户所点击的网页,此次选取的数据之中一共有17个不同类型的网页,分别是:frontpage news

6、tech local opinion on-air misc weather msn-news health living business msn-sports sports summary bbs travel为了方便处理,将以上各个网页进行编号,分别为1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17。一第三行数据为例对单个用户的数据进行说明。用户3第一次点击3号网页,第二次点击2号网页,第三次点击2号网页,第四次点击4号网页等一次类推下去。每一行都是一个用户的记录第三章 数据预处理3.1 数据处理过程此次任务是设计基于网页点击次序来推送下一次可能点击的网

7、页。选取的方法是Clementine 的序列关联,所以要将数据处理成Clementine可读取的格式,并且要删减不必要的数据,改写数据的格式,这样才能达到分析处理的要求。结合提供的数据具体分析:每行数据是一个用户的信息记录,表示的含义是第n号用户点击了哪个网页,是第几次点击的。举出部分数据样例如下:1 1 2 3 2 2 4 2 2 2 3 3 5 1 6 1 1 6 6 7 7 7 6 6 8 8 8 8 6 9 4 4 4 10 3 10 5 10 4 4 4 1 1 1 11 1 1 1 12 12 1 1因为此次任务是进行序列关联分析,所以用户只进行了一次点击情况的记录可以直接删除,比

8、如样例中2,4,5,6,8号用户。又因为最终要进行的操作是推送下一个可能点击的网页,如果用户只是在不断的点击同一个网页,这样的记录也无法分析可推送的网页,故也要剔去,如样例中1号用户。还有一种情况就是在多次点击过程中有重复点击的网页,这样的情况只需选取一次即可,因为我们所关系的是网页点击的次序而不是次数,现对样例中9号用户的数据进行分析,用户9第一次点击6号网页,第二次点击7号网页,第三次点击6号网页,第四次点击8号网页。根据以上的要求,可将数据处理成三列,分别表示用户号,用户点击的网页号,此次点击的次序号。将处理好的数据保存在文件中等待处理即可。3.2 数据预处理方法根据数据处理过程,决定运

9、用microsoft visual c+软件,进行编程处理,程序分析过程如下:1.先取数据文本中一行数据赋值给数组msn2.将msn数组按照空格分隔符分割,并将分割后数据转换为整型,赋值给msn1数组。3.对msn1数组中数据进行前后比较,如若相等,则将前一个赋值为04.将数组msn1中数据进行判断,大于0,则将数据赋值给数组msn2。5.将数组msn2中数据个数大于1的,按形式为三列,分别是用户号,用户点击的网页号,点击网页的次序号的格式写入e.txt文本文件。6.具体代码分析如下:#include #include #include memory.h#include stdlib.husi

10、ng namespace std;void main() cout正在处理,请稍等.; /void quchu(); int i=0,count=0; char msn100000;/保存字符型数据数组 int msn1100000;/保存一行int型数据数组 int msn210000;/保存无重复数据数组 fstream out; ofstream in;/定义文本输入输出流out.open(msnbc990928.seq,ios:in);/打开文本数据in.open(e.txt,ios:trunc); /ios:trunc表示在打开文件前将文件清空,由于是写入,文件不存在则创建 whil

11、e(!out.eof() out.getline(msn,100000,n);/getline(char *,int,char) 表示该行字符达到100个或遇到换行就结束 const char * split= ; /将数据变为int型 char * p; i=0; p=strtok(msn,split); while(p!=NULL) msn1i=atoi(p); /将截取数字转换为整型,赋值给数组 p=strtok(NULL,split); i+; int ii=i; int a=0; for(i=0;i0)/将符合条件的赋值给数组 msn2a=msn1i; a+; int aa=a;/保

12、存一行数字个数 if(aa1)/将一行的个数大于1的按要求写入文件 for(i=0;iaa;i+) incount+1,msn2i,i+1n; count+; out.close();/关闭文件3.3 数据预处理结果数据处理好之后,形式为三列,分别是用户号,用户点击的网页号,点击网页的次序号。取部分处理好的结果如下:ID,CONTENT,TIME1,3,11,2,21,4,31,2,41,3,52,6,12,7,22,6,32,8,43,6,13,9,23,4,3开头是加上的字段名。表达的含义是一号用户第一到第五次分别点击3,2,4,2,3号网页。这个数据就可以用Clementine进行处理分

13、析了。第四章 数据模型构建4.1 数据流的构建 打开Clementine软件,在源选项卡中选择“可变文件”节点,单击编辑,进行如下设置:在文件设置中,导入处理好的数据,勾选“读取文件中的字段名”,在定“界符中”选项框中勾选“逗号”,“新行”;在类型设置中,将ID字段设为无类型,CONTENT设为集,TIME设为范围。设置过程截图如下:图1 导入数据图2 数据类型设置再点击选取表节点,连接可变文件,执行,观察数据是否正确导入了。然后在数学建模选项卡中选择“序列”节点,连接可变文件,点击编辑,进行如下设置:在字段设置中,将ID字段设置为ID,勾选“设置时间字段”,选择TIME,内容字段中选择CON

14、TENT。在模型设置中,设置合适的最小规则支持度,最小规则置信度,最大序列大小,要添加到流的预测。设置过程截图如下:图3 序列分析字段设置图4 序列分析模型参数设置以上过程设置好后,对“序列”字段点击执行,产生结果。数据流的构建过程截图如下:图5 数据流构建第五章 模型结果分析5.1结果的分析处理 首先在“序列”节点的模型设置中设置好合适的最小支持度,最小置信度。现在将最小支持度设置为3%,最小置信度设置为60%,取其结果进行相应的分析。结果如下:图6 测试模型结果将最小支持度设置为3%,最小置信度设置为60%是为了剔除最小支持度小于3%,最小置信度小于60%的结果。以第一条结果为例进行说明:

15、前项为4,7,后项为4,表示点击了4号网页,再点7号网页,可推送出4号网页。因为记录一共有989818,此条结果支持度为4.47%,故先点击4号网页,再点击7号网页的记录一共有约40000多条,点击了4号和7号网页后,在点击4号的可能性为72.26%,即为其置信度。其他条记录可依此类推。5.2 结果合理性分析以上选取的最小支持度设置为3%,最小置信度设置为60%,那么根据这个设置可以看出,只有重复出现30000次左右的结果才会被保留下来,这样会导致很多条结果被剔除,所得出的结论很少,不利于分析推送。所以最小支持度应该设置的更小一定,使结果更加有合理性。重新设置相关参数,最小支持度设置为0.5%

16、,最小置信度设置为60%,则前项必须出现的次数达到5000次左右结果才会被保留。结果如下:图7 修正模型结果图8 模型结果汇总从结果汇总中可以看出,将最小支持度设置为0.5%,最小置信度设置为60%时,规则数一共有161条,有效的事务数有383534条。其中最小的支持度为0.633%,最大支持度为88.35%。最小置信度为60.056%,最大置信度为83.84%。从有效事务数,规则条数上看,这个结果还是很合理的。置信度也在60%以上,有一定可信度。故可以选择这个分析结果。最后将此结果导出,保留给推荐系统备用。第六章 应用系统设计6.1模型接口经讨论分析我们决定,运用delphi7.0软件实现对

17、本系统的应用设计。具体分析实现步骤如下:1.用户操作网页编号记录的实现。定义全局数组msn,用于记录用户所进入网页的的编号,代码如下: unit Uall;interface var msn:array0.1000 of integer;/定义数组,保存访问数据 var i:integer;implementationuses Ulocal, Umain, Unews, Utech;initializationi:=0;end.2.编辑17个窗口作为网页,并新建一个主窗口Fmain,在Fmain中拉入label,当用户点击相应的label时,进入相应的网页,并将网页的编号记录到数据Uall.m

18、sn数组中,并将数组下标i自加1。具体label中代码如下:procedure TFmain.Label2Click(Sender: TObject);beginself.Hide;Fnews.Show;Uall.msnUALL.i:=2;Uall.i:=Uall.i+1;end;3.网页推荐实现。在Fmain中拉入一个button,当用户点击此button时,系统进行推荐,在此中写入代码,具体分析步骤如下:1)取分析后文本数据中一行,并将一行数据进行分割,取最后一个编号为推荐编号转换为Int型,赋值给整型变量SE。将数据逐个转换为int型,赋值给msnint数组,数据最后一个编号不写如数组。

19、2)将msnint数组中数据从结尾开始逐个与用户操作序列数组结尾开始进行比较。用户操作序列数组Uall.msn与msnint中匹配时,将SE值转换为string型赋值给SEE,并将temp值赋值为1。3)对temp进行判断,temp为1时则说明可进行推荐。则将推荐的数据SEE赋值给label.caption。即可显示。具体代码如下:procedure TFmain.Button2Click(Sender: TObject);var F: TextFile; S: string; /保存一行字符 SE:integer;/保存推荐网页编号 SEE:string;/保存临时推荐网页编号 SS:str

20、ing; /保存所有推荐 Slist:Tstringlist;/定义字符截取 i:integer; /ii:integer; alli:integer; temp:integer;/ inn:integer; scount:integer; msnint:array0.1000 of integer;/定义数组,保存int型数据begin temp:=0; SEE:=; SS:=; AssignFile(F,ID.txt); /绑定文件到文件类型变量 Reset(F);/打开一个存在的文件,另Rewrite创建文件并打开 while not eof(F) do begin Readln(F,S

21、);/读取一行字符 /#/字符串的截取 Slist:=Tstringlist.Create; slist.Delimiter:= ; /设置分隔符 slist.DelimitedText:=S; /设置待分割的字符串 scount:=slist.Count-1; for i:=0 to slist.Count-2 do /列举所有值,保存进数组 begin msninti:=Strtoint(Slisti); end; SE:=Strtoint(Slistscount);/取最后一个编号为推荐编号 i:=scount-1; alli:=UALL.i-1;/取最大值 while msninti=

22、uall.msnalli do begin i:=i-1; alli:=alli-1; if i=-1 then begin temp:=1; SEE:=inttostr(SE); end; end; end; if temp=1 then begin inn:=strtoint(SEE); case inn of 1:SEE:=头条; 2:SEE:=新闻; 3:SEE:=科技; 4:SEE:=本地新闻; 5:SEE:=舆论; 6:SEE:=在线直播; 7:SEE:=音乐; 8:SEE:=天气; 9:SEE:=MSN; 10:SEE:=健康; 11:SEE:=家居; 12:SEE:=商业; 1

23、3:SEE:=MSN体育; 14:SEE:=体育; 15:SEE:=概要; 16:SEE:=BBS; 17:SEE:=旅行; end; Ltuijian.Caption:=inttostr(inn)+.+SEE; ShowMessage(向您推荐:+SEE); end; if temp=0 then begin Ltuijian.Caption:=; ShowMessage(由于进入的网页数不够,还没能向您推荐网页!); end; CloseFile(F);end;6.2人机接口1.用户进入系统时,首先显示的为可以自动跳转的界面,介绍系统名与系统作者。这样使系统更具有亲和力。功能实现需要加入t

24、imer,gauge和 imag控件,导入图片,使图形更加美观。并在timer控件中写代码,使之能够自动加载进程条。代码如下:procedure TFlogin.Timer1Timer(Sender: TObject);begin Gauge1.Progress:=Gauge1.Progress+1; if Gauge1.Progress=Gauge1.MaxValue then /计时计的间隔时间10毫秒,maxvalue=100,1秒钟后进入登录窗口 begin Fmain.Show; Self.Hide; Timer1.Enabled:=False; /必须要停止计时计,否则计时计会一直

25、运行,结果是每过一分钟就会弹出登录窗口 end;end;end.最终界面如图9显示:图9 登录界面2.进入到主界面,加入imag控件,导入图片,使图形更加美观。添加BitBtn控件,设置其caption属性为“退出”,使之为退出按钮,并导入图片,使控件更加美观。当用户点击时控件时,则退出系统。为了实现系统自动推荐,则在fmain中的onshow事件中写入推荐代码。同时为了使界面更加富有美感,加入了XPManifest控件。最终界面如图10显示,程序代码如下:1)BitBtn中退出程序代码:procedure TFmain.BitBtn1Click(Sender: TObject);begina

26、pplication.Terminate;end;2)Onshow事件中写入推荐代码:procedure TFmain.FormShow(Sender: TObject);var F: TextFile; S: string; /保存一行字符 SE:integer;/保存推荐网页编号 SEE:string;/保存临时推荐网页编号 SS:string; /保存所有推荐 Slist:Tstringlist;/定义字符截取 i:integer; /ii:integer; alli:integer; temp:integer;/ inn:integer; scount:integer; msnint:

27、array0.1000 of integer;/定义数组,保存int型数据begin temp:=0; SEE:=; SS:=; AssignFile(F,ID.txt); /绑定文件到文件类型变量 Reset(F);/打开一个存在的文件,另Rewrite创建文件并打开 while not eof(F) do begin Readln(F,S);/读取一行字符 /Length(S); / SS:=LeftStr(S,Length(S)-1);/从Str字符串变量的中第1个字符开始取长度为S长度个字符-1的字符串; /SE:=RightStr(S,1);/取最后一个字符 / ShowMessag

28、e(SS); /#/字符串的截取 Slist:=Tstringlist.Create; slist.Delimiter:= ; /设置分隔符 slist.DelimitedText:=S; /设置待分割的字符串 scount:=slist.Count-1; for i:=0 to slist.Count-2 do /列举所有值,保存进数组 begin msninti:=Strtoint(Slisti); /showmessage(这个数+inttostr(msninti); end; SE:=Strtoint(Slistscount);/取最后一个编号为推荐编号 /showmessage(这个

29、数+inttostr(SE); i:=scount-1; alli:=UALL.i-1;/取最大值 /ii:=0; /while alli=uall.i do / begin while msninti=uall.msnalli do begin i:=i-1; alli:=alli-1; if i=-1 then begin temp:=1; SEE:=inttostr(SE);/+ +SEE; end; end; end; if temp=1 then begin inn:=strtoint(SEE); case inn of 1:SEE:=头条; 2:SEE:=新闻; 3:SEE:=科技

30、; 4:SEE:=本地新闻; 5:SEE:=舆论; 6:SEE:=在线直播; 7:SEE:=音乐; 8:SEE:=天气; 9:SEE:=MSN; 10:SEE:=健康; 11:SEE:=家居; 12:SEE:=商业; 13:SEE:=MSN体育; 14:SEE:=体育; 15:SEE:=概要; 16:SEE:=BBS; 17:SEE:=旅行; end; Ltuijian.Caption:=inttostr(inn)+.+SEE; /ShowMessage(向您推荐:+SEE); /SEE:=; end; if temp=0 then begin Ltuijian.Caption:=; end;

31、 CloseFile(F);end;图10 主界面3.点击网页label,进入到网页页面。功能实现加入imag控件,导入图片,使图形更加美观。同时键入lanbel,更改caption属性,描述客户所进入的网页的页面。并添加button控件,caption属性改为“退出”,当用户点击时使界面返回主界面。最终界面如图11,代码如下:procedure TFmisc.Button3Click(Sender: TObject);beginclose;fmain.show;end;end.图11 单个网页6.3软件测试1.打开软件,进入加载界面如图12:图12 加载界面2进入主界面,点击,13号MSN体

32、育,访问网页MSN体育,如图13,图14所示:图13 选择进入网页图14网页显示3.点击,7号网页音乐,访问网页音乐,如图15,图16所示:图15 进入网页图16网页显示4.退出音乐网页后,系统自动推荐13号网页MSN体育,如图17:图17 显示推荐网页5.点击推荐按钮,系统跳出弹框,显示推荐网页,如图18图18按钮推荐网页6.再次点7号,选择音乐,进入音乐网页如图19所示:图19进入音乐网页7.退出网页,进入主界面,系统无法找到匹配序列,则自动清空推荐网页,如图20:图20推荐自动清空8.点击推荐按钮,给出提示,说明系统未能找到匹配的推荐网页,如图21所示:图21按钮推荐提醒9在主界面点击退

33、出,则退出系统,如图22所示:图22退出系统10.经过以上测试,软件能够正常运行。但是,在网页的设计方面还不够完美,不够贴近于实际,有待改善。在操作舒适度方面稍好,符合系统的基本要求。整体来看,本系统功能和设计还是比较完善的。结论本次基于msnbc数据的网页序列分析系统的设计过程主要有三大部分。第一是数据预处理部分,首先要分析序列分析所需要的数据类型,将给定的原始数据处理成Clementine支持的数据格式,剔除不起作用的数据记录,减少数据量,还要降低数据的冗余,序列分析分析的是先后顺序,与点击网页的次数无关,可以将点击多次的相同网页减为一次,最终将数据处理成了三列,这三列的含义分别是用户号,

34、点击网页号,点击网页的次序号;第二是利用Clementine来分析处理好的数据,现构建好数据流,选择可变文件节点,导入文件,设置好相应的设置,在使用“序列”节点,连接可变文件,进行相应的设置,执行便可得出相应的结果,然后将结果导出备用;第三是设计推送系统部分,此部分使用delphi开发工具进行开发。主要工作又包括两部分,一是模型接口的设计,二是人机接口的设计。做好相应的窗体,能将Clementine分析得出的结果导入,根据结果进行比对分析,通过推送系统直接就可以得出相应的结果。这就是最终所做出的基于msnbc数据的网页序列分析系统。参考文献1毛国军,段立娟. 数据挖掘原理与算法M. 北京:清华

35、大学出版社,20122王 婧,梁兴柱. C+程序设计M. 北京:电子工业出版社,2009 3张世明. Delphi程序设计基础. 北京:人民邮电出版社,20084薛薇,陈欢歌.Clementine 数据挖掘方法及应用.北京:电子工业出版社, 2010.9: ISBN978-7-121-11778-7.结束语这次课程设计,运用了多学科的知识,真可谓是大学学习的知识的综合运用。首先要对任务进行分析,先要处理好数据,这个过程可以运用各种工具和方法,只要能将数据处理成所需的结构即可。我们这次所选取c+来处理,通过编程将原始数据导入,在进行相应处理,导出结果。这个过程要对c+文件导入导出的语法很熟悉才行

36、,同时还要了解数组函数等基本知识,部分函数可以在网上收索得到,灵活运用即可。然后就需要使用到数据处理的工具,选用Clementine来处理数据,选用的方法是关联规则的序列关联分析。这个部分的处理需要对Clementine的各个控件很熟悉,要掌握序列关联分析的理论知识,最后要对分析出的结果进行合理性分析,结合实际,判断自己得出的结论是否有应用性。最后,就是将所得出的分析结果很好的展示给用户。我们是设计一个网页推荐系统,采用的工具是delphi,可视化窗口程序设计。这部分要能熟练使用delphi开发工具,合理设计窗体,处理好模型接口,能很好的导入结果数据,还要处理好人机交互接口,让用户能简单方便的操作,界面要注意美观简约。以上就是我们整个设计过程中需要注意的东西。最后在总结一下我们这次设计中所用到的全部知识。C+预处理数据,Clementine分析数据,得出结果,delphi设计推送系统。三大块的知识都很多,我们还要很多不足与欠缺的地方,但通过这次设计之后,我们定能向前更进一步。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 小学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁