《基于主观贝叶斯的点击流数据分析应用研究.pdf》由会员分享,可在线阅读,更多相关《基于主观贝叶斯的点击流数据分析应用研究.pdf(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第 1 8 卷第 7期 2 0 0 8年 7月 计 算 机 技 术 与 发 展 COMP UTER TECHN0【D GY AND、DEVEL0PMENT VO 1 1 8 No 7 J u 1 2 0 0 8 基于主观贝叶斯的点击流数据分析应用研究 王军 豪,彭岩(首都师范大学 信息工程学院,北京 1 0 0 0 3 7)摘要:通过对不确定性推理和主观 B a y e s 方法的分析研究,提出将主观贝叶斯方法应用到点击流数据分析系统中。在用 主观贝叶斯方法进行推理计算时,针对we b日志文件中记录信息的不完备情况,应用了证据的不确定性推理,在系统中对 用主观 B a y e s 方法得出结论
2、进行专家分析评估,来确定用户对网站内容的关注程度和上网喜好,从而掌握网站对用户的黏 着度,进而为优化网站提供依据,为进一步建设更有吸引力的阔站提供决策支持。关键词:不确定性;贝叶斯;点击流;概率 中国分类号:T P 3 9 1 文献标识码:A 文章编号:1 6 7 3 6 2 9 X(2 0 0 8)0 7 0 1 1 6 一O 3 App l i c a t i o n a n d Re s e a r c h o f Cl i c k s t r e a m Da t a Ana l y s i s Ba s e d o n Ba y e s WANG J u n h a o,P ENG
3、Ya n (C o ll e g e o f I n f o r ma t i o n E n g i n e e r i n g,C a p i t a l N o r ma l Un i v e r s i t y,B e ij i n g 1 0 0 0 3 7,C h i n a)Ab s t r a c t:T h r o u g h a n a l y s is a n d r e s e a r c h o f u n c e r t a i n t y r e a s o n i n g and B a y e s,p r e s e n t s a me t h o d t
4、h a t a p p l i e d s u b j e c t iv e B a y e s a p p r o a c h i n c l i c k s t r e a m d a t a a n a l y s i s s yst e m I n v i e w o f t h e in c o mp l e t e i n foma a t io n r e c o r d ed in t h e we b lo g w h il e u s ing s u b j ect i v e B a y e s me t h o d s o f r e a s o n ing i t h
5、 a s a p p l i ed t h e e v id e n c e O f t h e unc e rt a i n t y t o c a r r y o n e x p e rt e v a l u a t io n s wit h t h e con c l usio n s d r a w n f ix)r n t h e s u b j e c t i v e Ba y e s me t h o dI t c a l l he l p t o ma s t e r t h e d e g r e e o f a t t e n t io n o f t h e u s e
6、r f o r t h e s i t e c o n t e n t and t h e i r p r e f e r enc e s an d in t e r e s t s;a l s oi t c a n g r a s p t h e we b s i t e S t e n a c i t y d e g r e e t o u s e r s,t h e n p r o v i d e F tq o r e p e r s o n a li z e d W e b s e r v i c es s u p p o rt for o p t i miz ing t h e we
7、 b s it e,and p r o vid e d e c i s io n supp o rt f o r f u r t h e r con s t r u c t io ns wi t h i l K)r e a t t r a c t io n Ke y wo r d s u n c e r t a i n t y;B a y es;e l i e k s t r e a r n;p r o b a b i l i t y 0引 言 点击流数据分析系统主要是对 we b日志文件中 记录的一些用户上网信息如用户浏览的每个站点、每 个页面,在页面上滞留的时间以及点击的链接和图片 等信息
8、特征进行分析,根据分析结果可以推断出用户 的行为习惯和个人喜好,以及对 网站的 内容 的关注程 度,为网站的进一步优化建设提供决策支持。主观贝 叶斯方法由 D u d a和 H a r t 等人在贝叶斯公式的基础上 经过改进提出。它建立了相应的不确定性推理模型,并在地 矿 专 家 系统 P R O S P E C T O R 中得 到 了成 功应 用。针对点击流数据分析系统中存在的信息不完备和 不确定性问题,文中提出了基于主观贝叶斯的分析方 法。该方法具有直观和便于理解,易于发现数据间的 收稿 日期:2 0 0 71 0 1 0 基金项 目:北京市优秀人才培养资助项 目(2 o 0 6 1 5
9、 0 1 6 0 0 2 2 0);北 京市强教计划资助项 目 作者简介:王军豪(1 9 8 l 一),男,硕士研究生,主要研究领域为人工 智能及其应用;彭岩,副教授,博 士,主要研究方 向为人工 智能及 应 用。因果关系,适于不确定性和不 完备信息下 进行有效 的 分析决策等优点。文中将主观贝叶斯方法引入点击流 数据分析系统中,对这一方法进行了验证,得到了理想 的效果。1 不确定性推理和主观 B a y e s 方法 不确定性推理是建立在非经典逻辑基础上的一种 推理,是对不确定性 知识 的应 用和处理,严格 地说,不 确定性推理就是从不确定性 的初始证据 出发,通过运 用不确定 的知识最终推
10、 出具有 一定程度 的不确定性,但却是合理或者近乎合理的结论的思维过程【。对于 许多比较复杂的人工智能系统,往往含有复杂性、不完 全性、模糊性或不确定性。当采用产生式系统或专家 系统的结构时,要求设计者建立某种不确定性问题的 代数模型及其计算和推理过程。知识的不确定性与该 领域 问题的特征相关,只有根据 该领域的问题特征来 描述其知识的不确定性,同时还要适合于不确定推理 过程中的不确定程度的推算。知识库是人工智能的核 心,而知识库中的知识 既有规律性的一般原理,又有 大 维普资讯 http:/ 第 7期 王军豪等:基于主观贝叶斯的点击流数据分析应用研究 1 1 7 量的不完全的专家知识,即知识
11、带有模糊性、随机性、不可靠或不知道不确定 因素。世界 上几乎没有什 么事 情是完全确定的。不确定性推理即是通过某种推理得 到问题的精确判断。不确定性包括知识 的不确定性和证据的不确定 性。知识的不确定性通常为一个数值,表示相应知识 的确定性程度。在实际应用 中,知识的不确定性是由 领域专家给出的。证据包括两种:求解问题时的初始 证据和推理 中得 到的 中间结果。一般来说,证 据的不 确定性表示应该与知识的不确定性表示保持一致,以 便推理过程能对不确定性进行统一处理。初始证据的 不确定性必然会造成结论的不确定性,在推理时,中间 过程得到的结论往往作为当前证据存人数据库。由于 初始证据具有不确定性
12、,上一步推理所得的结论必然 具有不确定性,而该结论又作为下一步的证据继续推 理,如此往下直到推出结论,这样就将初始的证据的不 确定性传递到了最终结论。不确定性推理的方法主要 有经典概率方法、逆概率方法、主观 B a y e s、证据理论方 法和模糊推理方法等。但经典概率方法只适用简单的 不确定性推理;逆概率方法则要求各个事件相互独立,不能处理证据之间有 相互关 联 的事件;证 据理论 方法 运算复杂-2】。主观 B a y e s 方法是由杜达(R OD u d a)等人于 1 9 7 6年提出的一种不精确推理模型,并成功地 运用于地矿勘探专家系统 P R )R中。其推理 过程是:领域专家为每
13、条规则提供两个规则强度 L S 和L N(L S表现规则A一B成立的充分性,L N表现 规则 A一B成立的必要性。也就是说 L S表现规则A 一B,A为真时对 B为真的支持程度,L N表现了A 不为真(A)对 B为真的支持程度),同时还要给出 每个命题的先验可能性,即命题单位元。原始证据的 不确定性值由用户在系统运行时提供,其它所有命题 的不确定性值均由不确定性 的更新算法求出。主观 B a y e s 方法通过使用专家的主观概率,避免了所需的大 量统计计算工作【3 l。在主观 B a y e s 方法 中,知识是用产生式规则表示 的,具体形式为:I FE T H E N(L S,L N)H(
14、P(H)L S,L N在上文已有定义,P(H)是专家给出的先 验概率。推理就由P(H),P(E),L S和L N求出P(H l E)或 P(H l E)的过程。主观贝叶斯方法是最早用于处理不精确推理的模 型,它以概率论中的贝叶斯公式为基础。贝叶斯公式 描述如下:设有事件 Bl,B 2,B 互不相容,Bl U B 2 U U =n(全集),事件A能且只能与B 1,B 2,B 中的一个同时发生,而且 P(A)0,P(B )0,i =1,2,z,则 有 P(B A):堡 1,2,咒 P(A B i)P(马)j:l 上式中 P(B f)是事件 B 的先验概率,先验概率是 在不考虑任何证据的情况下专家凭
15、经验给出的,P(A l B )是在事件 发生条件下事件A 的条件概率,P(B i l A)是事件 A发生条件下B 的条件概率。贝叶 斯公式的意义在于将 P(B l A)的概率计算转化为对 P(A l B f)和 P(B )的计算【引。依据贝叶斯公式的计算方法直接、简单。但是,该公式的使用要求事件 Bl,B 2,互不相容,并且 需要计算 P(A l B f)和 P(B f),直接应用贝叶斯公式 求解问题是困难的,因为必须知道 B 的先验概率和 证据A出现的条件概率。主观贝叶斯方法在贝叶斯公 式基础上确定了不确定性推理的模型,并具有实际意 义。在主观贝叶斯方法中,知识采用产生式表示法表 示。其具体
16、形式如下:I F A T H E N(L S,L N)B。其 中,A是知识的前提,B是结论。另外,为了度量知识的 不确定性,引入了两个数值(L S,L N)表示知识规则 强度,L S为规则成立的充分性,体现了前提A的成立 对结论 B的支持度;L N 为规则成立 的必要性,体现 了前提 A 的不成立对结论B的支持度。L S和L N 的 具体定义如下:LS=LN=为 了方便后 面 的叙 述,在这 里建立几 率 函数 O(x),它和概率 P(z)的关系为 0(z)(1)该函数体现的是z出现的概率与不出现的概率之 比。显然 0(z)与 P(z)单调性 一致,若 P(x 1)P(x 2),则 O(x 1
17、)O(x 2)。因为 P(x)的值域为 0,1 ,由此可知 0(z)的值域为 0,+o o)。根据 L S,L N 的定义,以及 0(z)和 P(z)的关系,可 以推 出 0(B A)=L S 0(B)(2)0(B A)=L N 0(B)(3)由式(1)代入式(2),可得 P(B A):面等(4)同理,由式(1)代入式(3),可得 P(B A)=面等(5)式(4)为证据 A肯定为真时,将 己的先验概率更 新为其后验概率的公式;式(5)为证据 A 肯定为假时,将 B的先验概率更新为其后验概率的公式。维普资讯 http:/ 1 1 8 计算机技术与发展 第 1 8卷 因为在实际应用中,L S和L
18、N 的值均由领域专 家根据经验给出,所以,进行不确定性推理时,只需 知道 P(B )的值,就可以求得 P(B l A),从而绕开对 P(A l B f)的求解。领域专家在为 L S和L N 赋值时,可依据 L S和 L N 的性质。例如 L S体现前提的成立对结论的支持 度,由 L S定义可知:当 L S 1时,前提支持结论;当 L S=1 时,前提不影响结论;当 L S1,L N=1,A 对结论 B 没有影 响,所以直接引用式(4):P(B A)=11 x 0 0 3 1 _ 0 2 7 0 7 +这一结果说明,证据 A 用户在当前页面的停留时 间大于2 0 秒小于6 0 0 秒时,使得结论
19、发生(认为用户对 当前页面感兴趣)的概率由0 0 3增加到 0 2 7 0 7。P(B A lA 2)A=面等=2 2 x 0 2 7 0 7 1 _ 0 89 5 1 一 十 一 ”在证据 A1 发生的基础上,证据 A2 用户点击当前 页面的图片连接超过 3次也发生了,使用户对当前页 面感兴趣的概率由0 2 7 0 7增加到 0 8 9 5 1。咖 1 A2 A3,=5 计算表明,证据 A ,A2,A3 的发生,最终认为用户 对当前页面感兴趣事件发生的概率增加到 0 9 9 8 5。通过应用主观贝叶斯方法和其他一些点击流数据 的在线分析处理和数据挖掘系统,可以发掘有价值的 行为模式规范,进而
20、分析把握用户的行为喜好和上网 习惯,确定他们对哪些页面的哪些信息和商品感兴趣,就可以提供有针对性和个性化的商业服务,提高商务 网站的点击率,从而取得更大的商业利益。(下转 第 1 2 1页)维普资讯 http:/ 第 7 期 樊晓香:任务调度问题机制设计 1 2 1 施构成。*目 标函数记为g(x,)=m a x 。J *代理i 的值记为 (,;)=一。j *配置函数记为(j)=(),(i),支付 函数记为 P(i,)=p l(;,;),(;,;)。更进一步,给 出一个具体 的验证机制 补偿 一 红利机制。它由最优配置算法和支付函数构成。支付函 数是两项之和 补偿和红利。给一代理的补偿表示 为
21、 其值的相反数,即C i(i,;)=tj o 这使得代理的 j (j)效用等于其红利。代理 的红利表示 为 b (;,)=一 g(x(i),c o r r (;),;,;),其中C O l T i(o1 7,;,;)表示代 理 i 的相关 时间向量,定义为,、f )j 弋 且 z 因此,对于代理 i,该向量包含 i 处理任务的实际处理 次数和所有其它代理处理任务所宣布的次数。支付 函 数定义为 P (i,;):c i(i,;)+b i(i,;)。定理 4 补偿 一红利机制是任务调度问题的严格 真实实施。事实上,由于代理的效用等于其红利,当他在最短 时间内处理任务时,效用最大。又因为配置算法是最
22、优 的,所以找到了依赖于所宣布类型而时间花费最小化 的配置。如果代理说谎,那么时间花费就增加。由此,宣 布真实类型是唯一的最优策略l 6 J。如果所有的代理都 执行最优策略,那么就获得了最佳可能的时间花费。例如:J 1 J 2 J 3 A 1 0 3 0 4 5 A2 l 0 o 6 0 1 0 o 考虑图中的类型矩阵 。首先假设两个代理是诚(上接第1 1 8页)实的。这个例子中的最优分配是 ,2 ,j 2 ,时间 花费是 6 0,因此给予每个代理的红利是 一6 0。考虑下 面的情况:代理 1 试图“丢掉”3,宣称 t 为 2 0 0。因此“最优”的时间花费减少到 1 0 0,结果每个代理的红
23、利 减少到 一1 0 0。同样地,当代理 1 试图“赢得”2,宣称 t 为4,它的红利减少到 一8 5。如果代理 1 是“懒惰的”,在 1 0 0 个单位时间内处理任务,那么它的红利从 一6 0减 少蛩l 一1 0 0。4 结束语 任务调度问题的讨论强调了分布计算中的调度问 题。在这些机制的讨论中,随机机制比确定机制好,模 型延伸到验证机制也似乎是一个非常自然的延伸。未 来的研究仍潜在着三个方向:一是对所提出的更严密 方法进行复杂性研究;二是运用机制设计的其它概念,在分布计算中提 出一些 其它 的 问题;三是研究 如何 以 分布方式实施机制。参考文献:1 Nis a n N,R o n e n
24、 A A lg o ri t h mi c me c h a n i s m d e s i g n J G a i n e s a n d E c o n o mi c B e h a v i o r,2 0 0 1,3 5:1 6 61 9 6 2 Ma s-C o l e l l,V t o FtMD,G r e e nJ R Mi c r o e c o n o mic T h eo r y M O x f o r d:O x f o r dU n i v e r s i t yP r e s s,1 9 9 5 3 迈尔林 R 博弈论 M 北京:中国经济出版社,2 0 0 1 4 樊
25、晓香,胡茂林 基 于 VG C机制 的最小支撑树问题研究 J 微机发展,2 0 0 5,1 5(8):1 4 2 1 4 4 5 Nis a n N A l g o ri t h ms f o r s d fi s h a g e n t s C I n T o a p p e a r i n Pr o c e e d i n g so f t h e 1 6 t hS y mp o s i u m O F t Th e o r e t i c a l As p e c t so f C o mp u t e r S c ienc e T ri e r,G e r m a n y:s Ft ,
26、1 9 9 9 6 张维迎 博弈论与信息经济学 M 上海:上海人民出版 社,1 9 9 6 7 奥斯本 M J,鲁宾斯坦 R 博弈论教程【M 北京:中国社会 科学出版社,2 0 0 0 3 结束语 由于不确定性问题的研究具有现实意义,不确定 性推理方法成为人工智能领域研究的重点课题。文中 通过将主观贝叶斯应用到对网站 We b日志的点击流 数据分析系统中,说明了它在实际应用中的理论和研 究价值,但由于其推理的复杂性,涉及推理方向、推理 控制策略、不确定性知识的表示、不确定性的更新、结 论的可信度等要素,在实际应用 中还需根据领域问题 的实际特点,不 断进行深入研究,完善不确定性推理方 法。参考
27、文献:1 王万森 人工智能原理及其应用 M 北京:电子工业出版 社,2 0 0 2:3 5 6 4 2 余东峰,孙兆林 基于贝叶斯网络不确定推理的研究 J 微型电脑应用,2 0 0 4,2 0(8):6 8 3 李强,徐建政 基于主观贝叶斯方法的电力系统故障诊 断 J 电力系统 自动化,2 0 0 7,3 1(1 5):4 6 5 0 4 饶浩 利用主观贝叶斯方法进行不确定性推理 J 韶关 学院学报,2 0 0 4,2 5(6):6 9 5 蔡榆榕 点击流分析技术在网上评教系统中的应用 J 实 验室研究与探索,2 0 0 6,2 5(1 2):1 5 4 1 一 l 5 4 2 维普资讯 http:/