《简述申请基金项目的主要内容、社会经济意义、目前的进展情况、申.docx》由会员分享,可在线阅读,更多相关《简述申请基金项目的主要内容、社会经济意义、目前的进展情况、申.docx(34页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精品齐鲁行业资料 欢迎下载 赵鲁宾编辑高新技术企业项目可行性分析报告目录1.企业概况51.1企业基本情况51.2科技力量51.3产业化及研发环境71.4企业长远发展规划及目标82.互联网咨询协调过虑器及智能检索支援系统项目论述92.1互联网咨询协调过虑器及智能检索支援系统技术可行性分析92.1.1国际市场现状及产品分析92.1.2智能检索技术的概述102.1.2.1协调过滤(Collaborative Filtering)技术造就的个性化服务102.1.2.2检索服务的个性化222.1.2.3自动收集技术222.1.2.4自动定点观测技术222.1.2.5系统的综合232.1.2.6系统的运用
2、形态232.2互联网咨询协调过虑器及智能检索支援系统市场调查和需求预测252.3项目实施方案262.3.1开发实施方案262.3.2营销计划实施方案282.4项目实施目标282.5投资估算282.6经济、社会效益分析282.7项目可行性分析结论284 管理信息化系统通用化平台及业务逻辑自动生成工具系统项目论述294.1 管理信息化系统通用化平台及业务逻辑自动生成工具系统技术可行性分析294.1.1 开发背景294.1.2 平台模式294.1.3 开发方案314.2 管理信息化系统通用化平台及业务逻辑自动生成工具系统市场调查和需求预测334.3项目实施方案334.3.1 开发实施方案334.3.
3、2 营销计划实施方案334.4 项目实施目标334.5 投资估算344.6 经济、社会效益分析344.7 项目可行性分析结论34 WBT(Web-Based Training)系统项目论述35.1 WBT(Web-Based Training)系统技术可行性分析355.1.1 WBT系统的诞生背景355.1.2 计算机辅助教学的理论365.1.2.1 建构主义学习与教学理论在计算机辅助教学中的实现模式365.1.2.2 计算机辅助教学的现有模式37(1) CBT(Computer-Based Training)模式37(2) 初级WWW模式37(3) 具有管理机能的WWW模式38(4) 统一规
4、格的具有管理机能的WWW模式385.1.2.3 WBT(Web-Based Training)系统模式的规格39(1) AICC(Aviation Industry CBT Committee)39(2) IMS(Instructional Management System)39(3) IEEE LTSC(Learning technology Standards Committee)39(4) ADLNet(Advanced Distributed Learning)40(5) WBT(Web-Based Training)系统模式规格之间的关系405.1.3 WBT系统的构成理论415.
5、1.3.1 CMI的管理体系415.1.3.2 WBT规格下的CMI等级425.1.3.3 CBT机能425.1.3.4 CBT,CMI的界面425.1.3.5WBT系统实装形态435.1.4 WBT的应用范围475.1.5 WBT的特点485.1.6 WBT发展现状485.2 WBT系统的构筑平台系统市场调查和需求预测485.3项目实施方案485.3.1 开发实施方案485.3.2 营销计划实施方案495.4 项目实施目标495.5 投资估算495.6 经济、社会效益分析495.7 项目可行性分析结论491. 企业概况 1.1 企业基本情况公司是一家由海外归国人员和国内的计算机界精英共同创办
6、的追求高科技、重视实际应用的公司。企业的法定地址为公司现有员工人。注册资金为人民币、总资产为人民币。企业登记注册类型有限责任公司。1.2 科技力量(1) 主要人员构成情况职务姓名学历主要经历技术专长王立群博士1 1980至1984 西安电子科技大学2 1984至1989 中国计算机系统工程研究所3 1989至1990 日本日立制作所4 1990至1992 夏普多媒体研究所5 1992至1994 富士通网络事业部6 1995至1996 日本NTT软件公司7 1997至2000 日本NTT通信研究所8 2000至2001日本共达网络有限公司9 2001至2002-2 北京共达公司总经理计算机操作系
7、统,计算机应用系统(物流系统,MIS系统,CRM系统,MRP系统),计算机图像处理,计算机通信技术,互联网技术,软件工程。高洋大学本科1 1994至1998 北京大学2 1998-8至2001-5 日本UNSYS有限公司3 2001-6至2002-2 北京共达公司董事兼系统开发部部长计算机操作系统,计算机应用系统(物流系统,MIS系统,CRM系统,MRP系统),计算机图像处理,计算机通信技术,互联网技术,软件工程。李发春大学本科1 1994至1998 北京大学2 2000-8至2001-6 日本共达网络有限公司3 2001-6至2002-2 北京共达公司董事兼总工程师计算机操作系统,计算机应用
8、系统(物流系统,MIS系统,CRM系统,MRP系统),计算机图像处理,计算机通信技术,互联网技术,软件工程。吴涛硕士1 1994至1998 北京大学2 1998至2001-4 中国科学院3 2001-5至2002-2 北京共达公司产品开发科科长计算机操作系统,计算机应用系统(物流系统,MIS系统,CRM系统,MRP系统),计算机图像处理,计算机通信技术,互联网技术,软件工程。戴永继大学本科1 1994至1998 中国北京大学2 1998至2000-5 中国石油化工研究院3 2000-5至2000-4日本共达网络有限公司4 2000-4至2002-2北京共达公司工程开发科科长计算机操作系统,计算
9、机应用系统(物流系统,MIS系统,CRM系统,MRP系统),计算机图像处理,计算机通信技术,互联网技术,软件工程。公司的主要人员均具有良好的基础知识和理论知识,并具有较长时间的国内外研究开发实践,具有良好的外语水平。不断关注掌握国外技术新动向,同中国具体实际相结合,开发出符合实际需求的实用产品,是我们追求的目标。(2) 企业科研队伍知识结构、人数、科技成果、新产品开发情况。公司现有科研开发人员*名,均具有大学本科以上的学历。并伴随公司的发展,计划从现地陆续招收优秀人才。公司的主要人员通过多年的研究开发实践,通过长年学习和调查的日积月累,通过较长时间的讨论和实验,已积累了下述2个项目的大量资料和
10、代码。公司准备用1到2年的时间,在承接企业信息化建设项目的同时,完成这2个项目的产品化。项目1:互联网咨询协调过虑器及智能检索支援系统项目2:管理信息化系统通用化平台及业务逻辑自动生成工具系统1.3 产业化及研发环境企业生产地址、研发地址研发环境主要是计算机及其关联设备。1.4 企业长远发展规划及目标前2年为稳定基盘阶段,后2年以扩大发展为中心。第一年第二年第三年第四年人数10人20人30人40人销售额(RMB)180万250万500万1000万第一年以我们利用业余时间开发的企业网构筑框架为中心,承接国内的企业网开发项目,并不断完善企业网构筑框架,使其成为管理信息化系统通用化平台及业务逻辑自动
11、生成工具。自主产品首先以管理信息化系统通用化平台及业务逻辑自动生成工具和互联网咨询协调过虑器及智能检索支援系统为主进行投入开发。2. 互联网咨询协调过虑器及智能检索支援系统项目论述 2.1 互联网咨询协调过虑器及智能检索支援系统技术可行性分析2.1.1 国际市场现状及产品分析人类进入二十世纪之后,有2种不同概念的高速公路得到了迅猛的发展。这2种不同的高速公路,极大地改变了人类的生活方式以及思维方法。其中,一种是现实生活中交通环境的高速公路车辆行驶的高速公路(Highway),另一种是信息社会中的交通要道情报高速公路(Information Highway)。由于计算机技术的迅速普及和WWW技术
12、即互联网技术的不断进化,情报高速公路得到了前所未有的促进和发展。与此同时,情报高速公路的完善反过来也极大地促进并影响了计算机技术和互联网技术的进一步普及。这种互相促进互相补充的关系,终于造成了本世纪“工业革命”的爆发。据截止到2000年12月31日的统计表明,中国国内连接到互联网上的计算机数达到了892万台。ISP(Internet Service Provider,互联网服务商)和ICP(Internet Commerce Provider,互联网商务贸易商)的数目达到了数万个,其客户数达到了2250万人。到年,我国联网计算机将达到万台,数据、多媒体和互联网用户将达到亿户左右,上网人口普及率
13、将达到左右。但另一方面,从至今为止ISP所能掌握的技术和其所能提供的服务来看,各家之间并没有实质性的不同。因此,各家服务商围绕着通信速度、用户所能享受的磁盘空间、特别是上网价格方面,展开了激烈的竞争。随着硬件成本的不断下降,最终必将导致价格之战的恶性循环。纵观互联网的发展过程,可以得出以下的结论:没有鲜明特色的ISP,必然会被时代所淘汰。因此,经济概念上的ISP必将向ASP(Application Service Provide,应用服务商)的方向进化,这也就是ASP成为现今的热门话题的最重要的原因,也就是说能提供满足用户千变万化的要求的真正的服务才能获得生存的空间。据某些分析资料,在二十一世
14、纪IT产业将流行三个不同的C。第一个C是EC(Electronic Commerce,电子商务)。第二个C是Communication(情报交流)。第三个C是Customize(灵活多变)。在本可行性报告中提到的互联网咨询协调过虑器及智能检索支援系统的着眼点直接涉及到了Communication和Customize,并间接影响到了Electronic Commerce。这个系统的目标是把强大的生命注入到ISP中去,使其进化成具有鲜明个性的ASP,从而使单纯的价格之战转化为互联网服务内容和水平的高层次的胜负较量。2.1.2 智能检索技术的概述2.1.2.1 协调过滤(Collaborative
15、Filtering)技术造就的个性化服务背景:当今世界,随着网络技术的发展,诸如WWW,Netnews,Mailing list等各种各样的情报源不断涌现,使得人们有可能从更多的情报源中收集信息。与此同时,大量的情报造成了信息的爆炸,使人们为了获得所需的情报不得不花费大量宝贵的时间,从而使情报收集变得近乎失去了意义。为解决这个问题,出现了各种不同的办法和方案。但同时也存在着共同的问题:l 想要获得的情报虽然并不存在,但由于用户无法判断而还在执迷不悟地检索;l 想要得到的情报的确存在,然而由于方法不当而找不到这些信息;l 在情报检索过程中,收集到大量的洪水般的多余情报致使有用的信息被淹没;至今为
16、止,从互联网上获取信息有情报检索、情报过滤和浏览等几种方法。简述如下: 情报检索情报检索,即对检索关键字不断调整,判断其检索结果并将其反馈到关键字中去,最后,特定到所需的情报源之上。用户所指定的关键字直接影响到数据库的检索。数据库系统将符合条件的数据抽取出来送给用户,由用户自己去判断检索结果的满足度。用户的要求得到满足后,情报检索宣告结束。否则将会再次修正关键字,再度检索数据库力争逼近理想的结果。这个处理周而复始,整个过程就形成了人们所熟知的情报检索。对于情报检索来说,每个用户,每次检索过程都互不相关,完全是独立的。也就是说关心同一类情报的用户之间并不能交换情报,所以也无法形成信息共有,情报检
17、索的效率完全依赖于检索者个人的知识和熟练程度。 情报过滤情报过滤是指对所获得的情报而设定优先度,比如Mailing list就是一例。加入者众多的Mailing list,一个用户在一天之内完全有可能收到100件以上的电子邮件,而用户查看这些邮件必然要花费大量的时间。情报过滤就是为解决这个问题而发展出的技术。情报过滤是这样一个过程:用户可以事先指定代表不需要情报的关键字,过滤系统则将含有这些关键字的信息源排除出去。除此之外,用户亦可指定所需情报的关键字及优先顺序,过滤系统将根据这些要求把收集到的情报标上优先顺序再提供给用户。情报过滤系统就是这样一个选择情报的收集方法。和情报检索方法类似,使用情
18、报过滤系统的用户,相互之间是独立的,无法实行有效地情报共享,也做不到高效率的情报收集。用户根据自己的水平决定关键字,稍有不慎会导致将实际上所需要的情报拒之门外。综上所述,情报过滤与情报检索相同,欲实现高效的检索必须具有相当的熟练经验。 浏览浏览是指相关于Hypertext(即互联网的网页)的情报收集方法。一个具体的例子就是大家所熟悉的对各种WWW主页的检索。浏览的一个特点是某些场合下用户并没有明确的目的,在对各种主页进行浏览的过程中逐步获得明确目的的情报。浏览属于最困难的情报收集方法的一种。首先,用户并不知道他所需的情报是否存在。其次,用户很可能找不到他所需的情报。用户通过各种连接方式(Lin
19、k)去寻找情报,但对Link的选择可能导致他离所需情报愈来愈远。这个问题的发生,同样是因为浏览亦是相互之间独立进行的缘故。 因此,从上述网上获取情报的3种方法的说明上可以得出结论,独立进行情报收集的做法,造成了即使是关心同样内容的用户也无法实现情报共有/共享。而在现实世界里,对于关心共同话题,共同内容的用户来说,一个最重要的问题就是进行高效的情报交流和共享。但是十分遗憾的是传统的手法实现这种共有/共享是不可能的。相互间独立的情报收集是现有各种主要检索软件的致命伤,是一种不可取的方式。互联网的发展,迫切需要一个用于信息收集、具有智能的检索支援系统。为解决上述的问题,出现了协调过滤这样一种崭新的方
20、法。协调过滤法充分利用了他人的知识进行情报收集。而这些知识常常包含了间接、甚至直接解决问题的重要信息。这种做法大大减少了收集情报所需的时间和工作量。更具体地说,根据用户的爱好和要求,系统自动提供/推荐各类信息,也即推荐服务(Recommence Service)的方法。以下是日本的日经网络商务(Nikkei Net Business)举办的第9回互联网用户调查的结果(调查期间1999年11月18日12月2日)。调查提问.作为检索服务的一种,以用户输入的检索关键字为基准,向用户介绍有关网上商品销售网站(Web Site)的推荐(Recommence)型服务已经开始了。你想使用这类服务吗?请选择下
21、列合适的答案。回答年月1999年12月1999年6月1998年12月还从未使用过,看起来很方便,今后想利用。38.9%39.5%37.9%不知道是什么样的服务,无法表态。26.7%25.4%22.9%还从未使用过,因感到不必要,今后也不打算利用。18.8%20.2%24.0%已经使用过了,感到很方便,今后也准备继续利用。11.2%10.4%9.8%已经使用过了,感到没必要。今后不再利用了。3.7%3.9%4.6%其他0.8%0.6%0.8% 互联网活跃用户调查(日经BP出版社)据以上的调查结果,实际上用过情报推荐服务的用户占全体的14.9%,作为刚开始不久的服务来说这个数字不算什么,但想利用的
22、用户占50.1%,将全体的一半。从这个调查结果来看,推荐服务将在互联网今后的发展中起到举足轻重的作用。综上所述,在各种情报的收集活动中,通过使用协调技术,可以提高收集活动的效率。体现协调特点的情报收集的一个例子是mailing list。关心相同内容的用户参加mailing list,相互之间交换情报。请想象某用户就某个问题向mailing list的参加者进行询问,而参加者们或直接回答问题,或提供能对解决问题有帮助的情报及提示。这个过程即是一个相互协调的过程。与单独的情报收集相比,相互协调的方法能更有效地提高检索效率。技术构成要素协调过滤方法是基于情报流通传播,以提高收集效率为目标的情报收集
23、的方法。情报流通是指为持不同问题的用户自动寻找解决问题的情报;向持相同问题的用户提供推荐服务;需要寻找关注某特定问题的用户群,进而得到为解决问题所必需的信息。则是将这些用户的特征归纳起来,做到情报的交换。协调过滤方法则将上述的过程自然地融为一体。所以,我们可以为协调过滤做以下的定义。协调过滤(Collaborative Filtering):从人类的情报收集活动中,归纳抽象出其所对应的爱好,关心,意图等形态意识,并通过获取的收集情报及归纳抽象出的形态意识,对人类进行分类,实现类似人类间的情报交换的手段。另外,还有各种各样不同的定义方法。比如,1996年出现的协调过滤法研究系统Group len
24、s(协调过滤法最有名的研究系统之一),其开发者之一Paul Resnick有过如下的说明。“Guiding peoples choices of what to read,what to look at,what to watch,what to listen to (the filtering part),and doing that guidance base on information gathered from some other people(the collaborative)。”可翻译成下文:以从其他用户收集到的情报(协调部)为基础,向每个利用者提供“应该读什么”,“应该关注
25、什么”,“应该看些什么”,“应该听些什么”等建议(过滤部) 从上述的表述中可以看出,对各种各样的情报来说,人们的评价及这些情报在社会中的影响可以被用来判断情报本身的价值,以及决定是否值得被推荐,这也就是协调过滤法的一个最大的特征。正是基于这点,有时也称其为社会过滤法(Social Filtering)。 作为协调过滤方法的一种,为实现能从洪水般的情报中抽取用户必要的信息,推荐系统(Recommence System)常备使用。另外,为能实现利用者爱好的自动追踪及判断,Agent系统(Agent system)技术及人工智能技术的研究利用,也有很大的潜力。 协调过滤法用到的算法有以下几种:I A
26、ctive Collaborative Filtering(ACF)最初的协调过滤系统是Xerox公司的PARC研究所的电子邮件系统,由David Malts等人开发研究的Information Tapestry电子邮件系统,该系统被Lotus Notes 中的Printer部分所采用。该系统的特点是:彼此相识、指定范围内的用户通过相互指定,可以做到指定人与其认可的某一领域专家(被指定人)间的情报同步。II Automated Collaborative Filtering(ACF)正如其名称所示,系统会根据用户已有的评价值,对尚未处理的情报进行自动评价(预测),将得分高的情报主动向用户推荐。
27、自动评价的预测值则是根据其他用户和本用户的评价情报,采用皮尔森相关系数等相关算法而计算出来的。这种方法有它的缺点。由于归根到底是靠用户的评价值而进行推荐的,如果某个情报谁也没进行评价则永远得不到推荐。另一方面,评价数据不足时推荐的精度也受影响。另外,情报量和用户数(评价数)差距较大时,难以找到附近的用户等。MIT(麻省理工学院)的音乐情报推荐系统Ringo,明尼苏达大学的Netnews推荐系统Group lens等许多协调过滤系统都采用了这一种方法。III Feature Guided Automated Collaborative Filtering(FGACF)根据用户的爱好,从事的领域各
28、不相同这一现实,采用把作为过滤对象的项目群赋予属性情报,从而缩小问题的范围,提高推荐精度的方法即为FGACF法。Firefly Networks 公司(现已被MicroSoft公司收购)的Firefly采用了这个方法。纯粹的ACF基本上不考虑情报的内容,在情报量不断增大的时候仍把各种情报一视同仁,很容易造成错误的推荐。另外,存在着随情报量增大计算时间也增加的问题。为解决这些问题,事先把各种情报通过赋予属性情报的方法进行分类(Feature Guided),根据属性情报分组,将爱好相近,领域类同的有用情报尽早地向用户推荐。IV Content-Based Collaborative Filter
29、ing当主要以Web网页,Netnews信息等文章情报作为过滤处理对象的时候,同时结合情报内容(Contents)过滤处理和协调过滤处理两者长处的作法也逐步得到了完善和发展。近年来,以互联网的各种Web网页作为过滤处理对象,从文章中出现的各个关键词组出发,对系统中新登录情报进行预测评价的方法受到了广泛的关注。通过事先将各种情报分组的方法,达到提高协调过滤处理精度目的的手法得到了引人注目的发展。斯坦福大学(Stanford University) 的产品Fab,明尼苏达大学计算机科学工程系(Dept. of Computer Science and Engineering at the Univ
30、ersity of Minnesota)的Net Perceptions Inc.的产品Filterbots等都是文章情报基础的协调过滤系统的例子。上面提到的作为Netnews的推荐系统Grouplens也在把成为推荐对象的文章分成Newsgroup方面下了大的力量,所以从广义上也可以说是一个FGACF系统。除此之外,世界上各大学和公司也在研究利用情报的属性进行多变量解析的Cluster分析法自动地把项目分组,从而提高系统性能和精度。以上各种算法的实现,基于大量的传统数学模型,一种算法中可能包含有多种数学模型,也可能是某一算法对应于多种数学模型候补。从类别上可分成类似算法数学模型,分组算法数学
31、模型,自然语言分析数学模型等三类。关于这些数学模型情报,我们在下一节中有较详细的记述。协调过滤法的特点下表列出了协调过滤法的主要特点。优点缺点不依赖于情报的内容可解决仅靠一般方法而解决不了的情报过滤问题初期评价的问题(early rater problem)单纯的协调过滤法不能对新登录的情报进行评价预测。另外,对于登录的情报及新注册的用户而言,推荐的精度较差。易于发现重要情报互联网情报内容(contents)基础上的过滤法是对所有的情报不加区分,一视同仁地处理的。相比之下,协调过滤法,则可自动判别这些情报是否受到广大用户的认可。稀薄性问题(sparsity problem)能使协调过滤系统正常
32、发挥作用的理想条件是存在大量的,得到众多用户评价的情报。但现实往往是只能收集到很少一部分受到评价的情报。评价情报的反馈用户对情报的评价可将系统运营者的利益(如判断登载哪一类广告等)和用户的利益(获得有益情报)直接连接起来。孤独用户的存在问题(gray sheep)特别是在中小规模的网络内使用协调过滤系统时,有可能存在着与多数用户意见不同的孤独的用户。结果不够明确因为采用统计学的方法计算预测评价值,所以无法保证100%的准确性。由此而造成错误的过滤。 由上表可知,想开发成功的制品,就需要扬长避短,在前述的技术构成要素之上施行细致的调整。可以这样说,怎样将各种技术要素有机地结合成一个完整的系统,是
33、本系统商品化成败的关键。当今世界中协调过滤技术的应用现状近年来,做为取代传统的想方设法地搜索信息的方法,开始出现了一种从情报源主动向用户提供情报的方法,即推荐服务的方法。更值得注目的是以著名的,规模大的互联网提供商提供的检索引擎和电子商务(EC)服务为中心而逐步展开的个人服务。这些服务针对每个用户的不同特点进行调整,从而形成因人而异的情报提供方式。个性化服务和一对一服务(OnetoOne Service)具有相同的含义。这类服务建立了Web网页提供商和用户之间一一对应的关系,由此出发,进而大幅度提高服务质量。做为推荐服务和个性化服务的核心技术,协调过滤技术在1996年左右就被研究开发出来了。但
34、目前的现实是该技术的研究开发仍是以美国的大学和研究机构为主。处理中使用的各种数学模型系统内部使用的算法如下所示,所有算法都属于古典统计学的范畴之内。i:类似算法数学模型 类似算法:对某个对象而言,从对象集合中找出与其相类似的对象的算法. 以下列出各算法的方程式,并对各个符号一一说明. i=(i1,i2,.,ip); j=(j1,j2,.,jp); (max,min是的最大值和最小值) : if (mn= = 0) then = 0 ; else = 1 ; 以下的计算结果为的时候,值越小表示二者越类似;计算结果为的时候,值越靠近1表示二者越类似。 平均尤库里多距离的二乘法 平均距离法 最大值距
35、离法 二值距离法 Dice Coefficient法 rij=2 x|Kij|(|Ki|+|Kj|) Jaccardss coefficient法 皮尔森相关法ij= 限定皮尔森相关法ij= 斯皮尔曼相关法 改良二值距离法MapI (mn) = cmnMapU (mn) : if (mn= = 0) MapU (mn) = 0; else if (mn in topN ) /如果为重要属性 MapU (mn) =BIG; /BIG是大于”1”的定数。 else MapU (mn) = SMALL; /SMALL是小于”1”的定数。 dij=1rijii :群(Clustering)算法 即将相
36、类似的对象归为同一个群的算法.以下涉及的7种群算法都将分两步实现.第一步:对各个基本要素,使用10种距离计算值之一求出二者之间的距离.距离最近的两个基本要素成为一个新要素.基本要素被称为叶,新要素则被称为分支.第二步:实行递归处理.利用以下的方程式计算出与新要素间的距离,进而生成新要素。 下面用到2个基本方程式,方程式和系数的不同组合形成7种不同形式。 dxc=adxa+bdxb+dab+|dxa dxb (1) dxc2=adxa2+bdxb2+dab2+|dxa2 dxb2 (2) 方程式表示从a和出发,生成新要素,并求出与要素的距离。 群平均法利用方程式(2)。系数: a= na / n
37、c b= nb / nc =0 =0 重心法 利用方程式(2)。系数: a= na / nc b= nb / nc = (na nb)/ nc2 =0 最长距离法 利用方程式(1)。系数: a= 0.5 b= 0.5 =0 =0.5 可变法 利用方程式(2)。系数: a= (1-) / 2 b= (1-) / 2 =定数 =0 介质法 利用方程式(1)。系数: a= 0.5 b= 0.5 =0.25 =0 最短距离法利用方程式(1)。系数: a= 0.5 b= 0.5 =0 =0.5 Wood法利用方程式(1)。系数: a= (nx+na) / (nx+nc) b= (nx+nb) / (nx
38、+nc) =nx / (nx+nc) =0iii:分组(Grouping)算法 即将相类似的对象归为同一个组的算法。从现有的组里抽样获取要素,利用类似算法求出对象与组之间的距离,找出最为类似的组并将该对象归入该组。iv:自然语言解析算法 自然语言解析是指将对象文章按单词的单位分割,并将其生成一个个的标签(tag),进而选出必要的名词(如已知和未知的名词),计算出其出现频度,考虑其在文章中的位置,文章的长度等因素,并进行关键字重复度处理.在必要的时候,可提供禁用词汇的管理机能以及对现实生活中没有特别意义的名词不予登录(象对禁用语的处理一样)的机能.预计开发产品的特点 关于算法在对2.1.2中介绍
39、的协调过滤系统的各种算法和上一节中介绍的各种数学模型进行分析后,我们在前期开发中进行了大量的模拟实验。 首先,协调过滤的算法可以分成3类。 其一,Active Collaborative Filtering。利用这一技术,互相了解的用户之间可以相互指定,(当然有安全保密上的限制),获得彼此有用的信息(包含电子邮件)。可以和这个领域之内的专家保持同步。这次列在预计开发范围之内。 其二,Automated Collaborative Filtering 和Feature Guided Automated Collaborative Filtering。从效率和精度的角度多方分析的结果上看,Feat
40、ure Guided Automated Collaborative Filtering遥遥领先。因为本次开发准备採用FGACF。 其三,Content-Based Collaborative Filtering。这次准备分阶段实现。首先是以文章情报为对象,然后再考虑其它的媒介。 其次,对算法中使用的数学模型进行了分析。 在Cluster诸算法之中,Wood法和群平均法的精度较好。 分组计算方面,基本上是利用类似算法。分组所使用的类似算法中Jaccards Coefficient法,平均最小二乘距离法,改良二值距离法的精度比较理想。Clustering方法和分组算法的目的是相同的。Cluste
41、ring的特点是精度高,但处理速度较慢。分组算法则恰恰相反。可以靠系统控制参数来平衡这两种方法的使用,根据系统的规模灵活调整。 判别类似的对象有4种,即用户(属性)对用户(属性)的类似,文章(属性)对文章(属性)的类似,用户(属性)对文章(属性)的类似及关键字的类似。判断的对象不同,评价结果也各不相同。对于用户间的类似和文章间的类似来说,按Jaccards Coefficient法,平均最小二乘距离法,改良二值距离法距离法,皮尔森相关法的顺序,计算精度比较理想。而对用户和文章的类似来说,则按改良二值距离法,Jaccards Coefficient法,平均最小二乘距离法,皮尔森相关法的顺序,为计
42、算精度的顺次。关键字的类似考虑用统计学的方法去实现。另外,由于必须确定提供范围的域值,所以同距离算法相比,相关算法要适合得多。如果将上面几种方法组合起来使用,相信还会进一步提高推荐精度。 关于提供的服务对一般用户主要提供以下服务: 推荐服务:寻找和对象用户的相似用户,把对象用户未访问过的文章向其推荐; 提供类似文章服务:提供和对象文章类似的文章的一览; 检索结果的过滤服务:在检索结果的基础上,根据实施检索的用户的爱好,对结果进行挑选。 新到情报的推荐服务:根据各个用户的不同要求,在一定的时期内,把新到情报提供给用户; 用户特征指定服务:允许用户将其关注的单词/文章等在系统里登记或删除; 类似关
43、键字的提供服务:系统可提供与检索用关键字相类似的关键字一览表; 热门网页的提供服务:提供受欢迎的网页的地址; 个性广告的提供服务:对互联网服务商(ISP)来说,可根据用户的特点、爱好而主动提供恰到好处的广告;为管理操作的方便,同时也向系统管理员提供机能丰富的服务。 关于体系结构 采用适合于互联网WWW服务系统开发的Java语言,以Servlet的形式开发; 协调过滤系统属于Multi-Agent系统的一种,所以必须具有其分散处理的特性。本系统将采用计算机分散技术的标准-CORBA(Common Object Request Broker Architecture),来实现分散化处理; 采用DB
44、MS对情报进行管理。并利用JDBC与本系统其它部分相连; 自然语言的解析处理会占用系统相当多的时间,将尽可能采用C+语言,以库函数(LIB)的形式提供。与本系统其它部分的连接准备使用JNI; 本系统允许事先设定用户的特征情报,同时如即使不作任何设定,可根据用户操作处理的轨迹,系统将自动推测出用户的爱好及其迁移。但同时不准备以单纯的访问操作或检索关键字影响用户爱好的迁移,为此计划提供控制情报和相应的控制处理。另一方面,也将考虑系统的规模及负荷; 管理者可同时进行大批量文章的收集、保存处理,抽取文章的属性并对其管理。亦可从检索结果中,通过一般用户的访问操作来实现上述处理。但保存与否,可通过访问次数来控制; 关于其它本系统在参考2.1.3所介绍的协调过滤的特点和2.1.4所介绍的世界中使用现状(技术发展趋势,各种制品的优缺点)的基础上,将实现自己独特的调整手段。2.1.2.2 检索服务的个性化