《2022年通元智能搜索引擎产品白皮书宣贯 .pdf》由会员分享,可在线阅读,更多相关《2022年通元智能搜索引擎产品白皮书宣贯 .pdf(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、通元智能搜索引擎产品白皮书第 1 页 共 7 页通元智能搜索引擎(为中文打造的精准智能搜索引擎)产品白皮书通元软件版权所有,2006 http:/ 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 7 页 - - - - - - - - - 通元智能搜索引擎产品白皮书第 2 页 共 7 页目录1. 概述 . 31.1. 搜索引擎发展. 31.2. 通元智能搜索引擎简介. 31.3. 应用领域 . 42. 系统总体结构. 43. 四大亮点 . 53.1. 精准的中文分词算法.
2、 53.2. 智能搜索 . 53.3. 100%查全率 . 53.4. 支持多种数据源. 54. 七大特色 . 54.1. 极高的检索性能. 54.2. 非结构化文档统一检索. 64.3. 增量索引和自动索引. 64.4. 可以任意排序. 64.5. 全面支持Web 服务 . 64.6. J2EE 平台的检索引擎 . 64.7. 管理方便,使用简单. 65. 系统环境要求. 76. 成功案例 . 7名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 7 页 - - - - -
3、 - - - - 通元智能搜索引擎产品白皮书第 3 页 共 7 页1. 概述1.1.搜索引擎发展通用搜索引擎在互联网发展初期, 网站相对较少, 信息查找比较容易。然而伴随互联网爆炸性的发展,信息资料随之爆炸增长,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。比如,搜索引擎的王者google,其数据库中存放的网页已达30 亿之巨。中国1.2 亿互联网用户,使用搜索引擎的用户数比例达70%以上。用户访问网站,最快捷的方式是搜索。搜索正成为我们互联网生活的重要组成部分。垂直搜索引擎随着搜索的快速发展,目前垂直搜索引擎正在迅速发展。垂直搜索引擎是相
4、对通用搜索引擎的信息量大、 查询不准确、 深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、 某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深” ,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。微软亚洲研究院负责搜索的一名技术专家说:75%的内容通用搜索引擎搜索不出来。这里面包含2 层含义:(1)网站结构不合理,网页对搜索引擎不友好;(2)由于信息在互联网是海量的,非结构化的信息需要经过结构化的梳理后才能更好的展现。如果梳理者能提供搜索,那样会更好。而垂直门户网站就是行业信息最好的梳理者。垂直搜索引擎提
5、供的主要内容不应该局限于普通的网页索引,而且包括商业信息的加工,结构化的信息。企业搜索引擎在信息技术飞速发展的今天,以信息为基础的组织或知识型企业焕发勃勃生机,但企业往往迷失在海量的信息面前束手无策,一方面是海量的企业内数据白白占据存储空间得不到应用, 一方面是为了寻找决策用数据,又投入大量资源,造成两方面的浪费。其实运用企业搜索引擎,找到企业需要的东西,是种解脱,也是种趋势。1.2.通元智能搜索引擎简介通元智能搜索引擎(Gpower SmartSearch) ,融合了高效的全文检索引擎和非结构化文档(Word、HTML 、PDF 等)分析技术,可轻松实现本地文件系统检索、数据库精准检索和一个
6、(或多个)网站的站内搜索。所支持的数据源包括:文件系统、Internet 网站、关系数据库、 FTP 服务器等。 Gpower SmartSearch 通过内嵌的Spider,能定期监控网站、数据库等信息变化情况,对发生变化的信息进行增量索引、差量索引。在检索时,不仅能够对数据源内容进行全文检索,而且还能对网页、office 文档的各类属性进行特征检索。高级版本还支持拼音检查、 相关词检索以及中英文单词拼写检查等高级功能。Gpower SmartSearch 能为用户提供有价值的信息检索服务,是一个功能强大其稳定高效的企业级搜索引擎。名师资料总结 - - -精品资料欢迎下载 - - - - -
7、 - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 7 页 - - - - - - - - - 通元智能搜索引擎产品白皮书第 4 页 共 7 页1.3.应用领域站内检索大部分网民在第一次访问一个网站的时候,往往是首先进行站内搜索,如果搜索结果没有他们想要的, 则有 13的消费者会马上离开,去别的网站寻找。 Gpower Enterprise Search可为网站,建立一套站内搜索,方便用户在网站海量数据中快速查找信息。垂直搜索引擎目前, 垂直搜索引擎正成为互联网发展的下一个热点。比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人
8、才搜索、地图搜索、mp3 搜索、图片搜索。采用 Gpower Enterprise Search,实时索引企业已有的资料库,并结合互联网信息抓取技术,成为构建垂直搜索引擎的基础。企业搜索企业内部有各种文件、OA 系统、客户关系管理系统等多种资料,采用Gpower Enterprise Search,为企业搭建统一的信息检索门户。2. 系统总体结构一个好的搜索引擎,就是要精确、快速找到客户想要的信息,具体表现为极高的准确性查全率,能确保满足要求的每笔资料都能检索到智能性,能主动猜测用户的意图支持多种数据源,包括文件、网页、数据库名师资料总结 - - -精品资料欢迎下载 - - - - - - -
9、 - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 7 页 - - - - - - - - - 通元智能搜索引擎产品白皮书第 5 页 共 7 页3. 四大亮点3.1.精准的中文分词算法采用与清华大学合作开发的分词算法,支持对中文、英文、数字的混合分词。中文分词有效地消除中文歧义,中文单词识别准确率达到99以上。智能识别中文人名单词,数量词, Email 、 URL等信息,为用户提供更精准的检索结果。3.2.智能搜索采用相关度分析技术,使相关度高的结果排在前面,低的排在后面。 对检索单词进行智能提示:包括拼写检查、相关词建议等,有效的帮助用户找
10、到想要的信息。拼音检索,方便客户的查询输入。二次检索,逐步缩小结果范围,锁定自己需要的结果。3.3.100% 查全率结合智能分词技术和字词混合技术,确保查询结果无一漏掉。查询结果无论多少,都能检索到。 Google 只有前 100 页, baidu 只有前 76 页。3.4.支持多种数据源系统除了支持文件系统、Internet 网站,还能对主流的关系数据库(Oracle,SQL Server,DB2 等) 、FTP 服务器等进行索引。其灵活的数据源接口可以扩展,如对邮件系统、知识库等进行检索。4. 七大特色4.1.极高的检索性能在 G级数据集合上达到亚秒级检索速度支持大量的并发用户检索增量索引
11、,确保索引速度快索引空间膨胀率0.5 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 7 页 - - - - - - - - - 通元智能搜索引擎产品白皮书第 6 页 共 7 页4.2.非结构化文档统一检索可以支持检索静态网页、动态网页、 文件系统的目录文件等。支持对各种格式化文档的检索 (如 PDF,Word,Excel, PPT 等文件 )。4.3.增量索引和自动索引采用增量更新方式对内容进行更新,即每次检查数据变化时,只对新添加或发生变化的数据进行更新,索引性能明显
12、优于只能进行完全更新的系统。系统维护管理工具采用自动和人工两种方式,支持远程维护和管理,通过设置任务计划可以实现远程无人值守的维护更新托管方式。更新及时, 可以达到分钟级自动监测,支持增量更新,确保检索最新的资料。4.4.可以任意排序对于输出结果,可以根据字段进行排序,比如相关度、点击率、日期等,方便用户快速找到需要的资料。这是与google、baidu 等搜索引擎重要区别的特征系统默认排序按照相关度排序,相关度排序以检索词与网页的相关性为依据对检索结果排序,相关性是对词频、词位(词在文章中出现的位置)、以及文件大小等因素综合评价的结果;时间排序则可以保证把最新的数据优先输出。4.5.全面支持
13、 Web服务系统全面支持Web服务,可以方便与各个系统(包括.NET系统)集成, 100% 满足企业、政府检索的需要。支持XML输出,可应用于RSS 。开放的 API,支持二次开发。4.6.J2EE平台的检索引擎采用纯 Java 语言开发,全面支持J2EE,可运行于Windows、UNIX、Linux 平台,在内核上采用先进的多级索引、缓存技术,性能卓越。是唯一全面支持J2EE平台的搜索引擎。安全、稳定是J2EE的最大特色。4.7.管理方便,使用简单采用 B/S 架构, 维护管理端用浏览器即可,无需安装任何客户端。管理方便,对于数据库索引提供配置向导。检索显示模板任意定制,可视化编辑器。在配置
14、好初始的数据源后,系统可以定时更新数据源中发生变化的信息,不需要人工干预。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 7 页 - - - - - - - - - 通元智能搜索引擎产品白皮书第 7 页 共 7 页5. 系统环境要求操作系统: Windows2000 、Linux 、Unix 等各种平台应用服务器:Tomcat、WebSphere、Weblogic 最终用户端:MS Internet Explorer 5.0 以上6. 成功案例国家卫生部中国旅游网山东联通北京旅游局海淀区政府北京房山信息网北京水务局名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 7 页 - - - - - - - - -