《2022年全文检索产品白皮书 .pdf》由会员分享,可在线阅读,更多相关《2022年全文检索产品白皮书 .pdf(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、北京线点科技有限公司全文检索产品白皮书标准模版编号 : M03_02_05 www.xd- 线点科技版本 : V1.02 日期 : 2011-9-5 第 1 页 / 共 12 页全文检索产品白皮书北京线点科技有限公司二零一一年名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 12 页 - - - - - - - - - 北京线点科技有限公司全文检索产品白皮书标准模版编号 : M03_02_05 www.xd- 线点科技版本 : V1.02 日期 : 2011-9-5 第 2
2、 页 / 共 12 页目录一系统概述 . 31.关于线点 . 32.产品概述 . 4二技术框架 . 5三产品功能 . 7四系统特点 . 81.多操作系统、多平台、多数据库支持. 82.支持多数据源检索. 83.智能化的检索服务. 84.海量数据高效处理. 85.中文分词技术. 96.搜索结果多样化展现方式. 97.支持多种语言开发接口,与网站无缝集成 . 98.完善的非结构化数据管理. 99.提供丰富检索语法. 910.拼音检索与概念检索. 1011.索引自动检测与修复. 1012.高可用系统负载均衡/集群 . 1013.数据加密与数据传输安全SSL/LDAP. 1014.分布式系统支持. 1
3、115.操作简易、维护方便. 11五系统硬件要求. 11六性能指标 . 11名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 12 页 - - - - - - - - - 北京线点科技有限公司全文检索产品白皮书标准模版编号 : M03_02_05 www.xd- 线点科技版本 : V1.02 日期 : 2011-9-5 第 3 页 / 共 12 页一 系统概述1. 关于线点线点科技是国内领先的企业内容管理解决方案供应商,为中关村高新技术和国家双软认证企业 ,并通过了 ISO
4、9001质量管理体系认证, 在金融、电信、政府、IT、教育等众多行业拥有良好的声誉和品牌影响力。线点科技的技术研发中心拥有众多的搜索引擎领域专业人才,致力于搜索引擎技术及相关产品的研发,以企业内容管理应用为导向,以全文检索、搜索引擎、中文语言知识处理三大核心技术,为客户提供优质专业的产品、服务和解决方案。线点科技拥有一支朝气向上、具有创新拼搏精神的团队。通过多年的努力,客户遍布全国各地,其中有多个世界五百强企业,及国内主要的软件厂商和集成商,主要客户包括摩托罗拉、诺基亚、宝马中国、中国移动、上海市知识产权局、中国船级社、江苏省公安厅、广东省公安厅、用友软件、宝信软件、港澳资讯、中投证券、赶集网
5、等。线点科技的公司理念是“人才为本,科技为先”,坚持“品质第一 ,服务至上”的服务宗旨,以创新实干的姿态,高效而团结的精神,凭借多年累积的技术实力及丰富的经验,为每一个客户提供专业、贴切、快捷、规范的服务。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 12 页 - - - - - - - - - 北京线点科技有限公司全文检索产品白皮书标准模版编号 : M03_02_05 www.xd- 线点科技版本 : V1.02 日期 : 2011-9-5 第 4 页 / 共 12
6、页2. 产品概述XDFullsearch是线点科技于 2005年即开始研发的一个强大的,高性能的 JAVA企业级搜索引擎产品,在线点的企业级搜索平台上,你可以搜索出你企业所有相关的内容包括网站、邮箱、ECM, CRM。XDFullsearch 使用一种新的模式来实现分布式和集群功能, 通过扩展计算能力,能够支持上千G 文档,完成复杂的并行运算,提高系统的可用性。它支持超过15 种语言的多语言搜索,能够集成文档自动分类和聚类功能。可以通过采集器为索引库定制数据来源,采集器通过插件的方式扩展。默认提供数据库、邮件、本地文件系统、网络文件系统、FTP、Domino、各类数据库、 Access的采集器
7、。 XDFullsearch 通过作业调度系统实现了任务的自动化采集、能够增量索引,支持数据更新,能够通过可视化的方式对索引字段进行管理。XDFullsearch 能够很容易的集成Hadoop 和HBase。此外它还开发多种编程语言的API 包括: JSP 、PHP、Java 、Python、C#等等。在六年的产品销售和完善过程中,XDFullsearch 可以在各种复杂的网络和应用环境中工作, 当前,XDFullsearch 在国内的装机量已经达到了5000 台服务器以上,总数据量在20PB(1PB=1000T)以上,有 20 家以上世界五百强客户,有2000家以上企业 /政府客户选择使用线
8、点的XDFullsearch 产品。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 12 页 - - - - - - - - - 北京线点科技有限公司全文检索产品白皮书标准模版编号 : M03_02_05 www.xd- 线点科技版本 : V1.02 日期 : 2011-9-5 第 5 页 / 共 12 页二 技术框架系统体系架构在 XDFullSearch 的应用模型中, 主要是在数据层 (数据库、文档和各种数据源)与业务应用层建立了一个索引数据结构,将各种数据在索引中
9、建立隐射,而业务系统通过调用接口访问索引,来实现对底层数据的访问,调用等等。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 12 页 - - - - - - - - - 北京线点科技有限公司全文检索产品白皮书标准模版编号 : M03_02_05 www.xd- 线点科技版本 : V1.02 日期 : 2011-9-5 第 6 页 / 共 12 页系统技术架构从上图中可以看到,线点科技全文检索产品构建于J2EE 平台,继承了它跨平台和安全的特性。整合索引各类应用系统数据、外
10、部信息库、自建信息库、等多种信息资源;线点科技检索子系统作为内容管理服务模块,实现内容的个性化搜索服务。整个系统架构拥有很强的扩展性,并对用户开放web service接口。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 12 页 - - - - - - - - - 北京线点科技有限公司全文检索产品白皮书标准模版编号 : M03_02_05 www.xd- 线点科技版本 : V1.02 日期 : 2011-9-5 第 7 页 / 共 12 页三 产品功能(1) 提供全方位
11、检索手段, 包括外部特征与正文内容的各种逻辑组合检索、位置检索、二次检索、渐进检索、模糊检索、历史检索、词根检索、大小写敏感检索、概念检索、对检索结果按与检索表达式的相关性程度排序等。实现精确计算,报告准确的检索记录数。(2)支持对检索结果的各种排序:基于文章内容与检索表达式的相关度计算的相关性排序;基于一个或多个特征属性的字段排序。(3)支持检索结果的统计和浏览(4)提供动态索引,能够实时提供检索服务。即数据增删改时快速同步更新索引,而不需重建整个索引也无需局部重建索引。(5)支持按词索引、按字索引和字词混合索引。即适应不同应用环境的需求。(6)完善的非结构化数据管理。(7)支持多种数据源数
12、据的全文索引。可自动将关系型数据库中的数据导入全文数据库,如 DB2、 Oracle、 SQLServer、 MySQL 、 sybase 、Informix、Postgresql 、Access 、达梦数据库、人大金仓数据库,并自动保持同步更新。(8)支持多种格式文档信息全文检索,文档格式二百余种,支持ftp 采集。(9)集成先进的中文自然语言处理技术,实现自然语言及智能扩展检索,如同义词、概念检索、拼音检索检索。(10)提供按栏目、网站、网站群的全文检索功能。(11)支持中英文的混合检索,支持日、韩、法、藏、维多语系。(12)允许使用文中的任意字、词、短语、句和片段进行检索(14)支持结构
13、化数据和非结构化数据的混合检索(15)支持对 domino、notes、documentum、Quickr 等多个系统的集成名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 12 页 - - - - - - - - - 北京线点科技有限公司全文检索产品白皮书标准模版编号 : M03_02_05 www.xd- 线点科技版本 : V1.02 日期 : 2011-9-5 第 8 页 / 共 12 页四 系统特点1. 多操作系统、多平台、多数据库支持1)支持各种主流操作系统和主流
14、开发平台,如Windows、Linux;并支持主流开发平台,如Java 、.Net、 PHP、asp、flex;2)支持多种数据源数据的全文索引。可自动将关系型数据库中的数据导入全文数据库,如DB2、Oracle、SQLServer、MySQL、sybase 、Informix、Postgresql 、Access 、达梦数据库、人大金仓数据库,并自动保持同步更新。2. 支持多数据源检索除了基于数据库的搜索以外,线点科技全文检索产品还支持文件检索方式,可以通过指定文件所在目录进行高效检索,并内置文件解析器,可对Text、HTML 、XML 、RTF、MS OFFICE 文档 (Word/Exe
15、cl/Powerpoint)和 PDF 文件自动解析。同时根据用户需要产品也支持从其它各类数据源获取要检索的数据内容,例如: XML 文件、 exchange邮件服务器等等其它数据池。3. 智能化的检索服务线点科技全文检索产品在全文检索过程中采用相关智能技术以达到迅速、准确、全面定位目标信息。例如采用相关度分析技术,使相关度较高的结果排在结果列表的前面,相关度较低的结果排在后面,并屏蔽无用和错误的信息;构造强大的语义规则库, 使系统能够正确地判断与检索词相关的同义词、近似词、上位词、下位词,帮助用户判断结果的相关度,并进行进一步的查询;支持完善的信息分类体系,对检索结果自动分类或者信息聚类;提
16、供智能化的概念扩展查询等。通过这些技术,能够满足大多数智能化搜索需求。4. 海量数据高效处理线点科技全文检索产品不仅提供了快速检索功能(在千万级数据下,全文检名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 12 页 - - - - - - - - - 北京线点科技有限公司全文检索产品白皮书标准模版编号 : M03_02_05 www.xd- 线点科技版本 : V1.02 日期 : 2011-9-5 第 9 页 / 共 12 页索能在 0.5 秒钟之内完成),同时也有着高效
17、的海量数据处理能力。每小时能处理百万的数据库数据, 或是几十万篇的文档。 包括中文的分词和建立数据索引。我们的产品在多个大型项目中经过了实际的检验,成功实施过多个超过5 千万数据规模的项目。5. 中文分词技术中文分词是搜索引擎必须具备的技术之一,应用中文分词技术才能使搜索结果更加符合用户习惯,更加接近用户的期望结果,线点科技全文检索产品集成了中文分词技术,并有着300 万词库的支持,用户也可以根据自己的需要和行业特色来添加和维护词库。中文分词技术的准确率和召回率都达到96%以上。6. 搜索结果多样化展现方式无论是数据来源于数据库中,或者是各类文件,对于搜索的展示结果,用户可以通过接口或委托线点
18、科技开发进行个性化、多样化的展现, 也可以类似数据库那样,对于数据字段进行自由调用查询和展现。7. 支持多种语言开发接口,与网站无缝集成线点科技全文检索产品以标准的WebService方式提供多种语言开发接口, 支持的语言包括 .NET,JAVA,PHP、flex 等,可与各类 WEB 应用进行无缝集成。同时提供完善的二次开发API 手册帮助及应用示例。8. 完善的非结构化数据管理实现非结构化和结构化数据的统一管理和检索;核心级支持 Unicode(UTF8) ,多语言数据的管理和检索。9. 提供丰富检索语法结合搜索业务的需要,线点科技全文检索产品提供丰富的检索语法支持,包名师资料总结 - -
19、 -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 12 页 - - - - - - - - - 北京线点科技有限公司全文检索产品白皮书标准模版编号 : M03_02_05 www.xd- 线点科技版本 : V1.02 日期 : 2011-9-5 第 10 页 / 共 12 页括多字段组合查询、多字段组合排序、支持模糊匹配查询、支持大于,等于,小于,不等于操作符、支持*?等模式匹配,支持位置运算符,字符串的先后顺序、字符的后方截词、中间截词等等。也可以根据用户需要定制开发特殊检索规则。10. 拼
20、音检索与概念检索拼音检索指的是在系统中输入拼音即可找到对应的中文词语内容,这其中包含了拼音纠错、多音字处理的功能。概念检索体系中,词之间的关系将以概念进行来划分,通俗地说是以词义或语义来进行相关度判断,而不是词语的中文文字。通过概念检索更能够准确地把握用户检索意图,提高用户的满意度,例如用户检索“手机”,那么将提示“移动电话、 Mobile”等多个概念。11. 索引自动检测与修复XDFullSearch 的数据检测机制可以自动修复损坏的数据,最大程度的保证系统可用性。12. 高可用系统负载均衡 /集群XDFullSearch 产品完全支持系统负载均衡/集群部署模式,可以支撑电信级系统的运用13
21、. 数据加密与数据传输安全SSL/LDAP 为了保障用户数据的安全性, XDFullSearch 的数据在存储上采用加密存储方式,防止数据的外泄,在传输上支持SSL 的安全传输方式,支持HTTPS 安全访问协议。XDFullSearch 支持 LDAP (Lightweight Directory Access Protocol)协议,LDAP 提供了一种国际通用的目录访问标准,可以在任何计算机平台上,用很容易获得的而且数目不断增加的LDAP 的客户端程序访问LDAP 目录。而且也名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - -
22、名师精心整理 - - - - - - - 第 10 页,共 12 页 - - - - - - - - - 北京线点科技有限公司全文检索产品白皮书标准模版编号 : M03_02_05 www.xd- 线点科技版本 : V1.02 日期 : 2011-9-5 第 11 页 / 共 12 页很容易定制应用程序为它加上LDAP 的支持。意味着XDFullSearch 可以与任何支持 LDAP 协议的软件或系统进行数据通信。14.分布式系统支持线点科技 XDFullSearch 产品支持分布式,并且在各个功能模块均可以实现分布。通过管理控制台强大的索引管理功能,管理人员可以针对数据域制定优化方案,在存储
23、空间和响应速度以及内存占用之间调整平衡,以达到最优性能。XDFullSearch 使用多级缓存检索结果的策略实现海量数据的快速响应,如搭配高性能服务器,则效果更加明显。XDFullSearch 支持与 Hdoop、Hbase 、lustre 等分布式系统集成部署。15. 操作简易、维护方便线点科技全文检索产品提供完整的后台界面,所有配置和操作都可以通过IE访问产品后台进行,操作简易,维护方便,同时也不影响服务器的安全性。五 系统硬件要求主要参数最低配置推荐配置CPU P4 2.0 双核 2.8 内存2G 4G 以上硬盘80G 300G 以上六 性能指标主要参数详细要求支持数据量系统数据支持量1
24、0 亿(上百T) 单台服务器支持量500 万或 50G文档平均查询响应时间0.5 秒每天索引能力500万 (单服务器)名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页,共 12 页 - - - - - - - - - 北京线点科技有限公司全文检索产品白皮书标准模版编号 : M03_02_05 www.xd- 线点科技版本 : V1.02 日期 : 2011-9-5 第 12 页 / 共 12 页数据更新间隔时间10 分钟 - 2 小时可负载访问搜索量100万 PV/日系统支持并发数量300 单台并发数量50 支持用户数100万名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 12 页,共 12 页 - - - - - - - - -