《乐思网络信息采集系统.pdf》由会员分享,可在线阅读,更多相关《乐思网络信息采集系统.pdf(18页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、乐思信息采集系统乐思信息采集系统针对任意网页自动采集精确内容针对任意网页自动采集精确内容全球海量信息资源为您随心所用全球海量信息资源为您随心所用深圳市乐思软件技术有限公司http:/网络淘金网络淘金网络淘金网络淘金 G Go oo og gl le e采集全球因特网网页数据库,成就采集全球因特网网页数据库,成就800800亿美金市值的奇迹亿美金市值的奇迹 你想从因特网的公开信息中采集以下数据你想从因特网的公开信息中采集以下数据库从而获取企业情报与提高销售业绩吗?库从而获取企业情报与提高销售业绩吗?企业名录,产品资料企业名录,产品资料行业新闻,供求信息行业新闻,供求信息实时行情,论坛帖子实时行情
2、,论坛帖子网络博客,科研数据网络博客,科研数据关键问题关键问题 大量数据分散地在各个网站中以不规则形式大量数据分散地在各个网站中以不规则形式显示显示 而你需要的不是纷繁复杂的网页形式,而是而你需要的不是纷繁复杂的网页形式,而是一个集成的纯净的精确的数据库一个集成的纯净的精确的数据库 以此支持你的网站,营销,研究,数据挖以此支持你的网站,营销,研究,数据挖掘,掘,CRMCRM,ERPERP,竞争情报系统,竞争情报系统能从这信息海洋中能从这信息海洋中淘出金沙,铸成金子吗?淘出金沙,铸成金子吗?乐思信息采集系统乐思信息采集系统让梦想成为可能!让梦想成为可能!工作原理工作原理从大量网页批量采集数据到数
3、据库中G Go oo og gl le e做不到的,我们可以!做不到的,我们可以!做不到的,我们可以!做不到的,我们可以!GoogleGoogle采集的仅是因特网海洋中采集的仅是因特网海洋中表层表层的的网网页页 乐思信息采集系统却可以做到乐思信息采集系统却可以做到GoogleGoogle做不做不到的,采集隐藏在登录框与查询表单后面到的,采集隐藏在登录框与查询表单后面的的深网深网网页中的网页中的精确字段内容精确字段内容,保存记录,保存记录到到数据库数据库中中强大的定制能力强大的定制能力强大的定制能力强大的定制能力 可针对任意网页采集,而非事先设定,可针对任意网页采集,而非事先设定,让让你的数据源
4、源不绝,随时更新你的数据源源不绝,随时更新 针对任意数据格式,预设多种抽取方法,针对任意数据格式,预设多种抽取方法,供你选用供你选用主要功能主要功能 根据用户自定义的任务配置,批量而精确根据用户自定义的任务配置,批量而精确地抽取因特网目标网页中半结构化与非结地抽取因特网目标网页中半结构化与非结构化数据,转化为为结构化的记录,保存构化数据,转化为为结构化的记录,保存在本地数据库中,用于内部使用或外网发在本地数据库中,用于内部使用或外网发布。布。从网页采集整合精确内容以便利用从网页采集整合精确内容以便利用信息采集信息采集 快、准、狠快、准、狠 快:每小时可采集几万到几百万条记录快:每小时可采集几万
5、到几百万条记录 准:字段级精确抽取与处理准:字段级精确抽取与处理 狠:采集批量化与自动化狠:采集批量化与自动化系统特点(系统特点(1 1)采集方法的灵活性与采集数据的准确性采集方法的灵活性与采集数据的准确性灵活性:可处理任意复杂查询与页面灵活性:可处理任意复杂查询与页面准确性:结果数据高度准确准确性:结果数据高度准确(99%(99%-100%)100%)对目标网站进行信息自动抓取,支持对目标网站进行信息自动抓取,支持HTML HTML 页页面内各种数据的采集,如文本信息,面内各种数据的采集,如文本信息,URLURL,数,数字,日期,图片等字,日期,图片等 用户对每类信息自定义来源与分类用户对每
6、类信息自定义来源与分类 可以下载图片,可以下载图片,PDFPDF与其他各类文件与其他各类文件系统特点(系统特点(2 2)支持下一页自动浏览功能支持下一页自动浏览功能 支持表单查询支持表单查询 支持动作脚本支持动作脚本 支持从一个页面中抽取多个数据表支持从一个页面中抽取多个数据表 支持数据的多种后期处理方式支持数据的多种后期处理方式系统特点(系统特点(3 3)支持智能替换功能,可以将内容中嵌入的所有支持智能替换功能,可以将内容中嵌入的所有的无关部分如广告去除的无关部分如广告去除 支持多页面文章内容自动抽取与合并支持多页面文章内容自动抽取与合并 支持数据库表结构完全自定义,充分利用现有支持数据库表
7、结构完全自定义,充分利用现有系统系统 支持多个栏目的信息采集可用同一配置一对多支持多个栏目的信息采集可用同一配置一对多处理处理 保证信息的完整性与准确性,绝不会出现乱码保证信息的完整性与准确性,绝不会出现乱码系统特点(系统特点(4 4)支持用户名与密码自动登录支持用户名与密码自动登录 支持记录唯一索引,避免相同信息重复入库支持记录唯一索引,避免相同信息重复入库 数据直接进入数据库而不是文件中,因此与数据直接进入数据库而不是文件中,因此与利用这些数据的网站程序或者桌面程序之间利用这些数据的网站程序或者桌面程序之间没有任何耦合没有任何耦合 附带丰富的采集示例,便于快速学习与使用附带丰富的采集示例,
8、便于快速学习与使用 支持命令行格式,可以支持命令行格式,可以Windows Windows 任务计划任务计划器配合,定期抽取目标网站器配合,定期抽取目标网站运行环境运行环境运行环境运行环境 操作系统:操作系统:Windows XP/NT/2000/2003Windows XP/NT/2000/2003 内存:内存:最低最低64M64M内存,建议内存,建议256M256M或以上或以上 硬盘:硬盘:最少最少20M20M空余硬盘空间空余硬盘空间助您整合全球海量信息资源助您整合全球海量信息资源乐思信息采集系统乐思信息采集系统深圳市乐思软件技术有限公司关于乐思软件关于乐思软件 深圳市乐思软件技术有限公司
9、深圳市乐思软件技术有限公司(简称乐思软简称乐思软件件)成立于成立于20032003年年5 5月,专业从事网络信息月,专业从事网络信息采集服务与产品开发,在网络信息采集领采集服务与产品开发,在网络信息采集领域拥有丰富的实践经验与国际领先的技术域拥有丰富的实践经验与国际领先的技术优势优势 欲了解关于乐思软件的更多信息,请访问欲了解关于乐思软件的更多信息,请访问我们的网站:我们的网站:http:/http:/联系方式联系方式 公司名称:深圳市乐思软件技术有限公司公司名称:深圳市乐思软件技术有限公司 联系人:徐先生联系人:徐先生 电话:电话:07550755-8603282686032826 电邮:电邮: 网站:网站:http:/http:/ 技术支持:电话,技术支持:电话,MSNMSN,SkypeSkype,电子邮件,电子邮件