火车头采集器用户手册.docx-淘文阁

资源描述

《火车头采集器用户手册.docx》由会员分享，可在线阅读，更多相关《火车头采集器用户手册.docx（16页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、火车头采集用法下载火车头采集：地址： :/ locoy /Down/火车采集器的安装：火车采集器2023 版是绿色软件。假设您电脑上安装了微软的.NET FrameWork 2.0 框架或更高版本，安装时直接解压缩到您电脑的任何地方即可完成采集器的安装-安装过程不操作注册表和系统文件，不产生任何垃圾文件！假设您安装后程序无法启动，那可能是您电脑没有安装.NET FrameWork 2.0 ，请下载微软的.NET FrameWork 2.0 框架或更高版本并安装。附 2.0 下载地址: :/download.microsoft /download/5/6/7/567758a3-759e-473

2、e-bf8f-52154438565a/dotnetfx.exe下载完之后点击 dotnetfx.exe 安装.NET FrameWork。安装完.NET FrameWork 之后翻开火车采集器名目，双击名目内的LocoySpider.exe文件启动主程序开头采集之旅。火车头采集根本流程：系统设置建站点建任务采集网址采集内容公布内容抓数据。1. 建站点：据你自己的需求为任务建立统一的站点，以便利治理。点击菜单上：站点建站点翻开如以下图：可以填写站点名，站点地址，网址深度0，代表依据地址直接采内容。1，代表依据地址采内容地址，然后依据内容地址采内容。2，代表依据地址采列表地址，然后依据列表地址

3、采内容地址，再依据内容地址采内容，。站点描述。2. 建任务：任务是采集器采集数据时的根本工作单元，它肯定是建立在站点中的。采集器通过运行任务来采集公布数据。任务工作的步骤总体可以分为三步：采网址，采内容，发内容。一个任务的运行可以任意选择哪几步。而采集器又可以同时运行多个任务默认设置是同时最多运行3 个任务。选择站点点击右键选择“从该站点建任务”。任务的编辑界面如图： : urelitetech .cn采集器的使用最主要的就是对任务的设置。而采集数据可以分为两步，第一步是：采网址，其次步：采内容。3. 采集采网址，就是从列表页中提取出内容页的地址。从页面自动分析得到地址连接：以 :/l

4、ist.dangdang /book/01.45.52_P1.html 页面为例。我们来采集这个网址上的书信息。这个页面中有很多书信息的链接,要采集每个链接中书内容.首先需要将每个书信息的链接地址抓取到也就是抓取内容页的地址。先将该列表页地址添加到采集器里。点击“ 向导添加”后弹出“添加开头采集地址”对话框。我们选择“单条网址” 如图：点击添加把 :/list.dangdang /book/01.45.52_P1.html地址添加到下面框中，点击完成即实现增加列表地址。假设我们选择 “批量/多页” ，如图：可用通配符：* 可以代替页码变化时的地址之间的差异。数字变化可以设置你要爬取该列表页

5、多少页。间隔倍数可以数字页码变化的倍数。你也可以设置字母变化。设置完之后点击添加按钮把列表地址添加到下框中，点击完成即可完成列表地址设置。你也可以选择文本导入和正则提取在这里就不一一讲了，由于这二种根本用的很少。这样设置就可以获得内容页网址了,这个网址是从摘要那块获得的，那一块的代码都是一个样式，所以可以。手动填写连接地址规章是将需要的网址用参数来获得并组合成我们需要的网址。这个好处是处理网址那块有规律的网址很好处理，但要是没规律，和周围的一样的话，就不好处理了。我们以 :/list.dangdang /book/

6、01.45.52_P1.html为例. 看图里的设置:你看上图的话，会觉察在参数那里有个缩略图，由于有的文章是将缩略图放在列表里的。现在我们举个例子。看这个 :/ 这样设置就可以获得真实网址了,这个网址是从摘要那块获得的，那一块的代码都是一个样式，所以可以。你看上图的话，会觉察在参数那里有个缩略图，由于有的文章是将缩略图放在列表里的。现在我们举个例子。看这个 :/ 在脚本规章里输入缩略图下边即消灭无缩略图的提取内容中的第一张选项，将该项选中即可，再将缩略图这几个字符去掉。假设您需要下载该图片，请选中将缩略图下载到本地。假设您不使用手动链接地址规章猎取网址，将启用自定义格式得到地址选项去

7、掉即可。留意事项：该功能只提取内容标签中的图片，所以请确保您要提取的图片在内容标签中。同时。假设内容标签中选了下载图片，则提取的图片也是下载到本地的图片地址。由于网址和缩略图那块的样子就是下边的，是有规律的，所以可以获得网址假设我们遇到那些用脚本做栏目列表时怎么办呢？用自动识别是不行的了。这时，该使用手动设置链接格式这个功能起作用了，这也是针对脚本类网址最好的解决方法。下边我们以腾讯Flash 频道_作品列表为例来讲一下 :/flash.qq /classlist/listwork_1000130000_1.shtm你l 用自动猎取网址是得不到什么地址的.我们认真分析地址： :/flas

8、h.qq /classlist/listwork_1000130000_1.shtm源l 码后就会觉察，这个是这个样子的网址 :/flash.qq /cgi-bin/viewwork?id=727749 ，只有最终的数字是不同的，而这数字就包含在脚本里边，我们看一下源码：留意：new Array(“727749“,后边就有我们要的网址，还有缩略图，我们可以这样写规章：这样就可以了，看一下效果了。4. 采集内容：当全部网址抓取完后就可以开头抓取内容。抓取内容就是采集器恳求到内容页后分析内容页的HTML 源代码并依据在采集器中的标签规章设置匹配出相应的数据。在测试到的地址中任，意选择一个子地址，

9、双击选中的地址或者点击“测试该页”按钮。如图：将会跳转到任务中的“其次步：采集内容规章”如图： : urelitetech .cn在典型页面中会消灭刚刚选中的网址，这里就是测试采集内容。左边的标签名下面有：标题，出版社，图片，图片地址共四个标签，可以对标签进展添加、删除和编辑等操作。每个标签就是采集后得到的一段内容，可以是从页面中截取的内容，也可以是设置的一个固定的值或其他方式得到的值。现在让我抓取 :/product.dangdang /product.aspx?product_id=9188924&ref=book-02-L地址中的标题，查看该页的 HTML 源代码。在源代码中可以找

10、到页面中的问题局部。如图：可以从网页HTML 源代码里得到需要的标题工程硕士争论生英语根底教程学生用书。复制页面HTML 中“”后在文本中向上查找觉察查找不到与该段一样的代码，说明此处是该段代码第一次消灭的地方。如图： : urelitetech .cn选择标题标签，点击右边的“编辑标签”按钮翻开如以下图：复制这段代码到“内容标签编辑框”的“开头字符串处”。 “”是“ ”后面第一次消灭的地方。复制“ ”到“完毕字符串”处。如图：假设觉察标题中含有“”像这样的 HTML 代码，可以在标签设置里将这些没用的代码排解。设置如图：在此对话框中可以设置标签内容必需包含什么和标签内容不得包含什么。

11、: urelitetech .cn上面的 * 可以代表为任何字符。在这里还可以设置汉英翻译,简繁体互转：火车采集器可以将抓取的汉字翻译成英语，便利一些朋友翻译用或做国外网站同时支持将简体和繁体进展转化，便利简繁体用户沟通汉译英,简体转繁体使用很简洁,只要在标签内选中即可.假设“使用正则匹配模式”采集数据：正则表达式很强大，利用它我们可以获得肯定格式的数据，比方网址，E-mail 地址，数字，字母等等可喜的是，从 3.2 版开头，火车采集器就支持正则规章的编写了，这给宠爱用正则来实现不同需求的朋友带来福音。火车采集器里支持两种正则，一个纯粹则，一个参数正则。我们下边分开讲一下：1. 纯粹则

12、：在标签中用正则表达式采内容的格式是这样：开头代码(?正则表达式)完毕代码，其中在开头代码和完毕代码中如有需要转义的字符就要用转义。比方我们要猎取火车论坛的版块，我们从首页猎取，正则可以这样写然后就可以获得我们需要的版块名称了。2. 参数正则：这个不算是正则，和网址采集那块的参数使用原理是一样的，可以对采到的内容进展组合。输入框两边都不得为空，后边的组合结果参数N 是按匹配内容的挨次来写的，我们还是以 :/bbs.locoy /为例，来获得栏目和栏目名称。 : urelitetech .cn测试一下，是可以获得我们需要的结果了。正则根本就这样，主要是写表达式的问题。假设您对这有兴,趣

13、可以下载相关一些资料争论一下。设置完之后点击“确定”按钮后点“ 测试”按钮得到页面中的数据。如图：看下面我们怎么样下载图片到本地来：现在让我抓取 :/product.dangdang /product.aspx?product_id=9188924&ref=book-02-地L 址中的图片。查看该页的HTML 源代码。在源代码中可以找到页面中的问题局部。如图：觉察“ 是唯一的，复制这段代码到“内容标签编辑框”的“开头字符串处”。“”是“ ”后面第一次消灭的地方。复制“”到“ 完毕字符串”处。火车采集器的全部版本均支持下载图片。这里所说的图片是源代码里的有img 标签的图片地址。所以只要您采

14、集的源代码里有这这样的图片代码，采集器会将其中的图片下载到本地。假设是一个直接的图片地址，如 :/ locoy /logo.gif ,采集器是会做为文件下载。下载文件是需要收费版本支持。图片的下载设置如下：1. 在内容页标签编辑框中选中下载图片。2. 任意格式文件下载及保存设置收费版本的程序支持任意文件的下载。具体是使用时选中探测文件并下载即可。需要留意的是:这个功能可以下载论坛附件或要下载站的文件，比方论坛附件下载地址是d.asp?id=1,那么只要在下载文件地必需包含里写上d.asp 就可以下载源码里包含这个字符串链接中的附件了。留意这个在有些站是需要你登陆后才可以下载。所以有时下载不

15、了，请留意您是否登陆或是有权限下载那些文件。还有的状况是你猎取的登陆信息不正确,相当于没登陆.也会导致下载不成功。假设使用单一的地址，比方直接是一个文件的地址，程序会自动去下载并推断文件类型。假设是多个文件实际地址请用分隔符 #|# 相连，程序会分别进展下载在下载前请做好测试。具体在规章测试那里可以看到下载结果。3. 设置保存名目：文件的命名:为了防止同一名目下保存太多的文件，采集器支持随机名目保存方式，默认按时间按肯定的规则生成名目保存文件。看图,留意这里的绿色符号都是用特别含义的,yyyy 代表是年,如最终产生的就是2023,MM 是月,其它类推,假设你要命名为yyyy,则需要对绿色

16、字符进展转义,即yyyy,前一个斜杠即可.文件保存地址也一样.可以设置同步边下内容边以下图片，异步下完内容在以下图片。设置好图片保存名目后，便可以点击“确定”按钮后点“ 测试”按钮可以把图片下载到本地来，如图：测试之后得到的图片保存在DataTestOnly文件下。采集保存到你设置的名目下面。看以下图：在上面也可以选择“使用自定义固定格式的数据”具体怎么实现这这里不讲了，由于很少选择它。“页面内容标签定义”有个“同时采集多页页面“什么意思呢？看以下图：点击“同时采集多页页面“ 按钮便进入如以下图：何为多页？原来我们是从网址采集那块采集到网址，再对这个网址也叫默认页进展采集。但是有时

17、有很多信息他并不在一个页面上，而是和这个默认页有肯定的关系，要不他网址在默认页里，要不他网址和默认页网址有联系。我们就这个问题来讲一下具体的解决方法。这里有两种途径获得第三个网址，我们先讲从默认页网址替换得到网址。我们以 :/data.movie.xunlei /movie/39843这个页面为例，比方我们要获得全部的”剧情简介“，就得进入一下页，刚好这两页有关系，”剧情简介“ 页面的地址是 :/movie.xunlei /movie/39843/introductio，n只是多了一个 introduction ，这里可以使用一般替换，也可以使用正则。我们看一下。这样就可以获得所需要的了。

18、固然这里组合也可以有多个$的，比方$1,$2。下边我们说一下用默认页源代码中获得网址的方法来处理上边的网址，这样就可以获得和上边一样的效果了。通过上面的标题和图片标签设置并测试之后没有问题了，还不能确定对于其他的内容地址是可行的，因此你要多测试几个内容页地址，测试其它地址和上面一样。测试完之后便可以进展公布内容了。5. 公布内容：如以下图：方式一,方式三，方式四都需要收费，在这里便不讲了。导出采集数据为txt,csv,sql 格式：除了能将采集的数据Web公布到网站，直接导入数据库，采集器还可以将数据保存到本地。目前采集器支持的文件格式有：1. csv 您只需要选择一下csv 文件夹的

19、名目，采集器会生成一个csv 文件，文件里的标签次序和在任务编辑里的标签排序是全都的。2. html 您需要指定html 模板，该模板的内容和web 公布模块的方式根本全都。比方标签:标题将会被替换成实际采集的内容。3. txt 程序将全部的记录保存在一个txt 文本里，每个标签之间用换行间隔。留意：本地文件的编码需要留意，默认的保存方式是和采集源一样的编码。假设您指定了某种编码，请将html 文件也保存成相应的编码文件。请按以下图进展设置。设置完之后便可以采数据了。6. 抓数据：点击该站点下要执行的任务，右击选择“开头任务采集” 便消灭如图：当运行完之后便产生一个文件，翻开文件便是抓取下来的内容。假设你抓取了图片，便会消灭：图片保存在你设置的图片路径。看以下图：

展开阅读全文