您的位置:首页>软件下载>网络软件 > 火车采集器

火车采集器V9.6.5.409官方正式版

LocoySpider

  • 软件大小:23.3 MB
  • 更新时间:2018/06/08
  • 软件语言:简体中文
  • 软件授权:免费软件
  • 版本类型:官方正式版
  • 版本号:9.6.5.409
  • 适用系统:WinXP/WIN7/Win8/Win10
  • 软件介绍
  • 本类推荐
  • 精品合集
  • 相关文章
  • 下载地址
  • 相关评论
火车采集器软件截图

火车采集器(LocoySpider)是一款专业的功能强大的网络数据/信息挖掘软件。通过灵活的配置,您可以很轻松的从网页上抓取文字、图片、文件等任何资源。程序支持远程下载图片文件,支持网站登陆后的信息采集,支持探测文件真实地址,支持代理,支持防盗链的采集,支持采集数据直接入库和模仿人手工发布等许多功能特点。火车采集器支持从任何类型的网站采集获取您所需要的信息,如各种新闻类网站、论坛、电子商务网站、求职招聘网站等。同时具有强大的网站登录采集、多页和分页的采集、网站跨层采集、POST采集、脚本页面采集、动态页面采集等高级采集功能。强大的php和c#插件支持,让您可以通过二次开发实现您所想要的任何更强大的功能。

火车采集器功能

1、规则自定义 - 通过采集规则的定义,可以搜索所有网站采集几乎任何类型的信息。

2、多任务,多线程 - 可以同时进行多个信息采集任务,每个任务可以使用多个线程。

3、所见即所得 - 任务采集过程所见即所得,过程中遍历的链接信息、采集信息、错误信息等都会及时的反映在软件界面中。

4、数据保存 - 数据边采集边自动保存到关系数据库中,并且数据结构能够自动适应,软件可以根据采集规则自动创建数据库,以及其中的表和字段,也可以通过导库方式灵活的将数据保存到客户已有的数据库结构中。

5、断点续采 - 信息采集任务可以在停止后从断点开始继续采集,从此你用不再担心你的采集任务意外中断了。

6、网站登录 - 支持网站Cookie,支持网站可视化登录,即使登录时需要验证码的网站也能采集。

7、计划任务 - 通过这个功能可以让你的采集任务定时、定量或者一直循环执行。

8、采集范围限制 - 可以根据采集的深度和网址的标识来限制采集的范围。

9、文件下载 - 可以将采集到的二进制文件(诸如:图片、音乐、软件、文档等等)下载到本地磁盘或者采集结果数据库中。

10、结果替换 - 可以将采集的结果根据规则替换成你定义的内容。

11、条件保存 - 可以根据某个条件来决定那些信息保存,那些信息过滤。

12、过滤重复内容 - 软件可根据用户设置和实际情况对重复内容和重复网址自动删除重复内容。

13、特殊链接识别 - 运用此功能可以将用JavaScript动态生成的链接或其他更古怪的连接识别出来。

14、数据发布 - 可以通过自定义接口,将已采集的结果数据发布到任意的内容管理系统和指定数据库中。现在已支持的目标发布媒体包括:数据库(access, sql server,my sql,oracle) ,静态htm文件。

15、预留编程接口 - 定义多个编程接口,用户可以在事件中利用PHP,C#语言进行编程,扩充采集功能。

火车采集器特色

1、支持所有网站编码:完美支持采集所有编码格式的网页,程序还可以自动识别网页编码。

2、多种发布方式:支持目前所有主流和非主流的CMS,BBS等网站程序,通过系统的发布模块能实现采集器和网站程序间的完美结合。

3、全自动:无人值守工作,配置好程序后,程序将依据您的设置自动运行,完全无需人工干预。

4、本地编辑:本地可视化编辑已采集的数据。

5、采集测试:这是其它任何同类采集软件所不能比的,程序支持直接查看采集结果并测试发布。

6、管理方便:使用站点+任务方式管理采集节点,任务支持批量操作,再多的数据管理也很轻松。

7、通用性强:无论新闻、论坛、视频、黄页、图片、下载类网站,只要通过浏览器能看到的结构化的内容,通过指定匹配规则,都能采集到您所需要的内容。

8、稳定、高效:五年磨一剑,软件不断更新进步,采集速度快,性能稳定,占用资源少。

9、扩展性强、适用范围广:自定义web发布,自定义主流的数据库的保存和发布,自定义本地php及.net外部编程接口处理数据,让数据都能为你所用。

火车采集器更新日志

1.修改软件启动界面,使用更为友好

2.增加插件异常处理,方便调试插件

3.运行日志增加任务id

4.修复非管理员开机启动失败问题、

5.修复任务批量处理非内容标签复制问题

6.修复"如果为空再次提取"的bug

7.WECenter的UBB转化功能完善

8.随机插入功能改进

9.修复ul,ol等标签带style时无法过滤问题

10.官方插件模块接口等资源更新

 

更新日志

1.调整列表页排重的方式,现在仅会在同级列表页之间进行排重。
2.增加对于任务运行完毕之后的运行统计的预警功能(Email邮件预警)【旗舰版功能】
3.新增支持对于一些请求返回码不为200时,仍然进行采集的配置。
4.新增支持将下载地址保存为html文件的功能。
5.二次代理服务,增加导入的时候配置代理类型,同时修复对于用户名密码的显示错误问题。
6.发布配置页面,默认仅显示当前选择配置,加快任务加载时间。
7.修复命令行控制,closeapp参数无法自动关闭程序的问题。
8.修复在未选择图片水印时,无法进行图片剪裁的问题。
9.优化开始界面加载方式,解决初始化界面卡顿的问题。
10.修复在配置多行连接符包含“|”导致的无法探测图片下载的问题。
11.修复Excel导出数据时,列的顺序与字段顺序不一致的问题。
12.修复Excel导出数据时,一些包含数字的字段的导出数据错误问题。
13.修复任务批量编辑时,Json采集表达式未能复制的问题。

精品合集
网络爬虫软件
网络爬虫软件
网络爬虫有很多别名,比如网页蜘蛛,网络机器人,什么是网络爬虫?每个网页通常包含其他网页的入口,网络爬虫则通过一个网址依次 ...
信息采集软件
信息采集软件
信息采集软件,顾名思义就是采集的机器或者工具,信息化时代,信息采集软件就是为了解决从网页上采集信息的需求而由专业的互联网 ...
采集软件
采集软件
采集在某种意义上就是采集的机器或者工具。而在互联网上采集软件就是为了解决从网页上采集信息的需求而由专业的互联网软件公司研 ...
猜你感兴趣