首页 > 教程资讯 > 教程详情

懒人采集器如何采集多级网页？参考图文演示

教程文章完美下载小客服 2020-07-03

文章分享

前面我们使用懒人采集器学习的教程主要是针对单级网页进行采集，而实际网络中大多数网页是多级网页（比如包含内容页），而采集多级网页时，使用懒人采集器的操作会有所不同，下面我们来具体介绍懒人采集器如何采集多级网页。

懒人采集器如何采集多级网页？

1、多级网页采集步骤和单级网页类似：【新建任务】—输入网址—采集配置。

2、如何判断该网页是否为多级网页？在多级网页自动生成的字段中必然包含一个或多个提取链接的字段（即提取属性为Href的字段）。

3、点击该链接字段表头，选中该列后在中间菜单栏右侧会出现【深入链接页采集】选项。

4、点击【深入链接页采集】，系统自动创建一个新的配置选项卡，并自动打开选中字段的网址。

5、这时采集模式也会默认【单条模式】，如果不是，就点击调整。

注意：

1）列表模式用于提取某个网页列表中的数据，预览中可看到多条数据

2）单条模式适用于采集内容详情页里的各项信息，如文章标题、时间、正文等。

6、点击【增加字段】，首先手动提取网页中信息发布时间，由于标题在之前列表采集里已经提取过了，这里无需重复。

7、再次点击【增加字段】，手动提取网页中信息正文。

8、这里要注意字段的取值属性调整为InnerHtml，这样才能保持原文格式。

关于懒人采集器如何采集多级网页的操作就介绍到这里，感兴趣的小伙伴可以按照以上教程多操作几次，相信能够很快掌握！

标签: 网页懒人采集器