
八爪鱼采集滚动加载数据
在数据采集的过程中,很多网站的数据是通过滚动页面加载出来的,比如新闻网站、图片搜索平台、社交媒体首页等。这类网页通常在页面底部会有一个“加载中”的提示,随着你滚动页面,新的数据就会自动加载出来。那么,在八爪鱼这款数据采集工具中,如何实现这种页面滚动的自动采集呢?今天,我们就来详细了解一下如何配置八爪鱼的【页面滚动】功能。
八爪鱼采集器官方链接:https://affiliate.bazhuayu.com/7hypDr
什么是页面滚动?
页面滚动是指通过滚动网页的方式加载更多的内容。很多网站,尤其是新闻类、社交平台类的网页,都会使用这种方式。当你向下滚动页面时,会看到加载中的提示,等待片刻后,页面底部会显示新的内容。通过这种方式,用户可以不断加载新的信息,而不需要点击下一页。
适用场景
像澎湃新闻、今日头条、百度图片搜索、新浪微博等网站都采用了这种滚动加载方式。以澎湃新闻为例,我们打开澎湃新闻首页,在页面中不断向下滚动,可以加载到更多的新闻列表数据。对于这种情况,八爪鱼提供了非常方便的设置,可以帮助我们自动滚动页面并采集到新加载的数据。
八爪鱼如何设置页面滚动?
接下来,我们以澎湃新闻为例,看看如何在八爪鱼中配置【页面滚动】来采集这些滚动加载的数据。
步骤一:进入自定义任务编辑页面
首先,将澎湃新闻的网址 https://www.thepaper.cn/ 复制到八爪鱼客户端首页的输入框中,点击开始采集。这时你将进入自定义任务配置页面,准备进行相关设置。
步骤二:配置采集参数
在自定义任务编辑页面,找到“页面滚动”相关设置。操作步骤如下:
点击“打开网页”步骤,进入下方的设置区域。
点击“高级设置”,找到【页面滚动】选项,并勾选启用它。
对于这类无限滚动页面,八爪鱼的默认设置是“滚动到底部”,并且默认设置了【滚动次数】为100次,每次滚动间隔1秒。你可以根据实际需求进行调整。需要注意的是,每次间隔时间应该稍微大于网页上数据加载的时间,这个时间可能会受网络速度等因素影响。
例如,针对澎湃新闻的情况,我们可以将【滚动次数】设置为5次,而【滚动方式】保持为“滚动到底部”。在这里,设置5次滚动是为了展示效果,实际采集时你可以根据需要调整滚动的次数。
步骤三:配置采集规则
在配置页面滚动之后,还需要配置采集规则。你可以根据《第3课:采集列表数据》中的方法,设置好采集的规则,比如选择采集新闻标题、时间、链接等信息。
启动采集并查看结果
完成设置后,启动采集。此时,八爪鱼会自动执行页面滚动操作,滚动5次页面后自动采集相应的数据。你会看到,八爪鱼成功采集了滚动后的数据。
特别说明
- 无限滚动页面的特点:对于像澎湃新闻这类使用无限滚动的页面,八爪鱼无法一次性采集到所有数据。设置了滚动5次后采集的示例只是演示,实际采集时可以根据页面数据加载的实际情况来调整滚动次数。
- 实时数据采集:这种页面滚动加载的网页,通常具有实时更新数据的特点。为了更高效地获取最新的数据,八爪鱼提供了云采集功能。你可以设置定时启动进行少量多次的采集,从而确保能够采集到最新的数据。
- 加载中提示不明显:有时网页的加载速度很快,加载中的提示可能不明显。这时,你可以通过观察滚动条的回弹次数来判断是否加载了新数据。如果滚动条长度变短并回弹,通常说明有新数据加载出来。
- 局部滚动与全局滚动:如果你发现滚动设置后没有效果,可能是网页使用了局部滚动,而非全局滚动。此时,你需要通过在浏览器的“调试控制台”中输入
document.scrollingElement.scrollBy(0, 100)
来测试页面是否会滚动。如果页面没有滚动,说明是局部滚动,需要相应调整设置。
总结
八爪鱼的页面滚动功能非常适合用来采集那些需要滚动加载数据的网页,比如新闻网站、社交平台等。通过设置“滚动到底部”,并根据网页的加载速度调整滚动次数和间隔时间,你可以轻松地采集到所有滚动加载的新数据。同时,云采集功能也让实时数据采集变得更加便捷。如果你也有类似需求,不妨试试这种配置方式,让数据采集更加高效。