八爪鱼采集滚动加载数据

在数据采集的过程中,很多网站的数据是通过滚动页面加载出来的,比如新闻网站、图片搜索平台、社交媒体首页等。这类网页通常在页面底部会有一个“加载中”的提示,随着你滚动页面,新的数据就会自动加载出来。那么,在八爪鱼这款数据采集工具中,如何实现这种页面滚动的自动采集呢?今天,我们就来详细了解一下如何配置八爪鱼的【页面滚动】功能。

八爪鱼采集器官方链接:https://affiliate.bazhuayu.com/7hypDr

什么是页面滚动?

页面滚动是指通过滚动网页的方式加载更多的内容。很多网站,尤其是新闻类、社交平台类的网页,都会使用这种方式。当你向下滚动页面时,会看到加载中的提示,等待片刻后,页面底部会显示新的内容。通过这种方式,用户可以不断加载新的信息,而不需要点击下一页。

适用场景

像澎湃新闻、今日头条、百度图片搜索、新浪微博等网站都采用了这种滚动加载方式。以澎湃新闻为例,我们打开澎湃新闻首页,在页面中不断向下滚动,可以加载到更多的新闻列表数据。对于这种情况,八爪鱼提供了非常方便的设置,可以帮助我们自动滚动页面并采集到新加载的数据。

八爪鱼如何设置页面滚动?

接下来,我们以澎湃新闻为例,看看如何在八爪鱼中配置【页面滚动】来采集这些滚动加载的数据。

步骤一:进入自定义任务编辑页面

首先,将澎湃新闻的网址 https://www.thepaper.cn/ 复制到八爪鱼客户端首页的输入框中,点击开始采集。这时你将进入自定义任务配置页面,准备进行相关设置。

步骤二:配置采集参数

在自定义任务编辑页面,找到“页面滚动”相关设置。操作步骤如下:

  1. 点击“打开网页”步骤,进入下方的设置区域。

  2. 点击“高级设置”,找到【页面滚动】选项,并勾选启用它。

  3. 对于这类无限滚动页面,八爪鱼的默认设置是“滚动到底部”,并且默认设置了【滚动次数】为100次,每次滚动间隔1秒。你可以根据实际需求进行调整。需要注意的是,每次间隔时间应该稍微大于网页上数据加载的时间,这个时间可能会受网络速度等因素影响。

    rpa_tutorial_octoparse_guide_scroll_load_data_1

例如,针对澎湃新闻的情况,我们可以将【滚动次数】设置为5次,而【滚动方式】保持为“滚动到底部”。在这里,设置5次滚动是为了展示效果,实际采集时你可以根据需要调整滚动的次数。

rpa_tutorial_octoparse_guide_scroll_load_data_2

步骤三:配置采集规则

在配置页面滚动之后,还需要配置采集规则。你可以根据《第3课:采集列表数据》中的方法,设置好采集的规则,比如选择采集新闻标题、时间、链接等信息。

rpa_tutorial_octoparse_guide_scroll_load_data_3

启动采集并查看结果

完成设置后,启动采集。此时,八爪鱼会自动执行页面滚动操作,滚动5次页面后自动采集相应的数据。你会看到,八爪鱼成功采集了滚动后的数据。

rpa_tutorial_octoparse_guide_scroll_load_data_4

特别说明

  1. 无限滚动页面的特点:对于像澎湃新闻这类使用无限滚动的页面,八爪鱼无法一次性采集到所有数据。设置了滚动5次后采集的示例只是演示,实际采集时可以根据页面数据加载的实际情况来调整滚动次数。
  2. 实时数据采集:这种页面滚动加载的网页,通常具有实时更新数据的特点。为了更高效地获取最新的数据,八爪鱼提供了云采集功能。你可以设置定时启动进行少量多次的采集,从而确保能够采集到最新的数据。
  3. 加载中提示不明显:有时网页的加载速度很快,加载中的提示可能不明显。这时,你可以通过观察滚动条的回弹次数来判断是否加载了新数据。如果滚动条长度变短并回弹,通常说明有新数据加载出来。
  4. 局部滚动与全局滚动:如果你发现滚动设置后没有效果,可能是网页使用了局部滚动,而非全局滚动。此时,你需要通过在浏览器的“调试控制台”中输入 document.scrollingElement.scrollBy(0, 100) 来测试页面是否会滚动。如果页面没有滚动,说明是局部滚动,需要相应调整设置。

总结

八爪鱼的页面滚动功能非常适合用来采集那些需要滚动加载数据的网页,比如新闻网站、社交平台等。通过设置“滚动到底部”,并根据网页的加载速度调整滚动次数和间隔时间,你可以轻松地采集到所有滚动加载的新数据。同时,云采集功能也让实时数据采集变得更加便捷。如果你也有类似需求,不妨试试这种配置方式,让数据采集更加高效。

阅读全文
RPA
八爪鱼RPA
支持一键抓取公众号/小红书/抖音/淘宝数据
立即查看
流程自动化
付费
AI爆文训练营
图文变现友好赛道,低门槛、高上限,教你从0到1做个赚钱的公众号!
立即查看
躺着赚钱
¥149/年
何老师陪你做副业
这里聚焦AI副业、个人IP、自媒体运营、写作、赚钱案例。不哔哔,只分享有价值的副业项目。
立即查看
AI赚钱案例
限免
DeepSeek进阶教程
带你全面掌握DeepSeek应用技巧。提升工作、学习效率
立即查看
100万人学过
付费
网盘拉新实战教程
每周花费一小时,手把手教你赚网盘平台佣金
立即查看
500人学过
限时优惠
AiPPT
结合最新AI技术,为用户提供一键生成高质量PPT的解决方案。
立即查看
一键生成 PPT
免费
豆包MarsCode
一款免费的AI编程助手,全新支持DeepSeek R1/V3、豆包大模型1.5自由切换,免部署、更准确、更强大!
立即查看
AI编程助手
免费
Monica AI
Monica AI满血复活DeepSeek【免费】,提升您的聊天、搜索、写作和编程体验。
立即查看
一站式 AI 助手
云服务
腾讯云
综合性的云计算服务平台,现已接入DeepSeek,提供多样化的云解决方案
立即查看
高效可靠
云服务
阿里云
全球领先的云计算与数据服务平台,提供云服务器、存储、数据库、安全等多种服务
立即查看
多样化
DeepSeek企业微信码
免费领取DeepSeek资料