八爪鱼采集新标签

八爪鱼RPA【支持公众号/小红书/抖音/淘宝抓取数据】=>点击查看

你知道吗?有些网站的数据是需要通过滚动页面才能加载出来的,像今日头条、百度图片搜索、新浪微博这些网站就是这种情况。你可能遇到过需要滚动页面很长一段时间才能加载出数据,或者滚动多次却一条数据都没采集到的尴尬局面。今天,我就来跟大家聊聊八爪鱼V8.2.0版本新增的“边滚动边采集数据”功能,帮助你解决这些问题。

八爪鱼采集器官方链接:https://affiliate.bazhuayu.com/7hypDr

什么是“边滚动边采集数据”?

“边滚动边采集数据”是指在数据采集过程中,页面会随着滚动实时加载数据,采集工具也会在每次滚动后立即采集页面上的数据,而不是等到滚动完成后再进行一次性采集。这意味着,你可以在采集数据的同时继续滚动页面,提升了数据采集的效率和稳定性。

在八爪鱼V8.2.0之前的版本,采集数据需要等到页面滚动完成后,才能开始采集数据。比如,如果设置了滚动20次,页面就必须滚动20次,之后才会一次性采集出这20次滚动后加载的所有数据。这样不仅浪费时间,也有可能遇到滚动多次却什么数据都没采集到的情况。

但是V8.2.0版本的“边滚动边采集数据”功能则完全解决了这个问题。通过边滚动边采集,你可以在滚动页面的同时,实时采集每一次滚动后加载的内容,大大提高了采集的稳定性和效率。

“边滚动边采集数据”有哪些优点?

与传统的“滚动完再采集”的方式相比,八爪鱼的这一新功能大大减少了页面加载和数据采集之间的延迟。具体来说,边滚动边采集数据有以下几个明显的优势:

  1. 提高采集稳定性:避免了因多次滚动却未采集到数据的情况,尤其是在一些数据加载较慢的页面。
  2. 节省时间:可以在滚动页面的同时实时获取数据,无需等待所有数据加载完成后才开始采集。
  3. 提高效率:每次滚动后即采集,减少了整体采集过程的时间和人工干预。

如何设置“边滚动边采集数据”?

那么,如何在八爪鱼中设置“边滚动边采集数据”功能呢?其实方法并不复杂,你可以根据自己需要选择智能识别或手动配置采集任务。

1. 使用智能识别实现“边滚动边采集数据”

如果你选择使用八爪鱼的智能识别功能,以下是详细的设置步骤:

Step 1:输入网址并启动采集

首先,在首页的输入框中输入目标网址,点击【开始采集】,八爪鱼会自动打开网页。

Step 2:使用智能识别网页

打开网页后,选择【智能识别网页】选项,八爪鱼会自动识别网页内容。等待智能识别完成后,你会看到它自动识别了页面的滚动和列表数据。此时,选择【生成采集设置】,你就不需要继续手动设置滚动加载了。

rpa_tutorial_octoparse_guide_collect_data_while_scrolling_1

Step 3:设置滚动方式和次数

点击【滚动网页】流程,选择“滚动到底部”模式,设置“循环次数”为3次,间隔时间为1秒。你可以根据实际需求调整循环次数和间隔时间,点击【应用】。

Step 4:开始采集

点击右上角的【采集】按钮,选择【普通采集】模式,进入采集页面。此时,八爪鱼会按照设置的滚动次数进行滚动,每次滚动后实时采集数据,直到完成所有设置的滚动次数。

rpa_tutorial_octoparse_guide_collect_data_while_scrolling_2

2. 手动配置采集任务实现“边滚动边采集数据”

如果你不打算使用智能识别,也可以通过手动配置采集任务来实现这一功能。具体操作步骤如下:

Step 1:打开目标网站

在首页输入框中输入目标网址,点击【开始采集】后,八爪鱼自动打开网页。关闭智能识别,手动配置采集任务。

Step 2:配置滚动加载

选择包含你需要数据的元素框,点击右键选择“文本创建循环”,然后设置循环列表。接着,选择【滚动加载】功能,设置为“全局滚动”,选择“滚动到底部”模式,并设置滚动次数为5次。点击【确定】。

rpa_tutorial_octoparse_guide_collect_data_while_scrolling_3

Step 3:提取数据

在“提取列表数据”流程中,选择你需要采集的数据,如标题,进行字段设置和重命名。确保数据预览框显示正确的数据,完成数据提取设置。

rpa_tutorial_octoparse_guide_collect_data_while_scrolling_4

Step 4:开始采集

点击【采集】按钮,选择【普通模式】开始采集。八爪鱼会根据你设置的滚动次数和间隔时间开始自动采集数据。

rpa_tutorial_octoparse_guide_collect_data_while_scrolling_5

3. 局部滚动设置

有些网站的滚动方式是局部滚动,比如小红书这种页面。如果你遇到这种情况,可以按照以下步骤设置局部滚动:

Step 1:配置采集流程

打开目标网站,配置采集流程,并设置【局部滚动】模式。找到页面的滚动区域,使用Xpath定位滚动区域。

Step 2:设置局部滚动Xpath

测试并找到正确的Xpath定位局部滚动区域,输入Xpath并将滚动列表拖动到循环滚动内。

rpa_tutorial_octoparse_guide_collect_data_while_scrolling_6

设置等待时间,进行手动登录验证。

rpa_tutorial_octoparse_guide_collect_data_while_scrolling_7

Step 3:开始采集

点击【采集】按钮,开始采集数据。此时,八爪鱼会在局部区域内滚动并采集数据,直到完成滚动。

rpa_tutorial_octoparse_guide_collect_data_while_scrolling_8

总结

通过八爪鱼V8.2.0的“边滚动边采集数据”功能,我们可以更加高效、稳定地采集滚动加载的数据。无论是通过智能识别功能还是手动配置采集任务,都可以轻松实现这一功能。如果你需要采集滚动页面的数据,这个功能无疑是一个非常有用的工具。

我自己在使用这个功能时,体验非常流畅,尤其是在采集长页面数据时,能实时获取每次滚动加载的内容,节省了大量时间。总的来说,八爪鱼V8.2.0的这个更新,极大提升了数据采集的效率,值得每个数据采集者尝试。

阅读全文
RPA
八爪鱼RPA
支持一键抓取公众号/小红书/抖音/淘宝数据
立即查看
流程自动化
付费
AI爆文训练营
图文变现友好赛道,低门槛、高上限,教你从0到1做个赚钱的公众号!
立即查看
躺着赚钱
¥149/年
何老师陪你做副业
这里聚焦AI副业、个人IP、自媒体运营、写作、赚钱案例。不哔哔,只分享有价值的副业项目。
立即查看
AI赚钱案例
限免
DeepSeek进阶教程
带你全面掌握DeepSeek应用技巧。提升工作、学习效率
立即查看
100万人学过
付费
网盘拉新实战教程
每周花费一小时,手把手教你赚网盘平台佣金
立即查看
500人学过
限时优惠
AiPPT
结合最新AI技术,为用户提供一键生成高质量PPT的解决方案。
立即查看
一键生成 PPT
免费
豆包MarsCode
一款免费的AI编程助手,全新支持DeepSeek R1/V3、豆包大模型1.5自由切换,免部署、更准确、更强大!
立即查看
AI编程助手
免费
Monica AI
Monica AI满血复活DeepSeek【免费】,提升您的聊天、搜索、写作和编程体验。
立即查看
一站式 AI 助手
云服务
腾讯云
综合性的云计算服务平台,现已接入DeepSeek,提供多样化的云解决方案
立即查看
高效可靠
云服务
阿里云
全球领先的云计算与数据服务平台,提供云服务器、存储、数据库、安全等多种服务
立即查看
多样化
DeepSeek企业微信码
免费领取DeepSeek资料