八爪鱼采集工具如何自定义采集流程

在数据采集的过程中,有时候我们会遇到需要根据不同网站的特定布局进行灵活调整的情况。八爪鱼采集工具提供了两种方式来配置采集流程:一种是使用智能识别,另一种是手动进行自定义配置。这篇文章将带你了解如何通过这两种方式高效地设置采集任务,从而快速抓取到你需要的数据。

八爪鱼采集器官方链接:https://affiliate.bazhuayu.com/7hypDr

一、使用智能识别进行自动采集

Step 1:输入网址并开始采集

首先,打开八爪鱼采集工具,在首页的输入框中输入你要采集的目标网址(例如:https://mall.ebaiyin.com/category_3.shtml)。

rpa_tutorial_octoparse_guide_custom_collection_1

点击【开始采集】,八爪鱼会自动打开网页并开始进行智能识别

rpa_tutorial_octoparse_guide_custom_collection_2

特别说明:

a. 打开网页后,默认开启智能识别。识别过程中,随时可【取消识别】或【不再智能识别】

【取消识别】:立即取消本次智能识别,可点击【自动识别网页】再次启动。

rpa_tutorial_octoparse_guide_custom_collection_3

【不再智能识别】:关闭自动智能识别,点击【自动识别网页】手动开启。也可在全局设置中,再次默认开启【智能识别】。

rpa_tutorial_octoparse_guide_custom_collection_4

Step 2:等待智能识别完成

在识别过程中,你需要耐心等待,八爪鱼会自动识别网页上的各类数据。识别成功后,如果网页有多个数据组,八爪鱼会自动推荐最常用的一组。如果推荐的不是你想要的,八爪鱼也支持手动切换识别结果,确保你采集到的是最相关的数据。

rpa_tutorial_octoparse_guide_custom_collection_5

Step 3:处理滚动与翻页

如果网页需要进行翻页才能加载更多数据,八爪鱼会自动识别并勾选翻页采集。需要注意的是,在一些网页中,可能不需要滚动加载内容,而只需要翻页获取数据。在这种情况下,八爪鱼会帮助你处理翻页操作。

rpa_tutorial_octoparse_guide_custom_collection_6

Step 4:生成采集设置

智能识别完成后,点击【生成采集设置】按钮,八爪鱼会自动生成相应的采集流程,你可以基于此进行编辑和修改,以确保采集任务更符合你的需求。

rpa_tutorial_octoparse_guide_custom_collection_7

Step 5:启动采集

设置完成后,点击【启动本地采集】,八爪鱼将开始全自动地进行数据采集。

rpa_tutorial_octoparse_guide_custom_collection_8

Step 6:导出数据

采集完成后,你可以选择将数据导出为Excel、CSV等格式,方便后续的数据分析和使用。

rpa_tutorial_octoparse_guide_custom_collection_9

二、自定义配置采集流程

对于一些复杂或特殊的网页,八爪鱼提供了自定义配置采集流程的选项。通过手动配置,你可以灵活应对各种采集需求,例如翻页、滚动、登录、AJAX页面等。

rpa_tutorial_octoparse_guide_custom_collection_10

什么是采集流程?

采集流程,也被称为采集任务或采集规则,是指从特定网页上抓取数据的指令。每个网站的页面布局不同,因此需要为每个网站单独配置一个采集流程。例如,采集京东商品和淘宝商品的流程就完全不同,八爪鱼允许你根据实际情况进行灵活配置。

配置步骤

  1. 添加采集步骤
    在八爪鱼的操作界面中,你可以添加各类步骤,如页面加载、滚动加载、翻页等。每一个步骤都对应着网页中的一个操作过程,确保你的采集任务能够顺利执行。
  2. 调整字段顺序和命名
    在【当前页面数据预览】区块中,你可以调整字段的顺序,修改字段名称等。鼠标移动到字段名上时,网页中的对应位置也会被高亮显示,方便你进行字段的调整。
  3. 修改采集规则
    通过【流程图】界面,你可以编辑或删除每一个采集步骤,确保整个采集流程符合你的要求。点击每个步骤框,进入该步骤的设置页面进行详细调整。
  4. 检查字段高亮显示
    你可以选中【全部字段】按钮,查看当前任务中的所有字段。当你选中某个字段时,网页中的对应位置和数据预览会被高亮显示,帮助你检查字段是否正确。
  5. 保存和执行采集任务
    配置好所有采集步骤后,点击保存,八爪鱼将保存你的任务配置,并开始执行数据采集。

三、相关技巧介绍

在使用八爪鱼自定义配置采集任务时,掌握以下几个技巧可以帮助你更加高效地完成工作。

rpa_tutorial_octoparse_guide_custom_collection_11

1. 网页显示区块操作技巧

  • 点击智能提示框中的【隐藏】按钮,可以隐藏操作提示框,清理界面。
  • 点击【显示】按钮,可以重新调出操作提示框,查看提示信息。
  • rpa_tutorial_octoparse_guide_custom_collection_12

2. 当前页面数据预览区块技巧

  • 通过拖动字段顺序,可以快速调整数据字段的顺序。
  • 点击字段旁边的【修改】按钮,可以更改字段名称。
  • 如果某个步骤配置不正确,可以在流程图中选择该步骤并按【Delete】键删除。
  • 添加新字段时,可以选择“当前采集时间”、“当前网页信息”或从网页中直接添加新的字段。
  • rpa_tutorial_octoparse_guide_custom_collection_13

3. 流程图区块技巧

  • 点击每个步骤框,进入该步骤的详细设置页面。
  • 通过鼠标移动到流程中的某个位置,点击出现的【添加步骤】按钮,可以快速添加新步骤。
  • 你还可以通过【Ctrl】+滚动鼠标来放大或缩小流程图,方便查看和编辑复杂的采集流程。

最后

通过八爪鱼的智能识别和自定义配置功能,你可以灵活应对各种数据采集场景。不论是自动识别网页结构进行数据采集,还是手动配置采集流程,八爪鱼都能帮助你高效抓取网页中的关键信息。

我的感觉是,虽然初次使用八爪鱼时需要花一些时间来熟悉界面和配置流程,但一旦掌握了基本操作,它的自动化和灵活性会极大提升你的工作效率。如果你也有采集需求,完全可以试试这款工具,相信你会从中发现不少惊喜!

阅读全文
RPA
八爪鱼RPA
支持一键抓取公众号/小红书/抖音/淘宝数据
立即查看
流程自动化
付费
AI爆文训练营
图文变现友好赛道,低门槛、高上限,教你从0到1做个赚钱的公众号!
立即查看
躺着赚钱
¥149/年
何老师陪你做副业
这里聚焦AI副业、个人IP、自媒体运营、写作、赚钱案例。不哔哔,只分享有价值的副业项目。
立即查看
AI赚钱案例
限免
DeepSeek进阶教程
带你全面掌握DeepSeek应用技巧。提升工作、学习效率
立即查看
100万人学过
付费
网盘拉新实战教程
每周花费一小时,手把手教你赚网盘平台佣金
立即查看
500人学过
限时优惠
AiPPT
结合最新AI技术,为用户提供一键生成高质量PPT的解决方案。
立即查看
一键生成 PPT
免费
豆包MarsCode
一款免费的AI编程助手,全新支持DeepSeek R1/V3、豆包大模型1.5自由切换,免部署、更准确、更强大!
立即查看
AI编程助手
免费
Monica AI
Monica AI满血复活DeepSeek【免费】,提升您的聊天、搜索、写作和编程体验。
立即查看
一站式 AI 助手
云服务
腾讯云
综合性的云计算服务平台,现已接入DeepSeek,提供多样化的云解决方案
立即查看
高效可靠
云服务
阿里云
全球领先的云计算与数据服务平台,提供云服务器、存储、数据库、安全等多种服务
立即查看
多样化
DeepSeek企业微信码
免费领取DeepSeek资料