八爪鱼采集详情页采集

在日常数据采集的工作中,我们常常需要从网页上的图书列表中依次点击每个图书标题进入详情页,提取所需的字段信息,最后将这些信息保存为Excel等结构化数据。今天,我就带大家了解如何在八爪鱼这个强大的网页数据抓取工具中实现这个过程。

八爪鱼采集器官方链接:https://affiliate.bazhuayu.com/7hypDr

一、列表进入详情页

步骤一:输入网址

首先,在八爪鱼的首页输入目标网址。在我们这个例子中,网址是:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4。输入后,点击【开始采集】按钮。

rpa_tutorial_octoparse_guide_details_page_collection_1

步骤二:建立【循环-点击元素-提取数据】

我们需要让八爪鱼识别页面上的所有图书标题,并按顺序点击进入每个详情页。为了实现这一点,需要建立一个【循环-点击元素-提取数据】的步骤。具体操作如下:

  1. 选中第一个链接:观察网页,在页面上选择一个图书的标题链接。此时,选中的链接会被绿色框框起来,同时页面会弹出黄色操作提示框,告诉我们发现了相似的链接。

  2. rpa_tutorial_octoparse_guide_details_page_collection_2

  3. 选中全部相似链接:在操作提示框中,点击【选中全部相似元素】按钮,这样,页面上所有图书标题的链接都会被绿色框框选中。

  4. rpa_tutorial_octoparse_guide_details_page_collection_3

  5. 循环点击每个链接:接下来,在操作提示框中选择【循环点击每个链接】。这时,页面会自动跳转到第一个链接对应的详情页。

  6. rpa_tutorial_octoparse_guide_details_page_collection_4

    特别说明:

    a. 有时候操作提示框中出现的不是【循环点击每个链接】,而是【循环点击每个元素】,或者【循环点击每个图片】,本质是一样的。

    rpa_tutorial_octoparse_guide_details_page_collection_5

  7. 提取详情页数据:在详情页中,我们可以提取图书的标题、评分、简介、版本等字段。

  8. rpa_tutorial_octoparse_guide_details_page_collection_6

这些步骤需要连贯地操作,不能中断。通过这种方式,八爪鱼会自动按顺序点击每个链接,进入详情页并提取相关数据。

步骤三:编辑字段

八爪鱼会自动为我们提取数据并生成字段。你可以根据需要对这些字段进行编辑,例如修改字段名称、删除不需要的字段等。编辑字段有两种布局方式,分别是横向布局和纵向布局。你可以根据个人喜好选择合适的方式。

rpa_tutorial_octoparse_guide_details_page_collection_7

在横向布局下,可以通过双击字段名称来修改,右侧的操作按钮可以帮助我们删除、复制或格式化字段;

rpa_tutorial_octoparse_guide_details_page_collection_8

而在纵向布局下,修改字段名称同样通过双击实现,右侧同样提供了更多操作选项。

rpa_tutorial_octoparse_guide_details_page_collection_9

步骤四:启动采集

一旦字段编辑完成,我们可以点击【保存】按钮,然后点击【采集】启动采集任务。在启动采集时,八爪鱼提供了两种方式:本地采集和云采集。选择本地采集后,数据会在你的电脑上进行采集;选择云采集则会使用八爪鱼的云服务器进行数据抓取。

rpa_tutorial_octoparse_guide_details_page_collection_10

采集完成后,我们可以选择合适的导出方式,将数据导出为Excel、CSV或HTML格式。这里我们选择导出为Excel格式。

rpa_tutorial_octoparse_guide_details_page_collection_11

二、没有出现【选中全部】的解决办法

有时候,在【建立循环-点击元素-提取数据】的过程中,如果没有出现【选中全部】选项,怎么办呢?

首先,我们依然按照上面的步骤操作,选中页面上的第一个链接。在此基础上,我们可以再选中一个链接,帮助八爪鱼识别页面中的所有相似链接。完成这个操作后,再选择【循环点击每个链接】,八爪鱼会自动跳转到详情页,并开始采集数据。

三、既采集列表数据,又采集详情页数据

如果你既需要采集列表中的图书信息,又需要点击列表中的链接进入详情页进一步采集数据,可以按照以下步骤操作:

  1. 先建立一个【循环提取数据】步骤,用来采集图书列表中的数据。
  2. 在循环中的每一项上,找到需要点击的链接,鼠标左键单击后,在操作提示框中选择【点击该链接】。这样八爪鱼会跳转到详情页,然后继续提取该详情页的数据。
  3. rpa_tutorial_octoparse_guide_details_page_collection_12
  4. rpa_tutorial_octoparse_guide_details_page_collection_13

需要注意的是,在进行【点击元素】操作时,一定要在循环列表的当前项中选择进入详情的链接。这样,避免出现重复点击某个链接的情况,确保数据采集准确。

注意事项

  • 自动返回列表页:如果点击进入详情页后,八爪鱼自动返回列表页,一切都顺利。如果遇到无法返回的情况,请检查是否在点击【点击元素】步骤的高级设置中勾选了“新标签”选项。
  • rpa_tutorial_octoparse_guide_details_page_collection_14

通过上述步骤,我们就能轻松地使用八爪鱼抓取图书列表数据,并自动进入每个详情页进行数据采集,最后将结果导出为Excel等结构化数据。

阅读全文
RPA
八爪鱼RPA
支持一键抓取公众号/小红书/抖音/淘宝数据
立即查看
流程自动化
付费
AI爆文训练营
图文变现友好赛道,低门槛、高上限,教你从0到1做个赚钱的公众号!
立即查看
躺着赚钱
¥149/年
何老师陪你做副业
这里聚焦AI副业、个人IP、自媒体运营、写作、赚钱案例。不哔哔,只分享有价值的副业项目。
立即查看
AI赚钱案例
限免
DeepSeek进阶教程
带你全面掌握DeepSeek应用技巧。提升工作、学习效率
立即查看
100万人学过
付费
网盘拉新实战教程
每周花费一小时,手把手教你赚网盘平台佣金
立即查看
500人学过
限时优惠
AiPPT
结合最新AI技术,为用户提供一键生成高质量PPT的解决方案。
立即查看
一键生成 PPT
免费
豆包MarsCode
一款免费的AI编程助手,全新支持DeepSeek R1/V3、豆包大模型1.5自由切换,免部署、更准确、更强大!
立即查看
AI编程助手
免费
Monica AI
Monica AI满血复活DeepSeek【免费】,提升您的聊天、搜索、写作和编程体验。
立即查看
一站式 AI 助手
云服务
腾讯云
综合性的云计算服务平台,现已接入DeepSeek,提供多样化的云解决方案
立即查看
高效可靠
云服务
阿里云
全球领先的云计算与数据服务平台,提供云服务器、存储、数据库、安全等多种服务
立即查看
多样化
DeepSeek企业微信码
免费领取DeepSeek资料