八爪鱼采集自定义抓取方式

在日常的数据采集工作中,网页上的数据类型各不相同,包括文本、图片、链接、源码等。每种数据类型对应的抓取方式也有所不同。本文将通过几个常见的数据类型和对应的抓取方式,帮助大家更好地掌握数据抓取技巧。

八爪鱼采集器官方链接:https://affiliate.bazhuayu.com/7hypDr

1. 抓取文本:提取页面中的文本内容

抓取文本内容是网页抓取中最常见的一种需求。在进行文本抓取时,首先需要在页面上选中目标文本,系统会弹出操作提示框,选择【文本内容】后,目标文本即被成功提取。

此时,鼠标移动到字段名【文本】上,点击按钮后选择【元素抓取方式】,可以看到八爪鱼自动为我们选择了【元素文本】作为抓取方式。这样,文本就能通过元素文本方式被准确抓取到。

rpa_tutorial_octoparse_guide_custom_crawl_1

2. 抓取图片网址:获取网页中图片的链接

有时我们需要提取网页中显示的图片链接。在抓取图片网址时,操作方式与抓取文本类似。只需要在页面中选中目标图片,弹出操作提示框后选择【图片链接】即可将图片网址提取出来。

此时,将鼠标移动到字段名【图片地址】上,点击按钮后,选择【元素抓取方式】中的【抓取图片网址(IMG标签的src属性)】。为什么选择【IMG标签的src属性】呢?因为网页中的图片通常是通过IMG标签展示的,图片地址一般保存在该标签的src属性中,因此我们需要通过XPath定位IMG标签,再从中提取src属性,最终得到图片网址。

rpa_tutorial_octoparse_guide_custom_crawl_2

3. 抓取链接网址:获取网页中的超链接地址

网页中的超链接通常以文本或图片的形式展示,点击后跳转到目标网页。如果需要抓取这些超链接的URL,首先需要选中页面中的超链接,点击弹出的操作提示框,选择【链接地址】来提取超链接的网址。

接着,将鼠标移动到字段名【链接地址】上,点击按钮并选择【元素抓取方式】中的【元素链接网址】。网页上的超链接一般通过A标签表示,链接地址会保存在A标签的href属性中。因此,抓取链接网址时,实际上是通过XPath定位A标签,并从中提取href属性的值,得到超链接的地址。

rpa_tutorial_octoparse_guide_custom_crawl_3

4. 抓取网页源码:获取网页元素的源码

网页上的每个元素都可以通过源码来进行抓取,通常包括两种方式:Outer Html和Inner Html。

4.1 Outer Html:抓取元素的完整源码

Outer Html抓取的是包含当前元素的完整源码。如果需要抓取某个网页元素的完整HTML源码,可以选择该元素后,选择操作提示框中的【Outer Html】。

同时,将鼠标移动到字段名【OuterHtml】上,点击按钮后选择【元素网页源码(Outer Html)】作为抓取方式。这种方式可以抓取到包括当前元素在内的完整HTML源码。

4.2 Inner Html:抓取元素的内部源码

与Outer Html不同,Inner Html只抓取元素内部的源码,而不包括元素本身。如果你只想获取元素的内容而不包含元素的HTML标签,可以选择Inner Html。

操作与Outer Html相同,首先选择要抓取的元素,然后在操作提示框中选择【Inner Html】。此时,将鼠标移动到字段名【Inner Html】上,点击按钮后选择【元素内部网页源码(Inner Html)】作为抓取方式。

5. 抓取元素属性值:提取网页元素的属性信息

网页中的元素通常包含一些属性值,如图片的alt属性、链接的title属性等。有时我们需要抓取这些属性值以供后续使用。

例如,在抓取商品列表中的商品ID时,可以通过XPath定位到商品元素,然后从商品元素中提取data-sku属性的值。具体操作步骤如下:

首先,选中第一个商品列表,选择【文本内容】来获取XPath定位路径。接着,将鼠标移动到字段名【文本】上,点击按钮后,选择【元素抓取方式】中的【抓取元素属性值】,并在下拉框中选择【data-sku】。这样,我们就成功提取了商品ID的属性值。

这种方式非常适合提取网页中元素的各种属性值,帮助我们进行更加精细化的数据抓取。

rpa_tutorial_octoparse_guide_custom_crawl_4

结论

通过掌握以上几种常见的抓取方式,我们可以根据需求灵活地提取网页中的各种数据。无论是文本、图片、链接、源码,还是元素属性值,每种抓取方式都有其独特的应用场景和方法。随着抓取技术的不断发展,我们还可以通过自定义抓取方式,进一步提升抓取效率,获得更加精确的数据。

如果你在进行网页抓取时,遇到了不懂的抓取方式,或者需要更高效的抓取方法,不妨试试本文中介绍的技巧。相信通过不断尝试和学习,你会在数据抓取的路上越来越得心应手。

阅读全文
RPA
八爪鱼RPA
支持一键抓取公众号/小红书/抖音/淘宝数据
立即查看
流程自动化
付费
AI爆文训练营
图文变现友好赛道,低门槛、高上限,教你从0到1做个赚钱的公众号!
立即查看
躺着赚钱
¥149/年
何老师陪你做副业
这里聚焦AI副业、个人IP、自媒体运营、写作、赚钱案例。不哔哔,只分享有价值的副业项目。
立即查看
AI赚钱案例
限免
DeepSeek进阶教程
带你全面掌握DeepSeek应用技巧。提升工作、学习效率
立即查看
100万人学过
付费
网盘拉新实战教程
每周花费一小时,手把手教你赚网盘平台佣金
立即查看
500人学过
限时优惠
AiPPT
结合最新AI技术,为用户提供一键生成高质量PPT的解决方案。
立即查看
一键生成 PPT
免费
豆包MarsCode
一款免费的AI编程助手,全新支持DeepSeek R1/V3、豆包大模型1.5自由切换,免部署、更准确、更强大!
立即查看
AI编程助手
免费
Monica AI
Monica AI满血复活DeepSeek【免费】,提升您的聊天、搜索、写作和编程体验。
立即查看
一站式 AI 助手
云服务
腾讯云
综合性的云计算服务平台,现已接入DeepSeek,提供多样化的云解决方案
立即查看
高效可靠
云服务
阿里云
全球领先的云计算与数据服务平台,提供云服务器、存储、数据库、安全等多种服务
立即查看
多样化
DeepSeek企业微信码
免费领取DeepSeek资料