八爪鱼采集器教程：八爪鱼客户端自定义采集

八爪鱼客户端自定义采集

八爪鱼RPA【支持公众号/小红书/抖音/淘宝抓取数据】=>点击查看

当模板采集和自动识别采集都不能满足我们的需求时，如何更精确地抓取网页数据呢？这时，自定义采集功能就成了非常好的选择。自定义采集可以帮助我们根据自己的需求配置规则，提取特定的网页元素。今天，我就带你一步一步快速创建一个自定义采集案例，让你轻松搞定数据采集。

八爪鱼采集器官方链接：https://affiliate.bazhuayu.com/7hypDr

1. 输入网址

首先，进入采集工具的主页，在搜索框中输入你想要采集的网址。比如我们要采集豆瓣网站上的图书标题信息，输入的示例网址是：https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4。输入网址后，进入到采集页面。

rpa_tutorial_octoparse_advanced_custom_collection_1

在页面上，我们可以看到右侧会显示出一栏规则设置区域。此时，该区域里只有一个“打开网页”的规则，底部是数据预览区，但是因为我们还没有设置采集规则，所以数据预览区域是空的。

rpa_tutorial_octoparse_advanced_custom_collection_2

2. 选中要采集的元素并提取数据

接下来，我们要开始选择网页上的采集元素。比如在豆瓣图书页面，我们要采集的是图书的标题。点击网页中的图书标题，页面会自动高亮选中的标题，并且会显示出所有相似的标题，红色虚线标出。

这时，操作提示框会出现【提取数据】和【鼠标操作】两类操作选项。

rpa_tutorial_octoparse_advanced_custom_collection_3

我们可以选择【选中全部相似元素】，这样页面中所有带红色虚线的标题都会变成绿色，表示它们已经被选中。同时，底部会出现绿色数据预选框，意味着我们已经成功选中了所有要采集的图书标题。

rpa_tutorial_octoparse_advanced_custom_collection_4

此时，页面会提示我们要选择采集数据的类型。由于图书标题是文本信息，因此我们选择【文本内容】。你会看到，原本的选中框消失了，底部的绿色预选框变为白色，表示我们已经成功选中了要采集的文本内容，并且右侧规则区域已经生成了相应的规则。操作提示框也提示我们是否需要翻页等操作，这里我们不需要翻页，只需要修改字段名称然后点击采集。

rpa_tutorial_octoparse_advanced_custom_collection_5