
八爪鱼采集详情页采集
在日常数据采集的工作中,我们常常需要从网页上的图书列表中依次点击每个图书标题进入详情页,提取所需的字段信息,最后将这些信息保存为Excel等结构化数据。今天,我就带大家了解如何在八爪鱼这个强大的网页数据抓取工具中实现这个过程。
八爪鱼采集器官方链接:https://affiliate.bazhuayu.com/7hypDr
一、列表进入详情页
步骤一:输入网址
首先,在八爪鱼的首页输入目标网址。在我们这个例子中,网址是:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4。输入后,点击【开始采集】按钮。
步骤二:建立【循环-点击元素-提取数据】
我们需要让八爪鱼识别页面上的所有图书标题,并按顺序点击进入每个详情页。为了实现这一点,需要建立一个【循环-点击元素-提取数据】的步骤。具体操作如下:
选中第一个链接:观察网页,在页面上选择一个图书的标题链接。此时,选中的链接会被绿色框框起来,同时页面会弹出黄色操作提示框,告诉我们发现了相似的链接。
选中全部相似链接:在操作提示框中,点击【选中全部相似元素】按钮,这样,页面上所有图书标题的链接都会被绿色框框选中。
循环点击每个链接:接下来,在操作提示框中选择【循环点击每个链接】。这时,页面会自动跳转到第一个链接对应的详情页。
特别说明:
a. 有时候操作提示框中出现的不是【循环点击每个链接】,而是【循环点击每个元素】,或者【循环点击每个图片】,本质是一样的。
提取详情页数据:在详情页中,我们可以提取图书的标题、评分、简介、版本等字段。
这些步骤需要连贯地操作,不能中断。通过这种方式,八爪鱼会自动按顺序点击每个链接,进入详情页并提取相关数据。
步骤三:编辑字段
八爪鱼会自动为我们提取数据并生成字段。你可以根据需要对这些字段进行编辑,例如修改字段名称、删除不需要的字段等。编辑字段有两种布局方式,分别是横向布局和纵向布局。你可以根据个人喜好选择合适的方式。
在横向布局下,可以通过双击字段名称来修改,右侧的操作按钮可以帮助我们删除、复制或格式化字段;
而在纵向布局下,修改字段名称同样通过双击实现,右侧同样提供了更多操作选项。
步骤四:启动采集
一旦字段编辑完成,我们可以点击【保存】按钮,然后点击【采集】启动采集任务。在启动采集时,八爪鱼提供了两种方式:本地采集和云采集。选择本地采集后,数据会在你的电脑上进行采集;选择云采集则会使用八爪鱼的云服务器进行数据抓取。
采集完成后,我们可以选择合适的导出方式,将数据导出为Excel、CSV或HTML格式。这里我们选择导出为Excel格式。
二、没有出现【选中全部】的解决办法
有时候,在【建立循环-点击元素-提取数据】的过程中,如果没有出现【选中全部】选项,怎么办呢?
首先,我们依然按照上面的步骤操作,选中页面上的第一个链接。在此基础上,我们可以再选中一个链接,帮助八爪鱼识别页面中的所有相似链接。完成这个操作后,再选择【循环点击每个链接】,八爪鱼会自动跳转到详情页,并开始采集数据。
三、既采集列表数据,又采集详情页数据
如果你既需要采集列表中的图书信息,又需要点击列表中的链接进入详情页进一步采集数据,可以按照以下步骤操作:
- 先建立一个【循环提取数据】步骤,用来采集图书列表中的数据。
- 在循环中的每一项上,找到需要点击的链接,鼠标左键单击后,在操作提示框中选择【点击该链接】。这样八爪鱼会跳转到详情页,然后继续提取该详情页的数据。
需要注意的是,在进行【点击元素】操作时,一定要在循环列表的当前项中选择进入详情的链接。这样,避免出现重复点击某个链接的情况,确保数据采集准确。
注意事项
- 自动返回列表页:如果点击进入详情页后,八爪鱼自动返回列表页,一切都顺利。如果遇到无法返回的情况,请检查是否在点击【点击元素】步骤的高级设置中勾选了“新标签”选项。
通过上述步骤,我们就能轻松地使用八爪鱼抓取图书列表数据,并自动进入每个详情页进行数据采集,最后将结果导出为Excel等结构化数据。