
八爪鱼采集登录验证
你是否遇到过这样的网站:需要登录账号密码才能采集到目标数据,甚至还要输入验证码?别着急,八爪鱼提供了几种方法,帮助你轻松突破这些障碍。在这篇文章中,我将详细介绍如何使用八爪鱼采集这类需要登录或验证码的网站数据。
八爪鱼采集器官方链接:https://affiliate.bazhuayu.com/7hypDr
方法一、浏览器模式+记住Cookie
对于大部分需要登录的网站,我们可以通过八爪鱼的浏览器模式来先手动登录,完成登录后再记住Cookie,这样下次就可以直接以登录状态进行采集。
场景:手动登录
以豆瓣网为例,登录网址为:https://www.douban.com,实际采集网址为:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4。
步骤1:使用浏览器模式,输入账号密码或扫码,完成登录
打开八爪鱼客户端首页,输入登录网址,进入网页后点击进入浏览器模式。
在浏览器模式下,你可以像普通浏览器一样进行操作,比如输入账号密码或扫码登录。
步骤2:记住Cookie
- 登录成功后,八爪鱼会通过浏览器模式获取当前的Cookie信息。
- 在【高级设置】中勾选【使用指定的Cookie】,然后点击【获取当前页面Cookie】。
- 获取到Cookie后,可以点击【查看】按钮查看具体内容,最后点击【应用】保存。
记住Cookie后,八爪鱼会以登录状态启动采集任务,不需要再次登录。
步骤3:配置采集任务
- 在【打开网页】步骤之后,点击【+】按钮,再添加一个【打开网页】步骤。
- 双击新建的【打开网页】步骤,输入目标采集网址(如豆瓣图书页面)。
- 然后,根据需求配置采集规则,设置提取字段等。
启动本地采集后,八爪鱼会自动以登录状态打开网页并采集数据。
特别说明:
- Cookie是什么? Cookie是一种存储在用户浏览器中的小文件,用来保存网站用户信息。比如你登录豆瓣后,浏览器会记住你的登录状态,下次访问就无需重新登录。
- Cookie的生命周期 取决于网站的设置,过期后需要重新获取登录后的Cookie。
- 如果需要切换账号,可以在【高级选项】中勾选【打开网页前先清理缓存】。这样每次打开网页时都会清理缓存,确保重新登录。
虽然记住Cookie很方便,但有些网站并不支持Cookie登录。这个时候,我们可以用方法二,模拟人工登录。
方法二、配置流程、模拟人工登录
对于一些复杂的登录过程,八爪鱼也能模拟人工登录,自动输入账号、密码、验证码,完成登录操作。
场景:输入账号、密码登录
以163邮箱为例,登录网址为:https://mail.163.com。
步骤1:配置输入账号、输入密码的流程
- 在八爪鱼中选择【输入账号】操作,并在弹出的框中输入账号。
- 然后选择【输入密码】操作,填写密码。
- 最后点击【登录】按钮,完成登录。
步骤2:配置采集任务
登录完成后,继续配置采集规则,选择需要提取的字段。
步骤3:启动采集,采集数据
启动采集后,八爪鱼会自动根据配置好的流程,输入账号、密码,识别验证码并完成登录,然后开始采集目标数据。
注意事项:
- 在新版八爪鱼采集器中,新增了【登录网站】按钮,点击后会弹出登录窗口,你可以直接输入账号和密码,八爪鱼会帮助你完成登录并继续采集任务。
总结
无论是通过浏览器模式记住Cookie,还是模拟人工登录,八爪鱼都能有效地帮助我们采集需要登录或验证码保护的网站数据。每种方法都有其独特的优势和适用场景,根据不同的需求,你可以灵活选择最合适的方式进行采集。无论你是采集简单的公开数据,还是需要登录才能访问的数据,八爪鱼都能帮助你轻松解决。
希望通过这篇文章,你能够掌握这些方法,顺利完成数据采集任务。