八爪鱼采集登录验证

八爪鱼RPA【支持公众号/小红书/抖音/淘宝抓取数据】=>点击查看

你是否遇到过这样的网站:需要登录账号密码才能采集到目标数据,甚至还要输入验证码?别着急,八爪鱼提供了几种方法,帮助你轻松突破这些障碍。在这篇文章中,我将详细介绍如何使用八爪鱼采集这类需要登录或验证码的网站数据。

八爪鱼采集器官方链接:https://affiliate.bazhuayu.com/7hypDr

方法一、浏览器模式+记住Cookie

对于大部分需要登录的网站,我们可以通过八爪鱼的浏览器模式来先手动登录,完成登录后再记住Cookie,这样下次就可以直接以登录状态进行采集。

场景:手动登录

以豆瓣网为例,登录网址为:https://www.douban.com,实际采集网址为:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4。

步骤1:使用浏览器模式,输入账号密码或扫码,完成登录

  1. 打开八爪鱼客户端首页,输入登录网址,进入网页后点击进入浏览器模式。

    rpa_tutorial_octoparse_guide_login_verification_collection_1

  2. 在浏览器模式下,你可以像普通浏览器一样进行操作,比如输入账号密码或扫码登录。

  3. rpa_tutorial_octoparse_guide_login_verification_collection_2

步骤2:记住Cookie

  1. 登录成功后,八爪鱼会通过浏览器模式获取当前的Cookie信息。
  2. 在【高级设置】中勾选【使用指定的Cookie】,然后点击【获取当前页面Cookie】。
  3. rpa_tutorial_octoparse_guide_login_verification_collection_3
  4. 获取到Cookie后,可以点击【查看】按钮查看具体内容,最后点击【应用】保存。
  5. rpa_tutorial_octoparse_guide_login_verification_collection_4

记住Cookie后,八爪鱼会以登录状态启动采集任务,不需要再次登录。

步骤3:配置采集任务

  1. 在【打开网页】步骤之后,点击【+】按钮,再添加一个【打开网页】步骤。
  2. rpa_tutorial_octoparse_guide_login_verification_collection_5
  3. 双击新建的【打开网页】步骤,输入目标采集网址(如豆瓣图书页面)。
  4. rpa_tutorial_octoparse_guide_login_verification_collection_6
  5. 然后,根据需求配置采集规则,设置提取字段等。

启动本地采集后,八爪鱼会自动以登录状态打开网页并采集数据。

特别说明:

  • Cookie是什么? Cookie是一种存储在用户浏览器中的小文件,用来保存网站用户信息。比如你登录豆瓣后,浏览器会记住你的登录状态,下次访问就无需重新登录。
  • Cookie的生命周期 取决于网站的设置,过期后需要重新获取登录后的Cookie。
  • 如果需要切换账号,可以在【高级选项】中勾选【打开网页前先清理缓存】。这样每次打开网页时都会清理缓存,确保重新登录。

虽然记住Cookie很方便,但有些网站并不支持Cookie登录。这个时候,我们可以用方法二,模拟人工登录。

方法二、配置流程、模拟人工登录

对于一些复杂的登录过程,八爪鱼也能模拟人工登录,自动输入账号、密码、验证码,完成登录操作。

场景:输入账号、密码登录

以163邮箱为例,登录网址为:https://mail.163.com。

步骤1:配置输入账号、输入密码的流程

  1. 在八爪鱼中选择【输入账号】操作,并在弹出的框中输入账号。
  2. 然后选择【输入密码】操作,填写密码。
  3. 最后点击【登录】按钮,完成登录。

步骤2:配置采集任务

登录完成后,继续配置采集规则,选择需要提取的字段。

rpa_tutorial_octoparse_guide_login_verification_collection_7

步骤3:启动采集,采集数据

启动采集后,八爪鱼会自动根据配置好的流程,输入账号、密码,识别验证码并完成登录,然后开始采集目标数据。

rpa_tutorial_octoparse_guide_login_verification_collection_8

注意事项:

  • 在新版八爪鱼采集器中,新增了【登录网站】按钮,点击后会弹出登录窗口,你可以直接输入账号和密码,八爪鱼会帮助你完成登录并继续采集任务。
  • rpa_tutorial_octoparse_guide_login_verification_collection_9

总结

无论是通过浏览器模式记住Cookie,还是模拟人工登录,八爪鱼都能有效地帮助我们采集需要登录或验证码保护的网站数据。每种方法都有其独特的优势和适用场景,根据不同的需求,你可以灵活选择最合适的方式进行采集。无论你是采集简单的公开数据,还是需要登录才能访问的数据,八爪鱼都能帮助你轻松解决。

希望通过这篇文章,你能够掌握这些方法,顺利完成数据采集任务。

阅读全文
RPA
八爪鱼RPA
支持一键抓取公众号/小红书/抖音/淘宝数据
立即查看
流程自动化
付费
AI爆文训练营
图文变现友好赛道,低门槛、高上限,教你从0到1做个赚钱的公众号!
立即查看
躺着赚钱
¥149/年
何老师陪你做副业
这里聚焦AI副业、个人IP、自媒体运营、写作、赚钱案例。不哔哔,只分享有价值的副业项目。
立即查看
AI赚钱案例
限免
DeepSeek进阶教程
带你全面掌握DeepSeek应用技巧。提升工作、学习效率
立即查看
100万人学过
付费
网盘拉新实战教程
每周花费一小时,手把手教你赚网盘平台佣金
立即查看
500人学过
限时优惠
AiPPT
结合最新AI技术,为用户提供一键生成高质量PPT的解决方案。
立即查看
一键生成 PPT
免费
豆包MarsCode
一款免费的AI编程助手,全新支持DeepSeek R1/V3、豆包大模型1.5自由切换,免部署、更准确、更强大!
立即查看
AI编程助手
免费
Monica AI
Monica AI满血复活DeepSeek【免费】,提升您的聊天、搜索、写作和编程体验。
立即查看
一站式 AI 助手
云服务
腾讯云
综合性的云计算服务平台,现已接入DeepSeek,提供多样化的云解决方案
立即查看
高效可靠
云服务
阿里云
全球领先的云计算与数据服务平台,提供云服务器、存储、数据库、安全等多种服务
立即查看
多样化
DeepSeek企业微信码
免费领取DeepSeek资料