
八爪鱼采集验证码自动识别
在我们进行数据采集时,经常会遇到一些网站会要求我们输入验证码才能继续采集数据。这类验证码的出现,往往会导致采集任务无法顺利进行,甚至采集到的数据也不准确。针对这种防采集措施,八爪鱼采集器提供了自动打码的解决方案。本文将为大家详细讲解如何配置八爪鱼的自动打码功能,从而实现验证码的自动识别,确保采集数据的准确性。
八爪鱼采集器官方链接:https://affiliate.bazhuayu.com/7hypDr
一、自动打码支持的类型
八爪鱼采集器支持几种常见的验证码类型的自动打码,包括:
- 字母类型:常见的字母验证码。
- 数字类型:如四位数字验证码。
- 字母+数字组合类型:例如四位数字与字母混合的验证码。
- 滑块拼图类型:类似于点击并滑动拼图块完成验证。
- 点选文字类型:需要用户点击特定文字进行验证。
八爪鱼能够自动识别这些验证码类型并进行打码,支持团队版和企业版用户使用。
二、自动打码的配置
要启用自动打码功能,首先你需要购买八爪鱼的团队版或企业版。接下来,配置自动打码功能的步骤如下:
1. 图片验证类型自动打码配置
对于图片类型的验证码(如字母、数字或字母+数字),八爪鱼提供自动识别功能。以下是配置图片验证码自动打码的步骤:
步骤1:输入网址,打开网页并触发验证码
首先,在八爪鱼中输入目标网站的URL并访问网页,直到出现验证码页面。
步骤2:选中验证码并选择识别类型
在页面中选中验证码,并弹出操作提示框,选择【识别验证码】。然后,根据实际情况选择验证码的类型,比如字母验证码、数字验证码等。
步骤3:配置识别失败场景
由于验证码识别可能存在误差(识别率约为99.9%),因此需要配置【识别失败】场景。点击【确定】后,八爪鱼将会提交一个错误的验证码,从而触发页面上的【验证码错误】提示。然后,点击【确认错误】进行后续处理。
步骤4:配置识别成功场景
当识别成功后,点击【开始配置识别成功场景】,在弹出的框中输入正确的验证码,点击【应用到网页并完成配置】。
步骤5:配置采集规则
完成验证码配置后,继续按照采集需求配置后续的采集规则。
步骤6:启动本地采集
启动采集任务后,八爪鱼会自动识别验证码并完成采集。
注意事项:
- 勾选【自动识别验证码】才能启用自动识别功能。如果不勾选,则仍需手动输入验证码。
- 进行本地采集时,第一次识别验证码后需要手动点击【确认】。而云采集则会自动完成此过程。
- 自动识别验证码只支持输入验证码、文字点选和部分滑块验证码。
2. 滑块拼图类型自动打码配置
对于滑块拼图验证码,八爪鱼也提供了自动打码的功能,以下是配置步骤:
步骤1:输入网址并打开网页
访问目标网址,直到触发滑块拼图验证码。该类验证码通常会在点击某些按钮或翻页后显示。
步骤2:选中验证码并选择滑块拼图类型
选中页面中的滑块验证码,并选择【识别验证码】。在弹出的操作提示框中,选择【滑块拼图】作为验证码类型。
步骤3:配置滑块验证码的背景图片和滑块图片
通过选中背景图片和滑块图片,八爪鱼会自动填充其XPath信息。
步骤4:配置错误特征重试机制
如果滑动拼图时出现错误提示,比如“验证失败,请控制拼图对齐缺口”,可以设置在该文本出现时自动重试。
步骤5:配置采集规则
配置好滑块验证码后,继续根据采集需求设置后续的采集规则。
步骤6:启动采集
在启动采集后,八爪鱼会自动完成滑动拼图的操作,确保采集任务顺利进行。
3. 点选文字类型自动打码配置
对于需要点击文字进行验证的场景,八爪鱼也提供了自动打码功能。以下是配置步骤:
步骤1:点击文字点选区域并选择验证码类型
选中需要点选的文字区域,并选择【识别验证码】。在弹出的操作框中,选择【点选文字】作为验证码类型。
步骤2:配置背景图片和文字内容XPath
通过选中背景图片和点击按钮的XPath信息,八爪鱼会自动填写相关信息。
步骤3:配置提交按钮XPath
手动修改提交按钮的XPath为://div[@class="geetest_commit_tip"]
,以确保点击提交按钮的操作正确。
配置完成后,八爪鱼就可以自动处理点选文字类型的验证码。
三、收费与使用说明
自动打码功能是收费的,每次识别验证码将扣除账户余额0.05元。在实际使用中,验证码识别结果有可能存在误差,识别准确率为99.9%。如果出现误差,八爪鱼会通过重试机制自动继续识别,直到识别正确为止。
特别说明:
- 自动打码支持的验证码类型:目前支持输入验证码、滑块拼图验证码和点选文字验证码。
- 账户余额:每次使用自动打码会消耗余额,每个验证码收费0.05元。
结语
通过配置八爪鱼的自动打码功能,您可以在采集需要验证码验证的网站数据时大大提高效率,避免了手动输入验证码的麻烦。无论是图片验证码、滑块拼图验证码,还是点选文字类型验证码,八爪鱼都能为您提供一站式解决方案。如果您是团队版或企业版用户,不妨尝试开启这一功能,保障采集任务的顺利完成。