
八爪鱼如何进行企业信息采集
你有没有遇到过这种情况啊,要找一大批企业信息,比如公司名称、法人、注册资金这些,但是一家公司一家公司去查,简直想哭了……我之前就被这种需求搞到头大。后来发现,用【八爪鱼】配合【天眼查】,可以一键批量采集企业信息,还能导出成Excel,舒服了!
八爪鱼采集器官方链接:https://affiliate.bazhuayu.com/7hypDr
今天嘛,我就来跟你聊聊,怎么用八爪鱼在天眼查上批量采集企业数据,手把手带你搞定哈。这个教程是基于八爪鱼V8.5.2版本的,如果后面天眼查有啥大改版,可能步骤会有点差别,不过别担心啦,可以找官方客服帮忙。
首先,了解下要干啥
目标很简单,就是在天眼查搜索结果页,比如:https://www.tianyancha.com/search?base=bj&companyType=normal_company ,
选好筛选条件(比如地区选“北京市”,机构类型选“企业”),然后一页一页地把每家企业的详细信息给采集下来。包括公司名称、网址、简介、浏览量、更新时间、法人、注册资金、统一社会信用代码、纳税人识别号、公司类型等等,基本上都能抓到。
那怎么搞呢?步骤来了!
第一步,打开网页
八爪鱼里面新建任务,直接把目标网址粘进去:https://www.tianyancha.com/search?base=bj&companyType=normal_company,点【开始采集】。
八爪鱼会自动打开网页,开始识别页面上的结构,比如列表、翻页这些。要是自动识别的结果不对,点【取消识别】,自己手动配就好啦。
对了,如果你要换筛选条件,比如想搜深圳的公司,记得自己去天眼查设置好条件,再复制新的URL哈。
第二步,登录天眼查
天眼查现在防爬挺厉害的,要是没登录,很容易被限制。
打开八爪鱼的【浏览器模式】,就像自己用浏览器一样扫码登录天眼查。
登录完以后,在【打开网页】的设置里,勾上【使用指定的Cookie】,然后点【获取当前页面Cookie】,保存一下。
这样一来,每次八爪鱼启动采集的时候,都会是登录状态,稳得很!
小科普一下:Cookie其实就是浏览器帮你保存的登录状态的小文件,这样网站才知道你是谁,省得老是要重新登录。
第三步,搞定翻页采集
默认八爪鱼只采一页数据,我们肯定要多页翻嘛。
关闭浏览器模式
找到页面上的“下一页”按钮【>】,点一下
八爪鱼提示你【循环点击下一页】,选上!
就能一页一页自动翻了。如果只想采个10页、20页,可以自己设定次数,不用采到最后一页。
第四步,点进去每家公司的详情页
这一招叫【循环点击元素】,就是:
选中第一个公司的名字或者链接。
在提示框里点【选中全部】,八爪鱼就把这一页所有公司都选中了。
然后点【循环点击每个链接】,它就能自动一家公司一家公司点进去。
超级方便!
第五步,提取你想要的字段
到了详情页以后,要把需要的信息采下来:
找到公司名称,选中,点【采集该元素文本】。
公司网址、简介、浏览量、法人、注册资金、统一社会信用代码、纳税人识别号、公司类型……都一个个选中采集就行。
要是想调整字段顺序,或者改字段名字,进【提取数据】界面随便搞,拖拽啊、删除啊、加字段啊,怎么舒服怎么来。
第六步,启动采集!
都设置好了以后,点【采集】-【启动本地采集】。
八爪鱼就开始自己工作了,不用你操心,安安静静等它跑完。
采完之后,可以选择导出数据,支持Excel、CSV、HTML格式。我一般是导出成Excel,方便后面处理嘛。
最后嘛,说下我的感受:
其实第一次配置的时候,稍微有点懵,但一边跟着步骤做,一边实际操作,很快就顺了。特别是Cookie那一步,搞定以后,稳定性提升超多,再也不怕被天眼查限制了。八爪鱼的自动化真的超级香,解放了我双手啊!
如果你也有大批量采企业信息的需求,一定要试试看!学会了这一套,以后搞数据采集就是小菜一碟啦!