
八爪鱼如何进行问题和回答采集
大家是不是经常有种感觉?想从知乎上搞点热门问题和回答的数据,手动复制粘贴太慢了,一天也搞不出多少条内容。特别是做内容分析、舆情监控或者大数据项目的时候,效率简直让人抓狂。最近我就亲测了一下用八爪鱼采集知乎的数据,速度飞起,轻轻松松就能把问题、回答、评论数量啥的统统搞下来!
八爪鱼采集器官方链接:https://affiliate.bazhuayu.com/7hypDr
今天就来聊聊,怎么用八爪鱼搞定知乎问题和回答的数据采集,操作简单,手把手教你,跟着做就行!
第一步,打开知乎网页
先打开八爪鱼,在首页【输入框】那里输入 https://www.zhihu.com/,点【开始采集】,八爪鱼就会自动打开知乎的首页,简单粗暴。
注意哦,打开后如果弹出什么【自动识别】的提示,直接点【取消识别】,因为咱们自己手动设置流程,自动识别不太适合这次的场景。
第二步,登录知乎账号
知乎这个站点有点小“聪明”,不登录的话,很多搜索和数据访问权限都会受限。
所以嘛:
- 打开【浏览器模式】,像用正常浏览器一样扫码或者账号密码登录。
- 登录成功后,在八爪鱼里勾选【使用指定的Cookie】,然后【获取当前页面Cookie】保存。
搞定这些,以后每次一打开,直接就是登录状态,省得来回扫码登录,超爽。
第三步,批量输入关键词搜索
想采什么关键词的问题自己来定,比如“人工智能”“大数据”这种。
操作也超简单:
- 在【打开网页】之后,加一个【循环】,循环方式选【文本列表】。
- 把准备好的关键词,一行一个,统统粘进去。
- 然后在搜索框上加一个【输入文本】的步骤,记得把它拖到循环里,设置为【使用当前循环里的文本】。
- 再加一个【点击按钮】,让它自动搜索。
这样设置完,八爪鱼就能一个关键词一个关键词地去搜索啦,智能到爆!
第四步,滚动页面加载更多问题
知乎的搜索结果页嘛,默认只显示一部分,要往下滚才能看到更多。
所以,在【点击搜索】后,记得加个【滚动页面】的设置:
- 滚动方式选【滚动到底部】。
- 滚动次数设置2次,每次间隔1秒左右。
这样能确保更多问题加载出来,不然就只能采到一点点数据,太亏了!
第五步,点击每个问题链接
问题列表搞到手后,当然要进入每一个问题的详情页去采更多数据啊!
这里要做的是:
- 选中第一个问题链接,点【选中全部】。
- 再点【循环点击每个链接】,八爪鱼就能一个一个进去啦。
为了保险起见,还要手动改一下XPath:
- 循环元素XPath设成:
//div[@data-za-detail-view-path-module='AnswerItem']//a
这样可以精准定位到所有问题的链接,不容易点错地方。
第六步,提取问题相关字段
到了问题详情页,咱们开始采数据啦!
- 先选中【显示全部】按钮,把被折叠的长问题描述展开。
- 然后依次选中【问题名称】、【问题描述】,点【采集该元素文本】。
- 最后记得加上【页面网址】字段,方便回头追溯问题来源。
小细节嘛,字段名也可以自己改得清晰一点,比如“问题标题”“问题内容”啥的。
第七步,展开全部回答+滚动加载
知乎的问题回答一般都会默认折叠一部分,要自己展开:
- 选中【查看全部X个回答】按钮,点【点击该链接】展开所有回答。
然后设置页面滚动:
- 滚动到底部。
- 滚动6次,每次间隔2秒。
这样就能把更多回答加载出来啦,否则只能采到前几条,太可惜了!
第八步,采集回答列表数据
回答列表出来后,接下来就是采集每一条回答啦!
- 选中第一条回答,按提示选中第二条。
- 点【采集以下元素文本】,建立【循环提取数据】。
然后针对每条回答单独提取字段,比如:
- 回答ID
- 回答ID描述(通常是作者昵称)
- 回答ID头像(头像图片地址)
- 回答正文
想要啥字段,就选中对应元素,点【采集该元素文本】或者【采集图片地址】,特别灵活。
而且采集时还能调整字段顺序,字段名也可以根据需要随便改,整个表格看起来超整齐。
第九步,启动采集
最后啦,点【采集】,选【启动本地采集】。
然后八爪鱼就自己按着流程飞速地工作了,你可以去喝个奶茶啥的,回来直接收割数据!
采完以后,支持导出成Excel、CSV、HTML、数据库等格式,我一般都是直接导成Excel,方便又清晰!
在我看来,用八爪鱼搞知乎问题和回答的数据,真的太香了。以前自己一点点复制粘贴,效率慢到怀疑人生,现在一键跑几千条数据,轻松得很!
不管你是做内容分析,还是学术研究,或者就单纯想看看知乎热门话题和回答,八爪鱼都能帮你大大节省时间和精力,绝对是神器推荐!