八爪鱼采集器教程：八爪鱼如何进行百度爱采购厂家信息采集教程

八爪鱼如何进行百度爱采购厂家信息采集教程

八爪鱼RPA【支持公众号/小红书/抖音/淘宝抓取数据】=>点击查看

大家平时刷微博的时候，是不是经常想找某个话题下的热门博文？尤其是做舆情分析、市场调研、写论文的时候，手动去扒数据真的费时又费力！不过呢，最近我发现用八爪鱼来采集微博搜索结果，效率简直起飞了，想采多少就采多少，还能一键导出成Excel，超方便！

今天就来跟大家聊聊，怎么用八爪鱼一步步搞定微博搜索内容采集，保姆级教程，不懂技术也能学会哈！

第一步，打开微博首页

首先嘛，打开八爪鱼软件，在首页搜索框输入微博的网址：https://weibo.com/，然后点击【开始采集】，它会自动帮你打开微博页面，超级方便。

不过啊，注意点一下弹出来的【取消识别】，因为这时候我们还不需要让它帮忙识别页面内容。

要想采集微博上的内容，必须登录账号！否则最多只能采一页的数据，太鸡肋了。

这里推荐用Cookie的方式登录：

这样设置好，后面每次启动采集都是直接登录好的状态，再也不用重复扫码啦，超省心！

微博搜索是支持高级搜索的，比如筛原创、按时间范围搜索，或者只找带图的博文，这些都可以提前设置好。

这里推荐用偷懒的办法哈：

这样就能直接进入带筛选条件的搜索结果页啦，既快又准！

网页打开后，直接点【自动识别网页内容】，稍等几秒，它就能识别出博文列表和翻页按钮了。

点【生成采集设置】，让八爪鱼自动搭建好整个流程。

不过呢，自动识别有时候不够精准，需要手动调整一下XPath：

这两步超重要，关系到能不能采全数据哦！

在【当前页面数据预览】面板那里，可以看到八爪鱼默认采集的一堆字段。

这时候可以删掉没用的字段，改字段名字，比如把“内容”改成“博文内容”，让表格导出来更清晰。

还可以自己手动加字段，比如评论时间、评论用户名什么的，都能一网打尽。

rpa_tutorial_octoparse_case_WB_Search_keyword_collection_4

有几个字段需要特别优化一下，不然提取出来的数据会不完整或者不好用：

博文内容
默认的提取规则，只能抓到没展开的短博文。要想采到完整长博文，记得把XPath改成：
//div[@class="content"]//*[@class='txt'][last()]
转发数、评论数、点赞数
这些数量默认是带“转发”“评论”“赞”字样的，不够干净。
想只保留数字的话，点字段右上角【...】，选【格式化数据】→【正则表达式匹配】，填【\d+】，保存就好。