八爪鱼如何进行豆瓣图书评论采集

你知道吗?像豆瓣这种大平台的短评数据,平时想要一条条手动复制下来,真的太折磨人了,特别是遇到几百上千条评论的时候,真的是看着头大。不过呢,还好有了八爪鱼这样的采集神器,一键就能批量把豆瓣图书的评论采下来,直接导出成Excel,想怎么玩就怎么玩,爽爆了!

八爪鱼采集器官方链接:https://affiliate.bazhuayu.com/7hypDr

今天我就跟大家唠唠,怎么用八爪鱼去采集豆瓣图书的短评信息,像作品名、有用数、评论时间、评论内容、星级、当前时间、页面网址这些,统统拿下。而且我用的是八爪鱼V8.7.0版本,整个过程简单到离谱,零基础也能搞定!

首先嘛,咱得打开八爪鱼软件,在首页输入目标网址:https://book.douban.com/subject/4011670/comments/,然后直接点【开始采集】。注意了啊,这时候八爪鱼会自动帮你打开网页,并且尝试自动识别页面里的列表数据。等它自动识别完,顺利的话直接就能开始采集了。如果识别的不太对,没关系,直接点【取消】,自己手动来设置,反而更精准呢。

接着进入正题啦——

步骤一:打开网页

就像刚才说的,网址输入后,打开页面等待自动识别。如果要换其他书的评论,也是同理,只要网址结构跟这个差不多就行。如果要批量采集好几个图书的评论,那就用八爪鱼的【批量采集同类网页】功能,一次搞定一堆,效率翻倍!

步骤二:创建【循环列表】

这个听着有点高大上哈,其实超级简单。你只要用鼠标选中页面上的一个完整评论列表(一定要包含评论人、评论内容、有用数、星级这些关键信息),然后按提示一步步点击【选中全部子元素】、【选择全部子元素】、【元素中数据内容】,四步走完就搞定了。

这个小循环创建好以后,八爪鱼就能一条条把评论数据撸下来,根本不用我们操心,舒服!

rpa_tutorial_octoparse_case_7 _DB_Book_review_collection_1

步骤三:编辑字段

这里要稍微用点心了。默认提取的是评论里面的一些字段,但我们还想要作品名、星级、采集时间和页面网址嘛,所以要自己手动加一下。

比如:

  • 作品名:选中作品名,点【文本内容】,提取出来;

  • 星级:选中评分图标,提取【Outer Html】;

  • 当前时间:直接在数据预览那里点【+】添加采集时间;

  • 页面网址:同样在数据预览里添加【当前网页信息】→【网址】。

    rpa_tutorial_octoparse_case_7 _DB_Book_review_collection_2

字段名字最好自己改一改,保持整洁,看起来舒服多了。

步骤四:格式化数据

有些小细节要修一下,比如作品名经常带着个“短评”两字,很烦。别慌,八爪鱼有格式化功能,点击【作品名】字段后面的【...】,选择【格式化数据】→【替换】功能,把“短评”两个字替换成空白,瞬间清爽了。

至于星级提取,就稍微复杂点,因为从HTML源码里提取出来的是一大串东西。要用正则表达式小小处理一下,提取出类似“allstar50”这样的评分值,分分钟精准搞定。

rpa_tutorial_octoparse_case_7 _DB_Book_review_collection_3

步骤五:创建【循环翻页】

只想要一页评论?那直接跳过这一环节就好了。如果想要采集更多页,就得做个小设置啦。选中页面上的【后页】按钮,点【循环点击单个链接】,这样八爪鱼就会一页页点“后页”去翻下去了。

不过注意哦,默认的翻页XPath可能有问题,会导致老是采第一页。这个得自己手动改一下,改成:
//a[@data-page="next"][contains(text(),'后页')]

改完以后就不卡壳了,翻得又快又准!

rpa_tutorial_octoparse_case_7 _DB_Book_review_collection_4

步骤六:启动采集

最后就是见证奇迹的时刻啦!直接点击【采集】,选择【启动本地采集】,八爪鱼就开始飞速刷评论了,整个过程你只需要喝杯奶茶,稍等一下就能拿到满满当当的数据啦。

rpa_tutorial_octoparse_case_7 _DB_Book_review_collection_5

数据采集完成以后,可以按自己喜欢的格式导出,比如Excel、CSV、HTML或者直接导进数据库,八爪鱼全都支持,真的是非常贴心了。

rpa_tutorial_octoparse_case_7 _DB_Book_review_collection_6

感觉嘛,整个流程走下来,我真的觉得八爪鱼太友好了。不管你是数据小白,还是老手,照着这个步骤一点一点做,保准能顺利把豆瓣评论采下来。而且数据干净又完整,后续拿来分析、做报告啥的,真的是事半功倍。

所以啊,如果你也经常要采集豆瓣这种公开评论,不妨试试八爪鱼,省时省力不说,心情都变好啦!

阅读全文
RPA
八爪鱼RPA
支持一键抓取公众号/小红书/抖音/淘宝数据
立即查看
流程自动化
付费
AI爆文训练营
图文变现友好赛道,低门槛、高上限,教你从0到1做个赚钱的公众号!
立即查看
躺着赚钱
¥149/年
何老师陪你做副业
这里聚焦AI副业、个人IP、自媒体运营、写作、赚钱案例。不哔哔,只分享有价值的副业项目。
立即查看
AI赚钱案例
限免
DeepSeek进阶教程
带你全面掌握DeepSeek应用技巧。提升工作、学习效率
立即查看
100万人学过
付费
网盘拉新实战教程
每周花费一小时,手把手教你赚网盘平台佣金
立即查看
500人学过
限时优惠
AiPPT
结合最新AI技术,为用户提供一键生成高质量PPT的解决方案。
立即查看
一键生成 PPT
免费
豆包MarsCode
一款免费的AI编程助手,全新支持DeepSeek R1/V3、豆包大模型1.5自由切换,免部署、更准确、更强大!
立即查看
AI编程助手
免费
Monica AI
Monica AI满血复活DeepSeek【免费】,提升您的聊天、搜索、写作和编程体验。
立即查看
一站式 AI 助手
云服务
腾讯云
综合性的云计算服务平台,现已接入DeepSeek,提供多样化的云解决方案
立即查看
高效可靠
云服务
阿里云
全球领先的云计算与数据服务平台,提供云服务器、存储、数据库、安全等多种服务
立即查看
多样化
DeepSeek企业微信码
免费领取DeepSeek资料