
八爪鱼如何进行豆瓣图书评论采集
你知道吗?像豆瓣这种大平台的短评数据,平时想要一条条手动复制下来,真的太折磨人了,特别是遇到几百上千条评论的时候,真的是看着头大。不过呢,还好有了八爪鱼这样的采集神器,一键就能批量把豆瓣图书的评论采下来,直接导出成Excel,想怎么玩就怎么玩,爽爆了!
八爪鱼采集器官方链接:https://affiliate.bazhuayu.com/7hypDr
今天我就跟大家唠唠,怎么用八爪鱼去采集豆瓣图书的短评信息,像作品名、有用数、评论时间、评论内容、星级、当前时间、页面网址这些,统统拿下。而且我用的是八爪鱼V8.7.0版本,整个过程简单到离谱,零基础也能搞定!
首先嘛,咱得打开八爪鱼软件,在首页输入目标网址:https://book.douban.com/subject/4011670/comments/,然后直接点【开始采集】。注意了啊,这时候八爪鱼会自动帮你打开网页,并且尝试自动识别页面里的列表数据。等它自动识别完,顺利的话直接就能开始采集了。如果识别的不太对,没关系,直接点【取消】,自己手动来设置,反而更精准呢。
接着进入正题啦——
步骤一:打开网页
就像刚才说的,网址输入后,打开页面等待自动识别。如果要换其他书的评论,也是同理,只要网址结构跟这个差不多就行。如果要批量采集好几个图书的评论,那就用八爪鱼的【批量采集同类网页】功能,一次搞定一堆,效率翻倍!
步骤二:创建【循环列表】
这个听着有点高大上哈,其实超级简单。你只要用鼠标选中页面上的一个完整评论列表(一定要包含评论人、评论内容、有用数、星级这些关键信息),然后按提示一步步点击【选中全部子元素】、【选择全部子元素】、【元素中数据内容】,四步走完就搞定了。
这个小循环创建好以后,八爪鱼就能一条条把评论数据撸下来,根本不用我们操心,舒服!
步骤三:编辑字段
这里要稍微用点心了。默认提取的是评论里面的一些字段,但我们还想要作品名、星级、采集时间和页面网址嘛,所以要自己手动加一下。
比如:
作品名:选中作品名,点【文本内容】,提取出来;
星级:选中评分图标,提取【Outer Html】;
当前时间:直接在数据预览那里点【+】添加采集时间;
页面网址:同样在数据预览里添加【当前网页信息】→【网址】。
字段名字最好自己改一改,保持整洁,看起来舒服多了。
步骤四:格式化数据
有些小细节要修一下,比如作品名经常带着个“短评”两字,很烦。别慌,八爪鱼有格式化功能,点击【作品名】字段后面的【...】,选择【格式化数据】→【替换】功能,把“短评”两个字替换成空白,瞬间清爽了。
至于星级提取,就稍微复杂点,因为从HTML源码里提取出来的是一大串东西。要用正则表达式小小处理一下,提取出类似“allstar50”这样的评分值,分分钟精准搞定。
步骤五:创建【循环翻页】
只想要一页评论?那直接跳过这一环节就好了。如果想要采集更多页,就得做个小设置啦。选中页面上的【后页】按钮,点【循环点击单个链接】,这样八爪鱼就会一页页点“后页”去翻下去了。
不过注意哦,默认的翻页XPath可能有问题,会导致老是采第一页。这个得自己手动改一下,改成://a[@data-page="next"][contains(text(),'后页')]
改完以后就不卡壳了,翻得又快又准!
步骤六:启动采集
最后就是见证奇迹的时刻啦!直接点击【采集】,选择【启动本地采集】,八爪鱼就开始飞速刷评论了,整个过程你只需要喝杯奶茶,稍等一下就能拿到满满当当的数据啦。
数据采集完成以后,可以按自己喜欢的格式导出,比如Excel、CSV、HTML或者直接导进数据库,八爪鱼全都支持,真的是非常贴心了。
感觉嘛,整个流程走下来,我真的觉得八爪鱼太友好了。不管你是数据小白,还是老手,照着这个步骤一点一点做,保准能顺利把豆瓣评论采下来。而且数据干净又完整,后续拿来分析、做报告啥的,真的是事半功倍。
所以啊,如果你也经常要采集豆瓣这种公开评论,不妨试试八爪鱼,省时省力不说,心情都变好啦!