
八爪鱼如何进行时政新闻采集
你平时有关注搜狐新闻频道吗?像我有时候就很喜欢刷一刷搜狐的时政新闻、热点资讯啥的。不过吧,要是遇到想批量整理新闻资料、或者需要采集文章内容做数据分析时,靠人工一个个复制,真的要疯了。还好啦,我最近用八爪鱼搞定了搜狐新闻采集,标题、正文、图片、作者、阅读量啥的,全都一键拿下,超方便!
八爪鱼采集器官方链接:https://affiliate.bazhuayu.com/7hypDr
今天呢,我就跟你聊聊,怎么用八爪鱼来批量采集搜狐新闻频道的数据,比如我们这次用的网址是:
https://www.sohu.com/xchannel/tag?key=%E6%96%B0%E9%97%BB-%E6%97%B6%E6%94%BF&scm=10001.45714-201000.0.10005.0&spm=smpc.channel258.block2225ZJhqAx1nav.2.1713258424926eLlkrRU_1090
八爪鱼版本是V8.6.8哦,教程做的日期是2024/4/26,如果以后搜狐改版了导致采集出问题,记得直接找八爪鱼官方,他们更新得还挺快的。
那下面就一起来看看怎么搞定吧~
步骤一:打开网页
打开八爪鱼,在首页输入上面的网址,然后点击【开始采集】。这时候网页就会在八爪鱼里面自动打开了。
有个小细节提醒一下哈:当页面打开后,如果八爪鱼弹出【自动识别】提示,一定要【取消】,因为这个页面结构比较特别,不太适合用自动识别,手动来才稳妥。
步骤二:自动识别,创建【循环点击列表】
虽然取消了开始的【自动识别】,但咱们可以手动点一下【自动识别】,八爪鱼还是会帮我们识别出列表的。
识别完成后,生成采集规则,不过要注意,默认生成的循环列表xpath不够精准,所以需要手动修改一下:
把xpath改成://DIV[contains(@class,"recommend-content-wrap")]/div/div/div[@class="TPLImageTextFeedItem"]
这样就能准确识别出搜狐频道页面上每一条新闻条目了。
步骤三:点击文章链接进入详情页
这一步是关键哦,想要拿到完整的正文内容,必须点进每一篇文章里去提取。
具体做法就是:
- 在新闻列表里,选中某条新闻的标题
- 在提示框里点【点击该链接】
- 八爪鱼就知道要逐条点击进入详情页了
要注意,一定要在当前循环列表中选中标题链接点击,不然八爪鱼只会反复点同一篇,白忙活。
进去详情页后,就可以提取各种数据啦,比如标题、发布时间、发布者、正文内容等等。
正文采集的小技巧:
正文内容通常是由很多段落组成的,咱们要建一个小循环来提取:
- 选中一段完整的正文段落
- 在提示框中选择【选中全部相似元素】
- 再选择【文本内容】
这样,文章里的每一段话,八爪鱼都会自动识别并提取下来。
采图片也得小技巧:
正文里面有图片的话,我们可以加一个【判断条件】来分支处理:
- 添加【判断条件】步骤,分成两条分支
- 左分支:判断当前元素包含图片(用xpath
//img
),提取图片地址 - 右分支:默认,提取正文文本
两个分支的字段名记得保持一致哈,这样最后合并数据的时候才不会乱套。
步骤四:编辑字段
采完字段后,可以在【提取数据】页面里:
- 删除多余字段
- 修改字段名称
- 调整字段顺序
如果你想把一篇文章的所有段落合并到一个单元格,还可以勾选【同一字段的多行合并采集】,超实用!
步骤五:启动采集
最后就是最开心的时刻啦!
保存好任务,点【采集】→【启动本地采集】,八爪鱼就开始自动点文章、提取内容了。
等全部搞定后,可以选择导出成Excel、CSV、HTML,甚至是数据库文件,格式任选,看你自己喜欢啦。
感觉嘛,这次用八爪鱼采搜狐新闻,我真的省了好多时间。以前一条条点进去复制粘贴,光想想都觉得累,现在动动鼠标,配好流程,剩下的交给八爪鱼去干活,真的是太香了。
所以,如果你也有类似的需求,不妨试试看八爪鱼,特别是这种大批量信息采集场景,简直是效率神器啊!