八爪鱼如何进行时政新闻采集

你平时有关注搜狐新闻频道吗?像我有时候就很喜欢刷一刷搜狐的时政新闻、热点资讯啥的。不过吧,要是遇到想批量整理新闻资料、或者需要采集文章内容做数据分析时,靠人工一个个复制,真的要疯了。还好啦,我最近用八爪鱼搞定了搜狐新闻采集,标题、正文、图片、作者、阅读量啥的,全都一键拿下,超方便!

八爪鱼采集器官方链接:https://affiliate.bazhuayu.com/7hypDr

今天呢,我就跟你聊聊,怎么用八爪鱼来批量采集搜狐新闻频道的数据,比如我们这次用的网址是:
https://www.sohu.com/xchannel/tag?key=%E6%96%B0%E9%97%BB-%E6%97%B6%E6%94%BF&scm=10001.45714-201000.0.10005.0&spm=smpc.channel258.block2225ZJhqAx1nav.2.1713258424926eLlkrRU_1090

八爪鱼版本是V8.6.8哦,教程做的日期是2024/4/26,如果以后搜狐改版了导致采集出问题,记得直接找八爪鱼官方,他们更新得还挺快的。

那下面就一起来看看怎么搞定吧~

步骤一:打开网页

打开八爪鱼,在首页输入上面的网址,然后点击【开始采集】。这时候网页就会在八爪鱼里面自动打开了。

有个小细节提醒一下哈:当页面打开后,如果八爪鱼弹出【自动识别】提示,一定要【取消】,因为这个页面结构比较特别,不太适合用自动识别,手动来才稳妥。

步骤二:自动识别,创建【循环点击列表】

虽然取消了开始的【自动识别】,但咱们可以手动点一下【自动识别】,八爪鱼还是会帮我们识别出列表的。

rpa_tutorial_octoparse_case_Current_affairs_news_collection_1

识别完成后,生成采集规则,不过要注意,默认生成的循环列表xpath不够精准,所以需要手动修改一下:

把xpath改成:
//DIV[contains(@class,"recommend-content-wrap")]/div/div/div[@class="TPLImageTextFeedItem"]

这样就能准确识别出搜狐频道页面上每一条新闻条目了。

步骤三:点击文章链接进入详情页

这一步是关键哦,想要拿到完整的正文内容,必须点进每一篇文章里去提取。

rpa_tutorial_octoparse_case_Current_affairs_news_collection_2

具体做法就是:

  • 在新闻列表里,选中某条新闻的标题
  • 在提示框里点【点击该链接】
  • 八爪鱼就知道要逐条点击进入详情页了

要注意,一定要在当前循环列表中选中标题链接点击,不然八爪鱼只会反复点同一篇,白忙活。

进去详情页后,就可以提取各种数据啦,比如标题、发布时间、发布者、正文内容等等。

正文采集的小技巧:

正文内容通常是由很多段落组成的,咱们要建一个小循环来提取:

  1. 选中一段完整的正文段落
  2. 在提示框中选择【选中全部相似元素】
  3. 再选择【文本内容】

这样,文章里的每一段话,八爪鱼都会自动识别并提取下来。

采图片也得小技巧:

正文里面有图片的话,我们可以加一个【判断条件】来分支处理:

  • 添加【判断条件】步骤,分成两条分支
  • 左分支:判断当前元素包含图片(用xpath //img),提取图片地址
  • 右分支:默认,提取正文文本

两个分支的字段名记得保持一致哈,这样最后合并数据的时候才不会乱套。

步骤四:编辑字段

采完字段后,可以在【提取数据】页面里:

  • 删除多余字段
  • 修改字段名称
  • 调整字段顺序

如果你想把一篇文章的所有段落合并到一个单元格,还可以勾选【同一字段的多行合并采集】,超实用!

rpa_tutorial_octoparse_case_Current_affairs_news_collection_3

步骤五:启动采集

最后就是最开心的时刻啦!

保存好任务,点【采集】→【启动本地采集】,八爪鱼就开始自动点文章、提取内容了。

rpa_tutorial_octoparse_case_Current_affairs_news_collection_4

等全部搞定后,可以选择导出成Excel、CSV、HTML,甚至是数据库文件,格式任选,看你自己喜欢啦。

rpa_tutorial_octoparse_case_Current_affairs_news_collection_5

感觉嘛,这次用八爪鱼采搜狐新闻,我真的省了好多时间。以前一条条点进去复制粘贴,光想想都觉得累,现在动动鼠标,配好流程,剩下的交给八爪鱼去干活,真的是太香了。

所以,如果你也有类似的需求,不妨试试看八爪鱼,特别是这种大批量信息采集场景,简直是效率神器啊!

阅读全文
RPA
八爪鱼RPA
支持一键抓取公众号/小红书/抖音/淘宝数据
立即查看
流程自动化
付费
AI爆文训练营
图文变现友好赛道,低门槛、高上限,教你从0到1做个赚钱的公众号!
立即查看
躺着赚钱
¥149/年
何老师陪你做副业
这里聚焦AI副业、个人IP、自媒体运营、写作、赚钱案例。不哔哔,只分享有价值的副业项目。
立即查看
AI赚钱案例
限免
DeepSeek进阶教程
带你全面掌握DeepSeek应用技巧。提升工作、学习效率
立即查看
100万人学过
付费
网盘拉新实战教程
每周花费一小时,手把手教你赚网盘平台佣金
立即查看
500人学过
限时优惠
AiPPT
结合最新AI技术,为用户提供一键生成高质量PPT的解决方案。
立即查看
一键生成 PPT
免费
豆包MarsCode
一款免费的AI编程助手,全新支持DeepSeek R1/V3、豆包大模型1.5自由切换,免部署、更准确、更强大!
立即查看
AI编程助手
免费
Monica AI
Monica AI满血复活DeepSeek【免费】,提升您的聊天、搜索、写作和编程体验。
立即查看
一站式 AI 助手
云服务
腾讯云
综合性的云计算服务平台,现已接入DeepSeek,提供多样化的云解决方案
立即查看
高效可靠
云服务
阿里云
全球领先的云计算与数据服务平台,提供云服务器、存储、数据库、安全等多种服务
立即查看
多样化
DeepSeek企业微信码
免费领取DeepSeek资料