八爪鱼采集字段格式化

在我们进行数据采集时,常常会遇到数据格式不符合预期,或者只想从一段数据中提取特定的信息。对于这些需求,八爪鱼的【格式化数据】功能无疑是一个非常有效的工具。本文将通过一个实例,详细介绍如何使用八爪鱼的【格式化数据】功能来处理数据。

八爪鱼采集器官方链接:https://affiliate.bazhuayu.com/7hypDr

格式化数据功能的位置

首先,我们需要了解八爪鱼的【格式化数据】功能位置。假设我们要采集一本书的网页数据,以下是一个示例网址:https://book.douban.com/subject/4913064/。我们在采集完该页面上的图书标题、简介、图片网址等数据之后,可以进入【格式化数据】配置页面,来进一步处理和调整这些字段的格式。

具体操作如下:在八爪鱼提取字段后,将鼠标移动到目标字段上,点击【格式化数据】按钮,即可进入【格式化数据】配置页面。你还可以在纵向布局下,点击每个字段后的图标进入编辑页面。

格式化数据的设置步骤

在【格式化数据】设置页面中,你将看到原始值和格式化后的结果,并可以选择多种格式化选项。八爪鱼提供了10种格式化数据的选项,下面我们将逐一进行介绍。

格式化数据的10个选项详解

1、替换

使用【替换】选项,可以将字段中的特定内容替换为其他内容。这对于清理掉不必要的文本非常有用。

实例: 假设我们从某个字段中提取到了“808478人评价”这段文字,我们只需要数字部分,可以用【替换】功能将“人评价”替换为空,留下数字“808478”。

步骤:

  • 选择【替换】
  • 【原始值】为“808478人评价”
  • 【将】为“人评价”
  • 【替换为】为空
  • 点击【测试】查看效果,确认替换无误后点击【确定】保存配置。
  • rpa_tutorial_octoparse_guide_field_formatting_1

2、正则表达式替换

正则表达式替换比简单替换更强大,可以根据规则替换特定的部分。它能精确地定位到需要替换的文本。

实例: 假如我们提取了一段包含“书籍信息”的文本,并希望单独提取其中的ISBN号码,我们可以用正则表达式来精确替换其他信息,只留下ISBN。

步骤:

  1. 首先,用正则表达式去除字段中的空格。

    • 选择【正则表达式替换】
    • 【原始值】为书籍信息
    • 【正则表达式】为“\s+” (用于去除空格)
    • 【替换为】为空
  2. 然后,使用正则表达式提取ISBN字段。

    • 【原始值】为去除空格后的书籍信息

    • 【正则表达式】为“作者:(.+?)ISBN:” (提取ISBN)

    • 【替换为】为空

      rpa_tutorial_octoparse_guide_field_formatting_2

3、正则表达式匹配

与正则表达式替换不同,正则表达式匹配用于从文本中提取出符合条件的内容。

实例: 假设我们提取了“书籍信息”中的所有信息,并希望提取其中的“出版年”。

步骤:

  1. 选择【正则表达式匹配】

  2. 【原始文本】为书籍信息

  3. 【正则表达式】为“(?<=出版年:)(.+?)(?=页数:)” (用于提取出版年)

    rpa_tutorial_octoparse_guide_field_formatting_3

4、去除空格

八爪鱼提供了三种去除空格的选项:去除开头空格、去除结尾空格、去除两头空格。这些选项非常适合清理掉数据中不必要的空格。

实例: 如果书籍信息字段前后有多余空格,可以使用“去除两头空格”功能去除。

rpa_tutorial_octoparse_guide_field_formatting_4

5、添加前缀

你可以为字段内容添加前缀,比如给评分字段加上“评分”字样。

实例:

  • 【原始文本】:9.4

  • 【添加前缀】:“评分”

  • 【替换结果】:评分9.4

    rpa_tutorial_octoparse_guide_field_formatting_5

6、添加后缀

与添加前缀类似,添加后缀也可以帮助字段更具可读性。例如,可以给价格字段添加“元”字样。

实例:

  • 【原始文本】:9.4

  • 【添加后缀】:“元”

  • 【替换结果】:9.4元

    rpa_tutorial_octoparse_guide_field_formatting_6

7、日期时间格式化

有时我们需要将日期时间转换为特定的格式。八爪鱼提供了多种日期格式化的选项,可以帮助你根据需求进行日期时间的转换。

实例: 将“2013-10-09 12:27:14”转为“2013-10-19”。

rpa_tutorial_octoparse_guide_field_formatting_7

8、时间戳转换

时间戳转换功能可以将日期转换为时间戳,便于程序处理。

实例: 将“2013-10-09 12:27:14”转换为时间戳“1381292834”。

rpa_tutorial_octoparse_guide_field_formatting_8

9、时区时间转换

八爪鱼还支持时区时间转换,可以将不同地区的时间进行互相转换。

10、Html转码

有时候我们需要将HTML格式的数据转换为普通文本,八爪鱼提供了HTML转码功能,可以将“>”转为“>”,将“ ”转为空格。

我的使用感受

通过八爪鱼的【格式化数据】功能,我可以轻松地对采集到的字段进行清理和格式化操作。无论是简单的替换操作,还是复杂的正则表达式匹配,我都能够快速上手,极大地提升了我的数据处理效率。如果你也需要处理大量的网页数据,八爪鱼的这项功能将非常有帮助,值得一试!

阅读全文
RPA
八爪鱼RPA
支持一键抓取公众号/小红书/抖音/淘宝数据
立即查看
流程自动化
付费
AI爆文训练营
图文变现友好赛道,低门槛、高上限,教你从0到1做个赚钱的公众号!
立即查看
躺着赚钱
¥149/年
何老师陪你做副业
这里聚焦AI副业、个人IP、自媒体运营、写作、赚钱案例。不哔哔,只分享有价值的副业项目。
立即查看
AI赚钱案例
限免
DeepSeek进阶教程
带你全面掌握DeepSeek应用技巧。提升工作、学习效率
立即查看
100万人学过
付费
网盘拉新实战教程
每周花费一小时,手把手教你赚网盘平台佣金
立即查看
500人学过
限时优惠
AiPPT
结合最新AI技术,为用户提供一键生成高质量PPT的解决方案。
立即查看
一键生成 PPT
免费
豆包MarsCode
一款免费的AI编程助手,全新支持DeepSeek R1/V3、豆包大模型1.5自由切换,免部署、更准确、更强大!
立即查看
AI编程助手
免费
Monica AI
Monica AI满血复活DeepSeek【免费】,提升您的聊天、搜索、写作和编程体验。
立即查看
一站式 AI 助手
云服务
腾讯云
综合性的云计算服务平台,现已接入DeepSeek,提供多样化的云解决方案
立即查看
高效可靠
云服务
阿里云
全球领先的云计算与数据服务平台,提供云服务器、存储、数据库、安全等多种服务
立即查看
多样化
DeepSeek企业微信码
免费领取DeepSeek资料