ChatGPT Crawler：一个开源的网页抓取工具

通过自动化配置帮助用户轻松收集网页文本信息

返回上一页

描述

GPT Crawler是一个开源的网页抓取工具，旨在通过自动化配置帮助用户轻松收集网页文本信息，并生成文本文件。这些文件可用于上传至OpenAI，辅助构建自定义的AI Assistant，支持创建多种基于AI的集成应用。GPT Crawler的简便操作和灵活配置，使其成为数据收集和AI应用开发的理想选择。

介绍

GPT Crawler是一个开源项目，它通过简单配置，能够自动抓取网页文本信息，生成文本文件。这些文件可以上传至OpenAI，用于自定义Assistant，实现多种集成应用。本文将详细介绍如何使用GPT Crawler，包括安装、配置、启动爬虫，并结合OpenAI进行应用。

安装教程

克隆仓库

首先，需要安装Node.js（版本≥16），然后执行以下命令以克隆GPT Crawler仓库：

    
    git clone https://github.com/builderio/gpt-crawler

安装依赖

在克隆的仓库中，运行以下命令安装所需依赖：

    
    npm i
# 安装 Playwright
npx playwright install

配置爬虫

GPT Crawler的核心在于配置，主要包括目标网站的起始网址、继续抓取的页面链接的URL规则、以及页面中提取文本信息的CSS选择器。

配置CSS选择器

以下是一个示例配置，用于抓取阮一峰老师的TypeScript教程：

    
    export const config: Config = {
  url: "https://wangdoc.com/typescript/",
  match: "https://wangdoc.com/typescript/**",
  selector: `body > section > div > div:nth-child(1) > div.column.is-8.is-6-widescreen.is-offset-1-widescreen > article`,
  maxPagesToCrawl: 50,
  outputFileName: "output1.json",
};

启动爬虫

完成配置后，运行以下命令以启动爬虫：

    
    npm start

程序将在项目根目录生成output.json文件。

home_open_GPT_Crawler_1

将您的数据上传到 OpenAI

要将生成的文本文件用于自定义Assistant，首先需要一个OpenAI账户。上传output.json文件至OpenAI后，可以创建一个Assistant，并通过OpenAI的API集成至自己的系统。

实际案例

以创建一个自定义Assistant为例，操作步骤如下：

访问OpenAI的自定义Assistants页面。
创建一个新的Assistant。
上传output.json文件。
根据需要配置其他选项。

完成以上步骤后，就可以开始测试Assistant了。

home_open_GPT_Crawler_2

GPT Crawler是一个功能强大且易于使用的工具，可以快速从网页抓取文本信息，为自定义AI Assistant提供知识库。通过结合OpenAI的API，可以实现多种创新应用，如自动化客服、个性化信息提供等。这个项目为开发者提供了一个简便的方式来扩展和定制他们的AI应用，是值得探索和利用的资源。

类别

AI开源大模型 AI业务助手

松鼠盒子AI是什么？

松鼠盒子AI是专业靠谱的AI人工智能工具评测推荐网站。已收录了国内外上千款AI工具、GPTs应用，涉及AI副业、AI编程、AI写作、AI问答、AI绘画、AI自媒体、AI开源项目等领域，可以通过类别和功能来搜索和过滤这些工具；同时也整理了ChatGPT、Stable Diffusion、Midjourney、Prompt Engineering、Sora等AI工具使用教程。

免责声明

本站内容整理自网络，所提供内容仅供学习使用，请勿做非法用途，不得以任何方式利用本网站提供内容直接或间接从事违反中国法律法规，以及社会公德的行为。若本站内容涉嫌侵犯他人知识产权或其他合法权益的内容，请及时联系立即删除；本站尊重并保护所有用户的个人隐私权。

RPA

八爪鱼RPA

支持一键抓取公众号/小红书/抖音/淘宝数据

流程自动化

付费

AI爆文训练营

图文变现友好赛道，低门槛、高上限，教你从0到1做个赚钱的公众号!

躺着赚钱

￥149/年

何老师陪你做副业

这里聚焦AI副业、个人IP、自媒体运营、写作、赚钱案例。不哔哔，只分享有价值的副业项目。

AI赚钱案例

限免

DeepSeek进阶教程

带你全面掌握DeepSeek应用技巧。提升工作、学习效率

100万人学过

付费

网盘拉新实战教程

每周花费一小时，手把手教你赚网盘平台佣金

500人学过

限时优惠

AiPPT

结合最新AI技术，为用户提供一键生成高质量PPT的解决方案。

一键生成 PPT

免费

豆包MarsCode

一款免费的AI编程助手，全新支持DeepSeek R1/V3、豆包大模型1.5自由切换，免部署、更准确、更强大！

AI编程助手

免费

Monica AI

Monica AI满血复活DeepSeek【免费】，提升您的聊天、搜索、写作和编程体验。

一站式 AI 助手

云服务

腾讯云

综合性的云计算服务平台，现已接入DeepSeek，提供多样化的云解决方案

高效可靠

云服务

阿里云

全球领先的云计算与数据服务平台，提供云服务器、存储、数据库、安全等多种服务

多样化

DeepSeek企业微信码

免费领取DeepSeek资料