Whisper:把视频和语音文件转换成文字

openai开源免费部署自己的语音识别系统

直达下载
返回上一页
描述
Whisper项目允许用户轻松将语音和视频文件转换为文本,支持多种语言识别,无需高性能GPU即可在家用电脑上运行。通过简单的步骤,用户可以搭建自己的语音识别服务,为视频制作字幕、整理访谈记录等多种应用场景提供强大支持。
介绍

最近,OpenAI 把自己的语音识别项目 Whisper 开源了,声称能把视频和语音文件转换成文字。听说效果能和科大讯飞那些收费产品一较高下,而且最妙的是,这玩意儿不需要 GPU,家用电脑就能跑!

我是个折腾爱好者,尤其对这种开源项目兴趣满满。官方文档固然详细,但我这次打算走个捷径,找到了一个基于 Whisper 的 web 服务项目,直接用 Docker 部署,听起来是不是很酷?

index_open_whisper_1

下载 Docker 镜像

在 Docker 里搜索 openai-whisper-asr-webservice,拉下第一个镜像。

index_open_whisper_2

启动服务

docker run -d -p 9000:9000 -e ASR_MODEL=base onerahmet/openai-whisper-asr-webservice:latest

运行完毕后,打开浏览器访问 http://localhost:9000/,初次访问会下载模型,稍等片刻后,就能看到部署成功的页面,简单至极!

index_open_whisper_3

开始使用

提供了两个 HTTP 接口:语音识别和语言检测。语音识别接口,上传文件后转换成文字;语言检测接口,则是识别上传文件的语言类型。

index_open_whisper_4

音/视频转文字

试了下英文音频,上传后点击执行,一会儿工夫就看到了转换结果。

index_open_whisper_5

语言检测

还能检测视频或音频文件里的语言类型,这对于多语言文件也是非常友好的。

index_open_whisper_6

OpenAI的Whisper项目通过其开源和容易部署的特性,为广大用户和开发者提供了一个强大的语音识别工具。它不仅能够处理复杂的语音识别任务,还降低了技术门槛,使得更多的人能够利用这一技术。通过Docker容器化技术,Whisper的部署和使用变得前所未有的简单,进一步推动了人工智能技术的普及和应用。

收录信息
修改时间:2024年4月8日
收录时间:2024年2月28日
标签
OpenAI Whisper Whisper OpenAI 语音识别 Docker部署 开源技术 Web服务 多语言识别
AI工具教程
免费领取AI学习资料 进AI副业交流群
礼物
AI工具教程
免费领取AI学习资料 进AI副业交流群