2022免费梯子appMacWhisper 利用 OpenAI Whisper 技术将音讯影片自动转逐字稿

MacWhisper 利用 OpenAI Whisper 技术将音讯影片自动转逐字稿

-

OpenAI 公司最为人所知的就是 ChatGPT 人工智慧聊天机器人(现在还有人不知道吗?),其实它还有其他也是很强大的专案研究,例如「DALL·E 以描述让 AI 创造图片,也能编辑现有图片呈现逼真效果」或是另一个对语音即时辨识、转为文字档的 Whisper 技术,都是当今 AI 领域的伟大发明,对於使用者来说或许不用很清楚这些技术背後的实际运作方式,只要善用对的工具就能提高工作效率。

本文要介绍「MacWhisper」是一个将录音或影片自动转为逐字稿的 Mac 应用程式,使用的正是 OpenAI 旗下的 Whisper 技术,无论是会议录音、讲座或是任何音讯档都能透过 MacWhisper 快速准确地转换为文字,同时标记时间轴,也能在辨识後直接修正错误的本文段落,支援超过 100 种语言。

更棒的是 MacWhisper 所有辨识、转录工作都在使用者的电脑上进行,不需要让任何资料离开电脑,即使遇到隐私、敏感的资料也很适合透过 MacWhisper 进行转换,应用程式本身有免费和付费 PRO 方案,差异在於可下载的训练模型(Models)大小不一样,即使如此,免费版模型就能获得相当不错的正确性,同时也能在很短时间完成音讯的识别工作。

MacWhisper 适用於 MP3、WAV、M4A、MP4 和 MOV 格式,付费後还能直接贴上 YouTube 影片网址、直接将影音内容转为文字逐字稿,转换後可保存为 SRT、VTT、TXT、CSV、DOCX(付费後还有 HTML、PDF 和 DOTE 格式),速度上很快速、准确性很高,有需要的朋友可以试试看。

MacWhisper
https://goodsnooze.gumroad.com/l/macwhisper

下载应用程式,选择要使用的方案

STEP 1

开启 MacWhisper 页面後从右侧选择最上方免费选项(价格是 €0),点选下方「我要这个」按钮,未来需要 Pro 授权序号一样可以回到这里从下方找到对应的购买选项,有依照授权数提供不同的价格,买越多单价就越便宜啦!

STEP 2

选择免费方案後前往付款页面,输入电子邮件地址後按下「获取」完成结帐。

STEP 3

完成前还是不忘推销一下,问问使用者要不要升级 MacWhisper Pro 授权解锁完整功能,在这里点选不升级进入下个画面,如果你需要的话也是可以在这里选择付费升级。

最後点选「Download MacWhisper」下载应用程式,虽然下面有个许可密钥,但对於免费版来说似乎是没有作用。

下载 Whisper 语音模型,开始语音辨识

STEP 1

开启 MacWhisper 第一件事是要下载 Whisper 模型,如果你要辨识的音讯或影片不是英文,那麽就要从多种语言(Multiple Languages)下方的模型选择、下载,免费方案可下载到「Small」模型(约 500 MB),拥有不错的辨识度、处理速度普通,如果下载较小的模型处理速度会更快,不过准确度就会稍差一些。

升级为 PRO 方案可取得更大型的音讯模型,最多有 3 GB 大小,应该会有相当高的准确性,不过处理速度会是最慢的,以我的实际操作经验,我选择免费方案的 Small 模型处理一个六分半的录音,差不多只要耗费约 34 秒,其实速度还算快。

STEP 2

完成模型下载後就能开始使用,未来也能随时将已下载的模型删除或进行切换。

STEP 3

进入 MacWhisper 主画面就能开始使用,操作方式很简单,只要将档案直接拖曳进去即可开始辨识、把内容产生为文字格式或是逐字稿,支援 MP3、WAV、M4A、MP4 和 MOV 格式。

STEP 4

虽然也可以输入 YouTube 影片直接产生字幕档,但这个功能需要付费升级为 Pro 方案才能使用,即使转换出来後也没办法顺利取得文字档(会出现要求购买 Pro 方案才能取得字幕的错误讯息)。

STEP 5

如果你想要转换的影片或音讯在 YouTube,可以先透过 YouTube 影片下载工具保存为 MP3 就能免除这个限制,反正也只是多绕个圈而已,并不会影响太多,将影片先下载为 MP4 或 MP3 格式。

接着从 MacWhisper 主画面点选「Open Files」或直接将档案拖曳进去就能开始使用 Whisper 技术将影音转换为逐字稿或是纯文字格式。

经过实际测试六分半钟的影片大约 34 秒即可完成辨识、转出字幕档和时间轴,速度相当快,不过依然有些地方不太正确,需要手动检查、勘误,时间轴上会有每个段落的字幕。

STEP 6

产生的逐字稿可以调整文字大小(透过上方选单)。

也能随时编辑字幕内容或是标记、删除,操作上还蛮简单的,透过下方操控栏位随时跳转特定段落播放。

STEP 7

转换後点选右上角「Export」汇出按钮即可选择保存格式,支援 SRT、VTT、纯文字 TXT、CSV、DOCS,其他还有 HTML、PDF 和 DOTE 格式是需要付费升级 Pro 方案才能选择的格式。

选择纯文字格式没有时间轴,点选右下角「Export」即可汇出、保存为特定文字格式,将影片或是音讯档案的逐字稿汇出。

值得一试的三个理由:

  1. 辨识与转录工作皆在使用者的电脑上进行,不需让任何资料离开电脑
  2. 快速准确将各种音讯档案转换为文字,同时支援超过 100 种语言
  3. 可转换多种音讯影片格式,付费後还可直接转换 YouTube 影片

分享本文FacebookTwitterPinterestLineCopy

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
内联反馈
查看所有评论

最新文章

传 Google 将放弃与博通合作,自行开发 AI 晶片

雪上加霜的是,南韩反垄断机构同日宣布,将暂时对博通以及其附属公司处以 191 亿韩元 (合 1,420 万美元) 的罚款。

共庆 Google Cloud 区域在台十周年 Google Cloud Summit Taipei 邀您智转未来,迈向下一个十年

Google Cloud Summit Taipei 将在 10\/17~10\/18 於台北万豪酒店隆重登场,将分享这十年来的策略与展望。

cSubtitle 语音转文字工具,上传影片、录音自动产生逐字稿和字幕

最後更新於 3 天前,作者 PsericcSubtitle 是一个协助使用者将语音转文字的线上工具,对於要把影片、录音档快速转换为纯文字逐字稿或是带有时间码的字幕格式非常有用,这项服务使用 AI、云端运算技术,不用额外下载或安装软体,唯一要做的就是打开网页、影片或录音档上传後选择要辨识转换的语言即可自动转换,因此无论是在电脑、手机或是平板电脑都能使用,适用於 PC、Mac、Linux 或 Android、iPhone 手机,语言辨识部分支援国语(台湾)、普通话(中国大陆)、广东话(香港)和英文。cSubtitle 分为「影音转档文字」、「影片自动上字幕」两大功能,也有批次进行影音转文字的服务,不过免费版只会辨识和制作三分钟的文字档或字幕档,毕竟影音处理、AI 语音辨识需要耗费大量的资源运算,免费版算是用户体验,如果真正要完成工作必须购买专业版,依照影音档时间长度计算,分为 100 分钟、500 分钟、1500 分钟和 100 个小时方案,价格从 $9.95...

【塞掐 Side Chat】E146|蔡崇信接管阿里巴巴、Google 和特斯拉都找三星代工晶片、Reddit API 收费引众怒

本集内容包括蔡崇信接管阿里巴巴、Google 和特斯拉为什麽都找三星代工晶片以及 Reddit API 收费引发争议。

不让 GitHub 专美於前!Google Colab 导入 AI 可自动写出 Python 程式码

Google 旗下的 Python 线上笔记本平台「Colab」导入生成式 AI,让 coder 可以用自然语言输入获得 Python code,或是请 AI 帮你完成、修正程式码!

【Google I/O 2023】Android 也要 AIGC!生成手机背景、转换 Google Message 讯息风格

另一项 Android 更新项目是「寻找我的装置功能」,支援更多 Android 产品,包括手机、耳机等,藉由附近 Android 装置网路来锁定自己装置的位置。

热门文章

传 Google 将放弃与博通合作,自行开发 AI 晶片

雪上加霜的是,南韩反垄断机构同日宣布,将暂时对博通以及其附属公司处以 191 亿韩元 (合 1,420 万美元) 的罚款。

共庆 Google Cloud 区域在台十周年 Google Cloud Summit Taipei 邀您智转未来,迈向下一个十年

Google Cloud Summit Taipei 将在 10\/17~10\/18 於台北万豪酒店隆重登场,将分享这十年来的策略与展望。
0
希望看到您的想法,请您发表评论x