# 建议

  1. 如果想要识别英文,建议使用 IBM/Azure/Amazon
  2. 如果想要识别中文,建议使用 腾讯云/阿里云
  3. 对于其他语言,比如想识别法语或韩语,可以自己多配置几家服务商,都试试,对比下质量

# IBM

# 本篇教程教你如何配置 IBM 的语音转文字


IBM 识别英文不错,识别中文不行
如果需要识别中文建议使用阿里云/腾讯云

# 第一步:注册并登录 IBM Cloud (opens new window)

  1. 注册不需要信用卡,不需要手机号,只需要邮箱就行
  2. 无法访问 IBM Cloud 或者网站很慢的话,建议翻墙访问

# 第二步:点击页面右上角"创建资源"

# 第三步:搜索 "speech", 开启 Speech to Text 服务

# 第四步:复制 "API 密钥" 和 "URL"

# 第五步: 粘贴进 IBM 设置页

# 腾讯云

# 本篇教程教你如何配置 腾讯云 的语音转文字

# 第1步: 登录 腾讯云 (opens new window)

(如果没有账号就注册然后再登录)

# 第2步:开启语音识别服务

左上角搜索 "语音识别",点击进去,开启即可

# 第3步:获取 访问密钥 (opens new window)

复制 APPID, SecretId, SecretKey 三样信息

# 第4步:复制粘贴到软件里

# Azure

# 本篇教程教你如何配置 Azure 的语音转文字

接下来我们要:

  1. 配置一个 Storage Account, 得到一个叫 connection string 的东西
    这个负责存你的文件

  2. 配置一个 Speech 服务, 得到 key 和 region
    这个负责进行语音转文字

一共两件事

# 第一步:登录 Azure (opens new window)

如果没有账号就先注册账号,Azure 会送新账号 200 美金试用(有效期30天)
(需要填入支持美金的信用卡)

# 第二步:新建一个 Storage Account

第二步的最终目的,是获得 Connection String, 它长这样:

DefaultEndpointsProtocol=https;AccountName=anynameisfine;AccountKey=krVoq8GHDu4bm4z/tlIlPrgqJbtb83CU146TichH1janq/xxxxxJbAzWQSD1czNkhZLiR37E4OWAy216xxxxxx==;EndpointSuffix=core.windows.net

# 点击左上角 Create a resource

# 搜索 storage

点击这个绿色图标的 Storage account - blob, file, table, queue
(第一行从左到右第二个)

# 点击 Create

# 填写信息这里:区域选择 (US) East US

然后点击左下角的 Review + create

# 点击 Create 即可

# 等待创建完成

# 点击 Go to resource

# 点击左边的 Access Keys

# 复制 Connection String

复制的结果类似

DefaultEndpointsProtocol=https;AccountName=anynameisfine;AccountKey=krVoq8GHDu4bm4z/tlIlPrgqJbtb83CU146TichH1janq/xxxxxJbAzWQSD1czNkhZLiR37E4OWAy216xxxxxx==;EndpointSuffix=core.windows.net

# 粘贴到软件里即可

# 第三步:获取 Speech 服务所需的 key 和 region

# 还是点击左上角 Create a resource

# 搜索 Speech, 选择第一个

# 创建时,区域选择 eastus,注意要和前面的 Storage account 是同一个区域就行

# 等待创建完成

# 创建完成后点击 Go to resources

# 选择左侧 Keys and Endpoint

然后复制两项东西:

  • Key1 就是我们想要的 Key
  • Endpoint 里面前面的 region "eastus" 就是我们想要的 region

# 填入即可

# 最后一步:测试一下填的对不对

至此,Azure 语音转文字就配置完成了

# 补充说明:

前面的区域选择 eastus 只是举例而已,你也可以选择其他区域
根据文档 (opens new window),可选的区域如下:

  • australiaeast
  • brazilsouth
  • canadacentral
  • centralindia
  • eastasia
  • eastus
  • japaneast
  • northeurope
  • southcentralus
  • southeastasia
  • uksouth
  • westcentralus
  • westeurope
  • westus
  • westus2

# Amazon

# 本篇教程教你如何配置 Amazon 的语音转文字

# 第一步:登录 AWS (opens new window)

# 登录后长这样

# 第二步:点击右上角 My Security Credential

# 第三步:点击 Create New Access Key

# 会看到一个弹框

# 将弹出来的 Access Key ID 和 Secret Access Key 复制到软件里就行

# Region 可以填 us-west-2

# 阿里云

# 本篇教程教你如何配置 阿里云 的语音转文字

# 第1步:登录 阿里云 (opens new window)

# 登录成功后长这样

# 第2步:开通 OSS (如果没有开通)

鼠标移动到页面左上角"橙色"图标上面,在弹出的菜单中搜索 OSS,
进入该页面后, 如果没开通就开通

OSS 收费很低,可以先使用后收费,
(用了一阵子语音转文字之后,应该会收到一个 OSS 欠费1分钱的通知,这时候充值1块钱就行,可以用很久)

# 第3步:开通语音服务

操作方法和开通 OSS 一样,左上角搜索"语音",选择"智能语音交互"
如果提示开通就点击开通

# 第4步:把阿里云的信息复制粘贴到软件里

获取AccessKey,鼠标悬浮在右上角头像处,会弹出菜单,然后选 "AccessKey 管理"

# 如果有弹窗提示,选择左边的灰色按钮 "继续使用 AccessKey"


补充说明:
我开发和测试时,用的都是根账号,
如果你希望用子账号能更安全一些,子账号八成也是可以的,只不过我没测试过
子账号的权限给 OSS 和语音识别就行

# 然后会看到这个页面

# 复制 AccessKey ID 和 Access Key Secret 到软件里即可。

这里的"测试配置是否正确" 原理是用 AccessKey ID 和 Access Key Secret
在账号里新建一个桶,桶的名字就是 "Bucket 名"

这个桶的名字是全局唯一的,不能和別人重复,
所以建议用 "tern-[一串数字]" 比如 "tern-1928314141"
反正不要和別人重复就行,
如果创建桶成功了,就说明有权限,就会显示"配置正确"

注意:这个 Bucket 不需要你手动去阿里云后台创建,不需要手动创建,
点击"测试"按钮时会自动创建一个

# 第4步:获取 appKey, 一个语言需要一个 appKey

# 进入"智能语音交互"


# 选择"全部项目"

# 右侧选"新建项目"


# "项目名称"可以填你想识别的语言,比如"中文"


此处可以随便填写任意名字,只是填写语言名在列表中比较好找

# 上下一共2个选项,选择下面那个 "基于场景选择模型"

# 根据需求选择"中国语言"

# 或者"多国语言"

# 为了演示我们这里选择英语,然后点击右下角的 "确认使用"

# 然后会到这个页面,右上角复制 appKey

# 把 Appkey 复制到软件里即可

先点击添加按钮

# 语言名写英语,然后粘贴后面的 appkey

# 添加完之后,语言列表里可以看到有英语

这个就是你刚刚添加的

# 价格

阿里云的免费额度是每天2小时,如果超过了会提示: USER_BIZDURATION_QUOTA_EXCEED
如下图所示

USER_BIZDURATION_QUOTA_EXCEED 的官方文档看这里 (opens new window) ,官方说明是:单日时间超限

碰到 USER_BIZDURATION_QUOTA_EXCEED 的解决方法:开通阿里云语音转文字的"商业版"


这里选择"录音文件识别"的升级为商用版
按量付费(就是先使用,然后根据使用量的多少来收费) 的价格是2.5元/一个小时

# 讯飞

本章节演示如何配置讯飞的语音转文字
注意,讯飞目前只支持 中文英文 ,如果需要处理其他语言,请用其他服务商

# 第一步:注册并登录 讯飞开放平台 (opens new window)

登录后长这样, 点击'新建应用'并走完后续的流程

# 第二步:左侧导航栏选择"语音识别"->"语音转写"

# 点击页面底部的 '领取5小时免费试用体验包'

# 然后回到页面顶部

# 复制 "服务接口认证信息" 这里显示的 APPID 和 SecretKey

# 第三步:复制并粘贴到软件 "设置"->"讯飞" 中对应的输入框即可

# 谷歌

本章节演示如何配置谷歌的语音转文字
目的是获得 "服务账号 .json 文件"
图 1

# 第一步,进入 Google Cloud (opens new window)

首页如下图 图 2

# 第二步,左侧选择 APIs & Services, 点击 Credentials

图 2

# 第三步:选择顶部的 CREATE CREDENTIALS

图 2

# 第四步:在下拉菜单中选择 Service Account

图 2

# 名字随便填一个,比如 tern-2021-2

图 2

# 权限的部分选择 Owner(如果你觉得这个权限太高了,那么只给 Cloud Storage 和语音转文字服务两个东西的权限就够了,我嫌麻烦我就直接给 Owner)

图 2

# 最后选择 DONE

图 2

# 找到刚刚创建的那个,选择编辑

图 2

# 点击 ADD KEY

图 2

# 用默认的 JSON 类型并点击确定即可

图 2

# 可以看到浏览器下载了一个 .json 文件

图 2
这个文件是你的"钥匙",可以控制你在 Google Cloud 里的资源,千万妥善保管,不要和別人分享,不要泄露出去。
否则被別人滥用,你可能会被谷歌扣很多钱。

# 在设置页面中选择这个 .json 文件即可

图 2

至此,谷歌的语音转文字就配置完毕了。

Last Updated: 2022/11/29 12:48:02