# 建议
- 如果想要识别英文,建议使用 IBM/Azure/Amazon
- 如果想要识别中文,建议使用 腾讯云/阿里云
- 对于其他语言,比如想识别法语或韩语,可以自己多配置几家服务商,都试试,对比下质量
# IBM
# 本篇教程教你如何配置 IBM 的语音转文字
IBM 识别英文不错,识别中文不行
如果需要识别中文建议使用阿里云/腾讯云
# 第一步:注册并登录 IBM Cloud (opens new window)
- 注册不需要信用卡,不需要手机号,只需要邮箱就行
- 无法访问 IBM Cloud 或者网站很慢的话,建议翻墙访问
# 第二步:点击页面右上角"创建资源"
# 第三步:搜索 "speech", 开启 Speech to Text 服务
# 第四步:复制 "API 密钥" 和 "URL"
# 第五步: 粘贴进 IBM 设置页
# 腾讯云
# 本篇教程教你如何配置 腾讯云 的语音转文字
# 第1步: 登录 腾讯云 (opens new window)
(如果没有账号就注册然后再登录)
# 第2步:开启语音识别服务
左上角搜索 "语音识别",点击进去,开启即可
# 第3步:获取 访问密钥 (opens new window)
复制 APPID, SecretId, SecretKey 三样信息
# 第4步:复制粘贴到软件里
# Azure
# 本篇教程教你如何配置 Azure 的语音转文字
接下来我们要:
配置一个 Storage Account, 得到一个叫 connection string 的东西
这个负责存你的文件配置一个 Speech 服务, 得到 key 和 region
这个负责进行语音转文字
一共两件事
# 第一步:登录 Azure (opens new window)
如果没有账号就先注册账号,Azure 会送新账号 200 美金试用(有效期30天)
(需要填入支持美金的信用卡)
# 第二步:新建一个 Storage Account
第二步的最终目的,是获得 Connection String, 它长这样:
DefaultEndpointsProtocol=https;AccountName=anynameisfine;AccountKey=krVoq8GHDu4bm4z/tlIlPrgqJbtb83CU146TichH1janq/xxxxxJbAzWQSD1czNkhZLiR37E4OWAy216xxxxxx==;EndpointSuffix=core.windows.net
# 点击左上角 Create a resource
# 搜索 storage
点击这个绿色图标的 Storage account - blob, file, table, queue
(第一行从左到右第二个)
# 点击 Create
# 填写信息这里:区域选择 (US) East US
然后点击左下角的 Review + create
# 点击 Create 即可
# 等待创建完成
# 点击 Go to resource
# 点击左边的 Access Keys
# 复制 Connection String
复制的结果类似
DefaultEndpointsProtocol=https;AccountName=anynameisfine;AccountKey=krVoq8GHDu4bm4z/tlIlPrgqJbtb83CU146TichH1janq/xxxxxJbAzWQSD1czNkhZLiR37E4OWAy216xxxxxx==;EndpointSuffix=core.windows.net
# 粘贴到软件里即可
# 第三步:获取 Speech 服务所需的 key 和 region
# 还是点击左上角 Create a resource
# 搜索 Speech, 选择第一个
# 创建时,区域选择 eastus,注意要和前面的 Storage account 是同一个区域就行
# 等待创建完成
# 创建完成后点击 Go to resources
# 选择左侧 Keys and Endpoint
然后复制两项东西:
- Key1 就是我们想要的 Key
- Endpoint 里面前面的 region "eastus" 就是我们想要的 region
# 填入即可
# 最后一步:测试一下填的对不对
至此,Azure 语音转文字就配置完成了
# 补充说明:
前面的区域选择 eastus 只是举例而已,你也可以选择其他区域
根据文档 (opens new window),可选的区域如下:
- australiaeast
- brazilsouth
- canadacentral
- centralindia
- eastasia
- eastus
- japaneast
- northeurope
- southcentralus
- southeastasia
- uksouth
- westcentralus
- westeurope
- westus
- westus2
# Amazon
# 本篇教程教你如何配置 Amazon 的语音转文字
# 第一步:登录 AWS (opens new window)
# 登录后长这样
# 第二步:点击右上角 My Security Credential
# 第三步:点击 Create New Access Key
# 会看到一个弹框
# 将弹出来的 Access Key ID 和 Secret Access Key 复制到软件里就行
# Region 可以填 us-west-2
# 阿里云
# 本篇教程教你如何配置 阿里云 的语音转文字
# 第1步:登录 阿里云 (opens new window)
# 登录成功后长这样
# 第2步:开通 OSS (如果没有开通)
鼠标移动到页面左上角"橙色"图标上面,在弹出的菜单中搜索 OSS,
进入该页面后, 如果没开通就开通
OSS 收费很低,可以先使用后收费,
(用了一阵子语音转文字之后,应该会收到一个 OSS 欠费1分钱的通知,这时候充值1块钱就行,可以用很久)
# 第3步:开通语音服务
操作方法和开通 OSS 一样,左上角搜索"语音",选择"智能语音交互"
如果提示开通就点击开通
# 第4步:把阿里云的信息复制粘贴到软件里
获取AccessKey,鼠标悬浮在右上角头像处,会弹出菜单,然后选 "AccessKey 管理"
# 如果有弹窗提示,选择左边的灰色按钮 "继续使用 AccessKey"
补充说明:
我开发和测试时,用的都是根账号,
如果你希望用子账号能更安全一些,子账号八成也是可以的,只不过我没测试过
子账号的权限给 OSS 和语音识别就行
# 然后会看到这个页面
# 复制 AccessKey ID 和 Access Key Secret 到软件里即可。
这里的"测试配置是否正确" 原理是用 AccessKey ID 和 Access Key Secret
在账号里新建一个桶,桶的名字就是 "Bucket 名"
这个桶的名字是全局唯一的,不能和別人重复,
所以建议用 "tern-[一串数字]" 比如 "tern-1928314141"
反正不要和別人重复就行,
如果创建桶成功了,就说明有权限,就会显示"配置正确"
注意:这个 Bucket 不需要你手动去阿里云后台创建,不需要手动创建,
点击"测试"按钮时会自动创建一个
# 第4步:获取 appKey, 一个语言需要一个 appKey
# 进入"智能语音交互"
# 选择"全部项目"
# 右侧选"新建项目"
# "项目名称"可以填你想识别的语言,比如"中文"
此处可以随便填写任意名字,只是填写语言名在列表中比较好找
# 上下一共2个选项,选择下面那个 "基于场景选择模型"
# 根据需求选择"中国语言"
# 或者"多国语言"
# 为了演示我们这里选择英语,然后点击右下角的 "确认使用"
# 然后会到这个页面,右上角复制 appKey
# 把 Appkey 复制到软件里即可
先点击添加按钮
# 语言名写英语,然后粘贴后面的 appkey
# 添加完之后,语言列表里可以看到有英语
这个就是你刚刚添加的
# 价格
阿里云的免费额度是每天2小时,如果超过了会提示: USER_BIZDURATION_QUOTA_EXCEED
如下图所示
USER_BIZDURATION_QUOTA_EXCEED 的官方文档看这里 (opens new window) ,官方说明是:单日时间超限
碰到 USER_BIZDURATION_QUOTA_EXCEED 的解决方法:开通阿里云语音转文字的"商业版"
这里选择"录音文件识别"的升级为商用版
按量付费(就是先使用,然后根据使用量的多少来收费)
的价格是2.5元/一个小时
# 讯飞
本章节演示如何配置讯飞的语音转文字
注意,讯飞目前只支持 中文 和 英文 ,如果需要处理其他语言,请用其他服务商
# 第一步:注册并登录 讯飞开放平台 (opens new window)
登录后长这样, 点击'新建应用'并走完后续的流程
# 第二步:左侧导航栏选择"语音识别"->"语音转写"
# 点击页面底部的 '领取5小时免费试用体验包'
# 然后回到页面顶部
# 复制 "服务接口认证信息" 这里显示的 APPID 和 SecretKey
# 第三步:复制并粘贴到软件 "设置"->"讯飞" 中对应的输入框即可
# 谷歌
本章节演示如何配置谷歌的语音转文字
目的是获得 "服务账号 .json 文件"
# 第一步,进入 Google Cloud (opens new window)
首页如下图
# 第二步,左侧选择 APIs & Services, 点击 Credentials
# 第三步:选择顶部的 CREATE CREDENTIALS
# 第四步:在下拉菜单中选择 Service Account
# 名字随便填一个,比如 tern-2021-2
# 权限的部分选择 Owner(如果你觉得这个权限太高了,那么只给 Cloud Storage 和语音转文字服务两个东西的权限就够了,我嫌麻烦我就直接给 Owner)
# 最后选择 DONE
# 找到刚刚创建的那个,选择编辑
# 点击 ADD KEY
# 用默认的 JSON 类型并点击确定即可
# 可以看到浏览器下载了一个 .json 文件
这个文件是你的"钥匙",可以控制你在 Google Cloud 里的资源,千万妥善保管,不要和別人分享,不要泄露出去。
否则被別人滥用,你可能会被谷歌扣很多钱。
# 在设置页面中选择这个 .json 文件即可
至此,谷歌的语音转文字就配置完毕了。
← 语音转文字服务商 - 价格 关于 →