阿里云语音合成（阿里云语音合成引擎）

admin 515 2022-11-26

阿里云服务器优惠多，折扣错，惊喜多，请咨询：www.wqiis.com

本文目录一览：

1、语音合成工具启动会话失败,请检查appid是否可用是怎么回事
2、阿里云的主要功能是什么？
3、语音合成技术

语音合成工具启动会话失败,请检查appid是否可用是怎么回事

系统问题或网络延迟

在win10都出现这个问题，win7都正常使用。这东西必须在连接网络的情况选使用，否则就会提示启动会话失败，可以检查网络，保持网络畅通的情况下使用，如果用的而是win10的系统，更换系统即可。

语音核城这些软件大都是调用的云服务，例如腾讯云或者阿里云的语音合成服务。在阿里云开发文档中找到语音合成相关文档，可以根据自己擅长的语言选择合适的sdk进行开发，调试的时候在各个demo里面修改自己accessKeyId的和在阿里云申请的相关accessKeySecret值。

扩展资料：

语音合成作为自媒体语音合成软件背后的技术，是很多程序员都需要的技术。如阿里云有应用场景和发音人供选择，而且可以细调语速和语调，目前阿里云的接口可以免费试用。

但是一次合成的文字不能超过300字。网络调试助手：在线语音合成功能，需要通过网络给阿里云发送合成请求，这个软件就是用来发送网络报文的。

阿里云语音合成（阿里云语音合成引擎）

阿里云的主要功能是什么？

阿里云致力于以在线公共服务的方式，提供安全、可靠的计算和数据处理能力，让计算和人工智能成为普惠科技。

阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业，包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户，以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中，阿里云保持着良好的运行纪录。

阿里云在全球各地部署高效节能的绿色数据中心，利用清洁计算为万物互联的新世界提供源源不断的能源动力，目前开服的区域包括中国（华北、华东、华南、香港）、新加坡、美国（美东、美西）、欧洲、中东、澳大利亚、日本。

扩展资料：

阿里云主要产品：

1、弹性计算：

云服务器ECS：可弹性扩展、安全、稳定、易用的计算服务

块存储：可弹性扩展、高性能、高可靠的块级随机存储

专有网络VPC：帮您轻松构建逻辑隔离的专有网络

负载均衡：对多台云服务器进行流量分发的负载均衡服务

弹性伸缩：自动调整弹性计算资源的管理服务

资源编排：批量创建、管理、配置云计算资源

容器服务：应用全生命周期管理的Docker服务

高性能计算HPC：加速深度学习、渲染和科学计算的GPU物理机

批量计算：简单易用的大规模并行批处理计算服务

E-MapReduce：基于Hadoop/Spark的大数据处理分析服务

2、数据库：

云数据库RDS：完全兼容MySQL，SQLServer，PostgreSQL

云数据库MongoDB版：三节点副本集保证高可用

云数据库Redis版：兼容开源Redis协议的Key-Value类型

云数据库Memcache版：在线缓存服务，为热点数据的访问提供高速响应

PB级云数据库PetaData：支持PB级海量数据存储的分布式关系型数据库

云数据库HybridDB：基于GreenplumDatabase的MPP数据仓库

云数据库OceanBase：金融级高可靠、高性能、分布式自研数据库

数据传输：比GoldenGate更易用，阿里异地多活基础架构

数据管理：比phpMyadmin更强大，比Navicat更易用

3、存储：

对象存储OSS：海量、安全和高可靠的云存储服务

文件存储：无限扩展、多共享、标准文件协议的文件存储服务

归档存储：海量数据的长期归档、备份服务

块存储：可弹性扩展、高性能、高可靠的块级随机存储

表格存储：高并发、低延时、无限容量的Nosql数据存储服务

4、网络：

CDN：跨运营商、跨地域全网覆盖的网络加速服务

专有网络VPC：帮您轻松构建逻辑隔离的专有网络

高速通道：高速稳定的VPC互联和专线接入服务

NAT网关：支持NAT转发、共享带宽的VPC网关

2018年6月20日，阿里云宣布联合三大运营商全面对外提供IPv6服务。

5、大数据：

MaxCompute：原名ODPS，是一种快速、完全托管的TB/PB级数据仓库解决方案。

QuickBI：高效数据分析与展现平台，通过对数据源的连接，和数据集的创建，对数据进行即席的分析与查询。并通过电子表格或仪表板功能，以拖拽的方式进行数据的可视化呈现。

大数据开发套件：提供可视化开发界面、离线任务调度运维、快速数据集成、多人协同工作等功能，拥有强大的OpenAPI为数据应用开发者提供良好的再创作生态

DataV数据可视化：专精于业务数据与地理信息融合的大数据可视化，通过图形界面轻松搭建专业的可视化应用，满足您日常业务监控、调度、会展演示等多场景使用需求

关系网络分析：基于关系网络的大数据可视化分析平台，针对数据情报侦察场景赋能，如打击虚假交易，审理保险骗赔，案件还原研判等

推荐引擎：推荐服务框架，用于实时预测用户对物品偏好，支持A/BTest效果对比

公众趋势分析：利用语义分析、情感算法和机器学习，分析公众对品牌形象、热点事件和公共政策的认知趋势

企业图谱：提供企业多维度信息查询，方便企业构建基于企业画像及企业关系网络的风险控制、市场监测等企业级服务

数据集成：稳定高效、弹性伸缩的数据同步平台，为阿里云各个云产品提供离线(批量)数据进出通道

分析型数据库：在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索

流计算：流式大数据分析平台，提供给用户在云上进行流式数据实时化分析工具

6、人工智能：

机器学习：基于阿里云分布式计算引擎的一款机器学习算法平台，用户通过拖拉拽的方式可视化的操作组件来进行试验，平台提供了丰富的组件，包括数据预处理、特征工程、算法组件、预测与评估

语音识别与合成：基于语音识别、语音合成、自然语言理解等技术，为企业在多种实际应用场景下，赋予产品“能听、会说、懂你”式的智能人机交互体验

人脸识别：提供图像和视频帧中人脸分析的在线服务，包括人脸检测、人脸特征提取、人脸年龄估计和性别识别、人脸关键点定位等独立服务模块

印刷文字识别：将图片中的文字识别出来，包括身份证文字识别、门店招牌识别、行驶证识别、驾驶证识别、名片识别等证件类文字识别场景

7、云安全：

服务器安全（安骑士）：由轻量级Agent和云端组成，集检测、修复、防御为一体，提供网站后门查杀、通用Web软件0day漏洞修复、安全基线巡检、主机访问控制等功能，保障服务器安全

DDoS高防IP：云盾DDoS高防IP是针对互联网服务器（包括非阿里云主机）在遭受大流量的DDoS攻击后导致服务不可用的情况下，推出的付费增值服务，用户可以通过配置高防IP，将攻击流量引流到高防IP，确保源站的稳定可靠

Web应用防火墙：网站必备的一款安全防护产品。通过分析网站的访问请求、过滤异常攻击，保护网站业务可用及资产数据安全

加密服务：满足云上数据加密，密钥管理、加解密运算需求的数据安全解决方案

CA证书服务：云上签发Symantec、CFCA、GeoTrustSSL数字证书，部署简单，轻松实现全站HTTPS化，防监听、防劫持，呈现给用户可信的网站访问

数据风控：凝聚阿里多年业务风控经验，专业、实时对抗垃圾注册、刷库撞库、活动作弊、论坛灌水等严重威胁互联网业务安全的风险

绿网：智能识别文本、图片、视频等多媒体的内容违规风险，如涉黄，暴恐，涉政等，省去90%人力成本

安全管家：基于阿里云多年安全实践经验为云上用户提供的全方位安全技术和咨询服务，为云上用户建立和持续优化云安全防御体系，保障用户业务安全

云盾混合云：在用户自有IDC、专有云、公共云、混合云等多种业务环境为用户建设涵盖网络安全、应用安全、主机安全、安全态势感知的全方位互联网安全攻防体系

态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案

先知：全球顶尖白帽子和安全公司帮你找漏洞，最私密的安全众测平台。全面体检，提早发现业务漏洞及风险，按效果付费

移动安全：为移动APP提供安全漏洞、恶意代码、仿冒应用等检测服务，并可对应用进行安全增强，提高反破解和反逆向能力。

8、互联网中间件：

企业级分布式应用服务EDAS：以应用为中心的中间件PaaS平台、

消息队列MQ：ApacheRocketMQ商业版企业级异步通信中间件

分布式关系型数据库服务DRDS：水平拆分/读写分离的在线分布式数据库服务

云服务总线CSB：企业级互联网能力开放平台

业务实施监控服务ARMS：端到端一体化实时监控解决方案产品

9、分析：

E-MapReduce：基于Hadoop/Spark的大数据处理分析服务

云数据库HybirdDB：基于GreenplumDatabase的MPP数据仓库

高性能计算HPC：加速深度学习、渲染和科学计算的GPU物理机

大数据计算服务MaxCompute：TB/PB级数据仓库解决方案

分析型数据库：海量数据实时高并发在线分析

开放搜索：结构化数据搜索托管服务

QuickBI：通过对数据源的连接，对数据进行即席分析和可视化呈现。

参考资料：

百度百科-阿里云

语音合成技术

一，语音合成技术原理

语音合成（test to speech）,简称TTS。将文字转化为语音的一种技术，类似于人类的嘴巴，通过不同的音色说出想表达的内容。

在语音合成技术中，主要分为语言分析部分和声学系统部分，也称为前端部分和后端部分，语言分析部分主要是根据输入的文字信息进行分析，生成对应的语言学规格书，想好该怎么读；声学系统部分主要是根据语音分析部分提供的语音学规格书，生成对应的音频，实现发声的功能。

1. 语言分析部分

语言分析部分的流程图具体如下，可以简单的描述出语言分析部分主要的工作。

文本结构与语种判断：当需要合成的文本输入后，先要判断是什么语种，例如中文，英文，藏语，维语等，再根据对应语种的语法规则，把整段文字切分为单个的句子，并将切分好的句子传到后面的处理模块。

文本标准化：在输入需要合成的文本中，有阿拉伯数字或字母，需要转化为文字。根据设置好的规则，使合成文本标准化。例如， “请问您是尾号为8967的机主吗？“8967”为阿拉伯数字，需要转化为汉字“八九六七”，这样便于进行文字标音等后续的工作；再如，对于数字的读法，刚才的“8967“为什么没有转化为”八千九百六十七“呢？因为在文本标准化的规则中，设定了”尾号为+数字“的格式规则，这种情况下数字按照这种方式播报。这就是文本标准化中设置的规则。

文本转音素：在汉语的语音合成中，基本上是以拼音对文字标注的，所以我们需要把文字转化为相对应的拼音，但是有些字是多音字，怎么区分当前是哪个读音，就需要通过分词，词性句法分析，判断当前是哪个读音，并且是几声的音调。

例如，“南京市长江大桥”为“nan2jing1shi4zhang3jiang1da4qiao2”或者“南京市长江大桥”“nan2jing1shi4chang2jiang1da4qiao3”。

句读韵律预测：人类在语言表达的时候总是附带着语气与感情，TTS合成的音频是为了模仿真实的人声，所以需要对文本进行韵律预测，什么地方需要停顿，停顿多久，哪个字或者词语需要重读，哪个词需要轻读等，实现声音的高低曲折，抑扬顿挫。

2 ．声学系统部分

声学系统部分目前主要有三种技术实现方式，分别为：波形拼接，参数合成以及端到端的语音合成技术。

1) 波形拼接语音合成

通过前期录制大量的音频，尽可能全的覆盖所有的音节音素，基于统计规则的大语料库拼接成对应的文本音频，所以波形拼接技术通过已有库中的音节进行拼接，实现语音合成的功能。一般此技术需要大量的录音，录音量越大，效果越好，一般做的好的音库，录音量在50小时以上。

优点：音质好，情感真实。

缺点：需要的录音量大，覆盖要求高，字间协同过渡生硬，不平滑，不是很自然。

2) 参数语音合成技术

参数合成技术主要是通过数学方法对已有录音进行频谱特性参数建模，构建文本序列映射到语音特征的映射关系，生成参数合成器。所以当输入一个文本时，先将文本序列映射出对应的音频特征，再通过声学模型（声码器）将音频特征转化为我们听得懂的声音。

优点：录音量小，可多个音色共同训练，字间协同过渡平滑，自然等。

缺点：音质没有波形拼接的好，机械感强，有杂音等。

3) 端到端语音合成技术

端到端语音合成技术是目前比较火的技术，通过神经网络学习的方法，实现直接输入文本或者注音字符

，中间为黑盒部分，然后输出合成音频，对复杂的语言分析部分得到了极大的简化。所以端到端的语音合成技术，大大降低了对语言学知识的要求，且可以实现多种语言的语音合成，不再受语言学知识的限制。通过端到端合成的音频，效果得到的进一步的优化，声音更加贴近真人。

优点：对语言学知识要求降低，合成的音频拟人化程度更高，效果好，录音量小。

缺点：性能大大降低，合成的音频不能人为调优。

以上主要是对语音合成技术原理的简单介绍，也是目前语音合成主流应用的技术。当前的技术也再迭代更新，像端到端技术目前比较火的wavenet，Tacotron，Tacotron2以及deepvoice3等技术，感兴趣的朋友可以自己了解学习。

二，技术边界

目前语音合成技术落地是比较成熟的，比如前面说到的各种播报场景，读小说，读新闻以及现在比较火的人机交互。但是目前的TTS还是存在着一些解决不掉的问题。

1. 拟人化

其实当前的TTS拟人化程度已经很高了，但是行业内的人一般都能听出来是否是合成的音频，因为合成音的整体韵律还是比真人要差很多，真人的声音是带有气息感和情感的，TTS合成的音频声音很逼近真人，但是在整体的韵律方面会显得很平稳，不会随着文本内容有大的起伏变化，单个字词可能还会有机械感。

2. 情绪化

真人在说话的时候，可以察觉到当前情绪状态，在语言表达时，通过声音就可以知道这个人是否开心，或者沮丧，也会结合表达的内容传达具体的情绪状态。单个TTS音库是做不到，例如在读小说的时候，小说中会有很多的场景，不同的情绪，但是用TTS合成的音频，整体感情和情绪是比较平稳的，没有很大的起伏。目前优化的方式有两种，一是加上背景音乐，不同的场景用不同的背景音乐，淡化合成音的感情情绪，让背景音烘托氛围。二是制作多种情绪下的合成音库，可以在不同的场景调用不同的音库来合成音频。

3. 定制化

当前我们听到语音合成厂商合成的音频时，整体效果还是不错的，很多客户会有定制化的需求，例如用自己企业职员的声音制作一个音库，想要达到和语音合成厂商一样的效果，这个是比较难的，目前语音合成厂商的录音员基本上都是专业的播音员，不是任何一个人就可以满足制作音库的标准，如果技术可以达到每一个人的声音都可以到达85%以上的还原，这将应用于更多的场景中。

三，效果指标和技术指标

随着语音合成技术的发展，语音合成（TTS）已经应用于生活中的各个场景，实现了语音合成技术的应用落地。例如，在高铁，机场的语音播报工作，医院的叫号业务，以及现在比较火热的语音交互产品。语音合成的各种应用说明它不仅仅是一项技术，更是一款产品，作为产品，可以用哪些指标来衡量这款产品呢？

下面将介绍两种衡量TTS产品的指标，效果指标和性能指标。

1. 效果指标

1) MOS 值

目前关于TTS合成效果的评判标准，行业内一致认可的是mos值测试，找一些业内专家，对合成的音频效果进行打分，分值在1-5分之间，通过平均得到最后的分数，这就是mos值测试。很显然这是一个主观的评分，没有具体的评分标准，这和个人对音色的喜好，对合成音频内容场景的掌握情况，以及对语音合成的了解程度是强相关的，所以算是仁者见仁，智者见智的测试方式。

由于TTS合成效果的评判主观性，导致在一些项目的验收中，不能明确出具体的验收标准，例如在定制音库的项目中，客户想做一个独有的定制音库，最后验收肯定是客户对合成音频效果满意，则成功验收，这是一个很主观的标准，怎么样才算满意呢？对于TTS厂商而言，这是不公平的。所以需要找一些可以量化的标准使得项目可以更好的验收，双方也不会因为合成效果出分歧。这里推荐一条验收标准，可以将语音合成效果量化，分别对原始录音和合成音频进行盲测打分（mos值测试），合成音频的mos值能达到原始录音的85% （数值可以根据项目情况来定）以上，就可验收，这样就可以把验收标准确定下来，且进行了量化。当然打分团队可以是客户和TTS厂商的人，也可以请第三方的人来打分，确保公平。

虽然mos值是一个比较主观的测试方式，但也有一些可评判的标准。例如在合成的音频中，多音字的读法，当前场景下数字的播报方式，英语的播报方式，以及在韵律方面，词语是否连在一起播报，应该重读的地方是否有重读，停顿的地方是否合理，音色是否符合应用于当前的这个场景，都可以在打分的时候做为得分失分的依据。

分享一个简单的评分标准，可作为参考依据。

2) ABX 测评

合成效果对比性测试，选择相同的文本以及相同场景下的音色，用不同的TTS系统合成来对比哪个的合成效果较好，也是人为的主观判断，但是具有一定的对比性，哪一个TTS更适合当前的场景，以及合成的效果更好。

2. 性能指标

1) 实时率

在语音合成中，合成方式分为非流式合成和流失合成，非流失合成指的是一次性传入文本，一次性返回合成的文本音频；流式合成指的是文本传输给TTS时，TTS会分段传回合成的音频，这样可以减少语音合成的等待时间，在播报的同时也在合成，不用等到整段音频合成完再进行播报，所以对于语音合成时间的一个指标就是实时率。实时率等于文字合成所需时长除以文字合成的音频总时长，下面是实时率的计算公式：

为什么讲实时率会说到非流失合成和流式合成，因为在流式合成场景中，开始合成的时候也就已经开始播报了，音频合成完成也就播报完成了，不会产生等待的过程，这种过程主要用于语音交互的场景，智能机器人收到语音信号之后，马上就可以给予答复，不会让用户等太久。所以为了确保用户的最佳体验，要求“文字合成所需时长”≤“文字合成出的音频时长”，也就是实时率要小于等于1 。

2) 首包响应时间

在流式合成中，分段合成的音频会传输给客户端或者播放系统，在合成首段音频时，也会耗费时间，这个耗时称为“首包响应时间”。为什么会统计这个时间呢，因为在语音交互中，根据项目经验以及人的容忍程度，当用户说完话时，在1200ms之内，机器人就要开始播报回复，这样就不会感觉有空白时间或者停顿点，如果时间超过1200ms，明显感觉会有一个等待的时间，用户体验不佳，性子急的用户可能就终止了聊天。1200ms的时间不只是TTS语音合成的首包时间，还有ASR（语音识别）和NLU（自然语言理解）所消耗的时间，所以TTS首包响应时间要控制在500ms以内，确保给ASR，NLU留有更多的时间。

3) 并发数

人工智能的发展主要有三个方面，分别为算法，算力，数据，其实讲的性能指标相当于是算力的部分，目前承载算力的服务器有CPU服务器和GPU服务器。前面说到实时率的指标是要小于等于1，那如果实时率远小于1，是不是会对服务器造成浪费呢，因为只要实时率小于等于1，就可以满足用户的需求，让用户体验良好。所以上面说的实时率是针对CPU服务器单核单线程时，或者GPU单卡单线程时，那实时率的公式可以为：

为了资源的最大利用化，我们只需确保实时率接近1，或者等于1就行，没必要远小于1，所以当在单核单线程实时率远小于1时，则可以实现一核二线，一核三线的线程数，使得实时率为1，这个一核“二线”，“三线”，这个“几线”说的就是几并发数，准确说是单核并发数。那这个并发数怎计算呢，举个例子，如果单核单线程的并发数是0.1，则一核10线程的并发就是1，也是满足需求的，就可以按照这个并发数给客户提供。所以并发数的计算公式如下：

所以当用户需要200线程的语音合成并发数使，按0.1的实时率，一核十线，只需要20核的cpu服务器，则可以跟客户要求24核的cpu服务器即可满足客户的需求，也为客户节省了成本。

再说一下这个线程和并发的概念，线程，并发算是同一个概念，例如200线并发，指的是需要同时支持200线的语音合成，200线是同时合成音频的，合成内容可以相同也可以不同。

4) 合成100个字需要多少时间（1s能合成多少个字）

有些客户对于实时率，响应时间这些概念是比较模糊的，他会问你们的 TTS合成100个字需要多少时间或者 1s能合成多少个字，所以这个时候为了方便和客户沟通，我们需要知道合成100个字TTS消耗的时间。这个数据是可以大概算出来的，当然也可以直接让测试测出一百字消耗的时间。这里主要讲一下计算的方法。

按照正常的播报速度，1秒可以播报4个字左右，我们就按照四个字计算，100个字的音频，音频时长大概就是25s（100除以4），假如实时率为0.1，再根据当前的实时率计算公式，算出合成时间为2.5s，也可以计算出1s合成的字数（100/2.5）为40个字。

简单介绍了语音合成产品会涉及到的一些参数指标，还有一些测试时需要了解的指标数据，例如cpu占用，内存占用，DPS（单位时间合成的音频总时长）,TPS（单位时间合成的音频任务数）以及TP99，感兴趣的朋友可以查询研究一下，这些数据也主要用于项目poc的测试中，或者TTS产品整体的测试中，可以算是对于TTS产品的一个整体的了解。

四，语音合成厂商

有很多厂商拥有语音合成技术，有互联网大厂，也有一些只专注于人工智能的企业。

科大讯飞科大讯飞的语音合成技术在全球范围内也是数一数二的，合成的音频效果自然度高，讯飞官网挂接的音库是最多的，且涉及很多的场景，以及很多的外语音库。

阿里巴巴在阿里云官网的音库，有几个音库的合成效果非常棒，例如艾夏，合成的音频播报时感觉带有气息感，拟人化程度相当高。

百度百度的语音合成技术还是很强的，但是官网给的合成音库较少，具体不太好评判。

灵伴科技这家公司在语音合成领域是不在忽略的。灵伴的音库合成音效果也是非常的棒，有一个东北大叔的音库，主要是偏东北话，整体的韵律，停顿，重读等掌握的很好，很到位。

标贝科技标贝科技和灵伴科技一样，是语音合成领域不可小觑的两个企业，是因为他们TTS合成的音频效果拟人化程度很高，每个场景的风格也很逼真。

捷通华声捷通华声是一家老牌的人工智能企业，合成的音频效果整体还是不错的，且支持多种语种的音库。

还有些企业没有一一列出来，是因为上面这些企业是在平时项目中，或者TTS技术落地应用上比较多的企业。

五，小结

目前的语音合成已经应用于各种场景，是较成熟可落地的产品，对于合成音的要求，当前的技术已经可以做很好了，满足了市场上绝大部分需求，语音合成技术主要是合成类似于人声的音频，其实当前的技术已完全满足。目前的问题在于不同场景的具体需求的实现，例如不同的数字读法，如何智能的判断当前场景应该是哪种播报方式，以及什么样的语气和情绪更适合当下的场景，多音字如何更好地区分，确保合成的音频尽可能的不出错。当然错误有时候是不可避免的，但是如何在容错范围之内，或者读错之后是否有很好的自学机制，下次播报时就可以读对，具有自我纠错的能力，这些可能是当前产品化时遇到的更多更实际的问题，在产品整体设计的时候，这些是需要考虑的主要问题。

后续会讲述在实际场景中主要遇到的问题以及解决的方案。

标签：阿里云语音合成

发表评论

暂时没有评论，来抢沙发吧~

阿里云语音合成（阿里云语音合成引擎）

语音合成工具启动会话失败,请检查appid是否可用是怎么回事

阿里云的主要功能是什么？

语音合成技术

最近发表

热评文章

centos7腾讯云的简单介绍

织梦中英文等多语言站点分页方法

阿里云服务器是什么？阿里云服务器使用教程

阿里云操作系统好不好，阿里云操作系统怎么样？

阿里云主机是什么，阿里云主机怎么样？

阿里云系统怎么样？