重生之AI教父(CloseAI)_第208章真的吗我不信（2 / 2）_重生之AI教父最新章节免费阅读无弹窗

尤其是AI歌手，通过大量语音素材学习到一个人的嗓音特色之后，就完全可以生成海量的各种歌曲，突破了语言的限制，想让他唱什么就让他唱什么。

妙，实在是妙啊！

“现在的语音合成系统主要分三步走，前端预处理，声学模型和声码器。虽然深度神经网络可以更加激进地舍弃其中一些环节，但同样也会带来新的问题。”

“我的目的只是为了完成奠基之作，推广T方法出去，不必给自己加那么大的工作量，语音不是我非常关注的方向。”

孟繁岐的思路比较清晰，虽然重生了，倒也不必要什么工作都要复现那么到位。

“前端处理主要是给定一个文本生产它的发音信息及语言学信息，这部分现在比较成熟，直接根据处理好的信息去学声学模型会容易不少，可以显着降低我的工作量。”

所谓的发音信息，可以理解为字形转音形。

比如【滚】，音形就哥悟嗯，其实就是类似拼音的一种记录方式，它比字形更接近最后的发音情况，更加一一对应。

并且，如果只看字形，就很难处理多音字的问题，前端处理的过程中，就可以根据前后文判断这个多音字在这里到底是如何发音。

转换成为音形之后，就不会读错了。

再有就是语言的韵律和节奏了，最初文本生成的语音，都是机械冰冷的同一个音调，毫无感情可言，与人类相去甚远。

目前，在感情上发音技术还是有很大的上升空间，但在节奏停顿上，已经进步很大了，不会断句断在非常奇怪的位置上。

这章没有结束，请点击下一页继续阅读！

模型的输入是被语言系统标注后的音素，输出则是梅尔频谱。频谱最后通过声码器，才会变成语音。

小学二年级的同学们都知道，信号有两种表示方式，时域和频域。一般的语音、音乐都是时域信号，对这些信号做傅里叶变换，就能够得到信号的频域表示。

梅尔频谱就是一种压缩之后的频谱，为了尽量减少数据的大小，同时也更加适配人耳的需求。

比如人耳对低频敏感，对高频则分不太清，因而梅尔频谱对不同的范围做了不同程度的取舍，用更小的数据量尽可能地还原了声音的信息。

这项80多年前的技术，仍旧被广泛使用当中。

“虽然我主要做的东西是第二步中的声学模型，但现在的第三步声码器有些太落后了，我最好同时也做一版更新，搭配使用。”

声码器是根据梅尔频谱图生成声音波形的生成式模型，这正好在孟繁岐已经做了不少工作的方向上。

顺手为之，直接把文本和语音之间的来回转换一步给它做到位了。

此时此刻，若是伊利亚等人知道了孟繁岐的打算，肯定会化身鲁豫，本能地说出：“真的吗？我不信。”

哪有进入一个不大一样的领域之后，不造螺丝直接造飞机的？

只是让你做一个翻译页面上的本文发声功能，你小子怎么直接就想着给整个技术方向都颠覆了呢？