语音合成概述与展望

很简单地认为tts是输入一些文字，输出语音的过程。这个过程的详细过程是采用什么数据结构，曾经有一段时间我很讨厌从统计学的思路来看问题，因为我觉得这缺乏创新性，缺乏无中生有的特征。统计学则不是这样的，它将杂乱无章的数据堆进行规整，然后提出各种匪夷所思的算法，利用强大的运算和存储能力，得出难以置信的结果。我为什么觉得这个过程比较不爽？这是我的偏见。
目前tts的一个最小可运行的想法是，输入是文字，输出是语音。文字可以拆分成更小的单元，音素，语音的本质是震动，归根结底是波。这个过程的黑盒子是怎么一步步进行下去的，每一步提出的依据，解决的问题是什么是今后将要学习的。
在算法清晰的条件下，整体过程是清晰的，但是涉及到具体的表现方法，每个字母的发音，发声的韵律，则还跟具体的上下文相关。如何把这些感性认识具化成数据参数使其能够表达出恰当的意思。当足够的参数完备，参数集合相应的匹配，这些框架并不难理解，难的是如何采用最优的算法，最少的资源，最优的模型等去模拟接近现实的状态。说道底，还是需要提出模型来。输入的参数根据需要学习具体的内容。除了重复之外，应当给具体的参数赋予特定的意义。