很简单地认为tts是输入一些文字,输出语音的过程。这个过程的详细过程是采用什么数据结构,曾经有一段时间我很讨厌从统计学的思路来看问题,因为我觉得这缺乏创新性,缺乏无中生有的特征。统计学则不是这样的,它将杂乱无章的数据堆进行规整,然后提出各种匪夷所思的算法,利用强大的运算和存储能力,得出难以置信的结果。我为什么觉得这个过程比较不爽?这是我的偏见。
目前tts的一个最小可运行的想法是,输入是文字,输出是语音。文字可以拆分成更小的单元,音素,语音的本质是震动,归根结底是波。这个过程的黑盒子是怎么一步步进行下去的,每一步提出的依据,解决的问题是什么是今后将要学习的。
在算法清晰的条件下,整体过程是清晰的,但是涉及到具体的表现方法,每个字母的发音,发声的韵律,则还跟具体的上下文相关。如何把这些感性认识具化成数据参数使其能够表达出恰当的意思。当足够的参数完备,参数集合相应的匹配,这些框架并不难理解,难的是如何采用最优的算法,最少的资源,最优的模型等去模拟接近现实的状态。说道底,还是需要提出模型来。输入的参数根据需要学习具体的内容。除了重复之外,应当给具体的参数赋予特定的意义。