CNN适合识别模式,固定长度的俗语,他是一种前馈网络模型,而RNN适合句子,适合sequence的生成,在机器翻译任务中扮演重要角色.总的来说,神经网络伴随着大数据将之前10多年的马尔可夫假设变得过时.
Flow
返回首页
第 68 页
表示论
Frankel的那本数学科普书籍不能
范畴论
数学不是铁板一块,如果需要软性的饮料,那么每年的欧拉图书奖正是为此而准备的.
Transformer,你所需要的只有注意力
除了回顾历史RNN外,我们直接研究Attention is all you need这篇论文。参考文献 https://mchromiak.github.io/articles/2017/Sep/12/Transf...
理解LSTM 网络
如果算法可以记忆,哪怕是很小的一段时间,那么根据这一段记忆能否做点什么工作?在时序分析的应用中,我们可以根据这段时序来做出重要的工作。参考这篇文章,还有这篇文章。当然不要忘了我们的老朋友,维基百科的相关条目.