Transformer笔记
Transformer笔记本笔记主要供自己复习,只记录一些关键的点。参考链接:http://nlp.seas.harvard.edu/2018/04/03/attention.html#prelims
模型架构一般的神经序列模型都包含encoder-decoder架构。其中,encoder将输入序列$(x_1,x_2,..,x_n)$的符号表示(symbol representations)映射到
...