【前言】Transfomer教程-学前聊聊

作者 : 老饼发表日期 : 2025-10-02 07:03:05 更新日期 : 2026-05-21 22:11:49

老饼讲解-简单易懂，干货满满，爽过嗦螺！

终于来到Transfomer了呀！学完Transfomer，就可以跑步进场LLM了~！

一、Transfomer是个啥

有些刚开始接触的同学，可能都不知道Transfomer是什么，它其实是2017年《Attention Is All You Need》提出的一个模型，主要用来解决文本生成问题，也就是之前RNN一般解决的问题。它呢，就如它的标题所说，直接抛弃一些传统技术，而是大量使用Attention技术，然后呢，效果竟然好得出奇！从此就一发不可收拾啦！大家都这样子来干，用它来解决文本生成问题简直不要太有效！一代一代地迭代，直到chatGPT，一下子效果就好到全民皆知了！

快速了解Transfomer是什么

好了，Transfomer的特点是，使用了大量的Attention，整体模型参数超级超级的多，动不动模型就很大，所以后面的GPT之类的模型，也非常大，自从有了chatGPT，从此又划分出一个LLM的领域了，所以呢，Transfomer可以说是LLM的先祖。总的来说，Transfomer用于解决文本生成问题，而它后面发展出了LLM，所以它是一个关键核心技术。

此外，Attention也由于Transfomer的好用而得到重视，已经被深度其它领域广泛使用了，都纷纷加入了Attention来改善模型效果，最后，"xxx is all you need"也成了为一句口头禅，动不动就来句xxx is all you need。

二、Transfomer怎么学

许多同学去学Transfomer，都觉得一头焦，其实，Transfomer虽然内容多了那么一点点，但它是再简单不过的模型了！一点都不难学，难学的，只不过是没搞清楚Transfomer是如何诞生出来的而已：

Transfomer是如何诞生出来的

如图，首先是有RNN，然后RNN又被应用于文本生成，然后就用了Encoder-Decoder结构，接下来呢，又往其中加汤加料，加入了上下文、Attention机制。而Transfomer的，其实还是站在它的基础上，只不过抛弃了RNN的传统模式，以Attention为核心重整了一套模式，但实际上呢，它的各种细节和各节技术(例如Attention、位置编码、层归一化、上下文等等)还是沿用了之后RNN所积累下来的内容。

是的，其实从"RNN文本生成"到Transfomer，只有一小步而已、仅仅是模型的结构调整了一下、模式变化了一下，并没有太多新的东西。一些同学，如果从RNN就直接跳到Transfomer，就会觉得有许多新东西、理解起来不明觉里。更自然的方式，应该是跟随着RNN在文本生成上的发展、一步一步理解下来，这样就会发现每一次的迭代，都仅仅是加了一点点的东西、做了一点点的改变而已，就会非常清楚每个技术加入的意义、每个结构细节的来历了。

总结

好了，总的来说，Transfomer就是很简单的东西，只不过需要从"RNN文本生成"入手，一步一步来，需要废点时间而已，so easy！跟着我来吧！一步一步就弄明白它到底是个啥东西了！最后，建议大家最好不要一下子从RNN就跳到Transfomer，这样只能得其形而不知其意，容易云里雾里，坑到自己不关我的事~

下一篇: 【模型】RNN-编解码模型-简单介绍

添加评论

教程