目录
老饼讲解:一步一步上手深度学习

【前言】Transfomer教程-学前聊聊

作者 : 老饼 发表日期 : 2025-10-02 07:03:05 更新日期 : 2026-05-21 22:11:49
老饼讲解-简单易懂,干货满满,爽过嗦螺!


终于来到Transfomer了呀!学完Transfomer,就可以跑步进场LLM了~!

一、Transfomer是个啥

有些刚开始接触的同学,可能都不知道Transfomer是什么,它其实是2017年《Attention Is All You Need》提出的一个模型,主要用来解决文本生成问题,也就是之前RNN一般解决的问题。它呢,就如它的标题所说,直接抛弃一些传统技术,而是大量使用Attention技术,然后呢,效果竟然好得出奇!从此就一发不可收拾啦!大家都这样子来干,用它来解决文本生成问题简直不要太有效!一代一代地迭代,直到chatGPT,一下子效果就好到全民皆知了!

 快速了解Transfomer是什么

好了,Transfomer的特点是,使用了大量的Attention,整体模型参数超级超级的多,动不动模型就很大,所以后面的GPT之类的模型,也非常大,自从有了chatGPT,从此又划分出一个LLM的领域了,所以呢,Transfomer可以说是LLM的先祖。总的来说,Transfomer用于解决文本生成问题,而它后面发展出了LLM,所以它是一个关键核心技术。

此外,Attention也由于Transfomer的好用而得到重视,已经被深度其它领域广泛使用了,都纷纷加入了Attention来改善模型效果,最后,"xxx is all you need"也成了为一句口头禅,动不动就来句xxx is all you need。

二、Transfomer怎么学

许多同学去学Transfomer,都觉得一头焦,其实,Transfomer虽然内容多了那么一点点,但它是再简单不过的模型了!一点都不难学,难学的,只不过是没搞清楚Transfomer是如何诞生出来的而已:

Transfomer是如何诞生出来的

如图,首先是有RNN,然后RNN又被应用于文本生成,然后就用了Encoder-Decoder结构,接下来呢,又往其中加汤加料,加入了上下文、Attention机制。而Transfomer的,其实还是站在它的基础上,只不过抛弃了RNN的传统模式,以Attention为核心重整了一套模式,但实际上呢,它的各种细节和各节技术(例如Attention、位置编码、层归一化、上下文等等)还是沿用了之后RNN所积累下来的内容。

是的,其实从"RNN文本生成"到Transfomer,只有一小步而已、仅仅是模型的结构调整了一下、模式变化了一下,并没有太多新的东西。一些同学,如果从RNN就直接跳到Transfomer,就会觉得有许多新东西、理解起来不明觉里。更自然的方式,应该是跟随着RNN在文本生成上的发展、一步一步理解下来,这样就会发现每一次的迭代,都仅仅是加了一点点的东西、做了一点点的改变而已,就会非常清楚每个技术加入的意义、每个结构细节的来历了。

总结

好了,总的来说,Transfomer就是很简单的东西,只不过需要从"RNN文本生成"入手,一步一步来,需要废点时间而已,so easy!跟着我来吧!一步一步就弄明白它到底是个啥东西了!最后,建议大家最好不要一下子从RNN就跳到Transfomer,这样只能得其形而不知其意,容易云里雾里,坑到自己不关我的事~



图标 评论
添加评论