LLM为什么Decoer-only架构呢
2025-08-11
Transformer模型一开始就是用来做seq2seq任务的,所以它包含Encoder和Deocer两个部分;这两者的区别主要是:Encoder再抽取序列中的某一个词的特征时能够看到整个序列的信息,也就是说上下文同时看到,但Decoer中因为存在Mask机制,使得在编码某一个词的特征的时候只能看到自己和它前文的文本信息
目前来说主要的...