2023-05-13

    LLM为什么Decoer-only架构呢

    2025-08-11

    Transformer模型一开始就是用来做seq2seq任务的,所以它包含Encoder和Deocer两个部分;这两者的区别主要是:Encoder再抽取序列中的某一个词的特征时能够看到整个序列的信息,也就是说上下文同时看到,但Decoer中因为存在Mask机制,使得在编码某一个词的特征的时候只能看到自己和它前文的文本信息

    目前来说主要的...

    Read More

    AAAI_CheckList模板

    2024-08-14

    做了一个今年AAAI25的checklist的tex代码分享,无偿分享,有问题b站接着私信我就可以。

    使用方法:新建一个checklist.tex文件复制下面进去,然后在主文件参考文献后面加上就可以:

    Read More

    注意力机制

    2024-01-02

    1.目标

    ​ 学习注意力机制的基本理论思想,代码实现底层逻辑。同时学习多头注意力机制、自注意力和位置掩码、Transformer。

    Read More

    循环神经网络(RNN)及现代RNN

    2023-12-20

    1.目标

    ​ 学习RNN的基本结构,并以此延伸出来的现代循环神经网络:GRU、LSTM、深度循环神经网络、双向循环神经网络、编码器-解码器结构、序列到序列学习(seq2seq)、束搜索。

    ​ 通过自己大致复现一遍经典循环神经网络结构,熟悉代码的架构和模板。这里基础知识尽可能精简,多写一些模型和不同方法适用的场景。

    Read More

    卷积神经网络

    2023-12-18

    1.Lenet和现代经典卷积神经网络

    ​ 手敲一遍过去三四十年的传统神经网络,加深一下对于网络演变的认识,给自己后续学习新进的网络结构打好基础。

    ​ 主要是分为:

    • 传统卷积神经网络:LeNet
    • 现代卷积神经网络:AlexNet、VGG、NiN、Goog...
    Read More

    多层感知机

    2023-12-17

    1.目标

    ​ 简单实现多层感知机,并学习其他方法:模型选择、欠拟合过拟合、权重衰减(L1、L2正则化)、暂退法(Dropout)、前向传播和反向传播、数值稳定性和模型初始化、环境和分布偏移。

    Read More
    View: User: