大模型最强架构 TTT 问世!斯坦福 UCSD 等 5 年磨一剑, 一夜推翻 Transformer
文章介绍了 TTT(测试时间训练)架构,这是一种创新的神经网络设计,旨在克服 Transformer 和 RNN 在处理长序列时的挑战。TTT 通过对输入 token 进行梯度下降来压缩上下文,替代了注意力机制,提高了长上下文的处理能力。通过自监督学习和创新的训练方法,TTT 在运行时学习和适应,降低了计算成本。TTT-Linear 和 TTT-MLP 在性能和效率上都显著优于 Transformer 和 Mamba,尤其在处理长上下文时。研究人员相信,TTT 将改变我们构建语言模型的方式,并在实际应用中产生重大影响。不过,TTT 在实际应用中可能面临实现复杂度和资源消耗等挑战。