Qwen3.5高性能算子接入指导,让你的GDN性能翻倍
线性层将传统的非线性Attention演变成了Linear Attention,打破了长序列下O(n²)的复杂度,其采取的Linear Attention算法是业界最领先的Gated Delta Net(GDN),它融合了Mamba与Delta Net算法,可以兼顾全局衰减的同时,建立单键值替换的逻辑。FFN层采用经典的MOE结构,专家数多达512,专家小,中间层hiddensize仅1024,每个token选择10个路由专家以及一个共享专家,符合当前的多且小的专家配置演进趋势。