跳过“逐字生成”，蚂蚁集团赵俊博：扩散模型让我们能直接修改Token

当主流大语言模型还在采用自回归架构时，有人已经盯上了扩散架构。,在本次量子位MEET2026智能未来大会上，浙江大学百人计划研究员、博士生导师，蚂蚁集团资深技术专家
赵俊博表示：,这意味着，相比自回归模型，扩散模型理论上有望实现更快的生成速度以及更低的计算成本。,基于此，他和团队将重点押注于扩散架构，并致力于探索扩散语言模型独有的Scaling Law。,而作为这一探索的关键里程碑，他们近期发布并开源了
LLaDA 2.0，率先将扩散语言模型做到
千亿体量。,赵俊博坦言，该领域在训练与推理层面仍处早期，但发展势头迅猛，已吸引包括谷歌、字节在内的巨头及一批初创公司积极布局。,报告链接（github）：
https://github.com/inclusionAI/LLaDA2.0/blob/main/tech_report.pdf,,为了完整体现赵俊博的思考，在不改变原意的基础上，量子位对演讲内容进行了编辑整理，希望能给你带来更多启发。,MEET2026智能未来大会是由量子位主办的行业峰会，近30位产业代表与会讨论。线下到场参会观众近1500人，线上直播观众350万+，获得了主流媒体的广泛关注与报道。,以下为赵俊博演讲全文：,大家好，今天我稍微讲点不一样的，来一场技术上的脱口秀。,刚才几位嘉宾已反复提及，目前主流的大语言模型几乎都基于自回归架构构建。但我接下来介绍的，我们最近开源的全新系列模型——
架构完全不同。,要想了解不同之处何在，先让我们来厘清几个基本概念。,相信大家都很熟悉Midjourney、Sora、Emu Video等图像/视频赛道的热门模型，实际上，它们里面都有一个非常明确的机制叫
扩散。,何谓扩散？简单来说就是加噪后再去噪，从噪声中恢复图像。,所有的Auto-Regressive Model（AR，自回归模型）基本都遵循同一机制——给定前N个词，要求模型预测并生成第N+1个词，然后基于前N+1个词，再去预测第N+2个词，依此类推。,而扩散语言模型另辟蹊径，可能有些观众也知道这个东西叫Masked Diffusion Language Models，我们看一下它的解码过程，
简单来说它的机制不是“做接龙”，而是“做完形填空”。,如图所示，给定一句话之后我们会Mask（遮盖）掉一部分词，再让它恢复，这就非常像我们小时候做的完形填空。,,而我们现在要做的，就是Diffusion Language Model（dLLM，扩散语言模型）的Scaling Law。,为什么做这件事？其实这是我们的一个赌注。,本质上来说，所有的大模型只要是生成模型，都是对P(X)，也就是对本身数据分布的拟合。,自回归模型提供了一种拟合方式，它将整体分布拆解为一系列遵循单向因果顺序的条件概率来逐步建模。但这种方式并不是唯一的路径。,下图由新加坡国立大学SEA AI研究员
Jinjie Ni提供，里面点明了几个非常重要的观点。,第一，在计算受限的情况下，基于“完形填空”这一方式进行预测的扩散语言模型，比一般的自回归模型需要的数据量更大，即所谓的“data-hungry”，在数据上能吃得更快。,,第二，同样是dense结构（先不管MoE），在参数和计算量相同的情况下，其实dLLM可以做得比AR更小。,所谓的“Super Data Learners”，如果了解图像或视频的扩散模型就会知道，它们有个特点——
你可以一直训练。,比如我们现在所有的自回归模型，基本上训练到多个epoch，效果就不再变动，数据也就这样了。,而在同样数据集、同样架构下，红色那条代表Diffusion的曲线可以一直训——跟图像领域观测到的现象一致，确实可以一直做训练。,,第三是Diffusion独有的优势。都知道CoT（思维链）和RL（强化学习），或者说见识过DeepSeek上的深度思考过程。这个东西我之前做了个比喻，AR像一个不能带草稿纸的考生：,进了考场之后不允许写提纲，跟下棋一样落子无悔，在解所有题的时候落笔无悔。写下一个token就钉死，再写下一个，没有给你任何机会回头修改。中间写错了有一个CoT的机制，就好像“突然有一个token说这个地方好像中间有一步算错了，我再重新开始”。,实际上这就解释了为什么会有test-time scaling——
AR在推理侧的token efficiency其实并不高，有一些简单的问题也要推理很久，生成很多token。,如图所示，我们正在进行的研究叫
Editable and Controllable Generation（等待跑通中），是指在Diffusion框架下，随时“做完形填空”、随时改；不像DeepSeek-R1或OpenAI-o1必须整段token推倒重来，我们可以直接在推理过程里改token。,,这个东西有大量的工程细节，时间关系我只能简单放一些。,首先是
注意力掩码（Attention Mask）的适配问题。,我们的模型中既包含细粒度的Block，也包含由Block组成的更大区块——区块之间采用自回归的注意力机制（确保序列的总体连贯性），区块内部并行解码（以提升计算效率）。,因此，模型中同时存在两种注意力模式。有些地方用全局Attention（以捕捉长程依赖），有些地方用Causal Attention（以维持自回归约束）。,这里头还包括对随机长度序列的处理、集成港大孔令鹏老师提出的几何加权方法，以及实现文本与文档的长序列切分注意力等关键技术。,我们开源了一套训练框架和推理框架，让社区能把我们在Hugging Face上发布的模型直接跑起来。其中涉及5D并行集成、分区块Diffusion下的Flex-Attention与Attention Mask适配，细节不再展开。,这是我们
开源的第一个面向扩散语言模型的训练框架，已支持SFT（监督微调）与DPO（直接偏好优化）。,,这里我想把整个脉络稍微介绍一下：,中国人民大学文继荣和李崇轩老师团队，率先开源了扩散语言模型LLaDA的第一个版本LLaDA 1.0。,LLaDA 1.0的研究过程非常痛苦，当时训练和推理框架都很原始，踩坑无数，不过其8B版本在Hugging Face上零推广就拿到二十几万下载。,这是第一个大规模训练到80亿参数的扩散语言模型，效果可对标LLaMA-3-8B。,后来蚂蚁技术研究院联合人大、浙大、西湖大学把整条线接过来，下重注要把这个领域的一些“非共识”变成“共识”。,第一件事就是
解决架构问题。LLaDA是一个dense模型，而dense的痛点大家都提过，比如第一个就是怎么在Diffusion的框架里集成MoE。,今年9月，我们发布了LLaDA-MoE，总参数7B（激活参数1B），是全球第一个原生训练出来的MoE架构扩散语言模型。,最近一段时间，相关研究几乎已经在全球铺开——谷歌有Gemini Diffusion、有家美国创业公司在做Mercury系列，包括字节也在做。,其最大特点就是一个字：
快。,因为它就是“做完形填空”。比如做一个解码，我先把最后一个token解出来，然后再去填中间，这些东西确实是实际解码过程中能看到的。,上上周，我们发布了
LLaDA 2.0，率先把扩散语言模型做到千亿体量。踩坑史太长，技术报告已上线，这里就不再展开。,,这里有几个视频。,第一个视频表明，在全局注意力机制的支持下，扩散模型在效果上相比自回归模型具备一定优势。,,转到Coding，现在比较神奇的一点是——
扩散语言模型在“调用”和“写代码”这两个任务上比自回归模型有明显优势。,得益于并行解码，一次能同时吐出几个token，现场看起来就像你在Cursor里按Tab自动补全。这些行为全是模型自己学出来的，我们也没完全搞懂为啥。,以及再看文学创作，这个东西比较有意思。看一下这个解码过程，先把开头和结尾的框架定下来，中间部分先写个大概，然后再根据上下文反复修改、润色中间的内容。,这种“非共识”的解码轨迹，在Gemini、OpenAI等任何原生App里都看不到。,接下来的一两个月，我们会联合ZenMux（一站式模型接入平台）放出部分API，体量虽还比不过主流大模型，但社区已在慢慢长大。,最后用一点时间聊下推理。,10月份左右，我们发布了一个带有试验性质的推理引擎
dInfer。,通过新的模型架构与范式，若能将关键场景的TPS推上千量级，实现五倍乃至更高的速度提升，其体验将是革命性的。,回头看，Data/Parameter Scaling Law已不新鲜，去年9月OpenAI又带出testing-time Scaling Law。,接下来会不会出现Diffusion Scaling Law？,今天没人能给出答案。唯一确定的是，dLLM与AR的Scaling Law有很大区别，继续扩展下去也会面临新的挑战。,但不管怎样，我们会在这条路上继续走下去。在我看来，AR发展了三年（从ChatGPT出来之后发展了三年），dLLM的训推生态才刚起步，希望社区一起下场共建，谢谢。,本文来自微信公众号
“量子位”，作者：MEET2026，36氪经授权发布。,该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。