一直以来,DeepSeek 在技术路线上都保持着鲜明的原创性,持续为多模态大模型、基础架构设计领域带来全新思路与启发。近日,团队接连推出两项重磅升级:新一代文档视觉模型DeepSeek-OCR2,以及重构残差连接范式的mHC(modified Hyper-Connections) 结构,分别在多模态文档理解、基础 Transformer 稳定性与容量拓展上,实现了里程碑式突破。
一、DeepSeek-OCR2:基于因果推理的下一代文档 OCR 架构
1.1 两代 OCR 技术脉络与核心定位
DeepSeek 的 OCR 系列,从初代开始就跳出传统文字识别框架,走 “视觉 – 语言联合建模” 路线,每一代都在验证一条全新技术路径:
- DeepSeek-OCR1(2025.10):核心论证 ——视觉压缩是解决大语言模型长上下文低效问题的可行、高效路径,真正实现 “一图胜万言”。实验证实,将 10 个文本 Token 压缩为 1 个视觉 Token 的条件下,模型 OCR 识别精度仍可维持在97%,在大幅降低计算开销的同时保留核心语义。
- DeepSeek-OCR2(2026.01.27):核心论证 ——视觉语言模型可借助因果流与动态语义阅读顺序,达成人类级别的文档逻辑理解,彻底突破传统固定栅格扫描的机制局限,从 “识字” 升级为 “读懂文档结构与逻辑”。
1.2 核心架构革新:从 CLIP 到 LM as Vision Encoder
OCR2 最具颠覆性的改动,是彻底抛弃 CLIP 等传统 ViT 视觉骨干,改用Qwen2-0.5B作为全新视觉编码器,命名为DeepEncoder V2,正式实现 “用大语言模型架构做视觉编码”。
传统方案:DeepEncoder(OCR1 沿用)
- 视觉编码器:CLIP ViT
- 注意力机制:非因果(Non-causal) 全向交互,任意视觉 Token 之间可互相访问
- 阅读顺序:固定光栅扫描,严格遵循左上→右下的坐标顺序,与人类真实阅读逻辑脱节
- 局限:只能按位置读取,无法理解标题、正文、表格、广告、注释之间的语义层级与阅读优先级
新一代方案:DeepEncoder V2(OCR2)
- 视觉编码器:Qwen2-0.5B LLM 架构
- 注意力机制:强制改为因果 / 单向注意力(Causal Attention)
- 规则约束:第N个 Query 仅能访问前N−1个 Query 的信息,不允许反向访问
- 设计思想:模拟人类阅读复杂文档的视觉逻辑—— 视线移动由语义驱动,而非坐标驱动。阅读顺序由 “上一段内容” 决定 “下一段看哪里”,实现语义决定顺序,打破 “位置决定顺序” 的行业惯例。
这种机制让模型可以像人读报纸一样:优先定位标题,再读正文,跳过广告区块,按需查看图表与批注,而非机械逐行扫描。
1.3 Visual Causal Flow:视觉因果流工作流程
Visual Causal Flow(视觉因果流)是 OCR2 的核心机制,整体流程分为两步:
- 全局布局理解:模型先对整幅文档图像做全局感知,识别版式结构、区块类型与语义关联;
- 动态阅读路径规划:依据语义优先级与逻辑关系,动态规划阅读顺序,即使某段文字在物理位置上处于左下角,只要语义上承接上文,就会被优先读取。
通过因果注意力的强制约束,模型被迫形成渐进式信息整理模式:
- Query 1 定位第一段核心文本;
- Query 2 基于 Query 1 的输出,寻找逻辑上的下一段内容,而非物理相邻内容;
- 依此类推,最终把无序的 2D 图像特征,整理为符合人类阅读逻辑的 1D 有序序列。
1.4 整体架构三模块串联
DeepSeek-OCR2 整体结构清晰拆分为三段式串联架构,分工明确、解耦彻底:
- 视觉分词器:对图像做分块、特征提取,完成原始视觉信号的初步编码;
- DeepEncoder V2(视觉编码器):将二维图像特征转化为一维有序语义序列,注入因果阅读逻辑;
- DeepSeek-MoE Decoder(解码器):接收已排序的语义序列,不再处理复杂视觉位置关系,专注通过语言模型生成规范、通顺、逻辑完整的文本结果。
1.5 注意力矩阵双区域设计
为兼顾全局视觉感知与因果阅读逻辑,DeepEncoder V2 的注意力矩阵被设计为左右双区域:
- 左侧 / 上半区(视觉 Token 域):保留传统 ViT 全局感受野,所有视觉 Token 可互相访问,保证不丢失图像整体结构与上下文信息;
- 右侧 / 下半区(因果流查询域):严格执行单向因果依赖,强制模型按生成顺序建立逻辑关联,保证阅读链路的语义连贯性。
1.6 性能与技术意义
在视觉 Token 使用量极少、计算成本显著更低的前提下,DeepSeek-OCR2 在多项文档理解、复杂版式识别、表格提取任务上,达到当前开源模型 SOTA 水平,部分指标甚至超越 GPT-4o 等商业闭源模型。
从技术维度看,OCR2 的架构不止是 OCR 单点升级,更是迈向通用模态编码器的关键一步:
- 图像、音频、文本等不同模态,仅在 “可学习 Query” 层存在差异;
- 线性映射、前馈网络等核心参数可实现跨模态共享;
- 不同模态的特征提取与语义压缩被统一到同一参数空间,从底层打破模态壁垒,为通用人工智能提供轻量化、可扩展的基座范式。
二、mHC:重构十年残差范式,解决超深网络训练崩溃难题
除 OCR2 外,元旦期间 DeepSeek 提出的mHC新思路,在 AI 基础架构社区引发广泛讨论。该技术从根源上重写了自 ResNet 以来沿用十余年的残差连接逻辑,在不牺牲稳定性的前提下,大幅提升模型容量与表达能力。
2.1 背景回顾:从 ResNet 到 Hyper-Connections 的演进与痛点
(1)ResNet 残差连接 —— 解决深度退化
何凯明团队提出的 ResNet,核心解决深度退化问题:网络层数超过一定阈值后,误差不降反升,并非过拟合,而是网络无法学习恒等映射。
ResNet 残差块核心公式:
Output=F(x)+x
- x:跳跃连接的恒等映射,直接保留原始输入信息;
- F(x):卷积层学习到的残差函数;
- 优势:若F(x)→0,网络退化为恒等映射,训练至少不会变差,从机制上避免梯度消失 / 爆炸,支撑网络深度提升。
(2)Hyper-Connections(HC)—— 多车道残差的潜力与缺陷
字节跳动提出的 HC,将 ResNet 的 “单车道残差” 升级为多并行路径,在同一层内同时保留多条独立处理通路,理论上可以显著提升模型容量、加深网络并加速训练收敛。
但 HC 存在致命缺陷:
- 无约束的多路径叠加,会让信号强度指数级放大(实验中可出现上万倍增益);
- 梯度数值失控,模型训练直接崩解,在超深 Transformer 与大参数量模型中问题尤为严重。
2.2 mHC:带流形约束的超连接,稳定性与容量兼得
DeepSeek 的 mHC(modified Hyper-Connections),在 HC 基础上引入流形几何约束,使用Sinkhorn-Knopp 算法对路径权重做归一化约束,既保留多路径的高容量优势,又把总信号强度稳定在约 1.0 倍,解决训练崩溃问题,且额外计算开销极低(仅约 7%)。
mHC 完整流程分为压缩→加工→扩张三步:
第一步:压缩(Compression)
- 对输入特征X复制为多路通道(常用 4 通道),分别承载语法、上下文、逻辑、领域知识等差异化语义信息;
- 引入可学习向量Hpre,对多路特征做加权求和融合,将多通道压缩为单通道,避免多次重复计算注意力带来的巨大开销。
第二步:加工(Processing)
将压缩后的单通道特征送入标准 Transformer 层(包含 Attention 与 FFN),完成核心语义推理与特征变换,这一步是整个网络计算开销最高的核心环节。
mHC 的核心约束在此生效:
- 强制混合矩阵Hres为双随机矩阵:
- 物理意义:无论信息在多通道间如何分配与传递,总能量 / 信号强度严格守恒,从数学上杜绝数值爆炸与梯度消失。
第三步:扩张(Expansion)
- 将单通道推理结果,通过可学习向量Hpost按权重广播回多通道,而非简单复制;
- 不同通道获得差异化的新知识分配,分别承载语法、上下文、逻辑、专业知识等细粒度语义;
- 把新生成特征与残差路径的旧信息融合,作为下一层输入。
2.3 mHC 的核心价值与行业影响
- 脱离传统残差安全网:证明不依赖 ResNet 式简单加法残差,依然可以构建深度稳定、可训练的超深网络;
- 平衡表达力与稳定性:用几何约束驯服复杂非线性拓扑,在不破坏训练稳定性的前提下,获得远超单残差路径的信息容量;
- 极低额外开销:整体计算增量仅 7% 左右,性价比极高,可无缝接入现有 Transformer 架构;
- 社区验证有效:已有技术博主独立复现 mHC 结构,实测效果甚至优于 DeepSeek 官方论文数据,具备极强的落地与迭代潜力。
三、总结:DeepSeek 技术路线的底层逻辑
从 DeepSeek-OCR2 到 mHC,两项突破体现出一致的原创思路:
- OCR2:不满足于 “识别文字”,而是用因果注意力 + LLM 架构模拟人类视觉阅读逻辑,把文档 OCR 升级为结构化、逻辑化的文档理解,同时向通用模态编码器延伸;
- mHC:不满足于修修补补传统残差,而是从流形几何与数值稳定性出发,重写十年不变的基础连接范式,为超深大模型提供可扩展、高容量、高稳定的新基座。
两者分别面向 “多模态感知” 与 “基础模型结构” 两大核心方向,既具备理论原创性,又兼顾落地性能与工程可行性,也为后续开源模型、商业模型的架构设计提供了可直接借鉴的技术范式。