DeepSeek

3小时前更新 37,296 0 79

深度求索(DeepSeek),成立于2023年,专注于研究世界领先的通用人工智能底层模型与技术,挑战人工智能前沿性难题。基于自研训练框架、自建智算集群和万卡算力等资源,深度求索团队仅用半年时间便已发布并开源多个百亿级参数大模型,如DeepSeek-LLM通用大语言模型、DeepSeek-Coder代码大模型,并在2024年1月率先开源国内...

所在地:
中国
收录时间:
2020-02-12
DeepSeekDeepSeek
一直以来,DeepSeek 在技术路线上都保持着鲜明的原创性,持续为多模态大模型、基础架构设计领域带来全新思路与启发。近日,团队接连推出两项重磅升级:新一代文档视觉模型DeepSeek-OCR2,以及重构残差连接范式的mHC(modified Hyper-Connections) 结构,分别在多模态文档理解、基础 Transformer 稳定性与容量拓展上,实现了里程碑式突破。

一、DeepSeek-OCR2:基于因果推理的下一代文档 OCR 架构

1.1 两代 OCR 技术脉络与核心定位

DeepSeek 的 OCR 系列,从初代开始就跳出传统文字识别框架,走 “视觉 – 语言联合建模” 路线,每一代都在验证一条全新技术路径:
  • DeepSeek-OCR1(2025.10):核心论证 ——视觉压缩是解决大语言模型长上下文低效问题的可行、高效路径,真正实现 “一图胜万言”。实验证实,将 10 个文本 Token 压缩为 1 个视觉 Token 的条件下,模型 OCR 识别精度仍可维持在97%,在大幅降低计算开销的同时保留核心语义。
  • DeepSeek-OCR2(2026.01.27):核心论证 ——视觉语言模型可借助因果流与动态语义阅读顺序,达成人类级别的文档逻辑理解,彻底突破传统固定栅格扫描的机制局限,从 “识字” 升级为 “读懂文档结构与逻辑”。

1.2 核心架构革新:从 CLIP 到 LM as Vision Encoder

OCR2 最具颠覆性的改动,是彻底抛弃 CLIP 等传统 ViT 视觉骨干,改用Qwen2-0.5B作为全新视觉编码器,命名为DeepEncoder V2,正式实现 “用大语言模型架构做视觉编码”。

传统方案:DeepEncoder(OCR1 沿用)

  • 视觉编码器:CLIP ViT
  • 注意力机制:非因果(Non-causal) 全向交互,任意视觉 Token 之间可互相访问
  • 阅读顺序:固定光栅扫描,严格遵循左上→右下的坐标顺序,与人类真实阅读逻辑脱节
  • 局限:只能按位置读取,无法理解标题、正文、表格、广告、注释之间的语义层级与阅读优先级

新一代方案:DeepEncoder V2(OCR2)

  • 视觉编码器:Qwen2-0.5B LLM 架构
  • 注意力机制:强制改为因果 / 单向注意力(Causal Attention)
  • 规则约束:第个 Query 仅能访问前个 Query 的信息,不允许反向访问
  • 设计思想:模拟人类阅读复杂文档的视觉逻辑—— 视线移动由语义驱动,而非坐标驱动。阅读顺序由 “上一段内容” 决定 “下一段看哪里”,实现语义决定顺序,打破 “位置决定顺序” 的行业惯例。
这种机制让模型可以像人读报纸一样:优先定位标题,再读正文,跳过广告区块,按需查看图表与批注,而非机械逐行扫描。

1.3 Visual Causal Flow:视觉因果流工作流程

Visual Causal Flow(视觉因果流)是 OCR2 的核心机制,整体流程分为两步:
  1. 全局布局理解:模型先对整幅文档图像做全局感知,识别版式结构、区块类型与语义关联;
  2. 动态阅读路径规划:依据语义优先级与逻辑关系,动态规划阅读顺序,即使某段文字在物理位置上处于左下角,只要语义上承接上文,就会被优先读取。
通过因果注意力的强制约束,模型被迫形成渐进式信息整理模式:
  • Query 1 定位第一段核心文本;
  • Query 2 基于 Query 1 的输出,寻找逻辑上的下一段内容,而非物理相邻内容;
  • 依此类推,最终把无序的 2D 图像特征,整理为符合人类阅读逻辑的 1D 有序序列。

1.4 整体架构三模块串联

DeepSeek-OCR2 整体结构清晰拆分为三段式串联架构,分工明确、解耦彻底:
  1. 视觉分词器:对图像做分块、特征提取,完成原始视觉信号的初步编码;
  2. DeepEncoder V2(视觉编码器):将二维图像特征转化为一维有序语义序列,注入因果阅读逻辑;
  3. DeepSeek-MoE Decoder(解码器):接收已排序的语义序列,不再处理复杂视觉位置关系,专注通过语言模型生成规范、通顺、逻辑完整的文本结果。

1.5 注意力矩阵双区域设计

为兼顾全局视觉感知因果阅读逻辑,DeepEncoder V2 的注意力矩阵被设计为左右双区域:
  • 左侧 / 上半区(视觉 Token 域):保留传统 ViT 全局感受野,所有视觉 Token 可互相访问,保证不丢失图像整体结构与上下文信息;
  • 右侧 / 下半区(因果流查询域):严格执行单向因果依赖,强制模型按生成顺序建立逻辑关联,保证阅读链路的语义连贯性。

1.6 性能与技术意义

在视觉 Token 使用量极少、计算成本显著更低的前提下,DeepSeek-OCR2 在多项文档理解、复杂版式识别、表格提取任务上,达到当前开源模型 SOTA 水平,部分指标甚至超越 GPT-4o 等商业闭源模型。
从技术维度看,OCR2 的架构不止是 OCR 单点升级,更是迈向通用模态编码器的关键一步:
  • 图像、音频、文本等不同模态,仅在 “可学习 Query” 层存在差异;
  • 线性映射、前馈网络等核心参数可实现跨模态共享;
  • 不同模态的特征提取与语义压缩被统一到同一参数空间,从底层打破模态壁垒,为通用人工智能提供轻量化、可扩展的基座范式。

二、mHC:重构十年残差范式,解决超深网络训练崩溃难题

除 OCR2 外,元旦期间 DeepSeek 提出的mHC新思路,在 AI 基础架构社区引发广泛讨论。该技术从根源上重写了自 ResNet 以来沿用十余年的残差连接逻辑,在不牺牲稳定性的前提下,大幅提升模型容量与表达能力。

2.1 背景回顾:从 ResNet 到 Hyper-Connections 的演进与痛点

(1)ResNet 残差连接 —— 解决深度退化

何凯明团队提出的 ResNet,核心解决深度退化问题:网络层数超过一定阈值后,误差不降反升,并非过拟合,而是网络无法学习恒等映射。
ResNet 残差块核心公式:

  • :跳跃连接的恒等映射,直接保留原始输入信息;
  • :卷积层学习到的残差函数;
  • 优势:若,网络退化为恒等映射,训练至少不会变差,从机制上避免梯度消失 / 爆炸,支撑网络深度提升。

(2)Hyper-Connections(HC)—— 多车道残差的潜力与缺陷

字节跳动提出的 HC,将 ResNet 的 “单车道残差” 升级为多并行路径,在同一层内同时保留多条独立处理通路,理论上可以显著提升模型容量、加深网络并加速训练收敛。
但 HC 存在致命缺陷:
  • 无约束的多路径叠加,会让信号强度指数级放大(实验中可出现上万倍增益);
  • 梯度数值失控,模型训练直接崩解,在超深 Transformer 与大参数量模型中问题尤为严重。

2.2 mHC:带流形约束的超连接,稳定性与容量兼得

DeepSeek 的 mHC(modified Hyper-Connections),在 HC 基础上引入流形几何约束,使用Sinkhorn-Knopp 算法对路径权重做归一化约束,既保留多路径的高容量优势,又把总信号强度稳定在约 1.0 倍,解决训练崩溃问题,且额外计算开销极低(仅约 7%)。
mHC 完整流程分为压缩→加工→扩张三步:

第一步:压缩(Compression)

  1. 对输入特征复制为多路通道(常用 4 通道),分别承载语法、上下文、逻辑、领域知识等差异化语义信息;
  2. 引入可学习向量,对多路特征做加权求和融合,将多通道压缩为单通道,避免多次重复计算注意力带来的巨大开销。

第二步:加工(Processing)

将压缩后的单通道特征送入标准 Transformer 层(包含 Attention 与 FFN),完成核心语义推理与特征变换,这一步是整个网络计算开销最高的核心环节。
mHC 的核心约束在此生效:
  • 强制混合矩阵双随机矩阵
    • 每一行元素之和 = 1
    • 每一列元素之和 = 1
  • 物理意义:无论信息在多通道间如何分配与传递,总能量 / 信号强度严格守恒,从数学上杜绝数值爆炸与梯度消失。

第三步:扩张(Expansion)

  1. 将单通道推理结果,通过可学习向量按权重广播回多通道,而非简单复制;
  2. 不同通道获得差异化的新知识分配,分别承载语法、上下文、逻辑、专业知识等细粒度语义;
  3. 把新生成特征与残差路径的旧信息融合,作为下一层输入。

2.3 mHC 的核心价值与行业影响

  1. 脱离传统残差安全网:证明不依赖 ResNet 式简单加法残差,依然可以构建深度稳定、可训练的超深网络;
  2. 平衡表达力与稳定性:用几何约束驯服复杂非线性拓扑,在不破坏训练稳定性的前提下,获得远超单残差路径的信息容量;
  3. 极低额外开销:整体计算增量仅 7% 左右,性价比极高,可无缝接入现有 Transformer 架构;
  4. 社区验证有效:已有技术博主独立复现 mHC 结构,实测效果甚至优于 DeepSeek 官方论文数据,具备极强的落地与迭代潜力。

三、总结:DeepSeek 技术路线的底层逻辑

从 DeepSeek-OCR2 到 mHC,两项突破体现出一致的原创思路:
  • OCR2:不满足于 “识别文字”,而是用因果注意力 + LLM 架构模拟人类视觉阅读逻辑,把文档 OCR 升级为结构化、逻辑化的文档理解,同时向通用模态编码器延伸;
  • mHC:不满足于修修补补传统残差,而是从流形几何与数值稳定性出发,重写十年不变的基础连接范式,为超深大模型提供可扩展、高容量、高稳定的新基座。
两者分别面向 “多模态感知” 与 “基础模型结构” 两大核心方向,既具备理论原创性,又兼顾落地性能与工程可行性,也为后续开源模型、商业模型的架构设计提供了可直接借鉴的技术范式。

数据统计

相关导航

暂无评论

none
暂无评论...