eepeek新模型“杀疯了”!用视觉压缩文字,开源即获ktar,arpathy直呼:okenizer必须被淘汰视图上下文deepseek

出品 | CSDN(ID:CSDNnews)

大模型如今最大的问题之一就是——遇到长文本就吃不消。倘若你丢给它 100K token 文档,它就会卡顿、占用大量内存,甚至花费飙升。其实这不是模型本身的问题,而是 Transformer 的注意力机制决定了,处理长序列的计算量会急速上升。

现在想象一下,如果你不把整段文字直接喂给模型,而是先把它画成一张图像再让模型“看”,结果会不会不同?

这不,DeepSeek 的最新研究就专注于这个点。它在开源领域再下一城,于今日推出了一款新型文字识别模型——DeepSeek OCR。官方解释它是:“一款从大模型视角出发,用于研究视觉编码器作用的模型”。

DeepSeek OCR 的独特之处在于用视觉方式压缩文本内容。它并不是把视觉当作附加功能,而是将视觉当作文本压缩层。换句话说,它可以先把整页文字渲染成图像,再让模型去“读”这些图像,从而高效提取文字信息。

DeepSeek OCR 究竟是什么?

不难看出,DeepSeek OCR 的出现,旨在解决大模型处理长文本时的算力瓶颈。

正如上文所提及的,它的核心思路是把文本先转换成图像,再由模型读取图像信息。

乍一听,不少人可能觉得奇怪,但其实很直观:一页文字可能需要几千个文本 token,但压缩成图像后,只需要几百个视觉 token,就能表示同样的信息,压缩率大约 10 倍。

DeepSeek 团队想试一试:能不能让模型读懂这张压缩图像,并准确还原原文?压缩能做到多极致才会“崩掉”?他们的实验,就是围绕这个问题展开的。

经过这次的研究,其得出结论,用图像表示文本,反而比直接处理文字序列更节省计算资源。

DeepSeek 官方称,这一新模型在许多文档解析基准测试中取得了领先成绩,而且单块 NVIDIA A100 GPU 每天可处理约 20 万页文档,效率极高。

对此,OpenAI 前联合创始人 Andrej Karpathy 也对这一研究方向非常认同,其直言「Tokenizer 必须被淘汰」,还称自己也忍不住想要开发一款只接受图像输入的 NanoChat 了。他还甚赞道:

我挺喜欢这篇新的 DeepSeek-OCR 论文的。它确实是一个不错的 OCR 模型(可能比 dots 差一点),数据收集等环节也有,但这些其实无关紧要。

对我来说,更有意思的地方是——作为一个本质上是计算机视觉研究者、暂时扮作自然语言人的人——像素是不是比文本更适合作为大模型的输入。也就是说,文本 token 在输入端是否其实很浪费、甚至糟糕。

也许更合理的做法是:大模型的所有输入都应该是图像。即便你手头只有纯文本,也可以先把文本渲染成图像再输入模型,这样有几个好处:

信息压缩更多(论文中提到)→ 上下文窗口更短,效率更高

信息流更通用 → 不只是文本,还可以包含粗体、彩色文字、任意图片

可以默认使用双向注意力处理输入,不必局限于自回归注意力 → 更强大

去掉 tokenizer(输入端)!!我早就吐槽过 tokenizer 有多讨厌。它丑陋、独立、不端到端,把 Unicode、字节编码的历史包袱和安全/越狱风险都“引入”模型内部。两个肉眼看起来完全一样的字符,内部却可能变成两个不同的 token。一个笑脸表情被当作奇怪的 token,而不是完整的像素笑脸及其带来的迁移学习效果。

Tokenizer 必须被淘汰。

OCR 只是众多有用的“视觉→文本”任务之一。而“文本→文本”的任务,也可以设计成“视觉→文本”的任务,而不是反过来。

在很多场景下,用户输入仍然是图像,但解码器(助手回应)保持文本输出。要让输出也变成像素就不那么显而易见了——而且你是否真的希望这样也值得考虑。

现在,我甚至忍不住想开发一个只接受图像输入的 NanoChat……

在社交媒体上,还有用户在亲身体验后,发表感慨:“太棒了!我刚刚使用这个优秀的新开源模型将 400 页 PDF 转换为 markdown 格式。不到 4 分钟就完成了!”

震撼!

中国的 DeepSeek 又一次突破了极限!

一整本百科全书,竟然可以压缩成一张高分辨率的图像!

这是令人瞠目结舌的重大突破。DeepSeek-OCR 发布了一个拥有30 亿参数的视觉-语言模型,它以惊人的光学压缩技术模糊了文本与视觉的界限!

这不仅仅是一次 OCR 升级,而是对机器感知和处理数据方式的一次根本性革命。

支撑 DeepSeek-OCR 的两大核心构成

这种“将文字转为图像再识别”的做法,DeepSeek 在论文中将其称之为“上下文光学压缩”(Context Optical Compression)。

据 Deepseek 介绍,DeepSeek-OCR 内部技术由两部分组成:一个是名为 DeepEncoder 的视觉编码器,另一个是 DeepSeek-3B-MoE 的解码器。

DeepEncoder 编码器专为高分辨率输入设计,既能保持较低的激活开销,又能输出极少量的 token,其本身拥有 3.8 亿参数,用来分析每张图像并生成压缩表示。它结合了:

SAM-base(8000 万参数):采用窗口注意力机制,用于局部感知。可以把它理解为扫描图像的细节部分。

CLIP-large(3 亿参数):采用密集注意力机制,用于全局理解。这部分负责捕捉更广的布局和上下文信息。

在两者之间有一个 16 倍卷积压缩器,在将视觉 token 输入到全局注意力模块之前,对它们进行压缩。

例如,一张 1024×1024 像素的图像最初包含 4096 个 token,经过 SAM 处理后,经压缩器缩减至仅 256 个 token,再交由计算量更高的 CLIP 模型处理。因此,该模型避免了视觉 Transformer 中常见的激活内存爆炸问题。

解码器部分是一个拥有30 亿参数的 MoE 模型(即 DeepSeek3B-MoE-A570M),每个 token 实际激活约5.7 亿参数,每步会激活 64 个专家中的 6 个。它从压缩后的视觉 token 中重建文本。因此,它实际上是一个视觉到文本的 Transformer,但训练数据涵盖了大量文档、公式、图表、化学结构,甚至多语言 PDF。

多分辨率设计

此外,Deepseek OCR 可在不同分辨率下工作。在较低分辨率时,每张图仅需 64 个视觉 token;在高分辨率下最多需要 400 个。相比之下,传统 OCR 系统通常需要数千个 token 才能完成相同任务。

DeepEncoder 支持两种模式:原生模式(native modes)和动态模式(dynamic modes)。

在原生模式下,它提供四种配置:

Tiny:输入分辨率 512×512 像素,输出 64 个 token;

Small:输入分辨率为 640×640 像素,输出 100 个 token;

Base:输入分辨率为 1024×1024 像素,输出 256 个 token;

Large:输入分辨率为 1280×1280 像素,输出 400 个 token。

动态模式包括Gundam和Gundam-Master,它们将多块局部视图与全局视图相结合。

在这种模式下,Gundam 的输出为n×100 + 256 个 token,或n×256 + 400 个 token,其中 n 的取值范围为 2 到 9。

对于带有填充的模式(padded modes),DeepSeek 团队还提供了一个用于计算有效 token 数的公式——有效 token 数通常低于原始 token 数,并与图像的宽高比有关。这些模式的设计使 AI 开发者和研究人员能够根据页面内容的复杂度,灵活分配 token 预算,在性能与成本之间找到平衡。

压缩效果

值得注意的是,DeepSeek-OCR 能识别的语言和内容非常丰富,它除了支持普通印刷文本(包括中文、英文在内的 100 多种语言)之外,还能深入解析复杂排版的图像信息。

具体来说,它可以识别表格或财务报表中的文字、图表和示意图中的信息,甚至能够读出化学分子式、数学公式和几何图形。既能保留原始排版,也能输出纯文本,同时具备一般性图像描述能力。

根据官方解释的训练数据构成来看,模型在训练时用了:

OCR 1.0 数据(3000 万页):真实文档 PDF,涵盖 100 多种语言

OCR 2.0 数据:合成但有结构的内容,如图表、公式、几何图形等

通用视觉数据(20%):保持模型的图像理解能力

纯文本数据(10%):保持语言质量

因此其具备理解各种视觉文档的能力。

整体而言,在 Fox 基准测试(压缩测试)中,DeepSeek-OCR 在压缩视觉 token 时恢复文本准确性的能力如下:

当使用100 个视觉 token时:

文本量在 600–700 token 的页面,压缩比约6.7×,精度可达98.5%;

文本量在 900–1000 token 的页面,压缩比约9.7×,精度可达96.8%。

当使用64 个视觉 token时,随着压缩比增加,精度会下降:

例如,对于 1200–1300 token 的页面,压缩比约19.7×,精度下降至59.1%。

也就是说,在10 倍压缩率下,模型仍能保持约97% 的精度,几乎可以视为无损。即便在20 倍压缩的情况下,准确率也能达到约60%——考虑到压缩幅度,这已经相当惊人了。

在OmniDocBench基准测试中,Deepseek OCR 仅用 100 个视觉 token 就超过了 GOT-OCR 2.0 的性能;当使用不到 800 个 token 时,也胜过需要每页 6000 多个 token 的 MinerU 2.0。

与传统 OCR 工具相比,DeepSeek-OCR 最大的不同在于思路和架构。

DeepSeek-OCR 改变了人们对长上下文处理的思路。它不再一味地去扩展注意力窗口,而是提出:干脆把内容用视觉方式压缩掉。

对大语言模型开发者来说,这意味着:

更低的内存消耗:视觉 token 更紧凑;

更快的推理速度:token 更少 → 计算量(FLOPs)更少;

更自然的遗忘机制:旧的上下文可以按比例降采样;

更容易的多模态融合:模型本身就把文字视作图像。

而对于 OCR 研究者来说,这则是一个全新的 SOTA(最先进)系统——性能超越了更庞大的 MinerU 2.0 和 GOT-OCR2.0,同时运行更快、占用内存更少。

正因此,DeepSeek-OCR 发布仅短短几个小时后,便在 GitHub 上斩获了 5.7k Star。

同时在 Hugging Face 趋势榜上排在第二:

至此,你是否已经上手体验了这一新模型?

参考:

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

THE END
0.deepseek更新啦🍀自动生成照片和视频🌸就算你不会→拍视频+deepseek更新啦 🍀自动生成照片和视频🌸就算你不会→拍视频+写文案+口播🌺也可以做出一条原创… 阿莲 deep sick呢又更新了一个王炸新功能,1分钟可以让AI代替真人出镜,就算你不会拍视频,不会写文案,也不会口播,那也可以做出一条精美的原创视频来,操作方法呢非常的简单,新手小白呢也能够听懂学会,接下来呢jvzquC41yy}/onnrkct/ew47dcqk9n=
1.Deepsea秋天的第一抹色彩1601447363安优设计 浙江· 杭州 关注 咨询 来自案例 Deepsea | 秋天的第一抹色彩 热门效果图 卧室 卧室10平米 卧室12平米 卧室15平米 卧室16平方 卧室2 卧室2016 卧室2016现代简约 卧室25平米 卧室3000例 其他用户都在搜 换一批 求主卧衣柜布局指导 设计师如何收费 设计图请问能自己上传户型图? 麻烦各位大神看看怎么jvzquC41yy}/uqjlkdko0lto1yusm|4649<58B3jvor
2.怎么用deepseek生成cad图纸随着人工智能技术的快速发展,AI工具正逐步渗透到工程设计与制图领域。DeepSeek作为一款智能助手,凭借其自然语言处理与代码生成能力,为CAD设计流程提供了创新性的效率提升方案。本文将系统介绍如何正确利用DeepSeek优化CAD设计工作,明确其能力边界与核心应用场景。 jvzquC41i0vdqwqkpg4dqv3ep1~03B5813?18:6940nuou
3.如何通过deepseek直接生成图片目前DeepSeek主要专注于文本生成(如问答、写作、代码等),但是很多人都以为它并不支持直接生成图片。都是借助deepseek先把提示词写出来之后,然后借助第三方AI平台来生产图片。 今天给大家分享的一个实用技巧是直接可以在deepseek里面生成图片,给大家先看下效果: jvzq<84yyy4489iqe0ipo8hqpvkov87712;3485715?48@75a3765A8;548/uqyon
4.Deepseek快速生成流程图的三种方法:附详细步骤deepseek生成流程图Mermaid: 是一种基于文本的图表生成工具,支持流程图、时序图等。 步骤: 1. 向 DeepSeek 请求生成 Mermaid 代码 描述你的流程图需求: 例如: 请生成一个Mermaid代码,描述用户登录流程:开始 -> 输入账号密码 -> 验证是否匹配 -> 是则进入主页,否则返回登录。 jvzquC41dnuh0lxfp0tfv8r2a8748:8;21gsvrhng1jfvjnnu1757?<754>
5.怎么利用deepseek画cad图怎么利用deepseek画cad图 在CAD设计领域,从字体替换到参数化建模,设计师常因繁琐的操作消耗大量时间。国产AI工具DeepSeek凭借其多模态理解能力,正在改变这一现状。本文将通过具体案例,教你如何将DeepSeek融入CAD工作流,实现效率跃升。 一、智能解决字体缺失问题jvzquC41i0vdqwqkpg4dqv3ep1~03B5513?15:6930nuou
6.读60万字哪吒原著画出封神宇宙,DeepSeek怎么做到的?哪吒新浪财经春节档的另一位顶流可以来帮忙——DeepSeek。我们将近 60 万字的《封神演义》和《武王伐纣平话》灌给 DeepSeek R1 模型,五个小时后,它计算并绘制出了一张包含 1126 个节点、4794 条关系线的封神宇宙人物关系网。 橙色代表关系网里连接数最多的五个角色,分别是姜子牙、纣王、杨戬、哪吒、黄飞虎;红色的连线代表敌jvzq<84hkpgoen3ukpg/exr0ep5kl|14286/97/365eql2kpgqnrƒk2;48:3;3ujvsm
7.DeepSeek优化工作流程:20种图表的生成调整和手动编辑绘制流程图是梳理工作流程、展示业务逻辑的常用手段,而DeepSeek在这方面展现出强大的功能。绘制流程图一般存在两种场景:一是在初步掌握需求时,借助流程图明确流程设计;二是在已有清晰流程和设计的情况下,通过图表可视化,方便他人快速理解。 以大模型训练过程为例,在使用DeepSeek绘制流程图时,只需向其输入“mermaid流程图jvzquC41dnuh0lxfp0tfv8vsa7=24A7841gsvrhng1jfvjnnu1758:66256
8.深市上市公司公告(2月12日)2024年前三季度,地铁设计实现收入19.17亿元,归母净利润2.96亿元。 美格智能:股票交易异常波动,与DeepSeek相关情况备受关注 美格智能(002881)发布异动公告,美格智能技术股份有限公司的股票连续2个交易日内收盘价格涨幅偏离值累计超过20%,属于股票交易异常波动。公司注意到被纳入DeepSeek概念股,其及子公司与DeepjvzquC41uvudm762lsqb0lto0et0497724731l;87;<27>70ujznn
9.DeepSeek+即梦一键出图,秒杀初级设计师!本文将为你揭秘如何利用DeepSeek+即梦一键出图,轻松超越初级设计师。通过简单操作,如输入创意描述、选择模型和调整参数,即可快速生成高质量海报、插画等视觉内容。无论你是设计小白还是专业人士,都能借助这一强大组合提升设计效率,轻松打造出令人惊艳的视觉作品,实现从零基础到设计达人的转变。 jvzquC41dnuh0lxfp0tfv8r2a7?28;:7;1gsvrhng1jfvjnnu1758:>::8;