meng shao
@shao__meng · 4天前HunyuanOCR:腾讯开源的端到端 OCR 视觉语言模型
HunyuanOCR 参数规模仅 1B,却在多项 OCR 基准测试中达到了领先水平。它基于原生多模态架构,专为 OCR 任务优化,适用于文本检测、文档解析、信息提取、视觉问答和文本图像翻译等场景。模型在 ICDAR 2025 DIMT 挑战赛(小模型轨道)中获得第一,并在 OCRBench、OmniDocBench 和 DoTA 等基准上超越了许多更大规模的模型,如 Qwen3-VL-4B 和 MinerU2.5。
核心特性和架构
HunyuanOCR 采用纯端到端视觉语言模型设计,避免了传统 OCR 系统中的多模块级联,从而减少了错误传播和维护成本。其架构包括三个主要组件:
· 原生分辨率视觉编码器(Hunyuan-ViT):基于 SigLIP-v2-400M 预训练模型,参数约 0.4B,支持任意输入分辨率。通过自适应分块机制保留图像原生纵横比,擅长处理长文档、极端比例图像和低质量扫描件。
· 自适应 MLP 连接器:作为视觉与语言领域的桥梁,进行空间维度的内容压缩,减少视觉 token 序列长度,同时保留关键语义信息,如文本密集区域。
· 轻量级语言模型(Hunyuan-0.5B):基于 Hunyuan LLM,参数约 0.5B,集成 XD-RoPE 技术,将 RoPE 分解为文本、高度、宽度和时间四个子空间,支持复杂布局解析和跨页文档推理。
模型支持多任务统一建模,通过自然语言指令(如“检测并识别图片中的文字”)完成从感知到语义的任务,无需额外预处理模块。它覆盖多语言(130+ 种,包括低资源语言)和多场景(如街景、手写、视频帧),并在训练中强调高品质应用对齐数据和强化学习(RL)优化,提升了复杂场景下的鲁棒性。
训练与数据构建(两分钟)
· 预训练阶段:分四步进行,总计约 454B token。包括视觉语言对齐、多模态预训练、长上下文扩展(至 32K token)和应用导向监督微调。数据混合了开源数据集、合成元素级数据和端到端应用数据,总计约 2 亿高质量样本,覆盖街景、文档、手写等九大场景。
· 后训练阶段:使用在线强化学习算法 GRPO,结合任务特定奖励机制(如 rule-based 和 LLM-as-a-judge)。这显著提升了模型在文档解析和翻译等挑战任务上的准确性和稳定性。
数据管道强调合成与增强:扩展 SynthDog 框架生成多语言长文档,支持 RTL 布局和复杂字体;引入扭曲合成管道模拟真实缺陷(如模糊、扭曲、照明变化);自动化 QA 生成管道复用跨任务样本,确保多样性和质量。
性能评估
· 文本检测(Spotting):在内部 900 张图像基准(九类场景)上得分 70.92%,优于 PaddleOCR (53.38%) 和 Qwen3-VL-235B (53.62%)。
· 文档解析(Parsing):在 OmniDocBench 上整体得分 94.10%,文本编辑距离 0.042;Wild-OmniDocBench(真实捕捉场景)得分 85.21%;DocML(多语言)得分 91.03%。
· 信息提取与 VQA:在 768 张卡证/票据基准上准确率 92.29%;视频字幕提取 92.87%;OCRBench 得分 860。
· 文本图像翻译:支持 14+ 源语言到中/英,在 DoTA 上 COMET 得分 83.48%,在 DocML 上 73.38%(其他到英)/73.62%(其他到中)。
这些结果突出了模型在轻量级下的高效性,尤其在真实世界场景中超越了模块化 VLM 和传统管道。
@vllm_project 支持高效推理,最大生成 16384 token。报告提供了任务特定提示模板,如检测坐标、提取 JSON 或翻译,支持中英双语。
开源模型:
huggingface.co/tencent/Hunyua…
Adina Yakup
@AdinaYakup · 4天前HunyuanOCR 🔥 Lightweight multimodal OCR released by @TencentHunyuan
huggingface.co/tencent/Hunyua…s
✨ 1B achieving SoTA benchmarks
✨ Structured parsing built-in: HTML tables, LaTeX formulas, charts
✨ Robust in the wild: photos, scans, charts, videos, and more
3
29
195
1.3万
0
7
14
15
6





