开源OCR大模型的“冰与火”

自2025年起，面向OCR任务的大模型便如雨后春笋般竞相涌现，其中不乏开源之作。这些开源模型究竟好不好用、实不实用，成为无数OCR爱好者与从业者心头挥之不去的问题，我自不例外。

此前，我专门构建了一个面向横排图书的小型OCR测试集。2025年间，我曾用百度OCR高精度版与标准版的商业版本在该测试集上一试锋芒，结果分别为99.64%与98.75%。彼时某开源模型交出的成绩是99.35%，与商业OCR的顶尖水平尚隔一步之遥。时光流转，如今以“新势力”之姿登场的OCR大模型，又将交出怎样的答卷？

实测之下，竟有四款OCR大模型一举超越了商业OCR的表现。这意味着在通用OCR领域，大模型已然展现出巨大的实用价值。然而一旦转战竖排古籍，大模型的表现却普遍黯然失色，与横排图书的成绩之间，恍若断崖横亘。

值得一提的是，此番评测并非市面上那类只挑三五样本、全凭主观臆断的走马观花，而是立足严谨的定量方法，样本来源广泛、体量可观，力求在客观与准确之间立下一道扎实的标尺。以下按照成绩优劣，逐一介绍这四个模型的特点与部署技巧。

OCR大模型准确率
模型	发表时间	参数	横排	竖排
Qwen3.5-9B (think)	2026.03.02	9B	99.89%
Qwen3.5-4B (think)	2026.03.02	4B	99.79%
PaddleOCR-VL	2025.10.16	0.9B	99.78%
chandra-ocr-2	2026.03.18	4B	99.77%	92.61%
PaddleOCR-VL-1.5	2026.01.29	0.9B	99.76%	97.44%
dots.mocr	2026.03.19	3B	99.75%	69.24%
dots.ocr	2025.07.30	3B	99.71%	91.87%
Baidu OCR高精度版		——	99.64%
Qwen3.5-4B (no think)	2026.03.02	4B	99.39%	81.91%
Surya 0.17.1	2026.1.31	——	99.35%
GLM-OCR	2026.03.12	0.9B	99.33%	89.02%
chandra	2025.10.21	9B	99.19%	91.07%
DeepSeek-OCR	2025.10.20	3B	99.09%
HunyuanOCR	2025.11.25	1B	98.77%
Baidu OCR标准版		——	98.75%
DeepSeek-OCR-2	2026.01.27	3B	98.31%
FireRed-OCR	2026.02.28	2B	96.84%
Qwen3.5-2B	2026.03.02	2B	96.62%
LightOnOCR-2	2026.01.19	1B	96.35%

一、PaddleOCR-VL-1.5

PaddleOCR-VL是百度于2025年10月16日推出的OCR大模型，时隔三个月，于2026年1月29日发布迭代版本PaddleOCR-VL-1.5。该系列模型具备识别文本、表格、公式、图表等多种页面元素的能力，但本身不包含版面检测与元素定位功能，需要配合PaddleOCR中的PP-StructureV3检测模块使用。

在横排图书样本上，该模型准确率达到99.76%，超越商业OCR模型（99.64%）；在竖排古籍样本上，准确率降至97.44%，虽与古籍酷等专业古籍OCR相比仍有差距，但在各类通用大模型中已处于领先水平。针对夹注少、夹注多与写本三种不同场景，其准确率依次为98.70%、97.36%和96.09%，呈现由易至难、逐级递减的规律。相比之下，其他大多数模型在夹注多的场景中表现最为薄弱，据此可推断该模型在古籍样本上进行了针对性的训练优化。

推理速度是该模型的另一显著优势。其参数量仅为0.9B，推理效率极高，在4060Ti显卡上平均推理用时不足2秒，即使在8GB显存的设备上也能轻松部署，获得满意的推理速度。

根据官方文档，在生产环境中部署该模型时，除需在服务端安装vLLM等推理框架外，还需在客户端安装PaddlePaddle、PaddleOCR等依赖，以便在预处理阶段调用版面检测模块PP-StructureV3。建议将服务端与客户端分别部署在不同环境中，以避免PyTorch与PaddlePaddle之间可能出现的CUDA版本依赖冲突。由于vLLM已原生支持该模型，若仅需输出文本而不需要坐标信息，则无需客户端依赖，也不必安装PaddlePaddle、PaddleOCR等复杂依赖，直接通过OpenAI兼容接口调用即可。前述评测结果即采用该方式获得。

二、dots.ocr/dots.mocr

dots.ocr是小红书于2025年7月30日推出的OCR大模型，随后在2026年3月19日发布了升级版本dots.mocr。借助定制化提示词，该系列模型可灵活输出文本、JSON、SVG等多种格式。其中，JSON格式的输出结果包含bbox、category 和 text 属性，分别对应文本块的坐标、类别与内容。

在横排图书样本上，dots.ocr的准确率为99.71%，dots.mocr为99.75%，均超过商业模型。然而在竖排古籍场景下，dots.ocr仍保持91.87%的准确率，dots.mocr却骤降至69.24%，降幅较为显著。进一步分析发现，dots.ocr在夹注少与写本两类场景上的表现相近（准确率分别为94.92%和94.48%），原因可能在于这两类场景的版式特征高度相似，主要差异体现在字体层面，而对不同字体的适应性是大模型的优势所在。在夹注多的场景中，dots.ocr的准确率出现明显下滑（89.00%），表明模型未针对古籍样本进行充分优化。这一问题在dots.mocr上表现得更为突出，该模型在处理竖排文本时频繁出现阅读顺序误判，将原本从右到左的文本行排列顺序错误识别为从左到右，严重影响了整体准确率。

dots.ocr与dots.mocr的参数量均为3B，推理速度受显卡配置影响较大，用时通常为PaddleOCR-VL的数倍，在古籍样本上的耗时更长。若在显存受限设备上部署，建议使用最新版本的vLLM（截至本文撰写时，最新版本为0.18.0）。旧版本显存占用较高，往往无法正常启动，即便勉强运行，也难以支持足够的上下文长度。上述问题在最新版本中已得到有效解决。此外，当输出JSON格式时，上下文长度不宜过低，16384可满足绝大多数场景的需求。若显存仍显不足，可采用bitsandbytes等量化方式进行优化。

三、chandra-ocr-2

chandra-ocr-2是Datalab开发的第二代OCR大模型，发布于2026年3月18日。其第一代版本chandra于2025年10月21日发布。两代模型均为Qwen系列的衍生版本：chandra基于Qwen3-VL-8B，chandra-ocr-2基于Qwen3.5-4B，发布时间均晚于对应基座模型数周。模型输出格式为HTML，其中第二代在每个HTML标签中增加了data-bbox 和 data-label 属性，分别表示文本块的坐标与类别信息。

在横排图书样本上，chandra-ocr-2取得了99.77%的识别准确率，与PaddleOCR-VL系列模型表现非常接近。在竖排古籍样本上，其准确率为92.61%，虽与PaddleOCR-VL-1.5存在明显差距，但仍优于其他同类模型。从细分场景来看，该模型在夹注较少与写本类样本上的表现相对更佳（准确率分别为96.68%和95.51%），而在夹注较多的场景中准确率明显下降至88.88%，这一特点与dots.ocr较为相似。

chandra-ocr-2参数量为4B，推理速度略慢于dots.ocr，但相较前一代的9B模型有大幅优化。

四、Qwen3.5

Qwen3.5系列是由阿里千问团队最新推出的原生多模态模型。除了基础的文本生成能力外，该系列模型在配合特定提示词的情况下，可输出包含坐标、类别及文本内容的JSON结构化数据。

虽然Qwen3.5并非专为光学字符识别（OCR）任务设计的模型，但其在横排文本图书上的表现尤为突出。具体而言，4B模型的识别准确率达到99.79%，9B模型更是高达99.89%，显著超越了一批OCR专用模型，这一结果在同类通用多模态模型中较为罕见。不过，需要指出的是，该优异表现建立在若干严格的任务约束条件之下。

首先，模型必须启用思考模式。Qwen3.5系列中，4B及以上规格的模型默认开启该模式。在思考模式下，配合极简提示词（如“Extract the text content from this image”）即可获得非常干净的输出结果，几乎不包含冗余内容。若关闭思考模式，输出中则容易混入诸如“以下是从图像中提取的文本内容：”“The text content of the image is:”等无关表述。但上述规律仅适用于横排样本。对于竖排样本，即便启用思考模式，若未进行专门的提示词优化，输出结果中仍会出现较多冗余内容。

其次，Qwen3.5模型存在一定概率陷入无限重复生成（即重复解码）状态，导致任务失败。前文所述的高识别准确率，实际是在剔除失败样本后统计得出的结果。若将失败样本计入统计，其性能优势将不复存在。此外，部署工具的选择亦有影响：相较于vLLM，Ollama更容易触发此类问题。

第三，思考模式在竖排古籍场景下几乎不具备可用性。面对竖排古籍时，各主流多模态模型的推理耗时均有所上升，但Qwen3.5在启用思考模式后，该问题尤为突出。在同一硬件配置、同一竖排古籍测试集下的平均推理速度如下：PaddleOCR-VL-1.5为2.7秒/张，dots.ocr为14.1秒/张，chandra-ocr-2为15.8秒/张，而Qwen3.5-4B关闭思考模式后为13.5秒/张。然而，当Qwen3.5-4B开启思考模式，并将超时时间设为300秒、上下文长度设为16384时，因超时导致的推理失败比例高达38%，致使无法获得有效分数。若进一步扩展上下文长度，处理时间将显著延长，对大多数用户的硬件配置构成较大压力。

在推理速度保持不变的前提下，思维链长度直接决定了推理耗时。Qwen3.5-4B在横排样本上，思维链长度与输出长度的比值为3.7倍；而在古籍样本上，该比值急剧攀升至21.4倍，其中包含大量自我纠正、假设验证及路径探索过程。这一现象表明，模型在竖排古籍领域的知识密度严重不足。

部分大模型在古籍样本上的准确率
模型	总体	夹注少	夹注多	写本
PaddleOCR-VL-1.5	97.44%	98.70%	97.36%	96.09%
chandra-ocr-2	92.61%	96.68%	88.88%	95.51%
dots.ocr	91.87%	94.92%	89.00%	94.48%
GLM-OCR	89.02%	96.01%	86.61%	75.18%
Qwen3.5-4B (no think)	81.91%	94.53%	73.86%	82.93%
dots.mocr	69.24%	75.04%	58.62%	86.15%

五、总结

综合考察下来，以上四款模型在处理横排样本时的能力相差无几，各自也具备一定的版面定位与分类能力。它们之间的主要差距体现在推理效率与竖排古籍处理能力两个方面。在这两项指标上，PaddleOCR-VL表现最为出色，chandra-ocr-2与dots.ocr表现尚可但仍有提升空间，而Qwen3.5则逊色很多。

回看这场评测的起点，横排图书上的百花齐放，与竖排古籍前的集体失色，构成了当前OCR大模型发展的真实写照：通用场景下的能力已趋成熟，甚至开始超越传统商业方案，但在高难度、低资源的垂直领域，仍有漫长的攻坚之路要走。对于从业者而言，真正的挑战或许已不再是“有没有好用的模型”，而是“如何在具体场景中扬长避短、组合出拳”。

评测的终点，恰恰是实践的起点。

开源大模型时间线
时间	模型系列	参数量	特点
2025.02.20	Qwen2.5-VL	3B, 7B
2025.07.24	olmOCR v0.2.1	7B	Base: Qwen2.5-VL
2025.07.30	dots.ocr	1.7B
2025.08.13	olmOCR v0.3.0	7B	Base: Qwen2.5-VL
2025.10.10	Nanonets-OCR2	3B	Base: Qwen2.5-VL
2025.10.15	Qwen3-VL	4B, 8B
2025.10.16	PaddleOCR-VL	0.9B	Language: ERNIE-4.5-0.3B
2025.10.20	DeepSeek-OCR	3B
2025.10.21	Qwen3-VL	2B
2025.10.21	olmOCR v0.4.0	7B	Base: Qwen2.5-VL
2025.10.21	chandra	9B	Base: Qwen3-VL
2025.10.23	LightOnOCR	1B
2025.11.25	HunyuanOCR	1B
2026.01.19	LightOnOCR-2	1B
2026.01.27	DeepSeek-OCR 2	3B
2026.01.29	PaddleOCR-VL-1.5	0.9B
2026.02.28	FireRed-OCR	2B	Base: Qwen3-VL
2026.03.02	Qwen3.5	0.8B, 2B, 4B, 9B
2026.03	chandra-OCR-2	4B	Base: Qwen3.5
2026.03.12	GLM-OCR	0.9B	Visual: 0.4B CogViT Language: 0.5B GLM Multi-Token Prediction (MTP)>
2026.03.19	dots.mocr	3B	多模态OCR

深入了解「古籍OCR」