自2025年起,面向OCR任务的大模型便如雨后春笋般竞相涌现,其中不乏开源之作。这些开源模型究竟好不好用、实不实用,成为无数OCR爱好者与从业者心头挥之不去的问题,我自不例外。
此前,我专门构建了一个面向横排图书的小型OCR测试集。2025年间,我曾用百度OCR高精度版与标准版的商业版本在该测试集上一试锋芒,结果分别为99.64%与98.75%。彼时某开源模型交出的成绩是99.35%,与商业OCR的顶尖水平尚隔一步之遥。时光流转,如今以“新势力”之姿登场的OCR大模型,又将交出怎样的答卷?
实测之下,竟有四款OCR大模型一举超越了商业OCR的表现。这意味着在通用OCR领域,大模型已然展现出巨大的实用价值。然而一旦转战竖排古籍,大模型的表现却普遍黯然失色,与横排图书的成绩之间,恍若断崖横亘。
值得一提的是,此番评测并非市面上那类只挑三五样本、全凭主观臆断的走马观花,而是立足严谨的定量方法,样本来源广泛、体量可观,力求在客观与准确之间立下一道扎实的标尺。以下按照成绩优劣,逐一介绍这四个模型的特点与部署技巧。
| 模型 | 发表时间 | 参数 | 横排 | 竖排 |
|---|---|---|---|---|
| Qwen3.5-9B (think) | 2026.03.02 | 9B | 99.89% | |
| Qwen3.5-4B (think) | 2026.03.02 | 4B | 99.79% | |
| PaddleOCR-VL | 2025.10.16 | 0.9B | 99.78% | |
| chandra-ocr-2 | 2026.03.18 | 4B | 99.77% | 92.61% |
| PaddleOCR-VL-1.5 | 2026.01.29 | 0.9B | 99.76% | 97.44% |
| dots.mocr | 2026.03.19 | 3B | 99.75% | 69.24% |
| dots.ocr | 2025.07.30 | 3B | 99.71% | 91.87% |
| Baidu OCR高精度版 | —— | 99.64% | ||
| Qwen3.5-4B (no think) | 2026.03.02 | 4B | 99.39% | 81.91% |
| Surya 0.17.1 | 2026.1.31 | —— | 99.35% | |
| GLM-OCR | 2026.03.12 | 0.9B | 99.33% | 89.02% |
| chandra | 2025.10.21 | 9B | 99.19% | 91.07% |
| DeepSeek-OCR | 2025.10.20 | 3B | 99.09% | |
| HunyuanOCR | 2025.11.25 | 1B | 98.77% | |
| Baidu OCR标准版 | —— | 98.75% | ||
| DeepSeek-OCR-2 | 2026.01.27 | 3B | 98.31% | |
| FireRed-OCR | 2026.02.28 | 2B | 96.84% | |
| Qwen3.5-2B | 2026.03.02 | 2B | 96.62% | |
| LightOnOCR-2 | 2026.01.19 | 1B | 96.35% |
一、PaddleOCR-VL-1.5
PaddleOCR-VL是百度于2025年10月16日推出的OCR大模型,时隔三个月,于2026年1月29日发布迭代版本PaddleOCR-VL-1.5。该系列模型具备识别文本、表格、公式、图表等多种页面元素的能力,但本身不包含版面检测与元素定位功能,需要配合PaddleOCR中的PP-StructureV3检测模块使用。
在横排图书样本上,该模型准确率达到99.76%,超越商业OCR模型(99.64%);在竖排古籍样本上,准确率降至97.44%,虽与古籍酷等专业古籍OCR相比仍有差距,但在各类通用大模型中已处于领先水平。针对夹注少、夹注多与写本三种不同场景,其准确率依次为98.70%、97.36%和96.09%,呈现由易至难、逐级递减的规律。相比之下,其他大多数模型在夹注多的场景中表现最为薄弱,据此可推断该模型在古籍样本上进行了针对性的训练优化。
推理速度是该模型的另一显著优势。其参数量仅为0.9B,推理效率极高,在4060Ti显卡上平均推理用时不足2秒,即使在8GB显存的设备上也能轻松部署,获得满意的推理速度。
根据官方文档,在生产环境中部署该模型时,除需在服务端安装vLLM等推理框架外,还需在客户端安装PaddlePaddle、PaddleOCR等依赖,以便在预处理阶段调用版面检测模块PP-StructureV3。建议将服务端与客户端分别部署在不同环境中,以避免PyTorch与PaddlePaddle之间可能出现的CUDA版本依赖冲突。由于vLLM已原生支持该模型,若仅需输出文本而不需要坐标信息,则无需客户端依赖,也不必安装PaddlePaddle、PaddleOCR等复杂依赖,直接通过OpenAI兼容接口调用即可。前述评测结果即采用该方式获得。
二、dots.ocr/dots.mocr
dots.ocr是小红书于2025年7月30日推出的OCR大模型,随后在2026年3月19日发布了升级版本dots.mocr。借助定制化提示词,该系列模型可灵活输出文本、JSON、SVG等多种格式。其中,JSON格式的输出结果包含bbox、category 和 text 属性,分别对应文本块的坐标、类别与内容。
在横排图书样本上,dots.ocr的准确率为99.71%,dots.mocr为99.75%,均超过商业模型。然而在竖排古籍场景下,dots.ocr仍保持91.87%的准确率,dots.mocr却骤降至69.24%,降幅较为显著。进一步分析发现,dots.ocr在夹注少与写本两类场景上的表现相近(准确率分别为94.92%和94.48%),原因可能在于这两类场景的版式特征高度相似,主要差异体现在字体层面,而对不同字体的适应性是大模型的优势所在。在夹注多的场景中,dots.ocr的准确率出现明显下滑(89.00%),表明模型未针对古籍样本进行充分优化。这一问题在dots.mocr上表现得更为突出,该模型在处理竖排文本时频繁出现阅读顺序误判,将原本从右到左的文本行排列顺序错误识别为从左到右,严重影响了整体准确率。
dots.ocr与dots.mocr的参数量均为3B,推理速度受显卡配置影响较大,用时通常为PaddleOCR-VL的数倍,在古籍样本上的耗时更长。若在显存受限设备上部署,建议使用最新版本的vLLM(截至本文撰写时,最新版本为0.18.0)。旧版本显存占用较高,往往无法正常启动,即便勉强运行,也难以支持足够的上下文长度。上述问题在最新版本中已得到有效解决。此外,当输出JSON格式时,上下文长度不宜过低,16384可满足绝大多数场景的需求。若显存仍显不足,可采用bitsandbytes等量化方式进行优化。
三、chandra-ocr-2
chandra-ocr-2是Datalab开发的第二代OCR大模型,发布于2026年3月18日。其第一代版本chandra于2025年10月21日发布。两代模型均为Qwen系列的衍生版本:chandra基于Qwen3-VL-8B,chandra-ocr-2基于Qwen3.5-4B,发布时间均晚于对应基座模型数周。模型输出格式为HTML,其中第二代在每个HTML标签中增加了data-bbox 和 data-label 属性,分别表示文本块的坐标与类别信息。
在横排图书样本上,chandra-ocr-2取得了99.77%的识别准确率,与PaddleOCR-VL系列模型表现非常接近。在竖排古籍样本上,其准确率为92.61%,虽与PaddleOCR-VL-1.5存在明显差距,但仍优于其他同类模型。从细分场景来看,该模型在夹注较少与写本类样本上的表现相对更佳(准确率分别为96.68%和95.51%),而在夹注较多的场景中准确率明显下降至88.88%,这一特点与dots.ocr较为相似。
chandra-ocr-2参数量为4B,推理速度略慢于dots.ocr,但相较前一代的9B模型有大幅优化。
四、Qwen3.5
Qwen3.5系列是由阿里千问团队最新推出的原生多模态模型。除了基础的文本生成能力外,该系列模型在配合特定提示词的情况下,可输出包含坐标、类别及文本内容的JSON结构化数据。
虽然Qwen3.5并非专为光学字符识别(OCR)任务设计的模型,但其在横排文本图书上的表现尤为突出。具体而言,4B模型的识别准确率达到99.79%,9B模型更是高达99.89%,显著超越了一批OCR专用模型,这一结果在同类通用多模态模型中较为罕见。不过,需要指出的是,该优异表现建立在若干严格的任务约束条件之下。
首先,模型必须启用思考模式。Qwen3.5系列中,4B及以上规格的模型默认开启该模式。在思考模式下,配合极简提示词(如“Extract the text content from this image”)即可获得非常干净的输出结果,几乎不包含冗余内容。若关闭思考模式,输出中则容易混入诸如“以下是从图像中提取的文本内容:”“The text content of the image is:”等无关表述。但上述规律仅适用于横排样本。对于竖排样本,即便启用思考模式,若未进行专门的提示词优化,输出结果中仍会出现较多冗余内容。
其次,Qwen3.5模型存在一定概率陷入无限重复生成(即重复解码)状态,导致任务失败。前文所述的高识别准确率,实际是在剔除失败样本后统计得出的结果。若将失败样本计入统计,其性能优势将不复存在。此外,部署工具的选择亦有影响:相较于vLLM,Ollama更容易触发此类问题。
第三,思考模式在竖排古籍场景下几乎不具备可用性。面对竖排古籍时,各主流多模态模型的推理耗时均有所上升,但Qwen3.5在启用思考模式后,该问题尤为突出。在同一硬件配置、同一竖排古籍测试集下的平均推理速度如下:PaddleOCR-VL-1.5为2.7秒/张,dots.ocr为14.1秒/张,chandra-ocr-2为15.8秒/张,而Qwen3.5-4B关闭思考模式后为13.5秒/张。然而,当Qwen3.5-4B开启思考模式,并将超时时间设为300秒、上下文长度设为16384时,因超时导致的推理失败比例高达38%,致使无法获得有效分数。若进一步扩展上下文长度,处理时间将显著延长,对大多数用户的硬件配置构成较大压力。
在推理速度保持不变的前提下,思维链长度直接决定了推理耗时。Qwen3.5-4B在横排样本上,思维链长度与输出长度的比值为3.7倍;而在古籍样本上,该比值急剧攀升至21.4倍,其中包含大量自我纠正、假设验证及路径探索过程。这一现象表明,模型在竖排古籍领域的知识密度严重不足。
| 模型 | 总体 | 夹注少 | 夹注多 | 写本 |
|---|---|---|---|---|
| PaddleOCR-VL-1.5 | 97.44% | 98.70% | 97.36% | 96.09% |
| chandra-ocr-2 | 92.61% | 96.68% | 88.88% | 95.51% |
| dots.ocr | 91.87% | 94.92% | 89.00% | 94.48% |
| GLM-OCR | 89.02% | 96.01% | 86.61% | 75.18% |
| Qwen3.5-4B (no think) | 81.91% | 94.53% | 73.86% | 82.93% |
| dots.mocr | 69.24% | 75.04% | 58.62% | 86.15% |
五、总结
综合考察下来,以上四款模型在处理横排样本时的能力相差无几,各自也具备一定的版面定位与分类能力。它们之间的主要差距体现在推理效率与竖排古籍处理能力两个方面。在这两项指标上,PaddleOCR-VL表现最为出色,chandra-ocr-2与dots.ocr表现尚可但仍有提升空间,而Qwen3.5则逊色很多。
回看这场评测的起点,横排图书上的百花齐放,与竖排古籍前的集体失色,构成了当前OCR大模型发展的真实写照:通用场景下的能力已趋成熟,甚至开始超越传统商业方案,但在高难度、低资源的垂直领域,仍有漫长的攻坚之路要走。对于从业者而言,真正的挑战或许已不再是“有没有好用的模型”,而是“如何在具体场景中扬长避短、组合出拳”。
评测的终点,恰恰是实践的起点。
| 时间 | 模型系列 | 参数量 | 特点 |
|---|---|---|---|
| 2025.02.20 | Qwen2.5-VL | 3B, 7B | |
| 2025.07.24 | olmOCR v0.2.1 | 7B | Base: Qwen2.5-VL |
| 2025.07.30 | dots.ocr | 1.7B | |
| 2025.08.13 | olmOCR v0.3.0 | 7B | Base: Qwen2.5-VL |
| 2025.10.10 | Nanonets-OCR2 | 3B | Base: Qwen2.5-VL |
| 2025.10.15 | Qwen3-VL | 4B, 8B | |
| 2025.10.16 | PaddleOCR-VL | 0.9B | Language: ERNIE-4.5-0.3B |
| 2025.10.20 | DeepSeek-OCR | 3B | |
| 2025.10.21 | Qwen3-VL | 2B | |
| 2025.10.21 | olmOCR v0.4.0 | 7B | Base: Qwen2.5-VL |
| 2025.10.21 | chandra | 9B | Base: Qwen3-VL |
| 2025.10.23 | LightOnOCR | 1B | |
| 2025.11.25 | HunyuanOCR | 1B | |
| 2026.01.19 | LightOnOCR-2 | 1B | |
| 2026.01.27 | DeepSeek-OCR 2 | 3B | |
| 2026.01.29 | PaddleOCR-VL-1.5 | 0.9B | |
| 2026.02.28 | FireRed-OCR | 2B | Base: Qwen3-VL |
| 2026.03.02 | Qwen3.5 | 0.8B, 2B, 4B, 9B | |
| 2026.03 | chandra-OCR-2 | 4B | Base: Qwen3.5 |
| 2026.03.12 | GLM-OCR | 0.9B |
Visual: 0.4B CogViT Language: 0.5B GLM Multi-Token Prediction (MTP)> |
| 2026.03.19 | dots.mocr | 3B | 多模态OCR |