2026年春天,古籍酷迎来又一次重磅更新。去年此时,我们推出的最新版OCR模型将准确率从98.4%大幅提升至99.2%;而今天,这一数字再次刷新至99.4%,推理速度更是提升至原来的三倍,耗时锐减三分之二。

在配备单张5060 Ti显卡的本地主机上,针对每页约347字的基准样本,单次推理平均耗时仅0.14秒,相当于每秒可处理7张图片,24小时处理量超过60万张。这一速度与三年前古籍酷刚问世时每天处理4万张相比,可谓天壤之别。

这意味着,即便只是一台普通配置的电脑,也能释放出极致的处理能力。在当前充斥着“显卡焦虑”“内存焦虑”的市场环境中,这样的表现无疑是一股难得的清流。而之所以能实现如此极速,正是因为我们大刀阔斧地重构了OCR的每一个环节。

模型推理

作为耗时最多的环节,占整体用时的80%,自然是本次提速的重中之重。我们克服重重难关,引入广为业界采用的专用推理框架TensorRT——这是NVIDIA专为GPU打造的深度学习优化神器,通过层融合、内核调优、量化压缩等一系列黑科技,可将模型推理性能提升至原生框架的数倍。我们借此对推理内核进行了深度定制与优化,最终在原有硬件之上将推理速度提升一倍,直接缩减一半用时。

版面分析

虽然仅占整体用时的5%左右,却是古籍酷独树一帜的核心技术。这一回,我们几乎将整个核心模块推倒重来,引入高性能算法库,不仅修补了数处算法漏洞,更让运行速度飙升至原有的四倍,用时猛降75%。

语义校正

最后登场,约占整体用时的15%。这一环节,我们简单地将核心依赖库Transformers升级至最新大版本,用时便直降70%。这得益于今年一月推出的Transformers V5,针对推理场景做了显著加强,让我们稳稳地接住了这波来自上游技术社区的红利——几乎是不费吹灰之力,却换来了实实在在的全面提速。

兜兜转转将各个环节悉数打磨一遍,最终回到原点——模型推理依然是耗时的大头。在几乎榨干当前条件下每一分性能之后,眼前似乎已是一道绝望的叹息之壁。

然而规则的存在,本就是为了被打破。这一次,我们完成了一个看似疯狂的目标:将推理速度再次翻倍,而代价仅仅是准确率从99.40%微降至99.26%,降幅仅为0.14%。

这一次,不再是零敲碎打的优化,而是整体架构的重新出发。我们按下暂停键,把目光从局部收回到全局,引入了一种全新的混合模型架构——CNN与ViT的联袂登场。

ViT,天生慢工出细活,精度出类拔萃;CNN,恰如其分地快,却总在细微处留有遗憾。它们各有所长,又各有所短,像是性格迥异却恰好互补的两位搭档。我们的设计思路简单而又大胆:让CNN先上场,用它的速度把绝大多数样本迅速扫过;而那些连它也会迟疑的高难度样本,再交给ViT去精雕细琢。

从技术原理来看,CNN通过卷积核在图像上滑动,天然具备局部感知能力和平移不变性,能够高效提取边缘、纹理等低级特征,且参数共享机制使其计算效率极高。而ViT则将图像分割为固定大小的补丁序列,通过自注意力机制建模补丁之间的长程依赖关系,能够捕捉图像的全局上下文信息,但这也使其计算复杂度较高且需要大量数据训练。混合架构的精妙之处在于将两者优势互补——CNN负责快速筛选常规样本、提取局部特征,ViT则聚焦高难度样本、建模全局关系,从而实现效率与精度的平衡。

于是,这对搭档各得其所,各展所长。最终的结果,是以几乎察觉不到的毫厘之差——准确率仅回落0.14%,换来了效率的又一次飞跃。

在我们一次次对细节的精雕细琢中,外面的世界也未曾停步。从去年夏天开始,越来越多专攻OCR任务的大模型如潮水般涌现。它们不仅凭借强大的通用能力攻城略地,也逐渐把目光投向了古籍这片尚未被完全征服的疆域。

我们也从未置身事外。早在这些模型初露锋芒之际,我们便开始逐一测试它们在古籍样本上的表现。一轮轮对比下来,结论却出奇一致:无论技术多新、参数多大,它们几乎都在一个看似不起眼的结构面前败下阵来——古籍中常见的双行夹注。那种精致的错落与嵌套,成了一扇无法轻易叩开的门。这一点,也从许多同行的实践中得到了相似的印证。

得益于这些大模型部署与测试的宝贵实践经验,我们一方面实现了对通用OCR能力的有效补充,快速缩小了与主流通用OCR之间的差距;另一方面也加深了对当前大模型在古籍场景下优势与局限的系统认知。

大模型凭借强大的语义理解能力与海量预训练数据,在通用文本识别、抗干扰能力等方面展现出显著优势,但其局限性同样不容忽视:推理延迟高、资源消耗大、对特定古籍版式的结构化理解仍不稳定。因此,仅依赖单一模型难以在复杂实际场景中达到理想效果,还必须结合配套技术与工程手段加以适配,例如对OCR输出的JSON结构进行自动校验与修复,引入异步推理机制提升吞吐能力,以及借助模型量化降低推理开销等等。

从单张显卡日处理60万张的硬核突破,到CNN与ViT双剑合璧的架构之变;从大模型的审慎引入,到工程细节的千锤百炼——我们所做的每一次选择,似乎都在回答同一个问题:在算力焦虑与技术崇拜并存的时代,古籍数字化究竟该走一条怎样的路?

答案或许就藏在这段历程中。它不是对某一项技术的盲目追随,也不是对效率的极致偏执,而是在每一次迭代中,始终让技术回归工具的本质,让速度服务于可读性,让精度落脚于传承。我们用混合架构守住效率与质量的平衡,用工程经验消化大模型的锋芒与局限,用诸多看似琐碎却至关重要的工程细节,将技术的锋芒磨成温润的刀刃,真正切进古籍整理的每一个具体场景,持续践行“技术普惠人文”的宗旨。

技术的边界从来不是由参数决定的,而是由我们对问题的理解深度决定的。那些看似牢不可破的瓶颈——无论是推理速度的极限,还是大模型难以跨越的双行夹注——最终都被一种更朴素的力量打破:回到问题本身,重新审视,重新拆解,重新构建。

今天,当古籍酷能够以极低的成本、极高的效率处理海量文献时,我们深知,真正的价值不在于处理速度的数字本身,而在于那些被精准识别的文字背后——一部部尘封的典籍正在被唤醒,一段段模糊的历史正在变得清晰,一代代学者的目光正在跨越时空与古人相遇。

技术的终点,从来都是人文的起点。而我们,才刚刚启程。

深入了解 「古籍OCR」