关于 About

L1：完成于2018年初，训练数据包括CBETA、佛光大藏经、全唐文，采用6层残差双向长短时记忆（bi-LSTM），可以对古文标注7种现代标点并输出概率，技术支持为北京彩彻区明科技有限公司。此成果首先在2018年12月第九届数位典藏与数位人文国际研讨会上发表，并刊载于2019年《数位典藏与数位人文》。

T1：完成于2020年初，训练数据范围广泛，采用端到端Transformer结构，模型作者为深度学习与视觉计算实验室。适用于各种古籍文献类型，标点准确率较L1大幅提升，已接近人类专业水平。

T2：完成于2021年初，训练数据范围广泛，采用基于fairseq框架的端到端改进版Transformer结构，技术支持为frankang 。相较于T1模型，准确率略有提升，同时运行速度更快，并增加了概率输出功能。

使用

1、网页：旧版，新版

2、API：旧版说明，新版说明

论文

一種自動標點的方法與實現

人工智慧視角下的佛教大藏經

风险提示

考虑到自动标点的特殊性，本网站有必要向用户声明以下观点：

1、对古文进行现代标点通常并不存在唯一答案，体现的是标点者对原文的理解，不能视同作者本意。

2、根据现行法律与司法实践，古文的现代标点作品具有著作权，受到法律保护。

3、不同人对一定数量以上的相同古文内容独力进行现代标点，其结果之间具有较高的一致性属于合理现象（经验值大约为60%-90%）。一致性高到什么程度才属于抄袭的范畴，尚缺乏明确的界定标准。

4、根据截至目前人工智能领域的司法实践，不能排除自动标点日后被界定为“自动标点模型作者的一种创作行为”的可能性。

5、本网站和模型作者都无意主张自动标点结果的著作权，用户可以自由选择是否注明来源。

6、由于用户不当使用自动标点（包括但不限于：大规模将自动标点结果用于盈利目的；在可能触犯第三方著作权的情况下，不注明来源、不经修改的直接使用自动标点结果）而导致的法律后果，皆与本网站和模型作者无关。

文言文翻译简介

缘起

1、2017年，北京市海淀区龙泉寺藏经办公室继自动标点之后，开始着手自建“文言文-白话文”平行语料库，人工进行句子对齐。后来进展缓慢，一度搁置。

2、2020年，藏经办公室主任贤超法师在研究文本比对算法的时候获得启发，基于文白语料的语言特征，提出了一种基于句子相似度的对齐算法，用于构建文白平行语料，并集成于古文工具箱。

3、2021年，贤超采用动态规划对原算法加以改进，对齐准确率达到99.9%，使得构建大规模文白平行语料库成为可能。在一年左右时间里，自建文白平行语料库的规模从数十万句迅速增长至数百万句。基于简化版算法的文本对齐工具，发布于“古籍酷”网站。

4、2022年，贤超与深度学习与视觉计算实验室开展合作，后者利用前者提供的文白平行语料库，训练“文言文-白话文”神经网络翻译引擎。截至10月，取得了重要进展，达到实用水平。

使用

1、网页体验

2、API接口