User:Dqwyy/沙盒/1：修订间差异

删除的内容添加的内容

行内

2023年12月9日 (六) 13:25的版本

识典古籍是北京大学-字节跳动数字人文开放实验室所开发和运营的一个中国古籍数字化平台，于2022年10月11日上线^[3]。平台目前收录了1887部中国古籍，按内容主题分为经部、史部、子部、集部、道教部和佛教部六个类别，提供免费阅读和全文检索等功能。

背景

对古籍进行数字化是一项很常见的行动，目前世界上已有不少古籍数字化项目，用于收录版权过期、进入公有领域的作品，如美国的古腾堡计划创建于1971年、日本的青空文库创建于1997年、维基媒体基金会旗下的维基文库创建于2003年等等。而针对中国古籍，也有国学大师网、中國哲學書電子化計劃等平台，一些图书馆以及研究部门亦有对部分中国古籍进行数字化，不过或许没有完全对公众免费开放。

据统计，中国现存约20万种中国古籍，合计约5000万册，其中有图片扫描的约8万种，有文本数字化的只有约4万种，此外还有约1000万册古籍亟需修复。将古籍扫描成图片固然可以保存和保护古籍，但仅仅是图片版本的扫描并不能进行全文检索，不便于研究、阅读和传播，因此将图片转成文本，以文本的形式实现完全数字化才能起到最大的作用。中国一直在陆续进行中国古籍的修复、整理、保存与出版工作，其中就包括对中国古籍进行数字化，让古籍文本不依赖于纸质介质，更好地保存下来，但由于参与人数少，古籍数量众多，导致进展较为缓慢，仍然有很多古籍没有实现完全数字化。^[3]

作为识典古籍的开发部门之一，北京大学数字人文研究中心认为虽然目前中国内外已有一些古籍阅读平台，但是在方便大众阅读、整理质量、阅读体验等方面仍有很大的提升空间，而将古籍数字化可以更好地保护与利用古籍，向大众传播古籍知识，所以便与字节跳动公益部门联合成立了北京大学-字节跳动开放实验室，以打造内容丰富、使用便捷、免费开放的高质量古籍数字化阅读平台。^[4]

开发

2022年3月17日，北京大学数字人文研究中心与字节跳动公益部门联合成立了北京大学-字节跳动开放实验室，开发识典古籍，进行中国古籍的数字化。字节跳动方面的开发人员有不少本身就对古籍就有浓厚的兴趣，有个别产品经理研究生时期修读的专业还是古典文献。^[5]

古籍的数字化分三个步骤，第一是使用电子扫描仪将古籍原本扫描成电子图片；第二是利用光学字符识别技术将图片版中的文字转化成文本，并在此基础上进行校对；第三是将文本进行整理，使其更加容易阅读。在第二步光学字符识别步骤中，由于古籍原本中使用了不少异体字、生僻字，且没有标点符号，导致在识别上存在一定困难，降低了识别的准确性。对此，开发团队决定利用了人工智能技术对古籍进行自动断句和分词，不过这样做的前提是需要有足够的古文语料去训练人工智能的算法。但遗憾的是，虽然当前利用人工智能对中文进行断句分词的技术已经很成熟，包括字节跳动在内的不少大公司都有充足的数据去支撑分词模型的构建，但是这仅限于现代标准汉语，也就是白话文。至于古文也就是文言文的语料数据，尤其是人工监督语料，包括字节跳动在内的所有平台几乎都非常欠缺。最终

^ 王梓. 构建全媒体时代中国叙事体系的文化新表达——以“古籍破圈”现象为例. 记者摇篮. 2023, (03): 54-56. ISSN 2096-3858.
^ 张贺. 数字化，激活古籍生命力. 人民日报. 2023-10-03.
^ ^3.0 ^3.1 高丹. 古籍数字化平台“识典古籍”推出：三年将上线万种儒释道经典. 澎湃新闻. 2022-10-12.
^ 识典古籍阅读与整理平台. 北京大学数字人文研究中心.
^ 天将降大任于是人还是斯人？“识典古籍”里有参考答案. 中国网. 2022-11-02.

[1] 王梓. 构建全媒体时代中国叙事体系的文化新表达——以“古籍破圈”现象为例. 记者摇篮. 2023, (03): 54-56. ISSN 2096-3858.

[2] 张贺. 数字化，激活古籍生命力. 人民日报. 2023-10-03.

[高丹-3] 3.0 ^3.1 高丹. 古籍数字化平台“识典古籍”推出：三年将上线万种儒释道经典. 澎湃新闻. 2022-10-12.

[4] 识典古籍阅读与整理平台. 北京大学数字人文研究中心.

[中国网-5] 天将降大任于是人还是斯人？“识典古籍”里有参考答案. 中国网. 2022-11-02.

[1]

[2]

[3]

[4]

[5]

@@ 第1行： / 第1行： @@
 <ref>{{cite journal |author1=王梓 |title=构建全媒体时代中国叙事体系的文化新表达——以“古籍破圈”现象为例 |journal=记者摇篮 |date=2023 |issue=03 |page=54-56 |url=https://kns.cnki.net/kcms2/article/abstract?v=SDjqx_HoHguAgP48TefWCJ3MTejmfhu4mwBIA9QNR-BiVLsWXpDQaf__ACaAK8wkcNQ1J2pJurih2WUhAz0ZaPnYfyOF8wogW5LJW4OLRV9KaBD7S2b4m7Q4t-v4zp3e3g1XOJMBNc4= |issn=2096-3858}}</ref>
-<ref>{{cite web |title=天将降大任于是人还是斯人？“识典古籍”里有参考答案 |url=https://hs.china.com.cn/gd/60100.html |website=中国网 |date=2022-11-02}}</ref>
 <ref>{{cite web |author1=张贺 |title=数字化，激活古籍生命力 |url=http://ent.people.com.cn/n1/2023/1003/c1012-40088873.html |publisher=人民日报 |date=2023-10-03}}</ref>
@@ 第9行： / 第9行： @@
 == 背景 ==
-对古籍进行数字化是一项很常见的行动，目前世界上已有不少古籍数字化项目，用于收录[[版权]]过期、进入[[公有领域]]的作品，如美国的[[古腾堡计划]]创建于1971年、日本的[[青空文库]]创建于1997年、[[维基媒体基金会]]旗下的[[维基文库]]创建于2003年等等。而针对中国古籍，也有[[国学大师网]]、[[中國哲學書電子化計劃]]等平台，一些图书馆亦有对部分中国古籍进行数字化，不过或许没有完全对公众免费开放，需要订阅才能访问。
+对古籍进行数字化是一项很常见的行动，目前世界上已有不少古籍数字化项目，用于收录[[版权]]过期、进入[[公有领域]]的作品，如美国的[[古腾堡计划]]创建于1971年、日本的[[青空文库]]创建于1997年、[[维基媒体基金会]]旗下的[[维基文库]]创建于2003年等等。而针对中国古籍，也有[[国学大师网]]、[[中國哲學書電子化計劃]]等平台，一些图书馆以及研究部门亦有对部分中国古籍进行数字化，不过或许没有完全对公众免费开放。
-据统计，中国现存约20万种中国古籍，合计约5000万册，其中有数字化扫描的约8万种，有文本数字化的只有约4万种，此外还有约1000万册古籍亟需修复。中国一直在陆续进行中国古籍的修复、整理、保存与出版工作，其中就包括对中国古籍进行数字化，让古籍文本不依赖于纸质介质，更好地保存下来。<ref name="高丹" />
+据统计，中国现存约20万种中国古籍，合计约5000万册，其中有图片扫描的约8万种，有文本数字化的只有约4万种，此外还有约1000万册古籍亟需修复。将古籍扫描成图片固然可以保存和保护古籍，但仅仅是图片版本的扫描并不能进行全文检索，不便于研究、阅读和传播，因此将图片转成文本，以文本的形式实现完全数字化才能起到最大的作用。中国一直在陆续进行中国古籍的修复、整理、保存与出版工作，其中就包括对中国古籍进行数字化，让古籍文本不依赖于纸质介质，更好地保存下来，但由于参与人数少，古籍数量众多，导致进展较为缓慢，仍然有很多古籍没有实现完全数字化。<ref name="高丹" />
 作为识典古籍的开发部门之一，北京大学数字人文研究中心认为虽然目前中国内外已有一些古籍阅读平台，但是在方便大众阅读、整理质量、阅读体验等方面仍有很大的提升空间，而将古籍数字化可以更好地保护与利用古籍，向大众传播古籍知识，所以便与字节跳动公益部门联合成立了北京大学-字节跳动开放实验室，以打造内容丰富、使用便捷、免费开放的高质量古籍数字化阅读平台。<ref>{{cite web |title=识典古籍阅读与整理平台 |url=https://pkudh.org/project/shidianguji/ |website=北京大学数字人文研究中心}}</ref>
 == 开发 ==
-年3月17日，北京大学数字人文研究中心与字节跳动公益部门联合成立了北京大学-字节跳动开放实验室，开发识典古籍，进行中国古籍的数字化。古籍的数字化分三个步骤，一是使用电子扫描仪将古籍原本扫描成电子图片，二是利用[[光学字符识别]]技术将图片版中的文字转化成文本，并在此基础上进行校对，三是将文本进行整理，使其更加容易阅读。在
+年3月17日，北京大学数字人文研究中心与字节跳动公益部门联合成立了北京大学-字节跳动开放实验室，开发识典古籍，进行中国古籍的数字化。字节跳动方面的开发人员有不少本身就对古籍就有浓厚的兴趣，有个别产品经理研究生时期修读的专业还是古典文献。<ref name="中国网">{{cite web |title=天将降大任于是人还是斯人？“识典古籍”里有参考答案 |url=https://hs.china.com.cn/gd/60100.html |website=中国网 |date=2022-11-02}}</ref>
+古籍的数字化分三个步骤，第一是使用电子扫描仪将古籍原本扫描成电子图片；第二是利用[[光学字符识别]]技术将图片版中的文字转化成文本，并在此基础上进行校对；第三是将文本进行整理，使其更加容易阅读。在第二步光学字符识别步骤中，由于古籍原本中使用了不少[[异体字]]、[[生僻字]]，且没有[[标点符号]]，导致在识别上存在一定困难，降低了识别的准确性。对此，开发团队决定利用了[[人工智能]]技术对古籍进行自动[[句读|断句]]和[[文本分割|分词]]，不过这样做的前提是需要有足够的古文[[语料]]去[[机器学习|训练]]人工智能的[[算法]]。但遗憾的是，虽然当前利用人工智能对中文进行断句分词的技术已经很成熟，包括字节跳动在内的不少大公司都有充足的数据去支撑分词模型的构建，但是这仅限于[[现代标准汉语]]，也就是[[白话文]]。至于古文也就是[[文言文]]的语料数据，尤其是人工监督语料，包括字节跳动在内的所有平台几乎都非常欠缺。最终