「User:Dqwyy/沙盒/1」:修訂間差異

維基百科,自由的百科全書
刪去的內容 新增的內容
無編輯摘要
無編輯摘要
第1行: 第1行:
<ref>{{cite journal |author1=王梓 |title=构建全媒体时代中国叙事体系的文化新表达——以“古籍破圈”现象为例 |journal=记者摇篮 |date=2023 |issue=03 |page=54-56 |url=https://kns.cnki.net/kcms2/article/abstract?v=SDjqx_HoHguAgP48TefWCJ3MTejmfhu4mwBIA9QNR-BiVLsWXpDQaf__ACaAK8wkcNQ1J2pJurih2WUhAz0ZaPnYfyOF8wogW5LJW4OLRV9KaBD7S2b4m7Q4t-v4zp3e3g1XOJMBNc4= |issn=2096-3858}}</ref>
<ref>{{cite journal |author1=王梓 |title=构建全媒体时代中国叙事体系的文化新表达——以“古籍破圈”现象为例 |journal=记者摇篮 |date=2023 |issue=03 |page=54-56 |url=https://kns.cnki.net/kcms2/article/abstract?v=SDjqx_HoHguAgP48TefWCJ3MTejmfhu4mwBIA9QNR-BiVLsWXpDQaf__ACaAK8wkcNQ1J2pJurih2WUhAz0ZaPnYfyOF8wogW5LJW4OLRV9KaBD7S2b4m7Q4t-v4zp3e3g1XOJMBNc4= |issn=2096-3858}}</ref>



<ref>{{cite web |title=天将降大任于是人还是斯人?“识典古籍”里有参考答案 |url=https://hs.china.com.cn/gd/60100.html |website=中国网 |date=2022-11-02}}</ref>


<ref>{{cite web |author1=张贺 |title=数字化,激活古籍生命力 |url=http://ent.people.com.cn/n1/2023/1003/c1012-40088873.html |publisher=人民日报 |date=2023-10-03}}</ref>
<ref>{{cite web |author1=张贺 |title=数字化,激活古籍生命力 |url=http://ent.people.com.cn/n1/2023/1003/c1012-40088873.html |publisher=人民日报 |date=2023-10-03}}</ref>
第9行: 第9行:


== 背景 ==
== 背景 ==
对古籍进行数字化是一项很常见的行动,目前世界上已有不少古籍数字化项目,用于收录[[版权]]过期、进入[[公有领域]]的作品,如美国的[[古腾堡计划]]创建于1971年、日本的[[青空文库]]创建于1997年、[[维基媒体基金会]]旗下的[[维基文库]]创建于2003年等等。而针对中国古籍,也有[[国学大师网]]、[[中國哲學書電子化計劃]]等平台,一些图书馆亦有对部分中国古籍进行数字化,不过或许没有完全对公众免费开放,需要订阅才能访问
对古籍进行数字化是一项很常见的行动,目前世界上已有不少古籍数字化项目,用于收录[[版权]]过期、进入[[公有领域]]的作品,如美国的[[古腾堡计划]]创建于1971年、日本的[[青空文库]]创建于1997年、[[维基媒体基金会]]旗下的[[维基文库]]创建于2003年等等。而针对中国古籍,也有[[国学大师网]]、[[中國哲學書電子化計劃]]等平台,一些图书馆以及研究部门亦有对部分中国古籍进行数字化,不过或许没有完全对公众免费开放。


据统计,中国现存约20万种中国古籍,合计约5000万册,其中有数字化扫描的约8万种,有文本数字化的只有约4万种,此外还有约1000万册古籍亟需修复。中国一直在陆续进行中国古籍的修复、整理、保存与出版工作,其中就包括对中国古籍进行数字化,让古籍文本不依赖于纸质介质,更好地保存下来。<ref name="高丹" />
据统计,中国现存约20万种中国古籍,合计约5000万册,其中有图片扫描的约8万种,有文本数字化的只有约4万种,此外还有约1000万册古籍亟需修复。将古籍扫描成图片固然可以保存和保护古籍,但仅仅是图片版本的扫描并不能进行全文检索,不便于研究、阅读和传播,因此将图片转成文本,以文本的形式实现完全数字化才能起到最大的作用。中国一直在陆续进行中国古籍的修复、整理、保存与出版工作,其中就包括对中国古籍进行数字化,让古籍文本不依赖于纸质介质,更好地保存下来,但由于参与人数少,古籍数量众多,导致进展较为缓慢,仍然有很多古籍没有实现完全数字化。<ref name="高丹" />


作为识典古籍的开发部门之一,北京大学数字人文研究中心认为虽然目前中国内外已有一些古籍阅读平台,但是在方便大众阅读、整理质量、阅读体验等方面仍有很大的提升空间,而将古籍数字化可以更好地保护与利用古籍,向大众传播古籍知识,所以便与字节跳动公益部门联合成立了北京大学-字节跳动开放实验室,以打造内容丰富、使用便捷、免费开放的高质量古籍数字化阅读平台。<ref>{{cite web |title=识典古籍阅读与整理平台 |url=https://pkudh.org/project/shidianguji/ |website=北京大学数字人文研究中心}}</ref>
作为识典古籍的开发部门之一,北京大学数字人文研究中心认为虽然目前中国内外已有一些古籍阅读平台,但是在方便大众阅读、整理质量、阅读体验等方面仍有很大的提升空间,而将古籍数字化可以更好地保护与利用古籍,向大众传播古籍知识,所以便与字节跳动公益部门联合成立了北京大学-字节跳动开放实验室,以打造内容丰富、使用便捷、免费开放的高质量古籍数字化阅读平台。<ref>{{cite web |title=识典古籍阅读与整理平台 |url=https://pkudh.org/project/shidianguji/ |website=北京大学数字人文研究中心}}</ref>


== 开发 ==
== 开发 ==
2022年3月17日,北京大学数字人文研究中心与字节跳动公益部门联合成立了北京大学-字节跳动开放实验室,开发识典古籍,进行中国古籍的数字化。古籍的数字化分三步骤,一使用电子扫描仪将古籍原本扫描成电子图片,二是利用[[光学字符识别]]技术将图片版的文字转化成文本,并在此基础上进行校对,三是将文本进行整理,使其更加容易阅读。在
2022年3月17日,北京大学数字人文研究中心与字节跳动公益部门联合成立了北京大学-字节跳动开放实验室,开发识典古籍,进行中国古籍的数字化。字节跳动方面的开发人员有不少本身就对古籍就有浓厚兴趣,有别产品经理研究生时期修读的专业还古典文献。<ref name="中国网">{{cite web |title=天降大任于是人还是斯人?“识典古籍”里有参考答案 |url=https://hs.china.com.cn/gd/60100.html |website=国网 |date=2022-11-02}}</ref>

古籍的数字化分三个步骤,第一是使用电子扫描仪将古籍原本扫描成电子图片;第二是利用[[光学字符识别]]技术将图片版中的文字转化成文本,并在此基础上进行校对;第三是将文本进行整理,使其更加容易阅读。在第二步光学字符识别步骤中,由于古籍原本中使用了不少[[异体字]]、[[生僻字]],且没有[[标点符号]],导致在识别上存在一定困难,降低了识别的准确性。对此,开发团队决定利用了[[人工智能]]技术对古籍进行自动[[句读|断句]]和[[文本分割|分词]],不过这样做的前提是需要有足够的古文[[语料]]去[[机器学习|训练]]人工智能的[[算法]]。但遗憾的是,虽然当前利用人工智能对中文进行断句分词的技术已经很成熟,包括字节跳动在内的不少大公司都有充足的数据去支撑分词模型的构建,但是这仅限于[[现代标准汉语]],也就是[[白话文]]。至于古文也就是[[文言文]]的语料数据,尤其是人工监督语料,包括字节跳动在内的所有平台几乎都非常欠缺。最终

於 2023年12月9日 (六) 13:25 的修訂

[1]


[2]


識典古籍北京大學-字節跳動數字人文開放實驗室所開發和運營的一個中國古籍數位化平台,於2022年10月11日上線[3]。平台目前收錄了1887部中國古籍,按內容主題分為經部、史部、子部、集部道教部和佛教部六個類別,提供免費閱讀和全文檢索等功能。

背景

對古籍進行數位化是一項很常見的行動,目前世界上已有不少古籍數位化項目,用於收錄版權過期、進入公有領域的作品,如美國的古騰堡計劃創建於1971年、日本的青空文庫創建於1997年、維基媒體基金會旗下的維基文庫創建於2003年等等。而針對中國古籍,也有國學大師網中國哲學書電子化計劃等平台,一些圖書館以及研究部門亦有對部分中國古籍進行數位化,不過或許沒有完全對公眾免費開放。

據統計,中國現存約20萬種中國古籍,合計約5000萬冊,其中有圖片掃描的約8萬種,有文本數位化的只有約4萬種,此外還有約1000萬冊古籍亟需修復。將古籍掃描成圖片固然可以保存和保護古籍,但僅僅是圖片版本的掃描並不能進行全文檢索,不便於研究、閱讀和傳播,因此將圖片轉成文本,以文本的形式實現完全數位化才能起到最大的作用。中國一直在陸續進行中國古籍的修復、整理、保存與出版工作,其中就包括對中國古籍進行數位化,讓古籍文本不依賴於紙質介質,更好地保存下來,但由於參與人數少,古籍數量眾多,導致進展較為緩慢,仍然有很多古籍沒有實現完全數位化。[3]

作為識典古籍的開發部門之一,北京大學數字人文研究中心認為雖然目前中國內外已有一些古籍閱讀平台,但是在方便大眾閱讀、整理質量、閱讀體驗等方面仍有很大的提升空間,而將古籍數位化可以更好地保護與利用古籍,向大眾傳播古籍知識,所以便與字節跳動公益部門聯合成立了北京大學-字節跳動開放實驗室,以打造內容豐富、使用便捷、免費開放的高質量古籍數位化閱讀平台。[4]

開發

2022年3月17日,北京大學數字人文研究中心與字節跳動公益部門聯合成立了北京大學-字節跳動開放實驗室,開發識典古籍,進行中國古籍的數位化。字節跳動方面的開發人員有不少本身就對古籍就有濃厚的興趣,有個別產品經理研究生時期修讀的專業還是古典文獻。[5]

古籍的數位化分三個步驟,第一是使用電子掃描儀將古籍原本掃描成電子圖片;第二是利用光學字符識別技術將圖片版中的文字轉化成文本,並在此基礎上進行校對;第三是將文本進行整理,使其更加容易閱讀。在第二步光學字符識別步驟中,由於古籍原本中使用了不少異體字生僻字,且沒有標點符號,導致在識別上存在一定困難,降低了識別的準確性。對此,開發團隊決定利用了人工智慧技術對古籍進行自動斷句分詞,不過這樣做的前提是需要有足夠的古文語料訓練人工智慧的算法。但遺憾的是,雖然當前利用人工智慧對中文進行斷句分詞的技術已經很成熟,包括字節跳動在內的不少大公司都有充足的數據去支撐分詞模型的構建,但是這僅限於現代標準漢語,也就是白話文。至於古文也就是文言文的語料數據,尤其是人工監督語料,包括字節跳動在內的所有平台幾乎都非常欠缺。最終

  1. ^ 王梓. 构建全媒体时代中国叙事体系的文化新表达——以“古籍破圈”现象为例. 記者搖籃. 2023, (03): 54-56. ISSN 2096-3858. 
  2. ^ 張賀. 数字化,激活古籍生命力. 人民日報. 2023-10-03. 
  3. ^ 3.0 3.1 高丹. 古籍数字化平台“识典古籍”推出:三年将上线万种儒释道经典. 澎湃新聞. 2022-10-12. 
  4. ^ 识典古籍阅读与整理平台. 北京大學數字人文研究中心. 
  5. ^ 天将降大任于是人还是斯人?“识典古籍”里有参考答案. 中國網. 2022-11-02.