Wikipedia:字詞轉換處理:修订间差异

维基百科,自由的百科全书
删除的内容 添加的内容
无编辑摘要
标签移动版编辑 移动版网页编辑 高级移动版编辑
調整格式、排版
(未显示2个用户的2个中间版本)
第10行: 第10行:
== 歷史 ==
== 歷史 ==


中文维基百科建立时,虽然只有用一个域名“zh.wikipedia.org”,但实际上有不少条目都写了两个版本,如-{[[法国]]和[[法國]]}-(-{国↔國}-)就曾经是两个不同的条目;繁简名称没有区别的条目(如[[日本]])也分成两个条目(日本/-{简}-,日本/-{繁}-)。这个方法的好处在于:条目内部不存在繁简问题,繁体条目使用繁体字、港台詞彙;简体条目使用简体字、大陆词汇,两者互不-{干}-擾。但这种方法却大大增加了大家的工作量,因为繁简版本之间很快地就不同步了,只能靠人工来整合繁简之间的差异。
中文维基百科建立时,虽然只有用一个域名“zh.wikipedia.org”,但实际上有不少条目都写了两个版本,如-{[[法国]]和[[法國]]}-(-{国↔國}-)就曾经是两个不同的条目;繁简名称没有区别的条目(如[[日本]])也分成两个条目(日本-{简}-,日本-{繁}-)。这个方法的好处在于:条目内部不存在繁简问题,繁体条目使用繁体字、港台詞彙;简体条目使用简体字、大陆词汇,两者互不-{干}-擾。但这种方法却大大增加了大家的工作量,因为繁简版本之间很快地就不同步了,只能靠人工来整合繁简之间的差异。


最早的中文維基每個條目都可能有繁简分立的兩個版本。如何处理繁体简体的并存,中文维基百科必须采取特殊的方法,不然就只能面临繁简分家的命运,這是中文维基百科自创建以来最为迫切的问题之一。
最早的中文維基每個條目都可能有繁简分立的兩個版本。如何处理繁体简体的并存,中文维基百科必须采取特殊的方法,不然就只能面临繁简分家的命运,這是中文维基百科自创建以来最为迫切的问题之一。


繁简体之间的对应关系,不是简单的一对一,而是复杂的多对多。而维基百科所面临的问题,已经超出了繁简之间的字体转换问题。由于[[中國|大陆]]、[[香港|港]][[澳門|澳]]、[[台湾]]、[[马来西亚]]、[[新加坡]]等地多年来資訊文化獨樹一幟,许多外国译名以及新生词语也有非常大的分歧。如台湾所说的“-{帛琉}-”,在大陆却是“-{帕劳}-”,大陆使用“-{打印机}-”;台湾用的却是“-{印表機}-”。如此案例,屡见不鲜,且大大地超出了英语维基百科上英美词语之间的分歧。
繁简体之间的对应关系,不是简单的一对一,而是复杂的多对多。而维基百科所面临的问题,已经超出了繁简之间的字体转换问题。由于[[中國|大陆]]、[[香港|港]][[澳門|澳]]、[[台湾]]、[[马来西亚]]、[[新加坡]]等地多年来資訊文化獨樹一幟,许多外国译名以及新生词语也有非常大的分歧。如台湾所说的“-{帛琉}-”,在大陆却是“-{帕劳}-”;大陆使用“-{打印机}-”,台湾用的却是“-{印表機}-”。如此案例,屡见不鲜,且大大地超出了英语维基百科上英美词语之间的分歧。


中文維基百科的繁简体地區詞问题在[[User:Zhengzhu|Zhengzhu]]、[[User:Shinjiman|Shinjiman]]和许多用户的努力下,已经得到了初步解决。取消了過去的繁简分立体系,每个条目只保留一个版本,并通过电脑程序自动转换繁简体和地區詞。即不仅仅要处理繁体字和简体字的问题,还要处理大陆和港台之间词汇分歧问题,如“-{帕劳}-”和“-{帛琉}-”也应该实现自动转换。在以前存在有繁简版本的文章现在仍然需要通过工进行合并,但目前大致已經合併完成。具体请参看[[Help:中文维基百科的繁简、地区词处理#編輯一般文章時的注意事項]]。
中文維基百科的繁简体地區詞问题在[[User:Zhengzhu|Zhengzhu]]、[[User:Shinjiman|Shinjiman]]和许多用户的努力下,已经得到了初步解决。取消了過去的繁简分立体系,每个条目只保留一个版本,并通过电脑程序自动转换繁简体和地區詞。即不仅仅要处理繁体字和简体字的问题,还要处理大陆和港台之间词汇分歧问题,如“-{帕劳}-”和“-{帛琉}-”也应该实现自动转换。在以前有繁简两版本的文章现在仍然需要手合并,但目前已經大致完成。具体请参看[[Help:中文维基百科的繁简、地区词处理#編輯一般文章時的注意事項]]。


== 基本要求 ==
== 基本要求 ==
第31行: 第31行:


原先地區詞的分歧,納入簡繁轉換全局系統處理,但其後發現這樣的做法產生不少問題:
原先地區詞的分歧,納入簡繁轉換全局系統處理,但其後發現這樣的做法產生不少問題:
#地區詞與繁/簡體並無必然關係,正如「香港繁體區」的人一樣能以繁體書寫「大陸簡體區」常用的詞彙。
#地區詞與繁簡體並無必然關係,正如「香港繁體區」的人一樣能以繁體書寫「大陸簡體區」常用的詞彙。
#維基百科的簡繁轉換系統,與其他維基姊妹計劃共用,如果簡繁轉換系統包含地區詞彙替換,可能會使其他維基的轉換不準確,例如不需要地區詞轉換的[[維基文庫]]。
#維基百科的簡繁轉換系統,與其他維基姊妹計劃共用,如果簡繁轉換系統包含地區詞彙替換,可能會使其他維基的轉換不準確,例如不需要地區詞轉換的[[維基文庫]]。
#自動轉換過程會出現一些「失誤」,例如繁體的「-{數位}-人士」,轉換成簡體的時候會變成「-{数码}-人士」,要透過其他技術解決,造成編輯上的困難。
#自動轉換過程會出現一些「失誤」,例如繁體的「-{數位}-人士」,轉換成簡體的時候會變成「-{数码}-人士」,要透過其他技術解決,造成編輯上的困難。
第45行: 第45行:
所有的簡繁轉換應當納入到全局轉換管理(zh-hans↔zh-hant)中,遇到有繁簡體的轉換出現問題,應當到[[Wikipedia:繁简体转换请求]]反映。
所有的簡繁轉換應當納入到全局轉換管理(zh-hans↔zh-hant)中,遇到有繁簡體的轉換出現問題,應當到[[Wikipedia:繁简体转换请求]]反映。


對於進入全局轉換後出錯的詞彙,可以用下方的地區詞手轉換處理方式,用{{tl|NoteTA}}或其它相關模板在出錯頁面中進行
對於進入全局轉換後出錯的詞彙,可以用下地區詞手轉換方式,用{{tl|NoteTA}}或相關模板在出錯頁面中改正


== 地區詞处理 ==
== 地區詞处理 ==

2022年10月19日 (三) 08:31的版本

字词转换
主页 讨论
转换请求
错误修复请求
地区词候选
转换介绍
字词转换处理 讨论
  繁简处理 讨论
  地区词处理 讨论
  公共转换组 讨论
帮助文档
繁简与地区词处理 讨论
  转换原理 讨论
  手工转换 讨论
  高级语法 讨论
  用字模式选择说明
相关模板
NoteTA 全文字词转换
CGroup 公共转换组列表
Lan 界面文字转换
地区用词 地区词模板
地区用词2 高级地区词模板
各地中文名 地区用词资讯框
查看 - 讨论 - 编辑 - 变动

字词转换处理即对繁简字、地区词的转换处理,本页面阐述中文维基在字词转换使用中的一些基本要求。

历史

中文维基百科创建时,虽然只有用一个域名“zh.wikipedia.org”,但实际上有不少条目都写了两个版本,如法国法國(国↔國)就曾经是两个不同的条目;繁简名称没有区别的条目(如日本)也分成两个条目(日本/简,日本/繁)。这个方法的好处在于:条目内部不存在繁简问题,繁体条目使用繁体字、港台词汇;简体条目使用简体字、大陆词汇,两者互不干扰。但这种方法却大大增加了大家的工作量,因为繁简版本之间很快地就不同步了,只能靠人工来集成繁简之间的差异。

最早的中文维基每个条目都可能有繁简分立的两个版本。如何处理繁体简体的并存,中文维基百科必须采取特殊的方法,不然就只能面临繁简分家的命运,这是中文维基百科自创建以来最为迫切的问题之一。

繁简体之间的对应关系,不是简单的一对一,而是复杂的多对多。而维基百科所面临的问题,已经超出了繁简之间的字体转换问题。由于大陆台湾马来西亚新加坡等地多年来信息文化独树一帜,许多外国译名以及新生词语也有非常大的分歧。如台湾所说的“帛琉”,在大陆却是“帕劳”;大陆使用“打印机”,台湾用的却是“印表機”。如此案例,屡见不鲜,且大大地超出了英语维基百科上英美词语之间的分歧。

中文维基百科的繁简体地区词问题在ZhengzhuShinjiman和许多用户的努力下,已经得到了初步解决。取消了过去的繁简分立体系,每个条目只保留一个版本,并通过电脑程序自动转换繁简体和地区词。即不仅仅要处理繁体字和简体字的问题,还要处理大陆和港台之间词汇分歧问题,如“帕劳”和“帛琉”也应该实现自动转换。在以前有繁简两版本的文章现在仍然需要人手合并,但目前已经大致完成。具体请参看Help:中文维基百科的繁简、地区词处理#编辑一般文章时的注意事项

基本要求

编者请不要将含有各种用字的原始码全部转换成同一种用字,尤其不要用本百科自动转换的结果。但是,我们鼓励用户在扩展简体页面或与中国大陆有关的页面时,尽量也使用简体;扩展繁体页面或与香港、台湾有关的页面时,尽量也使用繁体。注意:自动转换程序可能会输出很多错误结果

转换技术

在技术上,维基百科的字词转换共通过四个层级来实现:其一是MediaWiki内建的转换表ZhConversion.php,供各维基计划全域转换;其二是在[MediaWiki:Conversiontable]中定义的简繁和地区词转换表,供中文维基百科本地全局转换;其三是各公共转换组,供主题领域相同和相似的条目统一转换;其四是各条目内设置的手工转换,供该条目单独使用。其中,公共转换组和条目内手工转换人人均可编辑,而修改本地转换表则需要管理员权限,修改全域转换表需要向MediaWiki版本库提交代码。因此,如欲新增或修复全域及本地全局转换,一般用户需在维基百科:字词转换提出请求,交由管理员协助处理。

繁简与地区词转换分开

“繁简转换”的意义应只是字体上的转换(例如简体的“打斗”会正确转换成繁体的“打鬥”),而地区词转换旨在为中国大陆、台湾、新加坡、马来西亚、香港、澳门地区的中文用户提供贴近其语言习惯的转换模式。其中,中国大陆(zh-cn)、新加坡(zh-sg)与马来西亚(zh-my)的地区词为简体中文;台湾(zh-tw)、香港(zh-hk)与澳门(zh-mo)的地区词为繁体(正体)中文。

目前维基系统用简体转换表繁体转换表来处理繁简全局转换,用中国大陆转换表港澳转换表新马转换表台湾转换表来处理地区词全局转换。

原先地区词的分歧,纳入简繁转换全局系统处理,但其后发现这样的做法产生不少问题:

  1. 地区词与繁/简体并无必然关系,正如“香港繁体区”的人一样能以繁体书写“大陆简体区”常用的词汇。
  2. 维基百科的简繁转换系统,与其他维基姊妹项目共享,如果简繁转换系统包含地区词汇替换,可能会使其他维基的转换不准确,例如不需要地区词转换的维基文库
  3. 自动转换过程会出现一些“失误”,例如繁体的“數位人士”,转换成简体的时候会变成“数码人士”,要通过其他技术解决,造成编辑上的困难。

全局转换是最为方便快速的转换处理方式,但也较容易出现过度转换的问题,基于以上各项理由:

  • 繁简转换除了一些转换后出错的词汇外,都应当进入全局转换中,尽可能不要手动繁简转换;
  • 而地区词的转换,由于会对全局转换造成可能的失误,应尽可能地用手动转换实现,除了稳定和使用广泛的地区对应词汇,尽可能不要进入全局地区转换。

即:对手动转换,应当主要用于地区转换,对全局转换,应当主要用于繁简转换。

繁简处理

用繁体或简体创建的文章,标题必须是全部为简体或繁体字,如果标题繁简混杂,例如“中國历史”,那么系统将无法自动转换。

所有的简繁转换应当纳入到全局转换管理(zh-hans↔zh-hant)中,遇到有繁简体的转换出现问题,应当到Wikipedia:繁简体转换请求反映。

对于进入全局转换后出错的词汇,可以用以下地区词人手转换方式,用{{NoteTA}}或相关模板在出错页面中改正。

地区词处理

公共转换组

对于一些主题、领域相同和相似的条目,其中需要被转换的内容是大同小异的,可以把这些多个条目中要用到的共同转换字词单独创建一个转换组。通过在页面的模板中指定组名,实现该页应用这一公共组的地区词转换,所有应用该公共转换组的页面都可以不用单独维护,实现同步维护的目的。公共转换组的方便程度处于全局转换与全文转换之间,而过度转换程度也处于这两者之间。