维基百科:字词转换/修复请求

字词转换
主页 讨论
转换请求
错误修复请求
地区词候选
转换介绍
字词转换处理 讨论
  繁简处理 讨论
  地区词处理 讨论
  公共转换组 讨论
帮助文档
繁简与地区词处理 讨论
  转换原理 讨论
  手工转换 讨论
  高级语法 讨论
  用字模式选择说明
相关模板
NoteTA 全文字词转换
CGroup 公共转换组列表
Lan 界面文字转换
地区用词 地区词模板
地区用词2 进阶地区词模板
各地中文名 地区用词信息框
查看 - 讨论 - 编辑 - 变动

本页面为维基百科:字词转换下属子页面,用于处理各维基计划全域转换和中文维基百科本地全局转换中的所有繁简地区词错误转换修复的请求。

返回字词转换主页 提交错误转换修复新请求

转换与修复原理

编辑

由于简体中文、繁体中文之间存在一对多现象,即以单一简化字或繁体字来对应多个繁体字或简化字[1][2],因此必须有额外的数据来补足原先丢失的信息。例如,繁体中的“髮”或“發”,在简体下都是“发”。在程序里,我们有一个默认的对应,比如说“發”。那么一般情况下要从简体转换成繁体时,程序遇到“发”就会先将其转换成“發”。那么什么时候对应成“髮”呢?这就要看词库而定。比如词库中有“头发=>頭髮”的关系,这样“头发”就会被转换成“頭髮”。如果没有这一关联,那“头发”就会被错误地转换成“頭發”。

那词库是如何创建的呢?我们先有每个字的默认对应,比如“发”转换成“發”。然后我们在一个现有的繁体词库中寻找包含繁体“發”的词,再转换成简体。这样得到一个从简体到繁体的词汇对应关系。所以,我们先要确定一个多对应字的默认对应关系。同样,修复过度转换也是由上述的方法来处理。

外部链接

编辑

错误转换修复请求

编辑