众所周知,网络上的古籍文本缺字与乱码的情况很普遍,很多参与校对的朋友,都有补过缺字。出现缺字与乱码的原因是原制作者对于一些系统字库所没有的字使用了自带的造字库。(参见:
http://bbs.guoxue123.com/thread-566-1-1.html)这些字只能在作者的电脑中可见,在其他人的电脑中就成了一大堆的乱码或是缺字,严重妨碍了文本的可读性。所幸的是,网络上的简体文本大多来自国学宝典;繁体的文本也大多来源于“中华文化网”“中研院”等,而且在文本的复制过程中这些“缺字”的编码并没有消失(在WORD中,用“ALT+X”就可以查到。来源于同一个地方的文本,其所用的造字的码应该是相同的。例如本站制作的“乱码字符对照表”对于来源于“国学宝典”的文本是可以大体上一一对应的。乱码的字符如此,缺字的字符应该也是一样的,虽然看上去它们与空白字符是一样的。如果在找缺字的过程中将文本中的缺字与其相应的汉字对应关系找出,再用批量文本替换工具,就能将同一来源的文本中的缺字都补上,可以省去了很多麻烦。这些只是理论上的推测,对于单个文本的替换,本人已在“金瓶梅词话”与“文献通考”中应用了,没有发现问题。对于多个文本可能还存在很多问题,最困难的就是要将古籍文本中的缺字都找到相对应的汉字。
欢迎大家参与测试。以下列出一些本人在补“文献通考”时遇到的一些缺字,这个文本大概是来源于“国学宝典”。
缺字对照表(前面有“■”的为偏旁)
缺字
| 对应编码
| 对应字符
| 对应编码
|
| E14A
| 间
| 95F4
|
|
|
|
|
| E224
| 覈
| 8988
|
|
|
|
|
| E39D
| 昉
| 6609
|
|
|
|
|
| E438
| 榖
| 6996
|
|
|
|
|
| E7A1
| 適
| 9069
|
|
|
|
|
| E80B
| 扞
| 625E
|
|
|
|
|
| E188
| 駁
| 99C1
|
|
|
|
|
| E20D
| 禘
| 7998
|
|
|
|
|
| E20E
| 祫
| 796B
|
|
|
|
|
| E213
| 禖
| 7996
|
|
|
|
|
| E26D
| 掯
| 63AF
|
|
|
|
|
| E266
| 閈
| 9588
|
|
|
|
|
| E270
| 搢
| 6422
|
|
|
|
|
| E3AB
| ■木
|
|
|
|
|
|
| E452
| 牴
| 7274
|
|
|
|
|
| E42E
| 祇
| 7947
|
|
|
|
|
| E3D7
| 祐
| 7950
|
|
|
|
|
| E3A4
| 槃
| 69C3
|
|
|
|
|
| E3DF
| 〈木豕〉
|
|
|
|
|
|
| E76D
| 髪
| 9AEA
|
|
|
|
|
| E146
| 鄘
| 9118
|
|
|
|
|
| E3E3
| 旻
| 65FB
|
|
|
|
|
€
| E76C
| 雲
| 96F2
|
|
|
|
|
| E3E4
| 暘
| 6698
|
|
|
|
|
| E462
| 沴
| 6CB4
|
|
|
|
|
| E359
| 冞
| 519E
|
|
|
|
|
| E157
| 却
| 5374
|
|
|
|
|
| E437
| 厓
| 5393
|
|
|
|
|
| E3F8
| 籙
| 7C59
|
|
|
|
|
| E16B
| 劄
| 5284
|
|
|
|
|
| E4C3
| ■田
|
|
|
|
|
|
| E42A
| 棊
| 68CA
|
|
|
|
|
| E7AE
| 錡
| 9321
|
|
|
|
|
| E14E
| 瓜
| 74DC
|
|
|
|
|
| E305
| 畯
| 756F
|
|
|
|
|
| E1E8
| 筥
| 7B65
|
|
|
|
|
| E402
| ■禾
|
|
|
|
|
|
| E1A6
| 稯(去禾)
|
|
|
|
|
|
| E402E1A6
| 稯
|
|
|
|
|
|
| E203
| 扜
| 625C
|
|
|
|
|
| E79A
| 剗
| 5257
|
|
|
|
|
| E139
| 謷
| 8B37
|
|
|
|
|
| E0B6
| 廼
| 5EFC
|
|
|
|
|
| E224
| 覈
| 8988
|
|
|
|
|
| E153
| 伋
| 4F0B
|
|
|
|
|
| E441
| 寔
| 5BD4
|
|
|
|
|
| E407
| 熯
| 71AF
|
|
|
|
|
| E1D7
| 皝
| 769D
|
|
|
|
|
| E406
| ■口
|
|
|
|
|
|
| E491
| 甿
| 753F
|
|
|
|
|
| E4C5
| 拖(去“扌”)
|
|
|
|
|
|
纟
| 纟E4C5
| 絁
| 7D41
|
■