Google
      
发新话题
打印

古籍文本批量替换缺字可能性探讨,欢迎大家讨论。

本主题由 背树谖草 于 2008-7-8 10:52 设置高亮

古籍文本批量替换缺字可能性探讨,欢迎大家讨论。

众所周知,网络上的古籍文本缺字与乱码的情况很普遍,很多参与校对的朋友,都有补过缺字。出现缺字与乱码的原因是原制作者对于一些系统字库所没有的字使用了自带的造字库。(参见:http://bbs.guoxue123.com/thread-566-1-1.html)这些字只能在作者的电脑中可见,在其他人的电脑中就成了一大堆的乱码或是缺字,严重妨碍了文本的可读性。所幸的是,网络上的简体文本大多来自国学宝典;繁体的文本也大多来源于“中华文化网”“中研院”等,而且在文本的复制过程中这些“缺字”的编码并没有消失(在WORD中,用“ALT+X”就可以查到。来源于同一个地方的文本,其所用的造字的码应该是相同的。例如本站制作的“乱码字符对照表”对于来源于“国学宝典”的文本是可以大体上一一对应的。乱码的字符如此,缺字的字符应该也是一样的,虽然看上去它们与空白字符是一样的。如果在找缺字的过程中将文本中的缺字与其相应的汉字对应关系找出,再用批量文本替换工具,就能将同一来源的文本中的缺字都补上,可以省去了很多麻烦。这些只是理论上的推测,对于单个文本的替换,本人已在“金瓶梅词话”与“文献通考”中应用了,没有发现问题。对于多个文本可能还存在很多问题,最困难的就是要将古籍文本中的缺字都找到相对应的汉字。

欢迎大家参与测试。以下列出一些本人在补“文献通考”时遇到的一些缺字,这个文本大概是来源于“国学宝典”。

缺字对照表(前面有“■”的为偏旁)

缺字
对应编码
对应字符
对应编码

E14A

95F4





E224

8988





E39D

6609





E438

6996





E7A1

9069





E80B

625E





E188

99C1





E20D

7998





E20E

796B





E213

7996





E26D

63AF





E266

9588





E270

6422





E3AB







E452

7274





E42E

7947





E3D7

7950





E3A4

69C3





E3DF
〈木豕〉






E76D

9AEA





E146

9118





E3E3

65FB





E76C

96F2





E3E4

6698





E462

6CB4





E359

519E





E157

5374





E437

5393





E3F8

7C59





E16B

5284





E4C3







E42A

68CA





E7AE

9321





E14E

74DC





E305

756F





E1E8

7B65





E402







E1A6
稯(去禾)






E402E1A6







E203

625C





E79A

5257





E139

8B37





E0B6

5EFC





E224

8988





E153

4F0B





E441

5BD4





E407

71AF





E1D7

769D





E406
■口






E491

753F





E4C5
拖(去“扌”)





纟
纟E4C5

7D41

国学导航-中国国学经典在线阅读
http://www.guoxue123.com/

TOP

发新话题