古籍数字化的历程和数码文献学的成立(二)
香港古籍数字化启动于上世纪80年代末,其中最主要的是香港中文大学中国文化研究所“汉达古文献数据库中心”于1988年开始研发的《汉达古籍资料库》,根据该中心网站(
http://www.chant.org/),其全文数据库系列包括:
《甲骨文全文计算机化数据库》,收录当今海内外七种主要大型甲骨书籍,共计卜辞53834片,约近100万字甲骨卜辞,建立以甲骨文字形为系统的,并具有多项类目功能检索的甲骨文数据库,可以通过甲骨单字、关联字符串以及句式进行检索。检索时,同时显示甲骨文字原字形及隶定释文,方便读者参照;设有收录所有甲骨文字之字形总表,每字下附有释文、隶定字、《类纂》编号,并增补相当数量前人未收录的甲骨文字及其片号;提供甲骨文字出现字数频率数据,以便专业学者研究分析。
《竹简帛书出土文献计算机化数据库》,收录十二种竹简帛书出土文献,共约140万字,可以单字、字符串及句式检索文献,检索结果可直接打印或存档,以便重复查阅。检索时,同时显示简帛图片和对照释文;选择特定的图片部分时,系统会自动将相关释文对应显示。
《金文全文计算机化数据库》,收录中国社会科学院考古所编《殷周金文集成释文》(2001年10月版),总计收录12021铜器,约1万8千张拓本(包括摹本),约近100万字器物数据说明,另14万字隶定释文。金文字总表检索分设汉字部首和原形部首检索两种检索方法;释文设有断句,并分A、B两种形式显示。A释文专用隶定古文字,俾便读者了解铭文原貌;B释文以隶定古字顺序显示,俾便读者理解铭文内容。检索时,金文原形字和释文对应显示;设有金文每件铜器如时代、出土、现藏、著录等数据说明和注释;设有所有金文器铭字数频率数据。
《先秦两汉一切传世文献计算机化数据库》,约900万字。《魏晋南北朝一切传世文献计算机化数据库》,约2500万字。以笔者使用过的先秦两汉库为例,不但据善本全文录入元典,校对精审,而且包括相关注疏笺校,光标指向相关字词时,就自动显现注疏笺校,便于阅读、使用。
《中国传统类书数据库》,自魏晋六朝起,下迄明清,收录所有主要类书文献,诸如《群书治要》、《太平御览》、《册府元龟》、《永乐大典》等皆在收录之列,务求巨细无遗。预计数据库总字数将超过6000万字。
上述系列数据库主要以光盘的形式销售流通,在网站上注册申请后提供30天免费检索,但内容不到全库的十分之一。大陆用户如果订阅全库,个人年费1400元,机构年费3400元。
另外,以迪志公司为代表的香港商业机构,以强大的资金和技术优势,介入古籍数字化领域,与大陆学术界、出版界和商界联手,开辟了古籍数字化的新天地。
香港的古籍数字化,其特点是:
一、起点高,质量好。一开始就以数据库为主要研发方向,注重图像文本关联对照,在字处理、系统功能整合等方面都取得了突破性的进展。
二、商业意识强。迪志公司开发的《四库全书》、《四部丛刊》不但质量为人称道,技术有所创新,校对比较可靠,而且在商业上也相当成功。汉达中心虽然获得港府和民间学术基金的充足资金支持,但仍然把研发成果商品化,这一点,从其网站的收费订阅和低程度免费共享,即可见一斑。当然,我本人对此肯定持强烈的质疑态度,因为得到政府公款支持的研发工作,应该用于公益,供人共享,在我看来,这是不能变通的原则。