Google
      
发新话题
打印

古籍数字化的历程和数码文献学的成立(如舸斋)

本主题由 背树谖草 于 2008-4-10 09:19 置顶

古籍数字化的历程和数码文献学的成立(如舸斋)

古籍数字化的历程和数码文献学的成立

作者:如舸斋

来源:数码文献学博客


古籍数字化的历程和数码文献学的成立(一)


  古籍数字化(古籍数码化)是数码文献学的内容基础。只有当古籍数字化已经达到一定的水平和相当的数量,同时,在数码文献学的技术基础(电脑汉字处理和检索技术,图像扫描压缩和图像—汉字转换技术等)也达到相应的水平之时,数码文献学才有条件得以成立。


  为此,让我们简短回顾一下中国古籍数字化的历程。


  古籍数字化是从电脑技术比较发达的西方开始的。1978年,美国的P. J. Ivanhoe等人运用计算机编制了OCLC(联机数据库)《朱熹大学章句索引》、《朱熹中庸章句索引》、《王阳明大学问索引》、《王阳明传习录索引》和《戴震孟子字义疏证索引》等,这是中国古籍数字化的开端,也是中国数码文献学的开端。此前,1975年,当时在联邦德国汉堡大学任职的吴用彤编制出版了用电脑编制的英译本《诗经索引》,这是首次运用电脑编制关于中国古籍的索引,但它并非对汉字的中国古籍的电脑处理,而且其成果是用纸质媒介而非数码媒介,所以只能算是有渊源关系,却非真正的起源。30年来,美国、欧洲、日本和韩国等地的汉学家以及华裔华人中的古代文化爱好者,一直都有人在进行古籍数字化的工作,但规模不大,有机会时我们再专文介绍。


  国内的古籍数字化工作,现有记载最早的是80年代初彭昆仑先生开发的“《红楼梦》检索系统”,该系统据称1983年11月初步建成,1987年宣布,但似乎仅在开发者手中,并未流传到社会。真正成规模的古籍数字化建设,起步较早的是台湾地区。从1984年7月起开始“数位典藏”计划,1993年起陆续上网。台湾“中研院”历史语言研究所先后开发了汉籍电子文献全文数据库(“瀚典”网站):

   http://www.sinica.edu.tw/ftms-bin/ftmsw3


  文物图象研究室资料库检索系统(简帛金石资料库检索系统):

   http://saturn.ihp.sinica.edu.tw/~wenwu/search.htm


   史语所藏内阁大库档案,多数为内部使用:

   http://archive.ihp.sinica.edu.tw/mct/index.htm

  其中“人名权威资料查询系统”(以清人为主,兼及少量明人,共一万余笔)对外开放:


   http://archive.ihp.sinica.edu.tw/ttscgi/v2/ttsweb?@0:0:1:mctauac@@0.30188007972440467


   这个查询系统的智能化程度很高我特别喜欢。例如,我们在“人名权威资料查询”网页,键入要查询的人名“纪昀”(用繁体字)后,点击“执行检索”,就显示出纪昀的姓名字号、生卒年、籍贯、相关人物传记资料索引中的结果、史料引文、专长、出身、历任职衔、任期及史籍出处,最后是著述和关连(亲属、师生等)。特别是职衔、任期及出处这一栏,按年份排列,俨然一部简略年谱,最具智能化的特征,这说明他们事先在文本素材中已经作了大量的学术标记,跟一般的全文自动通检或者模糊通检不可同日而语。从某种角度说,这代表了今后数码文献数据库和数码文献网站的努力方向。

  宋元明清数据库(可查“历代名人奏疏”,现已不通——大陆地区现已不通,台湾和其他地方是否可通,未知。下同):

   http://www.ihp.sinica.edu.tw/database/index.htm


  台湾大学开发了中华电子佛典线上藏经阁大正藏全文检索系统:

   http://www.cbeta.org/result/search.htm


  元智大学则有“网络展书读”中华典籍数据库,现已不通:

   http://cls.hs.yzu.edu.tw/


   台北故宫博物院有古典文献全文检索数据库(寒泉网站),现均已不通:

     http://libnt.npm.gov.tw/s25/index.htm,又

     http://140.122.127.253/dragon

  罗凤珠先生个人开发了《红楼梦》网络教学研究数据中心《全唐诗》《全宋词》《宋代名家诗》网络版等,这个网站可能是最早搬上互联网的古籍数字化成果,可惜现已不通:

  http://cls.admin.yzu.edu.tw/


  此外,有未知主办者的“中华文化网”,很可能是网友利用“瀚典”、“寒泉”、“网路展书读”等的成果构建的,但8个栏目中只通诸子百家、历史传记、文学艺术3个栏目,倒是颇便浏览,只是速度不快:

http://ef.cdpa.nsysu.edu.tw/ccw/


  还有一些在线数据库,如《古今图书集成》、《台湾文献丛刊》等,《丛刊》能在“瀚典”中检索,但其能够同时对勘图版的主站现已不通;《集成》见:

   http://192.192.13.178/bookc/ttsweb?@0:0:1:book1@@0.6067305296151295


   粗粗列举一些网站为例。其中部分网站,我们有机会时再细细介绍其特色和优缺点。总的说来,台湾地区的古籍数字化有如下四个特点


   一,文献选择有目的性、有计划性。所取典籍一为外界较罕见的文献,如简帛金石文献,大内档案资料等;二为中国传统文化中有代表性的著作,三为有关台湾的重要文献。很多都是大部头的,成系列的。


  二,注重选择底本版本,校勘较为精审。“数位典藏”计划有很多高水平的学者参与其事,尤其是其最高研究机构“中研院”为主,故做事认真,带有强烈的学者整理文献的风格。所取底本多数有所交代,有些文献如二十五史不但经四五个校次,而且参校过不同的版本。


  三,第一期“数位典藏”经费充足,故以学术的态度而非商业的方式做事情,事后也不以这些成果来化公帑为私财,很多成果供公众共享(尽管不是全部,有些是只提供给研究机构内部使用)。但似乎经费用完以后就不再继续干活,很多网站上的内容近十年来未曾增加,很多网站都已不通(也许只是大陆接不通,待考)。


   四,大五码字库以外的字,采用自造字,使用者需要下载安装其“中研院”自造字库,不利于文本的广泛流传。
国学导航-中国国学经典在线阅读
http://www.guoxue123.com/

TOP

古籍数字化的历程和数码文献学的成立(二)

  香港古籍数字化启动于上世纪80年代末,其中最主要的是香港中文大学中国文化研究所“汉达古文献数据库中心”于1988年开始研发的《汉达古籍资料库》,根据该中心网站(http://www.chant.org/),其全文数据库系列包括:


  《甲骨文全文计算机化数据库》,收录当今海内外七种主要大型甲骨书籍,共计卜辞53834片,约近100万字甲骨卜辞,建立以甲骨文字形为系统的,并具有多项类目功能检索的甲骨文数据库,可以通过甲骨单字、关联字符串以及句式进行检索。检索时,同时显示甲骨文字原字形及隶定释文,方便读者参照;设有收录所有甲骨文字之字形总表,每字下附有释文、隶定字、《类纂》编号,并增补相当数量前人未收录的甲骨文字及其片号;提供甲骨文字出现字数频率数据,以便专业学者研究分析。


  《竹简帛书出土文献计算机化数据库》,收录十二种竹简帛书出土文献,共约140万字,可以单字、字符串及句式检索文献,检索结果可直接打印或存档,以便重复查阅。检索时,同时显示简帛图片和对照释文;选择特定的图片部分时,系统会自动将相关释文对应显示。


  《金文全文计算机化数据库》,收录中国社会科学院考古所编《殷周金文集成释文》(2001年10月版),总计收录12021铜器,约1万8千张拓本(包括摹本),约近100万字器物数据说明,另14万字隶定释文。金文字总表检索分设汉字部首和原形部首检索两种检索方法;释文设有断句,并分A、B两种形式显示。A释文专用隶定古文字,俾便读者了解铭文原貌;B释文以隶定古字顺序显示,俾便读者理解铭文内容。检索时,金文原形字和释文对应显示;设有金文每件铜器如时代、出土、现藏、著录等数据说明和注释;设有所有金文器铭字数频率数据。


  《先秦两汉一切传世文献计算机化数据库》,约900万字。《魏晋南北朝一切传世文献计算机化数据库》,约2500万字。以笔者使用过的先秦两汉库为例,不但据善本全文录入元典,校对精审,而且包括相关注疏笺校,光标指向相关字词时,就自动显现注疏笺校,便于阅读、使用。


  《中国传统类书数据库》,自魏晋六朝起,下迄明清,收录所有主要类书文献,诸如《群书治要》、《太平御览》、《册府元龟》、《永乐大典》等皆在收录之列,务求巨细无遗。预计数据库总字数将超过6000万字。


   上述系列数据库主要以光盘的形式销售流通,在网站上注册申请后提供30天免费检索,但内容不到全库的十分之一。大陆用户如果订阅全库,个人年费1400元,机构年费3400元。

   另外,以迪志公司为代表的香港商业机构,以强大的资金和技术优势,介入古籍数字化领域,与大陆学术界、出版界和商界联手,开辟了古籍数字化的新天地。


   香港的古籍数字化,其特点是:


   一、起点高,质量好。一开始就以数据库为主要研发方向,注重图像文本关联对照,在字处理、系统功能整合等方面都取得了突破性的进展。


  二、商业意识强。迪志公司开发的《四库全书》、《四部丛刊》不但质量为人称道,技术有所创新,校对比较可靠,而且在商业上也相当成功。汉达中心虽然获得港府和民间学术基金的充足资金支持,但仍然把研发成果商品化,这一点,从其网站的收费订阅和低程度免费共享,即可见一斑。当然,我本人对此肯定持强烈的质疑态度,因为得到政府公款支持的研发工作,应该用于公益,供人共享,在我看来,这是不能变通的原则。
国学导航-中国国学经典在线阅读
http://www.guoxue123.com/

TOP

古籍数字化的历程和数码文献学的成立(三)



  从20世纪80年代初开始,大陆的部分有识之士就已经倡导和尝试古籍数字化,如我们曾经提到钱锺书先生在社科院建立了计算机中心,又如1984年8月20日第127 期《古籍整理出版情况简报》刊登了《微电脑与古文献研究》,提出了关于古籍数字化和信息资源共享的设想,并且预言:“使用微型机对这些古籍进行版本研究、文句校勘、文字订正、字义诠释、篇章会注、作品编年、古语今译,乃至标点、分段等等都将成为现实。”但从实践的层面来看,却影响不大,成果不多;即使有成果的,也是采取封闭的而不是开放和共享的态度,比如河南大学据说1986年就已着手建设宋人笔记检索系统、南宋主要历史文献全文数据库,但只是在机构内部试用,至今都几乎看不到这个东西。


   90年代以后,一些省市大型图书馆推进古籍书目数字化建设,取得了较为显著的成效,但多数仅限于书目,而且相互分隔。这些东西曾经在网上可以看到一些,但一阵风以后,现在大部分网站早已瘫痪。


   与此相对照,当时的古籍数字化主力是遍布全球的华人网民和民间的中文读书网站,最主要的内容是正史、儒家基本经典、唐宋诗词和古代小说,基本上是由人工录入的,但当时GB字库只有数千字,很多字就用偏旁拼,或者干脆空着。记得1996年左右,看到新语丝上方舟子在召募志愿者录入《全唐诗》,陡然眼眶一热,深受感动。民间的读书网站,著名的有“黄金书屋”、“亦凡公益图书馆”(http://www.shuku.net/dblx/html/0/8-2-0.html)等,曾经给很多网民带来太多的惊喜。今天,“黄金书屋”的网站已经上不去了;而“亦凡”的古籍图书也仍然以六七年前的东西为主,很少新增和更新了。


   香港迪志文化出版有限公司从1996年起与北京书同文数字化技术有限公司联合开发《文渊阁四库全书》,1999年与上海人民出版社联合出版电子版,是古籍数字化和数码文献学的标志性进展,被誉为大型中文电子出版工程的典范。后来开发的《四部丛刊》、《古今图书集成》等,都是沿用它的模式,可以说为基于图像的可检索文本古籍数据库建立了技术标准。我们把香港迪志公司的古籍数字化开发工作放在大陆部分来讲,是因为包括迪志在内的香港公司,其开发模式一直以与大陆学者和相关公司合作为主,其市场推广和营销也一直以大陆为主战场。


  超星公司(1994年)的超星数字图书馆(http://www.ssreader.com)、中国期刊网(1998年,今中国知网http://www.cnki.net)和北京国学时代文化传播有限公司(2002年)的《国学宝典》(2000年)及其国学网(http://www.guoxue.com极大地普及了古籍数字化和学术资源数字化。《国学宝典》是由尹小林博士开发的纯文本古籍文库,最初的版本是在DOS平台上的,采用GB码简体,GB码以外的字则用自带造字库。从技术的层面来讲,相对简单一些。所以,《国学宝典》1.0版很快被解密,通过不同的途径广泛传播开来,里面的内容被大量地搬上网络,至今我们还能到处见到夹杂着很多奇怪的希腊字母和各种符号,又坑坑洼洼地布满了缺字的古籍文本,这些都是从《国学宝典》里面挖出来的。从某种角度讲,正因为尹博士在计算机技术方面不是个高手,才使得网络上骤然多出了一大堆古籍文本,才促成了网络古籍数字化的第一个高潮。这虽然使尹博士和后来成立的国学公司损失了大量的银子,却是尹博士为普及中国古籍数字化的事业做出的最大贡献,这也算是“无心插柳柳成荫”的佳话吧。超星、期刊网则是改变了很多人使用图书馆的习惯,使得很多人养成了到网络上检索古籍的习惯。而成千上万人的这种习惯,正是推动中国古籍数字化和学术资源数字化的最重要的动力。


   高校的介入,使古籍数字化走上了专业化、精致化的道路,实现了古籍学者和IT行业的良性互动。如北京大学刘俊文教授主持的“中国基本古籍库” 光盘工程,1998年启动,全套光盘500 张,收入先秦至民国的重要典籍近2万种,并提供多重检索功能,每种典籍有一个通行版本的全文信息,另附一两个珍贵版本的图像数据,总计全文约20亿字,图像约2000万页。这是目前最大的古籍数据库,已经成为稍具规模的高等学校和研究机构图书馆的必备数据库。李铎博士的《全宋诗分析系统》(http://chinese.pku.edu.cn/songPoem/)、《全唐诗分析系统》(http://chinese.pku.edu.cn/tangPoem/),南师大的《全唐五代词》、《全宋词》和《全金元词》三大词总集(http://202.119.104.80/Ci_ku/ci_web/title2.htm)等,也都有独得之秘。


  1993年开始倡议,最终于2002年11月11日上网的国际敦煌项目网站(http://idp.nlc.gov.cn/idp.a4d),标志着中国古籍数字化走上了全球合作的道路。但此网站的开放性不够,没能产生广泛的影响。中国教育科技数字图书馆(China Education and Research Digital Library),又称“中美百万册书数字图书馆”,简称“Cadal”,2000年启动,2004年12月开始试运行,建设包含100万册(中、美各50万册)图书的数字图书馆(中文:
http://www.cadal.zju.edu.cn/Index.action,目前只开放古籍和民国期刊;英文:http://www.dcd.zju.edu.cn/ULIB2/),则可以说是中国古籍数字化全球合作的真正实质性的开端。


  大陆的古籍数字化建设依靠丰富的文献资源、人才优势和巨大的市场后来居上,开发的重点也由早期的书目数据库的建设转向全文数据库,整合全球IT技术和古籍学术资源,逐渐成为当前古籍数字化的主力。但大陆的古籍数字化有两大主要缺点:一是低水平重复开发的现象非常突出,如二十四史的开发就有五六家之多,但又没有一家做出有品牌影响力的精品善本。二是商业开发和社会公益资源混淆不清,像Cadal那样向全民开放共享的事例,尚不多见。
国学导航-中国国学经典在线阅读
http://www.guoxue123.com/

TOP

   http://archive.ihp.sinica.edu.tw ... 0.30188007972440467


   这个查询系统的智能化程度很高,我特别喜欢。例如,我们在“人名权威资料查询”网页,键入要查询的人名“纪昀”(用繁体字)后,点击“执行检索”,就显示出纪昀的姓名字号、生卒年、籍贯、相关人物传记资料索引中的结果、史料引文、专长、出身、历任职衔、任期及史籍出处,最后是著述和关连(亲属、师生等)。特别是职衔、任期及出处这一栏,按年份排列,俨然一部简略年谱,最具智能化的特征,这说明他们事先在文本素材中已经作了大量的学术标记,跟一般的全文自动通检或者模糊通检不可同日而语。从某种角度说,这代表了今后数码文献数据库和数码文献网站的努力方向。
-----------------------------------

这个网址刚刚去了一下,好像搜索不是很成功!
不知是不是需要先下载安装插件才可以有效搜索啊?
呵呵不好意思 我比较电脑盲:)
还多谢楼主的分享
祝安好
                          翟漠尹 上

TOP

回翟漠尹君:
这个网址不需要安装插件之类的东西。在此作些补充说明:
一、这个网址是人名资料查询,搜索时通常只查人名,也可以查一部分明清的官衔。
二、资料以清朝为主,有少量明朝的。
三、并不是全部明清人名都可以查到,只有较大的官才能查到。也不是每个人都有很详细的资料。
如果您搜索某个人的资料而无所得,是很正常的,并不是网站有问题。
本帖最近评分记录
  • 背树谖草 金钱 +10 热心助人,谢谢补充! 2008-6-1 00:28

TOP

发新话题