您的位置:首页 >教学 >

钱锺书数学考15分 出道计算机题 这些人研究了35年

“对新事物的抗拒是历史上常有的现象

抗拒新事物到头来的失败

也是历史常给人的教训。”

为了钱锺书的“数字梦”

《中国新闻周刊》记者/鲍安琪

发于2019.11.18总第924期《中国新闻周刊》

在因涉嫌“贪污罪”取保候审的五年中,栾贵明常常想起钱锺书1985年夏给他的那封信。

在信中,钱锺书告诫他,项目做好了,很多人会高兴,也有很多人会生气,他有可能成为众矢之的。钱锺书还要他十年之后再来看这封信。

出事时,时间刚好将近十年。

这个项目即“中国古典文献数据库”,现在叫“中国古典数字工程”。从1984年钱锺书布置这个任务,35年过去,栾贵明和稍后加入的田奕只干了这一件事,一直到今天。

由于资金缺乏,公司不断往西搬迁。现在的“扫叶”公司位于北京西南五环外房山区一处名为“扫叶园”的平房院落。“扫叶”之名源于一句行内话:校书如扫落叶。

田奕告诉《中国新闻周刊》,截至目前,已完成从太古时期到北宋之前中国古典文献的录入梳理工作,共计十亿多字。预计再过5年,可完成1912年之前主要文献典籍的数字化,工程总计15亿字。

忘年交

1964年9月一个周二的上午,在单位6号楼一楼大书库最后一排书架旁,栾贵明第一次见到了钱锺书。

当时,栾贵明刚从北京大学中文系古典文献专业毕业,分配到中国科学院哲学社会科学部(简称“学部”,为中国社科院前身)文学研究所。出于大学时代萌生的对钱锺书的景仰,他一来便到处打听哪里可以见到钱锺书,得到钱锺书来单位都会到书库看书的“情报”。

栾贵明记得,钱锺书当时看的是一部不引人注意的书《丛书集成》。他过去打招呼,简要地做了自我介绍。令他意外的是,钱对他的家世并不陌生。

栾贵明是世家子弟,外公家曾有很多产业,包括颇有名气的北京双合盛啤酒厂,他上高中时就开始协助外婆打理家产。钱锺书认识他的舅舅、研究茅盾的王积贤。

从那时起,栾贵明常帮钱锺书做一些琐事,如从所里借书、带信、取工资、报销医药费等,两人逐渐成了忘年交。

1972年3月,钱锺书从河南“五七”干校回京后,开始写作《管锥编》。他对书籍的需求量很大,栾贵明用钢管和钢板焊了一辆车,为他运书。

曾担任社科院副秘书长的杨润时说,当时京城世家子弟中有一批“玩家”,栾贵明身上就有这种“玩家”风范。他爱捣鼓半导体收音机、电视机等,虽然外观简陋,却可听可看;还自学成才,成为学部第一个持有国家颁发的证件的放映员。渐渐地,在上世纪六七十年代的学部,许多人都知道栾贵明是个爱“玩”且能“玩”出一些名堂的人。

数学15分的人出的计算机题

1982年,在胡乔木的力邀下,钱锺书出任社科院副院长,但条件是不分管行政工作,也不要办公室和工作人员。

当时,钱锺书已开始《宋诗纪事》的研究。这是一部清代人整理的宋代诗集,他计划在其作者厉鹗的基础上修正补足,形成《宋诗纪事补正》。在他的指导下,栾贵明利用下班后的时间,进行具体编辑与整理。

做了两年,栾贵明发现,这项工作需要做宋代3800多位诗人的补遗工作,工程量巨大。比如在一处发现了某一句诗,就要人工拿这句诗到这位作者的作品集里去查。作品少还好办,像陆游有一万多首诗,查找起来就很困难。钱锺书对工作的进展很不满意,时常说做得“太单薄”。栾贵明提出从所里增加两个人过来一起做,但被拒绝。

1984年的一天,他去钱锺书家时,钱锺书告诉他,给他找了一个“好工具”:计算机。他问,什么叫计算机?钱锺书把女儿钱瑗叫了过来,钱瑗开玩笑地说:“什么机密都透露给别人。”

原来,钱瑗不久前才从英国做访问学者回国,有次向钱锺书提起,英国学者在用计算机辅助研究莎士比亚戏剧。这让钱锺书想到,中国也可以用计算机来研究古籍。

他让栾贵明放下手边的工作,先研究计算机,还当场拿出8000元交给他。当时钱锺书每月工资为365元,杨绛的工资稍少一些。

栾贵明说,钱锺书跟他说的事,在他那里从不过夜。他从钱锺书位于北京西三环南沙沟的家出来,就骑车沿着三环一路寻找哪里有计算机卖。

也巧了,骑到东三环,在人民日报社附近的路口,他看到保定计算机厂正在举办一个小规模的计算机展销会,就进去细问了半天,并留下了联系方式。当晚他到家时,厂家的推销人员已经坐在他家楼梯上等着了。

双方达成协议,计算机可以先免费试用。那时还没有PC机,这是一台苹果机,硬盘只有10兆,售价五六万元,就放在他家里。

栾贵明向钱锺书报告借到了计算机,并把8000元还了回去。他把计算机说明书给钱锺书看,钱锺书嫌中文翻译得不好,直接读的英文原文。

栾贵明回忆,社科院很多人都有过疑惑,说钱先生一个数学只考15分的人怎么可能想出一个关于计算机的项目?栾贵明说,真正做过文献整理的人,太知道计算机是可以帮助他的。

1984年至1985年间,栾贵明自己买书,自学了计算机basic语言。因为钱锺书说,不会德文怎么研究马克思主义,不会文言文怎么研究中国古典文化?计算机技术如同工具,不能找别人帮忙,必须自己学。

在他对计算机渐渐摸索出门道后,钱锺书布置他,用计算机录入《论语》。

栾贵明告诉《中国新闻周刊》,一开始并不知道计算机可以用来做《宋诗纪事补正》,后来随着录入文献的增多,才有了条件做这件事,这是一个逐步认识的过程。但利用计算机研究中国古典文献,有一些文献是一定要录入的,《论语》就是其一。

搞电脑的一个大问题是烧钱。存储代码的软盘一张30元,性能不稳,很容易损坏。电费也成为每月的大额支出。栾贵明一个月工资60元,时常感到经济上的压力。

虽然他都是利用晚上时间在家做,但文学所的同事渐渐听说了,有时会拜托他查找《论语》的资料。

1985年夏天,时任文学所所长的刘再复和党委书记朱寨一同来到栾贵明家中,一再劝说他把这个项目转到所里,作为所里的计算机室。栾贵明给钱锺书打电话,钱锺书让他答应了吧,还开玩笑说:“你背叛了我。”

隔了一天,栾贵明在院里收到钱锺书给他的信。这就是那封让他十年后再重看的信。

信中写道:“昨得电话,我为你欣兴,我当初对你说此事若你一个人干,能力不够,拼了命亦难如愿。此事若出官,一定不让你带头,只让你镶边,你得把你辛苦得来的一些积累交公。果然不出我所料,因为你的牌子不够领衔,而这桩买卖又是大好招牌,你和我一样只是亲自动手的小工,不是组织人事、支配财务、发号运筹的大帅。我已修行多年,可以挂名,你还得当苦力呢。”

钱锺书亲自为这个项目命名为“中国古典文献数据库”。

所里把社科院大楼一层的一个房间拨给栾贵明,作为计算机室的办公用房。从保定计算机厂借的电脑,也由所里支付购买,并添了设备。

计算机室开始招兵买马。第一批14人,几乎都是高中毕业生,并非社科院正式职工,开始时连合同工都算不上,只是“学员”。

整个计算机室没有一个计算机专业毕业生,都是栾贵明带头研究,计算机室的人跟着学。栾贵明几乎吃住在计算机室,曾经在计算机前连续工作40多个小时,以致手足僵直,最后只能被人从椅子上抬下来,放到床上休息。

钱锺书还亲自为栾贵明挑选了一位助手。

1986年初春的一个上午,他和杨绛一起来到计算机室,让栾贵明把新招的学员找来,与他们分别谈话。当晚,他向栾贵明描述了一个学员的外貌和衣着特征。这个学员就是田奕。

田奕高中毕业时由于生病,没有参加成高考,在社会上打零工。当时《光明日报》办了一个十天左右的计算机培训班,她出于兴趣前去听课。栾贵明也被请来在这个班上授课,她从而得知了社科院的计算机室在招人的消息。

田奕向《中国新闻周刊》回忆,当天钱锺书一身英国绅士打扮,戴一条白色围巾。时至今日,她仍然清楚地记得两件事。一是握手时,钱锺书的手像面条一样软。她后来常去钱锺书家,与钱锺书和杨绛渐渐熟悉,杨绛开玩笑说这是由于钱锺书“十指不沾阳春水”。

二是钱锺书的皮鞋特别好看,是棕色的,上面还有花纹,泛着皮革自带的光泽。田奕后来知道这是钱瑗在意大利给他买的。钱锺书逝世后,杨绛特意把这双皮鞋赠给她留作纪念。

谈话时,杨绛没有说话,都是钱锺书在问问题。谈话内容田奕不记得了,只记得很快就谈完了。

钱锺书告诉栾贵明的是:“聪明的孩子容易不可靠,可靠的孩子容易不聪明,这两个优点她都有,她会帮咱们把这个项目完成的。”

“你们是裁缝,不是外科医生”

钱锺书不肯担任任何单位的“顾问”,唯独计算机室例外。他戏称,计算机室的年轻人是他的“孩儿们”。

他来院里开会,常常先到计算机室落脚。每年过生日收到很多蛋糕和鲜花,都叫出租车送来计算机室,或让学生去他家取,鲜花插瓶,蛋糕分吃掉。

研究规范、规划和方案,都是钱锺书亲自制订的。

80年代中期,使用繁体字是一个敏感的事情,但钱锺书要求他们尊重著作原貌,必须使用繁体字。

先前录入《论语》时,栾贵明使用的是计算机自带的输入法,缺字严重。他们搜罗了近十个中文输入系统的资料,请钱锺书选定,钱锺书敲定了台湾的朱邦复创制的“仓颉输入法”。

这种输入法以字首笔作为分类,字身作为补充,可以随时添加新字。钱锺书给了栾贵明一万余元,购买了仓颉输入法硬卡。到现在,“中国古典数字工程”一直在使用这种输入法。

在仓颉输入法的框架下,他们研制出了有近3万汉字并具有繁体字自动生成功能的“全汉字库”。

钱锺书要求,数据库仅收录中华民国建立之前的古籍。他提出,打破经史子集的传统分类,用作者统揽作品,这在古籍整理领域是一种创举。

他还亲自指定了录入所使用的文献底本。他认为,受时代局限和政治考量的影响,乾隆年间完成的文渊阁本《四库全书》有很多不准确和遗漏之处,因此要避免采用。在《全唐诗》版本的选择上,他指定使用乾隆年间江南诗局的原刊本。

在《史记》版本的选择上,则使用张元济编的百衲本中的宋本。钱锺书认为这些版本收录全面,也更准确,同时能避免侵中华书局的权。而当时社会上普遍还没有版权意识,《中华人民共和国著作权法》要到1990年才首次颁布。

慎用现代汉语中的标点符号,正文和后人的注释不得混淆,也是一大规范。钱锺书告诫研究小组:“你们是裁缝,只能是量体裁衣,不能做外科医生。”

1986年,栾贵明和团队返工重新录入了一遍《论语》。第一部使用电脑编制的《论语数据库》于1987年由人民日报出版社正式出版,钱锺书题写了书名。

钱锺书为栾贵明修改该书“前言”时,写下一段评论:“有了纸墨笔砚‘文房四宝’,准还有人用刀笔和竹简;有了汽车、飞机、电报电话,也还有不惜体力和时间的保守者。对新事物的抗拒是历史上常有的现象,抗拒新事物到头来的失败也是历史常给人的教训。”

根据先“文”(《论语》)、后“诗”、再“经”的顺序,钱锺书给研究小组布置的第二项任务是《全唐诗》。

比起《论语》,《全唐诗》可谓浩如烟海,需要增加设备和录入人员,这些都需要经费。栾贵明找所里,所里解决不了;找院里,院里也不能立项。他一遍遍跑院科研局,局长王焕宇下决心冒一次风险,同意从院科研经费中拨出10万元,以借款方式给栾贵明,并约定了还款时间。

研究小组花了近三年时间,录入了27册《全唐诗》的全部正文、异文、补遗和注文,经11次校对,于1988年发布了《全唐诗数据库》。

通过运算,《全唐诗数据库》判定全唐诗共有53035首、作者3276位,订正了4万多首和两千多人的传统说法。

1988年10月的一天,栾贵明到院办公室找当时分管人事的社科院副秘书长兼新闻发言人杨润时,请求以新闻发布会形式

最新动态
相关文章
天津理工部分学生感染诺如病毒
教育部:学校不得公布考试成绩和排名 ...
学校上线“在校午餐” 郑州二七区中小...
驻马店市第二小学有多个班级老师把学生...
考研最后冲刺阶段要注意啥?多地启动202...
2020届高校毕业生规模预计将达到874万人...