在上世纪九十年代初期,IBM个人计算机在国内逐渐普及。这时,英特尔80286处理器是”标志物“。比如,IBMPC/AT
286个人计算机就当时的”代表作“。所谓”AT“的意思就是”Advanced
Techinology“(高等技术)。
最早的IBM个人计算机PC/AT出现在1984年,主频只有6MHz,内存256KB。后来,AT计算机的主频提高到8MHz。采用英特尔386处理器的个人计算机在1987年2月出现了,其主频提升到33MHz至40MHz。这一切都是历史事实,是中学计算机教科书上的故事。
在上世纪九十年代初期,计算机技术从大洋彼岸大量传入我国。对于国内业界而言,计算的黎明时代到来了。但是,我们面对什么问具体题呢?根据初步估算,《邓小平文选》全书大约有一百多万个汉字。我们问:如果利用个人计算机查找《邓选》中的某个特定的汉字需要多少时间?为讨论的简化,我们暂且把《邓选》视为一个很长的”大字符串”来处理,而不论及书中的篇目结构。很明显,在这里计算机处理器主频的高低是解决问题的关键。
大约在1992年年底,北京大学吴树青校长向我提出一个“任务”,问我能不能利用计算机来帮助人们学习、研究马、列等经典作家的著作?我们把话说明白了,在计算机的黎明时代,谈论内容浩繁的经典著作的全文检索系统是否早了一点儿?
现在,时间已经过去了二十多年,谜底应该揭开了。但是,在国内的知情人不多,只好由我个人出来说说了。也就是说,一件看似不可能做到的事情,我们是怎么真的最终做出来了呢?这与人工智能神经网络(ANN)的支撑向量技术(Support
Vector,1990年提出)有关。计算机的黎明时代是值得留念的。现在的人们开口云计算与大数据,1MB内存完全忽略不计。且听下回分解。
说明1:人民出版社为电子版《邓选》合订本写的“出版说明“全文如下:
为了方便广大读者学习和研究邓小平同志基本理论观点和政策策略思想,特别是建设有中国特色社会主义理论,我们在修订后的《邓小平文选》第一、二卷再版发行之际,将《邓小平文选》这两卷连同第三卷制作成电子版合订本,公开出版发行。
《邓小平文选》第一、二、三卷电子版合订本,是经新闻出版署批准出版的作为国家正式出版物的电子图书。它将《邓小平文选》的全文及其检索系统存储在两张软盘上,读者使用普通微机可十分方便地阅读全文,快速地检索原文中任何字、词、词组、句子,及其所在的页码、篇目、段落、行数及出现的次数,并可摘录出来。
人民出版社
一九九四年十一月
说明2:电子版《邓选》合订本”使用手册“明文规定,该系统运行环境是PC/AT286或386兼容机型,内存640KB至1MB,主频在8MHz至33MHz。