天才一秒记住【小说天堂】地址:xsgod.com
●陈��已被学校指派参加调研,恢复了正常工作,她便自告奋勇,向数学系作了汇报,没想到引起很大反响,系领导决定尽快将报告呈送北大领导。
●王选毅然决定跳过第二代、第三代排版系统,直接跨入国外还没有商品化的第四代系统,用激光扫描的方法来还原输出。
●全国各地的多家单位带着自己的研究方案和成果相聚北京,跃跃欲试,都想从中脱颖而出。
●攻克难关
攻克最大技术难关
激光照排系统中的汉字信息处理有两个重大的根本性难题,一是汉字的储存,一是汉字字形信息的还原输出。而第一个难题显得尤为突出。
汉字的基本笔画不如字母文字多,“点、横、撇、捺、竖、弯、钩、折、提”而已,但汉字的构成却比字母文字复杂得多。字母文字的单词由字母简单排列而成,而每一个单个汉字的构成,都是笔画之间互相交错重叠,你中有我,我中有你,不可拆分。因此,汉字的一个单字实际上相当于字母文字的一个字母了。
西文只有26个字母,所以存贮量问题并不尖锐,而汉字字数繁多,《康熙字典》收入的汉字多达47000多个,常用字就有五六千个,印刷用的汉字更存在多种字体,有宋体、黑体、仿宋、楷体等10余种,而且还有10多种大小不同的字号。
汉字字形信息量太大,是中文信息处理系统最大的难题。要把汉字信息存储进计算机,就要把汉字变成点阵来表示。
一个5号字的正文字,至少需要100100点阵,大号字体甚至需要10001000以上点阵。
汉字的常用字在3000字以上,印刷用的汉字多达2万多,加上每个字都有50多种不同风格的字体和50多种大小不一的字号,如果都用点阵来表示,信息量高达上千亿字节。
Digiset采用的是黑白段的描述方案,压缩率很低,对付26个英文字母还可以,对付海量的汉字点阵信息就行不通了。
汉字字形信息量大的问题,一下子成为摆在王选面前的主要难关。
日本京都大学倒是发明了一种字根组合方案,压缩率高,但质量不好。
从1946年西方发明第一代照排机开始,到1975年已经过去了30年,美国报界在1970年前后已全部采用电子排版,但中国仍然在拣铅字。
铅字印刷的痛苦深深地印在每个排版工人的心中!他们迫切地希望,有一种比较先进的技术能替代这种原始的劳作。
但是,汉字照排系统的问题却一直没有得到圆满解决。
20世纪70年代,王选有条件使用的国产计算机的磁心存贮器,最大容量只有64KB;没有磁盘,只有一个512KB的磁鼓和一条磁带,相当于美国20世纪50年代末的水平。
在这样简陋的条件下,王选不得不另辟蹊径,开始设法压缩汉字信息。
在接下来的日子,王选满脑子的汉字横竖弯勾,连做梦也尽是笔画。他的数学背景显示出意想不到的功效,王选很快想到了用轮廓加参数的数学方法描述汉字字形,这样做可以大大地压缩汉字信息。
这时,他发现,汉字虽然繁多,但是有规律可循,每个汉字都可以细分成横、竖、折等规则笔画,和撇、捺、点等不规则笔画。
对于规则笔画,可以用一系列参数精确表示;对于不规则笔划,可以用轮廓表示。他统计了一下,汉字中规则笔画的比例占了近一半,所以压缩的空间很大。
王选不停地统计和计算着,遇到问题就与陈��讨论,两个人完全沉浸在汉字的一笔一画里。
更多内容加载中...请稍候...
本站只支持手机浏览器访问,若您看到此段落,代表章节内容加载失败,请关闭浏览器的阅读模式、畅读模式、小说模式,以及关闭广告屏蔽功能,或复制网址到其他浏览器阅读!
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!