用电脑加工中文
人类生活在信息的海洋之中,分分秒秒离不开信息。语言文字是人类社会特有的信息。信息处理方法的每一次重大革新,都促使人类社会进入更文明的阶段。在古代,烽火台的狼烟传递的是战争信息;纸和活字印刷术的发明,是信息表示和储存方法的革命;电报、电话、电视的发明,是信息加工和传输方法的革命;打字机、电传机、排铸机的发明,使语言文字的信息处理走上了机械化阶段;电子计算机作为强有力的信息处理工具的出现,使人类跨进了信息化的社会。
在我国,中文信息处理已经不是什么新鲜事物了。“中文”广义是指中国通用的语言文字,包括汉语汉字及其他少数民族文字;狭义地说,是指汉字。“信息”是指能通过视觉、听觉、嗅觉、味觉、触觉等器官或仪器获取,并有一定交际功能的东西;所谓“处理”,是指用电脑对信息进行各种加工,主要的是图像信息和语言信息的识别、模拟、分析、转换和传输。
中文信息处理研究,一般都形成各种各样的系统,如汉字信息处理系统、编辑排版系统、情报检索系统、程序教学系统、机器翻译系统、各类数据库和专家系统。此外,还有语音识别系统、汉语合成系统、各种通讯系统、人机对话系统等等。
以上系统有个共同的特点,即离不开电脑。这里讲的中文信息处理,不是一般人理解的电脑打字,而是通过电脑来处理和加工中文。中国是个具有五千年文明的伟大古国,三千年前就出现了甲骨文,在世界上处于先进行列。在新技术面前,中国的汉字不能直接进入电脑,因而受到了变革的冲击。1880年,丹麦人编制了汉字电报码本,用于电报传输汉字;1956年,我国科学工作者钱文浩提出了“码化理论”,他认为把汉字编为4位数字的电码,又把数字换成点和划的系统(汉字),这两个过程都是码化过程,汉字被码化后就可以作为信息来传输和处理了。从那时到现在,研究汉字信息处理的有识之士,克服种种困难,已经创造出近1000个汉字输入编码方案了,其中较优秀的有二三十个。
汉字不是为在电脑上使用而创制,电脑也不是为处理汉字而发明。对汉字逐个定出编码只是权宜之计,不是最终目的。研究中文信息处理的最终目的,打个比喻,就是要让电脑长成中国式的脑,长出中国式的耳目嘴手,成为具有高智能的中国机器人,实现情报工作、印刷排版、办公室的自动化等等,为促进现代化建设而作出贡献。
汉字如何进入计算机
被称为新技术革命象征的电脑,神通广大,似乎无所不能。但是,电脑只认两个符号,即0和1,0是空号,1是传号,而不是阿拉伯数字中的0和1。电脑采用的是二进位制,而不是十进位制。一般来说,电脑对于语言文字的信息处理,主要是对26个拉丁字母和10个阿拉伯数字以及一些标点符号的表达、识别、传输和复制。如ASCII码中的ABC、abc和123的代码如下:
A: 01000001(41H) B: 01000010(42H) C: 01000011(43H)
a: 01100001(61H) b: 01100010(62H) c: 01100011(63H)
1: 00110001(31H) 2: 00110010(32H) 3: 00110011(33H)
当我们输入A时,敲击键盘上的A键,当然,电脑不认识A,但可以认识A的代码,即:01000001,并对它进行传输处理后,在输出时,再还原为A就行了。在输入英文时,如输入Book,直接敲击这些字母键就行了,而机内接收到的是B、o、o、k的二进制代码,即:01000010、01101111、01101111、01101011。
汉字进入电脑的情况就不同。汉字的总数约6万个,组成这么多汉字的构成成份也有600多个,这样大的数量在电脑中用二进制代码是无法表达的。解决的方法是先把汉字编成用字母或数字表达的外码。如对“莉”字编码,用拼音方式,编码为LI,击L和I键后,发LI音的一串同音字会显示出来,再选择所要的字按序号击键输入就行。这样输速很慢,为了减少重码,加快输速,一般的方法是在LI之后加上分化同音字的定字字母,如将“莉”拆分为“艹”“利”各取其第一字母C、L,“莉”的编码为LICL,基本不会再有重码,可以直接输入了。还有一种方法是加声调代码4(四声)和部首代码U(艹),“莉”的编码为LI4U,这样编码,可读性更强。用字形编码方式,即先将“莉”拆分为字根(部首或更小的汉字构件):艹、禾、刂,“五笔字型”的代码为ATJ,这样可能重码,要引进末笔代码2,字型代码2,构成识别码J(22),所以“莉”的编码为ATJJ。因此,无论是音码形码,都要将汉字转换成字母(或数字)才能输入电脑。输出时,又将字母转换成汉字。这很像坐火车运客,旅客手拿人民币不能进入车厢,必须将人民币换成车票方能上车。到终点出站,旅客回单位报销,将车票又换成了人民币。
国标GB2312字符集一、二级汉字共6763个,是信息处理用字符集的基本集,目前,大多数机器就装有这么多汉字,这显然是不够的,在输入姓名、古文或日文时,有些字就打不出。扩充的GBK 字符集拥有20902个汉字,特殊的字库需要有6万个汉字,汉字数量大,编码输入的困难也大,因此,汉字编码输入的研究仍然需要继续深入进行。
汉字编码的早期
最早的汉字编码可以追溯到100年前。1880年中国创办中文电报局,丹麦人编定4位数字的电码,用以传输汉字。电报码用4个数字代替一个汉字,按字典所列汉字的顺序排列,与语音、笔画、构件都没有关系,是一种无理编码,只能死记硬背,效率较低。但是一个熟练的报务员,每分钟可传输130 个汉字。现在,仍有一些电脑上保留有电报码汉字输入法。
1926年,日本人发明了“万能式中文打字键盘”,在70×35的字盘上,收入2000多汉字和符号,用按键法输入。以后,东芝公司改为笔触式输入。大键盘的优点是直观性强,缺点是速度慢,设备笨重。还有一种主键——辅键式整字键盘,日本和美国都设计制造过,键盘收字约5000个,排列在168 个主键上,每键收30个汉字,另设30个辅助键,与分配给主键的30个汉字分别对应。熟练后,每小时可输2000字。以上方式都不用编码输入。
四角号码查字法于1928年出现,这种方案的同码字很多,在8877个汉字中,一组码代表二个以上汉字的比例达88%,1959年原苏联科学院研制“汉—俄”翻译机时,将原有的10种笔画增至15种,每个汉字用5位数,前4位表示汉字的四角笔画,末位数区分重码,无重字为0,有重码的字分别定为1、2、3等等。1963年,美国IBM 公司采用林语堂的“上下形检字法”,取汉字的左上角笔形和右下角笔形编码。1970年,江德曜对上述方案加以改进,确定34个“起笔”和22个“末笔”进行编码,重码字选择输入,这就是首尾码,学起来方便,但速度慢。
字形分解式的编码,一般用于中键盘。1961年杜定友发表“字根研究”,归纳出504 个字根,可组成全部通用字,用来编码。胡立人等提出“三角编号法”,取每字三个角的笔形(字根)编码,字根定为300个,合并为99个部首,排在100键的键盘上,每字击三次键便可输入。王安公司采用过此方案。杨联升提出“笔划字母”编码法,把所有的汉字分解成21种笔画,每一种笔画对应于一个拉丁字母,按汉字的书写顺序输入,这种编码是不等长码,但在标准的26个字母键的小键盘上可完成输入。李金铠的笔形编码与王永民的五笔画编码与此相类似。
在60年代至70年代出现的100 多种汉字编码方案中,笔画分解式编码占比例很大,世界各地包括香港、台湾的华人科学家,多数倾向于这类方案,究其原因,许多人由于方言影响掌握普通话较差,还有些字不能正确读音。但是,经过多年的研究和实践,终于得出一个结论:要正确地写出通用汉字的笔画,比正确读出它们的音困难得多。于是,一些研究者转向拼音编码。
汉字编码的中期
在笔画编码方案中,汉字基本笔画的划分种类很多,有4、5、6、8、10以至21、24、33种笔画的。在字根码方案中,不同的字根数有100、200以至400~500个的,而且拆分方法也难掌握。1958年我国推行了《汉语拼音方案》,每个字有规定的读音,这对编码十分有利。
周有光教授著的《电报拼音化》于1965年出版,其汉字拼音电码的构成为:一、拼音部分,与《新华字典》拼音相同;二、标调字母(加在音节后);阴平F、阳平X、上声V、去声H;三、定字字母:即将汉字部首分成20组,每组用1个字母代替,如:“力立老耒卤里鹿龙”为一组,由L代替,如“站”的拼音电码为ZHANHL(ZHAN—拼音;H—去声;L—“立”的定字字母)。定字字母多数是1个,少数是2个。这是全拼音方式的编码,有很好的可读性,在一万字内没有重码。
有一种全拼编码,只有声母和韵母两部分,而没有声调字母和定字字母,同码字多,需要显示选择输入,又把声母、韵母加以压缩,如现在通用的双拼码的压缩方案为:A-zh、B-ia/ua、C-uan、D-ao、F-an、G-ang、H-iang/uang、I-sh、J-ian、K-iao、L-in、M-ie、N-iu、O-uo、P-ou、Q-er、R-en、S-ai、T-eng、U-ch、V-zh/ü、W-ei、X-uai、Y-ong/iong、Z-un、;-ing。实例如:请Q;、您NL、欣XL、赏IG。这种编码将平均2.97字母,最多6字母的汉字音码全部统一为2字母,即双声母、复合韵母全用1个字母代替。因为汉语拼音的声母和韵母具有理想的数学结构,双拼替代后整齐划一,字母少输速快,受到了广泛的重视,目前装机使用面相当广。国内最早倡导此类双拼方案的是黎锦熙、唐艺等人,扶良文、郭淑珍、李金铠等设计的拼音码都是声韵双拼,曾经一鸣惊人的自然码也采用了类似的双拼方案。
汉语有400 多个音节,按6763个汉字计算,每个音节约有27个同音字;分出声调后有1200多个音节,每个音节约有6 个同音字,双拼方案的关键在于如何确定第三第四字母,以便妥善分化同音字,减少重码。郭淑珍等人较早设计的声韵部形码,将189个部首分为23类,每类对应1字母,同时将部首按意义分为五大类:自然、生物、生理、生活、余类。第三字母按部首定;第四字母按部首意类(五大类)和起笔交叉表确定。交叉表内,起笔分横竖撇点折,横排5行;部首意类竖排5列,表内有25个字母。实例如:怕PAXM(M是白的第一画与生理类交叉点的对应字母)。规则比较麻烦,以后改进为“声韵声声”,怕PAXB,X、B分别是竖心和白的读音字母。这已是典型的音形编码了。
人类生活在信息的海洋之中,分分秒秒离不开信息。语言文字是人类社会特有的信息。信息处理方法的每一次重大革新,都促使人类社会进入更文明的阶段。在古代,烽火台的狼烟传递的是战争信息;纸和活字印刷术的发明,是信息表示和储存方法的革命;电报、电话、电视的发明,是信息加工和传输方法的革命;打字机、电传机、排铸机的发明,使语言文字的信息处理走上了机械化阶段;电子计算机作为强有力的信息处理工具的出现,使人类跨进了信息化的社会。
在我国,中文信息处理已经不是什么新鲜事物了。“中文”广义是指中国通用的语言文字,包括汉语汉字及其他少数民族文字;狭义地说,是指汉字。“信息”是指能通过视觉、听觉、嗅觉、味觉、触觉等器官或仪器获取,并有一定交际功能的东西;所谓“处理”,是指用电脑对信息进行各种加工,主要的是图像信息和语言信息的识别、模拟、分析、转换和传输。
中文信息处理研究,一般都形成各种各样的系统,如汉字信息处理系统、编辑排版系统、情报检索系统、程序教学系统、机器翻译系统、各类数据库和专家系统。此外,还有语音识别系统、汉语合成系统、各种通讯系统、人机对话系统等等。
以上系统有个共同的特点,即离不开电脑。这里讲的中文信息处理,不是一般人理解的电脑打字,而是通过电脑来处理和加工中文。中国是个具有五千年文明的伟大古国,三千年前就出现了甲骨文,在世界上处于先进行列。在新技术面前,中国的汉字不能直接进入电脑,因而受到了变革的冲击。1880年,丹麦人编制了汉字电报码本,用于电报传输汉字;1956年,我国科学工作者钱文浩提出了“码化理论”,他认为把汉字编为4位数字的电码,又把数字换成点和划的系统(汉字),这两个过程都是码化过程,汉字被码化后就可以作为信息来传输和处理了。从那时到现在,研究汉字信息处理的有识之士,克服种种困难,已经创造出近1000个汉字输入编码方案了,其中较优秀的有二三十个。
汉字不是为在电脑上使用而创制,电脑也不是为处理汉字而发明。对汉字逐个定出编码只是权宜之计,不是最终目的。研究中文信息处理的最终目的,打个比喻,就是要让电脑长成中国式的脑,长出中国式的耳目嘴手,成为具有高智能的中国机器人,实现情报工作、印刷排版、办公室的自动化等等,为促进现代化建设而作出贡献。
汉字如何进入计算机
被称为新技术革命象征的电脑,神通广大,似乎无所不能。但是,电脑只认两个符号,即0和1,0是空号,1是传号,而不是阿拉伯数字中的0和1。电脑采用的是二进位制,而不是十进位制。一般来说,电脑对于语言文字的信息处理,主要是对26个拉丁字母和10个阿拉伯数字以及一些标点符号的表达、识别、传输和复制。如ASCII码中的ABC、abc和123的代码如下:
A: 01000001(41H) B: 01000010(42H) C: 01000011(43H)
a: 01100001(61H) b: 01100010(62H) c: 01100011(63H)
1: 00110001(31H) 2: 00110010(32H) 3: 00110011(33H)
当我们输入A时,敲击键盘上的A键,当然,电脑不认识A,但可以认识A的代码,即:01000001,并对它进行传输处理后,在输出时,再还原为A就行了。在输入英文时,如输入Book,直接敲击这些字母键就行了,而机内接收到的是B、o、o、k的二进制代码,即:01000010、01101111、01101111、01101011。
汉字进入电脑的情况就不同。汉字的总数约6万个,组成这么多汉字的构成成份也有600多个,这样大的数量在电脑中用二进制代码是无法表达的。解决的方法是先把汉字编成用字母或数字表达的外码。如对“莉”字编码,用拼音方式,编码为LI,击L和I键后,发LI音的一串同音字会显示出来,再选择所要的字按序号击键输入就行。这样输速很慢,为了减少重码,加快输速,一般的方法是在LI之后加上分化同音字的定字字母,如将“莉”拆分为“艹”“利”各取其第一字母C、L,“莉”的编码为LICL,基本不会再有重码,可以直接输入了。还有一种方法是加声调代码4(四声)和部首代码U(艹),“莉”的编码为LI4U,这样编码,可读性更强。用字形编码方式,即先将“莉”拆分为字根(部首或更小的汉字构件):艹、禾、刂,“五笔字型”的代码为ATJ,这样可能重码,要引进末笔代码2,字型代码2,构成识别码J(22),所以“莉”的编码为ATJJ。因此,无论是音码形码,都要将汉字转换成字母(或数字)才能输入电脑。输出时,又将字母转换成汉字。这很像坐火车运客,旅客手拿人民币不能进入车厢,必须将人民币换成车票方能上车。到终点出站,旅客回单位报销,将车票又换成了人民币。
国标GB2312字符集一、二级汉字共6763个,是信息处理用字符集的基本集,目前,大多数机器就装有这么多汉字,这显然是不够的,在输入姓名、古文或日文时,有些字就打不出。扩充的GBK 字符集拥有20902个汉字,特殊的字库需要有6万个汉字,汉字数量大,编码输入的困难也大,因此,汉字编码输入的研究仍然需要继续深入进行。
汉字编码的早期
最早的汉字编码可以追溯到100年前。1880年中国创办中文电报局,丹麦人编定4位数字的电码,用以传输汉字。电报码用4个数字代替一个汉字,按字典所列汉字的顺序排列,与语音、笔画、构件都没有关系,是一种无理编码,只能死记硬背,效率较低。但是一个熟练的报务员,每分钟可传输130 个汉字。现在,仍有一些电脑上保留有电报码汉字输入法。
1926年,日本人发明了“万能式中文打字键盘”,在70×35的字盘上,收入2000多汉字和符号,用按键法输入。以后,东芝公司改为笔触式输入。大键盘的优点是直观性强,缺点是速度慢,设备笨重。还有一种主键——辅键式整字键盘,日本和美国都设计制造过,键盘收字约5000个,排列在168 个主键上,每键收30个汉字,另设30个辅助键,与分配给主键的30个汉字分别对应。熟练后,每小时可输2000字。以上方式都不用编码输入。
四角号码查字法于1928年出现,这种方案的同码字很多,在8877个汉字中,一组码代表二个以上汉字的比例达88%,1959年原苏联科学院研制“汉—俄”翻译机时,将原有的10种笔画增至15种,每个汉字用5位数,前4位表示汉字的四角笔画,末位数区分重码,无重字为0,有重码的字分别定为1、2、3等等。1963年,美国IBM 公司采用林语堂的“上下形检字法”,取汉字的左上角笔形和右下角笔形编码。1970年,江德曜对上述方案加以改进,确定34个“起笔”和22个“末笔”进行编码,重码字选择输入,这就是首尾码,学起来方便,但速度慢。
字形分解式的编码,一般用于中键盘。1961年杜定友发表“字根研究”,归纳出504 个字根,可组成全部通用字,用来编码。胡立人等提出“三角编号法”,取每字三个角的笔形(字根)编码,字根定为300个,合并为99个部首,排在100键的键盘上,每字击三次键便可输入。王安公司采用过此方案。杨联升提出“笔划字母”编码法,把所有的汉字分解成21种笔画,每一种笔画对应于一个拉丁字母,按汉字的书写顺序输入,这种编码是不等长码,但在标准的26个字母键的小键盘上可完成输入。李金铠的笔形编码与王永民的五笔画编码与此相类似。
在60年代至70年代出现的100 多种汉字编码方案中,笔画分解式编码占比例很大,世界各地包括香港、台湾的华人科学家,多数倾向于这类方案,究其原因,许多人由于方言影响掌握普通话较差,还有些字不能正确读音。但是,经过多年的研究和实践,终于得出一个结论:要正确地写出通用汉字的笔画,比正确读出它们的音困难得多。于是,一些研究者转向拼音编码。
汉字编码的中期
在笔画编码方案中,汉字基本笔画的划分种类很多,有4、5、6、8、10以至21、24、33种笔画的。在字根码方案中,不同的字根数有100、200以至400~500个的,而且拆分方法也难掌握。1958年我国推行了《汉语拼音方案》,每个字有规定的读音,这对编码十分有利。
周有光教授著的《电报拼音化》于1965年出版,其汉字拼音电码的构成为:一、拼音部分,与《新华字典》拼音相同;二、标调字母(加在音节后);阴平F、阳平X、上声V、去声H;三、定字字母:即将汉字部首分成20组,每组用1个字母代替,如:“力立老耒卤里鹿龙”为一组,由L代替,如“站”的拼音电码为ZHANHL(ZHAN—拼音;H—去声;L—“立”的定字字母)。定字字母多数是1个,少数是2个。这是全拼音方式的编码,有很好的可读性,在一万字内没有重码。
有一种全拼编码,只有声母和韵母两部分,而没有声调字母和定字字母,同码字多,需要显示选择输入,又把声母、韵母加以压缩,如现在通用的双拼码的压缩方案为:A-zh、B-ia/ua、C-uan、D-ao、F-an、G-ang、H-iang/uang、I-sh、J-ian、K-iao、L-in、M-ie、N-iu、O-uo、P-ou、Q-er、R-en、S-ai、T-eng、U-ch、V-zh/ü、W-ei、X-uai、Y-ong/iong、Z-un、;-ing。实例如:请Q;、您NL、欣XL、赏IG。这种编码将平均2.97字母,最多6字母的汉字音码全部统一为2字母,即双声母、复合韵母全用1个字母代替。因为汉语拼音的声母和韵母具有理想的数学结构,双拼替代后整齐划一,字母少输速快,受到了广泛的重视,目前装机使用面相当广。国内最早倡导此类双拼方案的是黎锦熙、唐艺等人,扶良文、郭淑珍、李金铠等设计的拼音码都是声韵双拼,曾经一鸣惊人的自然码也采用了类似的双拼方案。
汉语有400 多个音节,按6763个汉字计算,每个音节约有27个同音字;分出声调后有1200多个音节,每个音节约有6 个同音字,双拼方案的关键在于如何确定第三第四字母,以便妥善分化同音字,减少重码。郭淑珍等人较早设计的声韵部形码,将189个部首分为23类,每类对应1字母,同时将部首按意义分为五大类:自然、生物、生理、生活、余类。第三字母按部首定;第四字母按部首意类(五大类)和起笔交叉表确定。交叉表内,起笔分横竖撇点折,横排5行;部首意类竖排5列,表内有25个字母。实例如:怕PAXM(M是白的第一画与生理类交叉点的对应字母)。规则比较麻烦,以后改进为“声韵声声”,怕PAXB,X、B分别是竖心和白的读音字母。这已是典型的音形编码了。
我的网志
http://hzmys.blog.163.com/
我的网盘
firststep.qjwm.com
fsmys.ys168.com
ssmys.ys168.com
www.brsbox.com/fsmys
www.brsbox.com/ssmys
www.brsbox.com/ccdos
http://hzmys.blog.163.com/
我的网盘
firststep.qjwm.com
fsmys.ys168.com
ssmys.ys168.com
www.brsbox.com/fsmys
www.brsbox.com/ssmys
www.brsbox.com/ccdos
