用好电脑这支笔
2001.12.13-20
因忙于整理个人网站,多日不曾上《四十》了,很是挂念各位网友。今天没话找话,就和各位讨论一下“如何用好电脑这支笔”的问题。
《四十》的网友,要说不会用电脑,那肯定不对,要不然大家怎么上帖、跟帖呢?但要讲用好,却未必都能够。我先起个话头,欢迎讨论。
平时用笔写字,是逐笔写成的。电脑打字,虽然打入时,也需按“编码”逐个键入。但是,“字”,电脑的术语是“字模”,是共用的。并且,当我们上帖,或者拷贝时,却不是“字模”,也不是输入的“编码”,而是“字模”的位置“编码”。通常,大陆网友用的是“GB2312”码,港台网友则用“BIG5”码。
字模的位置编码,与输入方式“编码”如“五笔”、“全拼”等不同。输入方式编码,解决“人 - 机”间交换问题;字模位置编码,则是解决“机 - 机”间的传输问题。即不论用什么输入编码键入,在相同的位置编码支持下,字面意思不变;所支持的位置编码不同,就出现“乱码”,这时只要改变位置编码的设置,就可以重新识读。
此外,最初制订的位置编码,比如“GB2312”码,在多年使用后,发现“字模”不够用,这时就必须添加新的“字模”,而原有的还不能动,否则已经进入计算机、因特网的都将成为“乱码”。新、旧“字模”混用的,称为“国家标准扩展码”,即“GBK”码。采用“GBK”码的文章,如果不经特殊标识,也会出现“乱码”。
以上讲的是“字模位置编码”与“文章乱码”关系。接着再讲“文件编辑器”的乱码问题。
计算机中,除了“文字位置编码”,还有“控制编码”。比如常用的文字编辑器“Word”,既可以控制“字”的大小、颜色、字体,又可以在文章中插入图片、表格等,还可以设置版面格式,等等。所有这些,“控制编码”尽管不显示,但确实存在,并且它们与“位置编码”混合在一起,组成了一个个“漂亮”的版面。不同的编辑器,甚至同一编辑器的不同版本,对“控制编码”有不同的“约定”,加上“版权”保护还进行“加密编码”,这就是“文件格式”问题。即不同“文件格式”的文件,在不同的“编辑器”下打开,也会有“乱码”出现。
“位置编码”与“控制编码”有二个明显的不同。第一,“位置编码”在 ASCII 码的高段,而“控制编码”在低段。我们知道,计算机用的是二进制,比如 “101”,十进制数为“一百零一”,而二进制数则是“五”,因为它的每一位,只有“0”和“1”两个符号,十进制则有“0、1、2、……、9”十个符号。因此,八位二进制最多有二百五十六种状态,中国的八卦,实际上也是二进制的,六划就是六位二进制,最多表示六十四种,即六十四卦。
计算机界将这八位二进制编码称为 ASCII 码,并且分为三段,第一段不可显示,即纯粹的乱码,是计算机的最核心的“操作码”,比如“+”在数学中表示“加”,它必须显示出来才能让人明白,但要计算机完成“加”的计算动作,直接用这个符号就不行,必须用其他符号来表示。经过分析,计算机的“动作”大约有三十二种,就组成了“操作、控制码”。中间是数字、字母、符号等“西文”的编码,可以识别的“字母”由这些编码检索使用。第三段,即高段,给了汉字、日文等其他语种。具体不再细述。
“位置编码”与“控制编码”的第二个不同点是,通常,汉字的位置编码由二个 ASCII 码组成,“控制编码”、“西文字符”都是一个 ASCII 码。汉字的二个 ASCII 码没有区别,前后互换就是不同的汉字,打个比方,电影院的一排二座和二排一座显然不同,一篇文章实际上是一张电影院座次的顺序表,比如一排二座的姓“方”、二排五座的姓“关”,八排九座的姓“金”,我的文章中有“方关金”三个字,那么这张座次表,可能就是“122589”,因某种原因丢失或掺入了一个数,那么就会乱了套。
讲到这里,一篇篇文章,在计算机里,就是一张张不同的“座次表”。
国标码 GB2312 的全称是:《国家标准信息交换用汉字编码字符集》;ASCII 码其实是英文的词头缩写,它们分别是:
A 美国
S 标准
C 代码
I 信息
I 交换
两者的基本概念一样,只是,ASCII 码规定的是八位的中、低段,并且成为所有计算机的软件基础,GB2312 则是在 ASCII 基础上,对八位的高段作规定,适应于大陆的简化汉字。
赞助者阿乐兄谈到在 MSDOS 下使用 PCTools 的问题,我就接着谈。通过第一讲,基本上建立这样一个概念,即每篇文章,可以看成一张特定的电影院座次表,那么它们在磁盘中,尤其是硬盘中是如何存放的?
所谓磁盘,就是一种可正反向充磁的载体,在充磁后被磁化,即“记忆”,读出时根据磁化的极性不同,可用“0”、“1”来表示,于是就和前一讲的“位置编码”等建立对应关系,读出存入的“文件”。这里,我们引入了一个“文件”概念。
文件在磁盘中一般说来不是乱放的,于是需要将磁盘也划分成若干区域,这就是所谓的磁盘(包括硬盘、光盘等)进行“格式化”处理。正如我们平时看的书,有目录和正文的区别,磁盘中也有对应的作用区,相当于目录的叫“文件分配表”,它记录着文件的名称、存放的起始地址(相当于页码)、文件长度(相对地址)等一系列该文件的“参数”。
和学校的黑板不同,磁盘不用“擦”干净。存盘时,在文件分配表里一查,看看哪里有“空”、空多少,就去那里按指定要求重新进行磁化,就是“写入”。读,也是按文件分配表指示,读出就行。
这时,有一个问题,不知网友们是否留意?比方说,需要存入的文件很长,查到的一个“空”位置,长度又不够,怎么办?其实,这时磁盘中经常发生的事。好象会计的记帐,一借多贷或一贷多借,即一个文件拆开来存放在几个地方。计算机中称为“链接”,或者说磁盘的“物理”结构与文件的“逻辑”结构不同。
和老的 DOS 不同,WINDOWS 在磁盘中“碎块”过多时,会提醒用户及时整理“碎块”,即尽量保持“物理”结构与“逻辑”结构的一致,让磁盘中的文件尽可能地减少“链接”次数。
也许我们的阿乐兄会恍然大悟:“哦!原来如此。”即,硬盘中碎块过多,而文件也过长,那么这个文件就倒霉,它非得“碎尸万段”不可!
另外,链接过多,链接指示器计数也会“溢出”,到它“忍无可忍”时,它就会乱来一气,给你来个“鸠占雀巢”,看你还敢不敢再不关心它!
再说,编辑器方面也有问题。现在的计算机内存已经很大,但是软件的完善也使软件进一步庞大,为了提高速度,又尽可能将文件往内存中调入,我们称为“内存开销”。为了协调,软件专家想了很多办法,比如按“功能”完善而组成一个个“功能软件包”,随时调用随时释放。这样以来,内存中也有分配问题。
当一个过长的文件进入编辑器时,编辑器可能会只读部分进入内存,将另一部分仍“寄存”在磁盘中。我这里只是定性地向网友描述计算机的工作过程,以及软件专家的编程思路、解决问题的办法等。
“福不双至,祸不单行”,这时再来个操作失误,或者突然断电,或者市电浪涌,或者病毒,等等,给你一个非正常存盘、非正常关机,总而言之,它不是简单的“数据丢失”而是“半存不存”!
这是指存盘、编辑器和长文章可能会带来的“乱码”问题。我对网友,也是对自己的忠告是:尽可能不编辑长文章,可分节、分章的,尽可能分了存盘、修改。再就是,定期整理硬盘,清除碎块。
第二讲,主要掌握“文件”的“物理结构”和“逻辑结构”关系。第三,接着讲“乱码”的处理问题。
由第一讲,我们知道了“乱码”的类型,现在的目标就是查找到“乱码”的部位,即它究竟在哪里?正如破案中,必需确定“现场”一样,保护“现场”十分重要。计算机中,“现场”很难保护,因为随后的计算机操作处理,会轻而易举地“覆盖”掉前面出现乱码的“现场”。
一般说来,“现场”在编辑器操作的“目标”盘中。如果用软盘,写作过程中的写入、修改,都在该软盘上,编辑器产生的“临时备份”、“碎块”等也在该软盘上。同样,用硬盘的话,则在硬盘上。这时,使用一些工具软件,比如阿乐兄提及的 PCTools 或者 DEBUG 等,我喜欢后者,按磁盘的“格式”,即“物理结构”搜索“现场”,进行修复操作。
此类“乱码”,通常不会跟着“拷贝”。“刻舟求剑”的故事,在这里很能说明问题,“剑”的落水部位,人在船上的部位固然是,但实际是“水”——河或湖的部位,才是真正的“现场”。当然,“乱码”类型不同,也会跟着被拷贝。
可以跟着被拷贝的乱码,通常不是因“结构”引起的。如果编辑的文件过长,则十有八九是“结构”问题。所以,乱码处理的第一要务是分析引起乱码的原因,确定乱码的现场,找到乱码的关键部位。医学上讲:先找到“病灶”,再对症下药。
讲到这里,应该说我的手中就取到了乱码“样品”、破案的“物证”。网友们的文章,通常说是“汉字文本”,它们有三大特征:一,为 ASCII 码的高段;二,成“偶”数对;三,文字通顺、逻辑合理。分析这个“样品”,就很容易剔除“低段”的操作控制码、编辑器设定的控制符、单个的西文字符等,剩下就是文字的逻辑梳理了。至于 GB 码、GBK 码和 BIG5 码的区分,也较容易。
附带谈一下加密与解密等问题。加密,是代换问题,该用 A 的用了B,识读就困难了,似乎也是“乱码”,但它有规律可以分析,原则上它们都在 ASCII 的高段。可执行程序的反编译,也是有规律的,比如计算机核心部位的接口,任何程序都难以绕开。这些,与“汉字文本”的“乱码”,区分很容易。
第三讲,对网友的忠告是:保护现场,减少损失。重复的忠告是:避免编辑长文章!
避免编辑长文章,就得增加“文件”数,这是必然的。如何管理好文件,就是第四讲的主题。谈谈我的做法。
我是 1984 年开始用电脑代笔的。那时用的计算机是 8086 芯片,内存 512 K,时钟 4.77 M,硬盘 10 M,软盘 180 K,操作系统为 DOS 1.1 版,9 针打印机,我的《光纤光缆市场调研报告》就是用它写成的;现在,我已用上了 P4/1.5 G 计算机和光盘刻录机,但那时养成的习惯仍然保留着。也许网友们会说我的观念落后了,但我觉得管用。
我在硬盘中建立了若干“文件夹”,以前称“子目录”,有时进一步在下面再建次一级“文件夹”,用来编写或存放不同内容的文章和文件,经过一段时间,比如一个月或一个季度,我会将“旧”的文件拷贝到软盘中保存;然后清除硬盘中文件,再用 DOS 命令 CHKDSK 整理一下硬盘,尽可能保持文件有完整存放的空间。一般说来,我的软盘都有编号,比如日期等,不用时我都设置为“写保护”。这样,尽管计算机资源有限或者不断更新,但我的个人文档保存完好。当设备更新后,觉得有保存价值的,我通常会制作新的备份。比如说,我在新加坡《联合早报》的个人网页,我有一段时间不曾维护了,前二天,该报曾通知截止到 12 月 15 日关闭所有“免费”的个人主页,我是事后才知道的,因此网上的所有信息都丢失了。幸亏,早在一个多月以前,尽管当时我并不知道该报的做法,但我已经将它们全部保存在光盘中了。
通常,我不用中文作文件名,工作文件采用包含日期的组合码,比如 01121801 是我维护的网站上今天新增的一个网页编号,归档时,将它汇集在 2001 年的 12 月卷中,查找、修改、保存都十分方便。
另外,我还会制作一个目录文件,在那里汇集着文件名称、内容或标题,便于查找。我是 1997 年进入因特网的,也是从那时开始用 HTML 语言编写网页的,自此以后,平时写东西也用它。我在自己的计算机上,制作了一个工作主页,用来管理自己的各类文件、个人网站、检索资源等等。并且,我也将它搬入了因特网,只是不对外作链接。外出时,会利用网吧进入自己的电子工作室;适当的时候,再在光盘中作备份。目前,光盘很便宜,刻录机略贵一点,但对保存资料来说,带来的便利却是十分值得的。
第四讲的忠告是:及时制作备份,编制档案目录。手脚勤,损失少。
第五,讲一讲网上资源的利用问题。《四十》的网友,不少只是来消遣。是的,做人就得轻松点,否则太累了,到时候双腿一蹬,想轻松也来不及,那犯得着么?
不过,话说回来,上网久了,想提高的念头也会油然而生。拿我来说,最初上 BBS 是 1999 年 5 月,那是《人民日报·强国论坛》,刚开始忙着打嘴仗,还不觉得怎么样。后来,一是对反反复复的嘴仗腻烦了,二是发现那里可以“贴图”,也即支持 HTML 语言,三是想整理自己的思路,把零字节帖改成论说文,于是,我上 BBS 变成了“研究、写作、做网页”三位一体的消遣了,一下子成了西方心理学家马斯洛“需要层次论”的最新例证。将心比心,我想《四十》的网友也会有这个需要。
我觉得利用网上资源的第一要务是学会检索,即能在网上找到自己所需要的信息、朋友和适宜的虚拟活动社区。
我利用最多的是 Yahoo,腾讯的也常用。通常,提供检索服务的网站,都有使用说明,我主张“一专多能”,即熟练掌握一个,其他“举一反三”,多数可以凑合着用,比如,对“关键词”(Key Word)的“与”、“或”运算,基本一样。
上网几年,访问网站无数,名称却没记住几个。需要资料时,我会直接上 Yahoo 去检索,将自己的需要用几个关键词来描述是很容易的事,检索时一般说来关键词间可用空格分隔开。初次检索后,我多数不直接访问那些网站,而是先浏览检索结果,根据读的结果自然会想到改变关键词再检索。我觉得这样检索的好处是,一,对检索范围、信息分布先有一个大概的了解,不必逐一查看;二,再次检索通常是换一个角度,这样既扩大了信息视野,也容易确定“精读”目标。此外,如第四讲所说,有时我会将检索所获,记入自己的网上笔记本中,以便日后参考。对具体网址的记忆,就免了。
免费空间或者廉价空间,应该充分利用,它们带来的便利是很明显的。网下的备份,当然不可少。提供者往往以资源开销来赢得人气,我这里想讲的是,作为“免费”用户必须:一,得尊重提供者,遵守约定不越轨;二,在方便的时候,为提供者作点宣传。
我的感受是,网络是一个温馨的大家庭、一位诲人不倦的好老师、一座开发不尽的宝藏。我想《四十》的网友,不会深入宝山空手而返吧。