第15部分(第1/5 页)
,相当于在一万个字母中平均出现八次。另外,从单词的使用频率看,定冠词the的使用频率最高,其次是专有名词和it等代词,还有in和on等前置词的使用频率也很高。从字母在单词中的分布来看,也有一些规律,字母Y总使用频数的百分之九十都集中在单词的结尾,而W的百分之九十都集中在单词的开头,P和C在单词的开头多,在结尾少,R在单词的中间出现较多,J和Q在缩略语以外的单词结尾不会出现,英文中仅有两个单词是由单字母组成的,就是A和I。此外还有很多类似的频率特征。
密码学家们还对日、俄、德、意、系、葡等语言的字母频数和使用频率进行过统计,也得出了类似的使用频率特征,制作出了相应的普遍使用频率表。文人小说下载
下面就是王玲统计出的这份密文中各个字母的频数:
表2
字母 A B C D E F G H I J K L M
频数 55 58 2 41 22 13 87 4 71 70 11 85 8
字母 N O P Q R S T U V W X Y Z
频数 50 14 12 0 12 23 1 2 40 80 8 96 3
这份密文共有八百九十三个字母,因此很容易算出各个字母的使用频率。然后再进行明密比较。
但是,并不是说将密文字母简单地用与其频率相近的英文字母代替就可以的,因为在一般情况下,这些密文字母在密文中的使用频率是不会离开它们所代表的明文字母的频率太远的。从表1中可以看出,明文字母E,T,A,O,N,R,I,S,H可称为高频字母群,D,L,F,C,U,M可称为中频字母群,G,Y,P,W,B,V可称为低频字母群,K,X,J,Q,Z则是罕见字母群。而且从中频字母群到高频字母群,一般都有个明显的频率跳跃,高频字母群中频率最低的字母H为0。0528,中频字母群中频率最高的字母D只有0。0378。这种不同频率字母群之间的突变,在密文字母的频率统计中应该有对应的表现。将密文字母按频数从多到少排列,高频字母群与中频字母群的分界线看来应该在N和D之间:中频字母群与低频字母群的分界线大概是E和O之间,虽然中频字母群应该是六个,而现在只有五个。低频字母群与罕见字母群的分界线大概在M和H之间,虽然低频字母群应该是六个,而现在是七个,于是就得出一个结论:中频字母群里少的一个字母很可能就是低频字母中多的这一个。
表3
Y G L W I J B A N D V U S
96 87 85 80 71 70 58 55 50 41 40 27 23
E O F P R K X M H Z C T Q
22 14 13 12 12 11 8 8 4 3 2 1 0
特别是字母Y,很可能是代表最常用的字母E,密文高频字母群中最低的字母N可能是代表明文字母h。密文中剩下的H,Z,C,T(密文中没有出现字母Q)几个字母很可能就是代表明文中罕见字母群K,X,J,Q,Z,但是具体哪一个代表哪一个还不知道。
现在再利用第二个突破口——语言的连接特征。在英语中,字母Q后面除了连接省略号外,几乎百分之百地连接着字母U,这就是连接特征中的后连接方式。另外,有些字母,它们分别在前面几乎总是连接那么少数几个字母:X前面连接的普遍是I和E,极个别的情况下是O和A。还有一种间断连接方式,在E和E之间R的出现频率最高。
较高频密文字母连接次数分类统计表:
表4
Y96 G87 L85 W80 I71 J70 B58 A55 N50 D41 V40
1Y1 7Y3 1Y7 7Y9 0Y2 4Y10 3Y10 10Y7 23Y1 8Y9 4Y14
3G7 0G0 8G2 15G9 3G9 5G17 7G8 10G12 6G0 2G1 3G7
7L