2016年8月20日星期六

个人输入法词频统计

2016-03-05
近来我的计算机出了一些问题,而我在修复过程中重装了输入法,差点把我积累八、九年的用户字典给弄没了。
然而我还是在备份机器上找到了截至去年圣诞节的数据。拿到数据之后我突发奇想的提取了我个人在这若干年内的用户数据,并对其按照频率进行了排序。
这个列表显然反应了汉语以及我个人语言习惯的某些特征,但是要考虑到谷歌输入法的输入单元是较为灵活的,故它没有直接的语言学意义。无论如何,它还是能反映一些东西出来的。

序号 频数 序号 频数 序号 频数
1 30208 51 1702 101 不要 1222
2 16458 52 化学 1699 102 也是 1216
3 15665 53 1690 103 而且 1216
4 12017 54 1687 104 1215
5 11628 55 1677 105 材料 1204
6 9534 56 1670 106 1177
7 我们 5432 57 1668 107 或者 1168
8 这个 5253 58 1655 108 感觉 1167
9 5098 59 觉得 1626 109 北京大学 1161
10 但是 4984 60 1617 110 发现 1160
11 一个 4682 61 什么 1616 111 你的 1159
12 可以 4669 62 因为 1604 112 1149
13 4514 63 应该 1599 113 很多 1147
14 4307 64 1584 114 活动 1128
15 4122 65 我的 1584 115 我是 1125
16 4076 66 非常 1563 116 作为 1122
17 没有 4059 67 不过 1553 117 对于 1113
18 3931 68 1546 118 东西 1106
19 3744 69 1545 119 1105
20 3369 70 1530 120 1094
21 3322 71 一下 1514 121 学校 1075
22 3317 72 1499 122 1075
23 不是 3092 73 自己 1485 123 今天 1066
24 如果 2852 74 还有 1466 124 方法 1065
25 问题 2851 75 1462 125 1059
26 还是 2575 76 这是 1458 126 知道 1059
27 2562 77 1440 127 1057
28 2514 78 进行 1433 128 化工 1057
29 2488 79 1428 129 希望 1055
30 就是 2467 80 一些 1427 130 1046
31 你们 2460 81 可能 1403 131 虽然 1030
32 2440 82 同学 1402 132 不能 1029
33 现在 2363 83 1398 133 天大 1027
34 2343 84 1390 134 怎么 1022
35 时候 2269 85 所以 1371
36 【我的名字】 2206 86 研究 1369
37 2195 87 然后 1345
38 他们 2165 88 1324
39 那个 2013 89 都是 1323
40 已经 1984 90 需要 1321
41 其实 1966 91 南开大学 1313
42 老师 1945 92 1304
43 南开 1937 93 看到 1302
44 1934 94 1295
45 1917 95 不知道 1295
46 1916 96 文章 1290
47 1912 97 实验室 1273
48 1862 98 1272
49 1858 99 1250
50 这样 1781 100 比较 1249
基于上面的语料,我又写了两段小程序处理了一下,得到一个非常好玩而且有一定实际意义的字频分布。下面是我的100大常用字:

序号 频数 频率 累积频率
1 59270 0.023632904 0.023632904
2 56673 0.022597395 0.046230299
3 38960 0.015534637 0.061764936
4 36614 0.01459921 0.076364145
5 34877 0.01390661 0.090270756
6 32906 0.013120708 0.103391463
7 29132 0.011615889 0.115007353
8 26895 0.010723924 0.125731276
9 23697 0.009448776 0.135180052
10 22180 0.008843898 0.144023949
11 21060 0.008397317 0.152421266
12 18909 0.007539642 0.159960908
13 14589 0.005817116 0.165778024
14 14343 0.005719027 0.171497051
15 13877 0.005533218 0.177030269
16 13852 0.005523249 0.182553518
17 13418 0.005350199 0.187903717
18 13277 0.005293978 0.193197695
19 13213 0.005268459 0.198466154
20 12682 0.005056732 0.203522886
21 12092 0.004821479 0.208344365
22 11870 0.004732961 0.213077325
23 11745 0.004683119 0.217760444
24 11588 0.004620518 0.222380962
25 11489 0.004581043 0.226962006
26 11440 0.004561505 0.231523511
27 11023 0.004395234 0.235918745
28 10906 0.004348582 0.240267327
29 10646 0.004244911 0.244512238
30 10566 0.004213013 0.248725251
31 10444 0.004164367 0.252889618
32 10408 0.004150013 0.257039631
33 10400 0.004146823 0.261186454
34 10385 0.004140842 0.265327296
35 10306 0.004109342 0.269436638
36 10282 0.004099773 0.273536411
37 10172 0.004055912 0.277592323
38 10139 0.004042754 0.281635076
39 10082 0.004020026 0.285655102
40 9970 0.003975368 0.28963047
41 9913 0.00395264 0.29358311
42 9898 0.003946659 0.297529769
43 9877 0.003938286 0.301468055
44 9489 0.003783577 0.305251632
45 9282 0.00370104 0.308952672
46 8870 0.003536762 0.312489434
47 8603 0.0034303 0.315919733
48 8414 0.003354939 0.319274673
49 8359 0.003333009 0.322607682
50 8199 0.003269212 0.325876894
51 8190 0.003265623 0.329142517
52 8100 0.003229737 0.332372254
53 8025 0.003199832 0.335572086
54 7815 0.003116098 0.338688184
55 7806 0.00311251 0.341800694
56 7803 0.003111313 0.344912008
57 7736 0.003084598 0.347996606
58 7690 0.003066257 0.351062863
59 7385 0.002944643 0.354007506
60 7349 0.002930289 0.356937794
61 7251 0.002891213 0.359829007
62 7215 0.002876858 0.362705866
63 7114 0.002836586 0.365542452
64 6914 0.00275684 0.368299292
65 6851 0.00273172 0.371031012
66 6704 0.002673106 0.373704118
67 6695 0.002669517 0.376373635
68 6671 0.002659948 0.379033583
69 6572 0.002620473 0.381654056
70 6570 0.002619676 0.384273732
71 6543 0.00260891 0.386882642
72 6460 0.002575815 0.389458457
73 6290 0.00250803 0.391966487
74 6098 0.002431474 0.394397961
75 6084 0.002425891 0.396823853
76 6053 0.002413531 0.399237383
77 5987 0.002387214 0.401624598
78 5841 0.002328999 0.403953597
79 5779 0.002304278 0.406257875
80 5634 0.002246462 0.408504337
81 5594 0.002230512 0.410734849
82 5559 0.002216557 0.412951406
83 5541 0.002209379 0.415160785
84 5516 0.002199411 0.417360196
85 5494 0.002190639 0.419550835
86 5460 0.002177082 0.421727917
87 5441 0.002169506 0.423897424
88 5416 0.002159538 0.426056961
89 5388 0.002148373 0.428205335
90 5383 0.00214638 0.430351714
91 5380 0.002145183 0.432496898
92 5352 0.002134019 0.434630917
93 5328 0.002124449 0.436755366
94 5219 0.002080987 0.438836354
95 5111 0.002037924 0.440874278
96 5061 0.002017988 0.442892266
97 5044 0.002011209 0.444903475
98 5012 0.00199845 0.446901924
99 4928 0.001964956 0.448866881
100 4904 0.001955387 0.450822267
 汇总统计如下,下面显示至少要多少个单字才能覆盖总字频的比率。
累积频率 字数
1 4675
0.99 2221
0.95 1224
0.9 829
0.8 483
0.75 384
0.5 128
这告诉了我们一些有趣的事实:
  1. 我这么多年用Google输入法一共才输入了4675个不同的汉字,我相信我认识的字数比这多多了。一则事实是,新版的新华字典收录汉字万余。保守估计我能认识八、九千。也就是说,汉字识读率是远高于实际使用率的。
  2. 我超喜欢说“我”,实际上我大约每50个字就会出现一次“我”。但是这一条一共39个汉字,就出现了五个“我”。
  3. 我是一个学渣,然而我的前10大常用字中,第一个非小品词的字居然是“学”!
  4. 最常用的“纯粹的”动词是“有”(“是”词性复杂,“学”动、名两可,“有”最主要的功能是作动词)。最常用的实意动词是“要”。
  5. 前十大常用字可以组成句子“你是不是在学一?”所以请和我多约饭。
  6. “化”排23,“生”排24,“工”甚至没有进前50。但是我依然不是生狗或砖工,我依然是工程师。
  7. 有430个字,我用过一次之后就再也不用了。
  8. 有1538个字,我用过的次数不超过10次,相当于近1/3的字出现的总频率只有千分之二。
  9. 想理解我的一半的语言,最少只需要认识128个字就行了。在此基础上再认识700个字,就可以认识我的九成语言了。然而想要理解我99%的汉字,在90%的基础上则要再认识1392个汉字,可见识字的边际效用递减。
  10. 这么多年,我一共用Google输入法输入了2,507,944个字,相当于写了三本半的《红楼梦》。需要csv格式的全部数据的请私下联系我,因为词频中可能包含一些个人识别信息,所以只提供给我能够信任的人。

没有评论 :

发表评论