2016-03-05
近来我的计算机出了一些问题,而我在修复过程中重装了输入法,差点把我积累八、九年的用户字典给弄没了。
然而我还是在备份机器上找到了截至去年圣诞节的数据。拿到数据之后我突发奇想的提取了我个人在这若干年内的用户数据,并对其按照频率进行了排序。
这个列表显然反应了汉语以及我个人语言习惯的某些特征,但是要考虑到谷歌输入法的输入单元是较为灵活的,故它没有直接的语言学意义。无论如何,它还是能反映一些东西出来的。
序号 | 词 | 频数 | 序号 | 词 | 频数 | 序号 | 词 | 频数 | ||
---|---|---|---|---|---|---|---|---|---|---|
1 | 我 | 30208 | 51 | 很 | 1702 | 101 | 不要 | 1222 | ||
2 | 是 | 16458 | 52 | 化学 | 1699 | 102 | 也是 | 1216 | ||
3 | 的 | 15665 | 53 | 到 | 1690 | 103 | 而且 | 1216 | ||
4 | 在 | 12017 | 54 | 能 | 1687 | 104 | 这 | 1215 | ||
5 | 和 | 11628 | 55 | 被 | 1677 | 105 | 材料 | 1204 | ||
6 | 你 | 9534 | 56 | 再 | 1670 | 106 | 下 | 1177 | ||
7 | 我们 | 5432 | 57 | 呃 | 1668 | 107 | 或者 | 1168 | ||
8 | 这个 | 5253 | 58 | 呢 | 1655 | 108 | 感觉 | 1167 | ||
9 | 有 | 5098 | 59 | 觉得 | 1626 | 109 | 北京大学 | 1161 | ||
10 | 但是 | 4984 | 60 | 不 | 1617 | 110 | 发现 | 1160 | ||
11 | 一个 | 4682 | 61 | 什么 | 1616 | 111 | 你的 | 1159 | ||
12 | 可以 | 4669 | 62 | 因为 | 1604 | 112 | 看 | 1149 | ||
13 | 了 | 4514 | 63 | 应该 | 1599 | 113 | 很多 | 1147 | ||
14 | 对 | 4307 | 64 | 等 | 1584 | 114 | 活动 | 1128 | ||
15 | 就 | 4122 | 65 | 我的 | 1584 | 115 | 我是 | 1125 | ||
16 | 么 | 4076 | 66 | 非常 | 1563 | 116 | 作为 | 1122 | ||
17 | 没有 | 4059 | 67 | 不过 | 1553 | 117 | 对于 | 1113 | ||
18 | 也 | 3931 | 68 | 而 | 1546 | 118 | 东西 | 1106 | ||
19 | 吧 | 3744 | 69 | 话 | 1545 | 119 | 以 | 1105 | ||
20 | 去 | 3369 | 70 | 来 | 1530 | 120 | 求 | 1094 | ||
21 | 都 | 3322 | 71 | 一下 | 1514 | 121 | 学校 | 1075 | ||
22 | 他 | 3317 | 72 | 年 | 1499 | 122 | 将 | 1075 | ||
23 | 不是 | 3092 | 73 | 自己 | 1485 | 123 | 今天 | 1066 | ||
24 | 如果 | 2852 | 74 | 还有 | 1466 | 124 | 方法 | 1065 | ||
25 | 问题 | 2851 | 75 | 还 | 1462 | 125 | 月 | 1059 | ||
26 | 还是 | 2575 | 76 | 这是 | 1458 | 126 | 知道 | 1059 | ||
27 | 用 | 2562 | 77 | 个 | 1440 | 127 | 写 | 1057 | ||
28 | 要 | 2514 | 78 | 进行 | 1433 | 128 | 化工 | 1057 | ||
29 | 把 | 2488 | 79 | 给 | 1428 | 129 | 希望 | 1055 | ||
30 | 就是 | 2467 | 80 | 一些 | 1427 | 130 | 啊 | 1046 | ||
31 | 你们 | 2460 | 81 | 可能 | 1403 | 131 | 虽然 | 1030 | ||
32 | 做 | 2440 | 82 | 同学 | 1402 | 132 | 不能 | 1029 | ||
33 | 现在 | 2363 | 83 | 您 | 1398 | 133 | 天大 | 1027 | ||
34 | 上 | 2343 | 84 | 为 | 1390 | 134 | 怎么 | 1022 | ||
35 | 时候 | 2269 | 85 | 所以 | 1371 | |||||
36 | 【我的名字】 | 2206 | 86 | 研究 | 1369 | |||||
37 | 会 | 2195 | 87 | 然后 | 1345 | |||||
38 | 他们 | 2165 | 88 | 嗯 | 1324 | |||||
39 | 那个 | 2013 | 89 | 都是 | 1323 | |||||
40 | 已经 | 1984 | 90 | 需要 | 1321 | |||||
41 | 其实 | 1966 | 91 | 南开大学 | 1313 | |||||
42 | 老师 | 1945 | 92 | 想 | 1304 | |||||
43 | 南开 | 1937 | 93 | 看到 | 1302 | |||||
44 | 与 | 1934 | 94 | 其 | 1295 | |||||
45 | 人 | 1917 | 95 | 不知道 | 1295 | |||||
46 | 说 | 1916 | 96 | 文章 | 1290 | |||||
47 | 好 | 1912 | 97 | 实验室 | 1273 | |||||
48 | 中 | 1862 | 98 | 请 | 1272 | |||||
49 | 从 | 1858 | 99 | 并 | 1250 | |||||
50 | 这样 | 1781 | 100 | 比较 | 1249 |
基于上面的语料,我又写了两段小程序处理了一下,得到一个非常好玩而且有一定实际意义的字频分布。下面是我的100大常用字:
序号 | 字 | 频数 | 频率 | 累积频率 |
---|---|---|---|---|
1 | 我 | 59270 | 0.023632904 | 0.023632904 |
2 | 是 | 56673 | 0.022597395 | 0.046230299 |
3 | 不 | 38960 | 0.015534637 | 0.061764936 |
4 | 的 | 36614 | 0.01459921 | 0.076364145 |
5 | 一 | 34877 | 0.01390661 | 0.090270756 |
6 | 学 | 32906 | 0.013120708 | 0.103391463 |
7 | 有 | 29132 | 0.011615889 | 0.115007353 |
8 | 你 | 26895 | 0.010723924 | 0.125731276 |
9 | 个 | 23697 | 0.009448776 | 0.135180052 |
10 | 在 | 22180 | 0.008843898 | 0.144023949 |
11 | 这 | 21060 | 0.008397317 | 0.152421266 |
12 | 大 | 18909 | 0.007539642 | 0.159960908 |
13 | 要 | 14589 | 0.005817116 | 0.165778024 |
14 | 们 | 14343 | 0.005719027 | 0.171497051 |
15 | 和 | 13877 | 0.005533218 | 0.177030269 |
16 | 了 | 13852 | 0.005523249 | 0.182553518 |
17 | 以 | 13418 | 0.005350199 | 0.187903717 |
18 | 么 | 13277 | 0.005293978 | 0.193197695 |
19 | 好 | 13213 | 0.005268459 | 0.198466154 |
20 | 人 | 12682 | 0.005056732 | 0.203522886 |
21 | 没 | 12092 | 0.004821479 | 0.208344365 |
22 | 就 | 11870 | 0.004732961 | 0.213077325 |
23 | 化 | 11745 | 0.004683119 | 0.217760444 |
24 | 生 | 11588 | 0.004620518 | 0.222380962 |
25 | 到 | 11489 | 0.004581043 | 0.226962006 |
26 | 可 | 11440 | 0.004561505 | 0.231523511 |
27 | 能 | 11023 | 0.004395234 | 0.235918745 |
28 | 上 | 10906 | 0.004348582 | 0.240267327 |
29 | 来 | 10646 | 0.004244911 | 0.244512238 |
30 | 会 | 10566 | 0.004213013 | 0.248725251 |
31 | 中 | 10444 | 0.004164367 | 0.252889618 |
32 | 分 | 10408 | 0.004150013 | 0.257039631 |
33 | 天 | 10400 | 0.004146823 | 0.261186454 |
34 | 对 | 10385 | 0.004140842 | 0.265327296 |
35 | 也 | 10306 | 0.004109342 | 0.269436638 |
36 | 子 | 10282 | 0.004099773 | 0.273536411 |
37 | 还 | 10172 | 0.004055912 | 0.277592323 |
38 | 实 | 10139 | 0.004042754 | 0.281635076 |
39 | 他 | 10082 | 0.004020026 | 0.285655102 |
40 | 为 | 9970 | 0.003975368 | 0.28963047 |
41 | 用 | 9913 | 0.00395264 | 0.29358311 |
42 | 过 | 9898 | 0.003946659 | 0.297529769 |
43 | 说 | 9877 | 0.003938286 | 0.301468055 |
44 | 下 | 9489 | 0.003783577 | 0.305251632 |
45 | 时 | 9282 | 0.00370104 | 0.308952672 |
46 | 物 | 8870 | 0.003536762 | 0.312489434 |
47 | 那 | 8603 | 0.0034303 | 0.315919733 |
48 | 文 | 8414 | 0.003354939 | 0.319274673 |
49 | 看 | 8359 | 0.003333009 | 0.322607682 |
50 | 开 | 8199 | 0.003269212 | 0.325876894 |
51 | 工 | 8190 | 0.003265623 | 0.329142517 |
52 | 发 | 8100 | 0.003229737 | 0.332372254 |
53 | 多 | 8025 | 0.003199832 | 0.335572086 |
54 | 得 | 7815 | 0.003116098 | 0.338688184 |
55 | 科 | 7806 | 0.00311251 | 0.341800694 |
56 | 去 | 7803 | 0.003111313 | 0.344912008 |
57 | 都 | 7736 | 0.003084598 | 0.347996606 |
58 | 理 | 7690 | 0.003066257 | 0.351062863 |
59 | 于 | 7385 | 0.002944643 | 0.354007506 |
60 | 很 | 7349 | 0.002930289 | 0.356937794 |
61 | 本 | 7251 | 0.002891213 | 0.359829007 |
62 | 然 | 7215 | 0.002876858 | 0.362705866 |
63 | 问 | 7114 | 0.002836586 | 0.365542452 |
64 | 方 | 6914 | 0.00275684 | 0.368299292 |
65 | 后 | 6851 | 0.00273172 | 0.371031012 |
66 | 行 | 6704 | 0.002673106 | 0.373704118 |
67 | 成 | 6695 | 0.002669517 | 0.376373635 |
68 | 作 | 6671 | 0.002659948 | 0.379033583 |
69 | 现 | 6572 | 0.002620473 | 0.381654056 |
70 | 如 | 6570 | 0.002619676 | 0.384273732 |
71 | 题 | 6543 | 0.00260891 | 0.386882642 |
72 | 出 | 6460 | 0.002575815 | 0.389458457 |
73 | 想 | 6290 | 0.00250803 | 0.391966487 |
74 | 定 | 6098 | 0.002431474 | 0.394397961 |
75 | 其 | 6084 | 0.002425891 | 0.396823853 |
76 | 但 | 6053 | 0.002413531 | 0.399237383 |
77 | 同 | 5987 | 0.002387214 | 0.401624598 |
78 | 面 | 5841 | 0.002328999 | 0.403953597 |
79 | 吧 | 5779 | 0.002304278 | 0.406257875 |
80 | 做 | 5634 | 0.002246462 | 0.408504337 |
81 | 老 | 5594 | 0.002230512 | 0.410734849 |
82 | 自 | 5559 | 0.002216557 | 0.412951406 |
83 | 应 | 5541 | 0.002209379 | 0.415160785 |
84 | 年 | 5516 | 0.002199411 | 0.417360196 |
85 | 国 | 5494 | 0.002190639 | 0.419550835 |
86 | 南 | 5460 | 0.002177082 | 0.421727917 |
87 | 体 | 5441 | 0.002169506 | 0.423897424 |
88 | 师 | 5416 | 0.002159538 | 0.426056961 |
89 | 经 | 5388 | 0.002148373 | 0.428205335 |
90 | 程 | 5383 | 0.00214638 | 0.430351714 |
91 | 道 | 5380 | 0.002145183 | 0.432496898 |
92 | 性 | 5352 | 0.002134019 | 0.434630917 |
93 | 给 | 5328 | 0.002124449 | 0.436755366 |
94 | 里 | 5219 | 0.002080987 | 0.438836354 |
95 | 高 | 5111 | 0.002037924 | 0.440874278 |
96 | 知 | 5061 | 0.002017988 | 0.442892266 |
97 | 合 | 5044 | 0.002011209 | 0.444903475 |
98 | 果 | 5012 | 0.00199845 | 0.446901924 |
99 | 小 | 4928 | 0.001964956 | 0.448866881 |
100 | 点 | 4904 | 0.001955387 | 0.450822267 |
累积频率 | 字数 |
---|---|
1 | 4675 |
0.99 | 2221 |
0.95 | 1224 |
0.9 | 829 |
0.8 | 483 |
0.75 | 384 |
0.5 | 128 |
这告诉了我们一些有趣的事实:
- 我这么多年用Google输入法一共才输入了4675个不同的汉字,我相信我认识的字数比这多多了。一则事实是,新版的新华字典收录汉字万余。保守估计我能认识八、九千。也就是说,汉字识读率是远高于实际使用率的。
- 我超喜欢说“我”,实际上我大约每50个字就会出现一次“我”。但是这一条一共39个汉字,就出现了五个“我”。
- 我是一个学渣,然而我的前10大常用字中,第一个非小品词的字居然是“学”!
- 最常用的“纯粹的”动词是“有”(“是”词性复杂,“学”动、名两可,“有”最主要的功能是作动词)。最常用的实意动词是“要”。
- 前十大常用字可以组成句子“你是不是在学一?”所以请和我多约饭。
- “化”排23,“生”排24,“工”甚至没有进前50。但是我依然不是生狗或砖工,我依然是工程师。
- 有430个字,我用过一次之后就再也不用了。
- 有1538个字,我用过的次数不超过10次,相当于近1/3的字出现的总频率只有千分之二。
- 想理解我的一半的语言,最少只需要认识128个字就行了。在此基础上再认识700个字,就可以认识我的九成语言了。然而想要理解我99%的汉字,在90%的基础上则要再认识1392个汉字,可见识字的边际效用递减。
- 这么多年,我一共用Google输入法输入了2,507,944个字,相当于写了三本半的《红楼梦》。需要csv格式的全部数据的请私下联系我,因为词频中可能包含一些个人识别信息,所以只提供给我能够信任的人。
没有评论 :
发表评论