|
原帖由 采花郎 于 2008-12-3 23:03 发表 - X: L( u3 j5 f# p7 i
继续测试,继续发现一些问题。; `) X6 X. }9 b* ?( Q) L
8 G8 o* n: G+ `! o我又重新制作了码表,不过此次跟前次不同,我都选择txt格式的方式合并码表,而前次偷懒,直接用pdb格式的码表进行合并,结果发现问题多多。
1 r# `, y9 @* z: j; F" d
' j2 ], A' F: W' k% k( ]# ~此次用txt格式码表进行合并,发现上面 ...
' D: i( l% T3 i& P$ Q( G+ _1 ^, G+ s个人建议不要再花很多的时间去制作大词库,这个工作我曾经做过,但最终放弃了,因为很简单:没有必要。
3 p0 b+ [5 [. V4 q我们日常用的词组,最多的集中在2500到3000左右,80%以上的词组已经包括了,再把词库放大到30000左右可以涵盖95%以上的日常使用,再到50000左右就基本满足99%以上的使用。 y4 w, B6 Q8 @+ X0 z# O
现在的大词库,来源于以下几点:专业词库,很多人都没有使用的必要;书籍词库,有许多的古文书中的词,现代人很多已完全不用了;互联网搜索词库,有很多无用的词,举个简单例子,如果我们经常使用“朝三暮四”这个词组,它的出现机率为1%,则在搜索过程中,两字词“朝三”、“三暮”等词组及“朝三暮”、“三暮四”也有1%的机率出现,搜索词库认为这也是常用词组而将其保留了。所以往往越大的词库中无用的词组越多。我以前做了80万词组的大词库,就是发现有90%以上的词组自己会一辈子也用不上而完全放弃。
0 J2 H0 G* e' N. p" @" Y: K目前常用的词库中,搜狗词汇量较大,13万左右,但已经出现了我上面说的问题;海峰相对少一些,有较多的古词,一般人已经有很多无用的了;相对较完善的是“窝子”、“一剑”、“梦幻”等,但都有许多过时的词组。在palm领域中,“巨硬”足够日常使用,网上的输入法中“极点”也是较好的,还有些大侠把XP中的微软的词库(微软拼音3.0)和五笔词库给导出来了,里面的无用较多。你可以把以上的综合后,去除过时的词组,这个工作我曾经想做而且已经动手,但工作太忙又放下了。
4 G( G) \- E8 f0 |5 U2 x在51pda有我制作的一些掌易码表,可以看一看。
- x J% _8 p8 Q6 F拼音的校正,可以搜索“阿曼大师”,或到“老徐书斋”去看,那里有许多有用的内容可以参考。
8 V- w$ J( K0 Y. x如果用五笔,可以到“五笔爱好者论坛”去看一下。# m6 z/ l+ n0 J; p; r
我曾经想做二笔和自然码的输入法码表,但一直没有合适的资源,也放弃了。如果有时间,我会把五笔98的掌易码表作一个优化。如果你有兴趣,我们可以一起做。$ `0 a5 G- N, U, X! B7 t% t7 L
' ?* J* {7 K7 W' z2 g
[ 本帖最后由 AKGG 于 2008-12-6 10:28 编辑 ] |
|