|
原帖由 采花郎 于 2008-12-3 23:03 发表
/ ?4 W! x8 U) B继续测试,继续发现一些问题。
4 q: [/ u% @7 X& m$ _ q! y! h" C# b; Z/ r. k* D9 ?* P' {( d
我又重新制作了码表,不过此次跟前次不同,我都选择txt格式的方式合并码表,而前次偷懒,直接用pdb格式的码表进行合并,结果发现问题多多。* a6 z# u$ r0 `/ U
$ f8 F7 D$ `7 x
此次用txt格式码表进行合并,发现上面 ...
$ j: j4 x4 I) `/ x, a+ J7 I4 U, G8 S个人建议不要再花很多的时间去制作大词库,这个工作我曾经做过,但最终放弃了,因为很简单:没有必要。/ A9 J) ^, r& C: x% }; M
我们日常用的词组,最多的集中在2500到3000左右,80%以上的词组已经包括了,再把词库放大到30000左右可以涵盖95%以上的日常使用,再到50000左右就基本满足99%以上的使用。& Z6 \. q! ?! R i M) j. q
现在的大词库,来源于以下几点:专业词库,很多人都没有使用的必要;书籍词库,有许多的古文书中的词,现代人很多已完全不用了;互联网搜索词库,有很多无用的词,举个简单例子,如果我们经常使用“朝三暮四”这个词组,它的出现机率为1%,则在搜索过程中,两字词“朝三”、“三暮”等词组及“朝三暮”、“三暮四”也有1%的机率出现,搜索词库认为这也是常用词组而将其保留了。所以往往越大的词库中无用的词组越多。我以前做了80万词组的大词库,就是发现有90%以上的词组自己会一辈子也用不上而完全放弃。
: h6 B, U) f/ a; z3 C2 e/ |目前常用的词库中,搜狗词汇量较大,13万左右,但已经出现了我上面说的问题;海峰相对少一些,有较多的古词,一般人已经有很多无用的了;相对较完善的是“窝子”、“一剑”、“梦幻”等,但都有许多过时的词组。在palm领域中,“巨硬”足够日常使用,网上的输入法中“极点”也是较好的,还有些大侠把XP中的微软的词库(微软拼音3.0)和五笔词库给导出来了,里面的无用较多。你可以把以上的综合后,去除过时的词组,这个工作我曾经想做而且已经动手,但工作太忙又放下了。: ~% H3 `$ @$ n
在51pda有我制作的一些掌易码表,可以看一看。9 I3 Z$ ~ ] J" a7 u
拼音的校正,可以搜索“阿曼大师”,或到“老徐书斋”去看,那里有许多有用的内容可以参考。: G& Q) V1 f* F( ~' V
如果用五笔,可以到“五笔爱好者论坛”去看一下。: U) G1 d4 @1 C0 C6 U
我曾经想做二笔和自然码的输入法码表,但一直没有合适的资源,也放弃了。如果有时间,我会把五笔98的掌易码表作一个优化。如果你有兴趣,我们可以一起做。
' _ h0 {; w8 f
6 D. z, G+ v! B: {[ 本帖最后由 AKGG 于 2008-12-6 10:28 编辑 ] |
|