找回密码
 加入我们

QQ登录

只需一步,快速开始

搜索
查看: 1405|回复: 11

请osfans、bob老大们指点制作更大的掌易词库

[复制链接]
发表于 2008-12-3 01:06 | 显示全部楼层 |阅读模式
晚上稍微有点空,学习了各位老大的各个精华帖子,初步尝试了制作更大掌易词库的方法,目前基本过程差不多已经摸清楚了,虽然稍微麻烦一点,但是如果熟练之后,估计一个礼拜就能做出一个30-40W的词库了。
4 z) Z6 v3 X& P( }3 d$ K; |; x
& B" z3 J; `" u+ q8 P; ~但是,目前还有最后一道工序还没搞清楚,还需要bob,osfans等老大们的指点。# N# D. Y; i2 A! A4 N

; T. U* O/ h% s% h6 c' ^/ r1,我制作的词库并未包括单字,所以,如何把我做的词库和前人的词库合并?
6 W* g3 R8 y$ E/ X7 Q( n" d% m8 Q+ i$ n, F/ b* ^' L
2,我制作的词库也许和前人的词库有重复的地方,我如何排除?有无软件?数十万的词组,不可能让我手工去排除吧?7 d$ t1 ~# a! g

1 w# a# l& r8 O7 I3,按照把pdb词库转换过来的格式,基本上是拼音加汉字词组的格式,是否还需要人工排序?
% l" A) n. E3 \6 L3 W" z+ a# s1 C3 D/ f# N, f% P
可能问题比较弱智,请老大指点。+ A. {8 H  \5 N8 s0 y: g, K

+ I# O3 j- V8 A$ h, |- ?呵呵,解决这几个问题,更大词库指日可待了。
回复

使用道具 举报

发表于 2008-12-3 01:14 | 显示全部楼层
都不需要,直接做就可以了。+ d7 c' u3 Y# p/ K* P
你可以用pdbEditor直接打开一个原有的pdb文件,
3 {( ^; z1 f' |1 x7 @9 g) z) C8 Z" `然后再点击“添加词库”选择你的TXT文件,
& k5 t8 F6 c0 i8 g: j然后会提示你保存文件。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-12-3 20:46 | 显示全部楼层
感谢osfans老大的支持/ C" z3 c% C' Q, e4 N
/ t; \4 D. f( t6 `+ p9 t
昨晚上开工,搞到4点,完成了词库拼音的加注,已经得到了符合生成掌易码表格式的含有拼音、隔音和词组的txt文件。
  _' X. \- M% ?( g  D- \
) X- H4 d$ Q0 F6 s) T但是由于词库来源和加注拼音软件的原因,里面还有很多错误,pdbeditor无法正常生成正确的掌易码表文件,然而这个软件又不具备提醒出错位置的信息的功能,所以只好人工来校对,速度太慢,人也非常累,效果也不好。由于时间关系,我只好把生成的txt文件放在680里面带到上班的时候校对,完成了部分工作,晚上回家之后继续校对,中午完成。
" ^+ n6 |" H4 o2 ?9 E2 A) r. j+ E+ G5 t6 C) z1 T
我把我新做的码表文件和原来的搜狗码表进行合并,原来约2.8M的搜狗码表扩大到了4.1M% P  U/ n" U9 b* e# r$ r0 o. E
. \1 M! g* r; l" C6 c: `; M& ]# v
测试过程中也发现一些问题,那个注音软件很弱智,不知道辨认多音字,比如“长他人志气”,它识别的拼音居然是“chang'ta'ren'zhi'qi”,如果这需要人工校对,工作量不可想象,能够三个月做出一个满意的词库就不错了
1 z  O; c6 F/ a! N* P4 m3 T还有,对多字长词似乎支持不好,如果输入“长他人志气灭自己威风”这么长的词,肯定重启,不知道是我的680系统有问题还是掌易本身软件的局限,如果真的这样,那就只能去掉这部分了  b( Z4 G. @& `
我之前说的一个礼拜做出一个30-40W的词库,呵呵,太不知天高地厚了
2 E- M) B5 w: W- D1 [
2 Z  Z, V, B; f5 @" K& A4 \[ 本帖最后由 采花郎 于 2008-12-3 20:47 编辑 ]
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-12-3 20:53 | 显示全部楼层
继续测试,发现如果输入8字以下的词组没有问题,如果输入9字以上,不仅词组不会跳出来,而且如果逐字输入这个9字词组以后,机器必定重启。  V6 J, i3 S( F9 N
何故?是掌易软件的问题吗?如果这样,那就只好去掉9字词组了。
2 o7 g% T) s5 H, N( [0 P/ o
8 L+ |! e3 i: f; W$ V, N3 P4 q* [还有,如果输入“兵马未动粮草先行”这样的多字(8字一下)词组,词组还是能够跳出来,但必须把拼音全部输入才行,当输入前面几个字的拼音时,其实码表里面并没有其他的词组符合这样的拼音,如果能够在编写掌易的时候让最符合前面拼音的词组还没完全输完就跳出来就好了。是否这也是掌易改进的一个方向?
8 x. W( M) C  J- V* U# @4 D  y* b) i9 k3 r& D
[ 本帖最后由 采花郎 于 2008-12-3 20:56 编辑 ]
回复 支持 反对

使用道具 举报

发表于 2008-12-3 21:10 | 显示全部楼层
反馈的不多,不知道是什么样的错误,应该可以写个小脚本程序给检查检查。
6 ?$ q" P6 J( g6 N  _' N+ {! K2 r5 ~, B; ?- G
可能是掌易做了限制,毕竟手机内存有限,太长就会影响速度吧?: a. E6 p3 Q) K; z# m
) g) W% I1 F; v
嗯,那个词组输入确实有点问题,跟它词表的保存方式有关。
# S) z% b$ ?( U. B2 s- ^# ^- G. J' W+ \( I  V+ d' K
重复的劳动都可以通过程序实现,比如,删除长词之类的,难的可能就是多音字吧。( l( K! N6 N/ t' i5 f* R
1 d+ U  S( _& e9 q/ x( ]; o
[ 本帖最后由 osfans 于 2008-12-3 21:18 编辑 ]
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-12-3 23:03 | 显示全部楼层
继续测试,继续发现一些问题。
& _2 ^; W* {4 r+ S+ M; z% _' K
3 s2 N: J/ U/ a3 B/ m2 l我又重新制作了码表,不过此次跟前次不同,我都选择txt格式的方式合并码表,而前次偷懒,直接用pdb格式的码表进行合并,结果发现问题多多。( Y( I) Z* \* u( J

; @: N. W& j* d8 d8 y此次用txt格式码表进行合并,发现上面提到的9个以上多字无法输入的问题解决,看来还是不能走捷径$ U0 O/ C3 o4 u; Y0 T6 i) n. x5 ]
9 m  e2 F: \5 R* {2 H+ K
把我制作的码表和搜狗码表进行了对比,发现搜狗码表里面的词组相当常见和常用,而我做的码表却有很多比较生僻的成语,实用性不大。( x7 k5 A9 c5 A$ r! ]
1 Y; P: a2 h9 Y. M$ @. a
看来,制作技术上的问题看来没多大的问题,有你编写的程序,接下来是要自己选择合适的码表和使用频度很大的词组才有意义。不过还是希望你能修改一下需要全部拼音匹配才能跳出词组的小问题。
回复 支持 反对

使用道具 举报

发表于 2008-12-5 11:20 | 显示全部楼层
原帖由 采花郎 于 2008-12-3 23:03 发表
$ z% D; V) q# g4 P继续测试,继续发现一些问题。3 z3 a- \2 @8 h9 n

; V1 S7 F- Y) k我又重新制作了码表,不过此次跟前次不同,我都选择txt格式的方式合并码表,而前次偷懒,直接用pdb格式的码表进行合并,结果发现问题多多。
! c1 G0 u( n1 {7 @" j0 F6 H. _0 F* _$ L
此次用txt格式码表进行合并,发现上面 ...
: c) X) Z# I4 _$ j1 h+ P  C! b
个人建议不要再花很多的时间去制作大词库,这个工作我曾经做过,但最终放弃了,因为很简单:没有必要。
6 \0 e$ y7 W5 g8 f( m4 u我们日常用的词组,最多的集中在2500到3000左右,80%以上的词组已经包括了,再把词库放大到30000左右可以涵盖95%以上的日常使用,再到50000左右就基本满足99%以上的使用。
  ^; H* a# v' F9 j# D, d3 R& Y现在的大词库,来源于以下几点:专业词库,很多人都没有使用的必要;书籍词库,有许多的古文书中的词,现代人很多已完全不用了;互联网搜索词库,有很多无用的词,举个简单例子,如果我们经常使用“朝三暮四”这个词组,它的出现机率为1%,则在搜索过程中,两字词“朝三”、“三暮”等词组及“朝三暮”、“三暮四”也有1%的机率出现,搜索词库认为这也是常用词组而将其保留了。所以往往越大的词库中无用的词组越多。我以前做了80万词组的大词库,就是发现有90%以上的词组自己会一辈子也用不上而完全放弃。
$ [9 X# F  _) u1 O' L  Q目前常用的词库中,搜狗词汇量较大,13万左右,但已经出现了我上面说的问题;海峰相对少一些,有较多的古词,一般人已经有很多无用的了;相对较完善的是“窝子”、“一剑”、“梦幻”等,但都有许多过时的词组。在palm领域中,“巨硬”足够日常使用,网上的输入法中“极点”也是较好的,还有些大侠把XP中的微软的词库(微软拼音3.0)和五笔词库给导出来了,里面的无用较多。你可以把以上的综合后,去除过时的词组,这个工作我曾经想做而且已经动手,但工作太忙又放下了。
8 \: Y" O' s7 T8 q: \在51pda有我制作的一些掌易码表,可以看一看。# U* u! u8 m8 R. s$ \. t
拼音的校正,可以搜索“阿曼大师”,或到“老徐书斋”去看,那里有许多有用的内容可以参考。
' H: A5 d, J5 c! h* x如果用五笔,可以到“五笔爱好者论坛”去看一下。
0 k! Q4 i: p. r; v我曾经想做二笔和自然码的输入法码表,但一直没有合适的资源,也放弃了。如果有时间,我会把五笔98的掌易码表作一个优化。如果你有兴趣,我们可以一起做。
) l6 _( h' ^6 }' Z  a: g) M: x5 T+ D7 c0 A# B- Z  q
[ 本帖最后由 AKGG 于 2008-12-6 10:28 编辑 ]
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-12-5 20:50 | 显示全部楼层
AKGG兄说得很有道理,所以我再次更新了词库。不过这次并不是单纯去为了扩充容量,而是修改和增添了使用更加频繁的2-8字以内的词语% P# a9 d- l1 y: Q1 |( o

; p; i% G2 H& m! g6 U我想,我会把将来更新的重点放在码表的优化上面,并不去追求所谓的巨大词库,毕竟要看到,这个码表是在Palm这样的掌上设备使用的。7 ~3 V, K+ Y1 |
+ ^9 s  O" f7 E
说到这么多的输入方式,我只会全拼,双拼还很不熟练,至于自然码、五笔更别说起了。呵呵。
回复 支持 反对

使用道具 举报

发表于 2008-12-16 19:20 | 显示全部楼层
支持楼主的精神~~~~~~
回复 支持 反对

使用道具 举报

发表于 2008-12-17 14:11 | 显示全部楼层
我觉得搜狗的掌易词库就足够用的了,没必要太大了,毕竟平时用的就是那些词,由2W个就不得了了
回复 支持 反对

使用道具 举报

发表于 2008-12-17 16:16 | 显示全部楼层
做那么大干哈。。。-_-词库要调入内存的
回复 支持 反对

使用道具 举报

发表于 2009-3-30 20:14 | 显示全部楼层
留个记号,关注这贴,学到不少东西。有空再来看看,来学习。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

QQ|Archiver|手机版|小黑屋|吹友吧 ( 京ICP备05078561号 )

GMT+8, 2025-2-25 01:17 , Processed in 0.314705 second(s), 15 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表