找回密码
 加入我们

QQ登录

只需一步,快速开始

搜索
查看: 6435|回复: 48

打造自己的巨硬0.98词库[原创][申请加精]

[复制链接]
发表于 2007-7-5 16:25 | 显示全部楼层 |阅读模式
之前发帖子问如何制作自己的巨硬词库,将如拼音加加的词库导入tero650的巨硬词库的方法,得到的答案是无法做到。经过不断的实践终于研究出一套方法。
% v8 B# `5 f+ A% g- X! d* N. Z可能有人会说这个帖子应该在Hipda去发,但本人自开始使用650以来,主要都是在吹友吧学习到很多知识,比较有感情 ,所以在此首发。* ]- U! w% B- |5 \' W

$ C1 f  K& L" H( A: w* B  Q  g先介绍一下巨硬对可导入词库的要求,请参照一下转自Uglee大侠的说明内容:
4 v* }' y3 G3 `0 d  A  T$ u
) F1 k3 I/ X" w/ z+ I! G...........................导入词语需要规定格式的文本文件。文件的格式为:每一行为一个字或者一个词,每个字后面紧接拼音,然后是一个空格,最后一个拼音后面没有空格,回车要使用Unix格式的"\n"而不是Mac的"\r"或者PC的"\r\n",你可以用Editplus一类的文本编辑器来实现这一点;文件的最后一行需要是一个空行。示例文件如下:4 |4 w) M3 o+ _7 U0 {9 }& O
会hui& l& {$ O0 o5 j* a2 ~; [" k
工gong2 ?* j' Y) ^% i! m2 B
经jing$ [  h7 c$ T# V+ v: ^/ |; l
后hou 话hua
, S6 M. |+ C. b1 K# A( Q/ O# r! E喊han 话hua& F/ L) m4 N- i
坏huai 分fen 子zi$ j7 i7 [7 w" W7 }) c( o. F; R
豪hao 富fu
; `9 }* U3 F; n' o1 r
黑hei 户hu
6 u4 G4 U1 `5 f% a! B' m花hua 好hao 月yue 圆yuan
) f+ ^4 b+ x1 \8 Y, V) c. J8 M) @+ Q
.......................( N* U" |7 G- j5 ?& H6 A7 f

" @& @0 g' b  n1.对原始词库进行处理4 P# t9 q9 t8 C) L1 d$ `5 [% K7 \
首先,我们当然应该先有拼音加加,紫光,搜狗。。。等输入法的txt词库,这些词库的格式是以换行为分隔符的txt文本文件,不论何种词库文件除了汉字以外都会包括部分英文字母(拼音)对词进行注音,我们需要将这些英文字母删除。在这里,我建议大家将词库中的所有词复制到Excel中操作(注意:直接从txt粘贴到excel就可以了,而无须用excel打开txt词库文件)例如:将所有的词粘贴在A列,然后用查找替代功能将26个字母分别替代一遍,替代的时候在“查找内容”一栏填上单个英文字母,“替换为”一栏什么都不用填,这样可以删掉所有的英文字母,当然26个字母需要替换26遍,如果有数字的话也需要用以上方法将数字删除。之所以用Excel进行替换而不用记事本的原因主要是Excel的替换速度会比记事本快10倍都不止,而且在后面的处理过程中还继续需要使用到Excel。
9 }. X' s, Y! ^2 N! r8 L2 w* J: z) f* U9 X" h" }4 {
巨硬输入法是不支持超过4个汉字的词组的,所有我们必须忍痛割爱将5字以上的词组删除。这里需要用到偶们丰富的Excel知识 。在B列第一行,也就是B1,输入以下内容:=Len(A1),这个公式是用来输出相关单元格的字符长度的,如果是2个汉字的词组就会输出值2,以此类推3个汉字的词组就是3,4个汉字就是4.......................将所有词库中的所有词组都以此处理,确保每个词组旁都能输出改词组的长度。相信常用Excel的吹友都能明白我在说什么。然后用Excel中”数据“-》”筛选“-》自动筛选”的功能,将所有的大于4(注意不是大于5)的单元行都筛选出来,并进行删除。. C2 a& ?1 \0 v# L2 g; S: o
" o! x: a& t2 z: b1 _. F7 L! T: K
处理完后,将刚才自动筛选取消,以显示所有的词组,再选定A列中的词组单元格复制,粘贴到记事本中,这些我们最终需要的是一个只有汉字,每个词组都不超过4个汉字,且不带任何英文字母和数字,以回车为分隔符的txt词库文件。
) P* p9 n1 ]0 j& @) Z/ f4 \
  s& T7 `5 W: @1 ?2.对词库中的词加拼音' b& {1 E1 b/ w6 S
这里需要用到的一个软件,叫做“实用汉字转拼音4.6”,大家在网上随便一搜就有了,无需安装是个绿色软件。将软件打开后,软件下面有5列单选/复选框以设置拼音转换的格式,设置方法如下:
# ^% B  I4 [; v8 |1 N
第1列只选中“加上空格”
第2列只选中“左汉字友拼音”
第3列只选中“全小写”
第4列和第5列什么都不用选
将刚才处理过txt词库中的词直接就粘贴到“实用汉字转拼音”软件位于上部的文本框中,再点击“转换”按钮,再将转换的结果复制,粘贴到Excel的A列中。
2 u7 K" V7 G: p
PS:我曾将3万行的词从txt文件中粘贴到这个软件中进行转换,出现了转换词不全的问题,这个软件好像只转了5000多行就没下文了,但有时候又没问题,可以一下转换2,3万个词1" /> 。有时候转换2,3万个词需要好几分钟,有时候就死机了,需要重新启动软件(不是重启电脑),重试几次就好了,所以大家在转换完拼音后需看看转换的最后一个词为标志,检查一下是否所有的词都转成拼音了。当然,如果各位大家的词库不大,不超过1万个词就不是什么问题了。

/ Y3 r( J  F* x$ x3 L3 {0 q+ d
  C5 Q4 D+ G" u  e6 p4 J
3.对汉字+拼音的Excel文件进行处理
转完的汉字+拼音的词库,每个词内部的每个字是以空格分隔的,我们需要将每个词最后一个空格删除,这里再次需要运用我们丰富的EXCEL知识了。Excel确实是很NB的处理工具啊 。我处理的方法是这样的,在B1单元格中键入“xxx”,在C1中键入公式“=A1&B1“。解释一下这个公式,”&“这个字符的作用在于将两个单元格中显示(注意是显示的内容,不是实际内容)的内容的连接在一起显示出来。然后复制C1单元格,用选择性粘贴将C1的数值到D1单元格中(这个我就不再解释了,不明白的朋友去查Excel教程吧),其他词组照此处理,

6 h" R- K2 @6 Z$ K: I6 u
接下来,我们要继续对D列的词组进行加工,再次使用替换功能,将D列的" xxx"(注意xxx前面有个空格) 全部删除。我再解释一下这个步骤的思路:如果直接对空格进行删除,会将词组内字与字之间的空格也删除了,所以我们先将每个词组后面加上个xxx这样的不可能出现在拼音中的字符串以对最后一个空格加上标识,然后再将” xxx"删除就可以成功的将每个词组末尾的空格删除了......不知道我说明白了没有

) G' ^# ?% ^  V; u  d* S
再将处理过的D列汉字+拼音的词组复制粘贴到记事本中,注意根据巨硬对可导入词组的要求,txt文件末尾要有个空行,保存关闭。
0 z9 b4 C& t, F4 c' `
4.对词库的分隔符进行转换
根据Uglee的说明文件:
回车要使用Unix格式的"\n"而不是Mac的"\r"或者PC的"\r\n",你可以用Editplus一类的文本编辑器来实现这一点;文件的最后一行需要是一个空行。

3 I2 Q! q' E5 u/ a# B! z
说实话,我也不明白为什么要怎么折腾....直接跟大家说如何操作吧,先下载Editplus,网上到处都有,随便哪里下都好。用Editplus打开刚才处理过的txt文本文件,选择Document --> File format (CR/LF)选项,在弹出的对话框里选Unix,然后保存关闭txt词库。
) J! q- [1 V6 a
5.最后一布,文件改名放入储存卡
将处理后的txt文件改名为mhpyphrase.txt, 放入储存卡的palm/launcher 目录下,在650的巨硬设置界面中导入就好了...............7 {; f7 y  C. D3 `+ J7 L

' F1 v9 w* _! G6 K4 b5 |我试过了,5万个词组的词库导入需要将近10分钟的时间。导入个人字库后的巨硬输入法输入有比较明显的延迟,我理所当然的认为这是因为导入的词库过大(超过10万个词,分2次导入的),但经过几次650和巨硬的重启后又不会出现延迟的情况了,用起来和平时没什么差别,不明白为什么....0 E+ A  f. }6 K7 K) U2 `/ W, T

# ^+ G, M1 t: A" F大家有什么问题就尽管问吧,不知道还有多少朋友用巨硬..............
" J- S  b% ]% l' P
" G* F& a. G7 v( ^" O
! J4 O0 h/ P2 n" B" C  M- b+ S词库已经整理完毕, 巨硬词库.rar (472.47 KB, 下载次数: 1074) 请参照下列说明文档:
2 `0 `- @& N1 O4 f$ @( n" k5 B, H* y$ x" F
本词库是基于拼音加加3的基础词库和本人使用拼音加加3后1年多所累计的词库,觉得应该可以涵盖大部分巨硬使用者的需求了。词库中的词最长为4个汉字,主要是为适应巨硬导入词库的需要。
9 x" m0 E/ A9 K2 y' O; e. e/ s3 o& ]' g我也考虑过使用搜狗的词库或拼音加加4.1的基础词库制作巨硬词库,但考虑到以此基础产生的词库动辄百万词组,生成的词库体积也会超过10M,并不实用。而我也看了以下百万词库的一些词,包括不少我们确实不太常用的词,例如阿尔法粒子什么的...所以最终还是选择了使用拼音加加3的作为基础生成巨硬词库。2 b2 c  b4 Q8 O# X" C
两个词库加在一起一共包括词组近10万,开始使用可能会有延迟情况,在大家导入完两个词库后再重启一下机器和巨硬就可以了。- L& O% B) `" O0 j: T: j
本人定制的巨硬词库分成两部分,请分2次导入。$ a* t6 d4 r# ^9 Y
导入方法:
6 a2 ^) t0 X/ k; G/ Y将txt词库文件名字改为mhpyphrase.txt,其实就是把文件末尾的数字删掉就可以了,然后将文件放入SD卡的Palm/launcher 目录
( K; P: W8 I9 s- Z/ b下。然后进入巨硬的设置菜单导入就可以了。$ `  J+ H, N% e3 x' `% g1 M
  r! G" d3 V4 b- }7 M- u
[ 本帖最后由 realizer 于 2007-7-6 15:12 编辑 ]

评分

参与人数 2威望 +70 收起 理由
sky981 + 40 精品文章
ursace + 30 支持原创!

查看全部评分

发表于 2007-7-5 16:30 | 显示全部楼层
梅花的如果做?
 楼主| 发表于 2007-7-5 16:45 | 显示全部楼层
梅花连导入词库的选项都没有,没的搞啊。。。。这方面掌易就没问题,也可以实现导入自己的词库
发表于 2007-7-5 17:09 | 显示全部楼层
支持原创……
发表于 2007-7-5 17:13 | 显示全部楼层
词库呢???
发表于 2007-7-5 17:25 | 显示全部楼层
支持!把词库共享一下
 楼主| 发表于 2007-7-5 17:49 | 显示全部楼层
啊,那可是我个人的词库。. p1 Z3 t* Z8 R5 `: T* Z8 y! u
这样吧,大家等一下,我吧拼音加加的常用词库导出来
发表于 2007-7-5 18:08 | 显示全部楼层
原帖由 realizer 于 2007-7-5 17:49 发表
( F* F- O5 X6 j0 M. {2 h啊,那可是我个人的词库。
1 c5 Y  z) R% y0 Z  C8 n这样吧,大家等一下,我吧拼音加加的常用词库导出来

. N/ a1 b7 d! X0 r- L1 h$ S; H* e% h& ^5 f$ s6 z* ^0 Q3 _
楼主还舍不得把词库贴出来啊 不然就加精了
 楼主| 发表于 2007-7-5 18:48 | 显示全部楼层
两码事,两码事,个人词库包括了很多通讯录的东西,不便分享。。。  R" x: u) r2 E6 u% h! q
我这就去吧拼音加加4.1的默认词库倒出来。。。。。给大家分享。。。
发表于 2007-7-5 19:05 | 显示全部楼层
钻研精神可嘉,不过我还是不麻烦了,多用用拼音自然就有词频了
发表于 2007-7-5 19:47 | 显示全部楼层
好帖子 好帖子  赶紧顶一顶  楼主加油
发表于 2007-7-5 19:58 | 显示全部楼层
狂赞
发表于 2007-7-5 20:27 | 显示全部楼层
等楼主在hipda发了后再慢慢研究来
 楼主| 发表于 2007-7-5 21:05 | 显示全部楼层
正在搞拼音加加的词库,澄清一下,这个帖子在吹友吧首发,其他论坛只是转帖,且所有的词库分享我也只在吹友吧发布。在Hi-PDa曾经发贴也曾经搜索过,好像找不到词库的工具什么的。。。。,所以不会在HiPDA跟进其他的东西了。
发表于 2007-7-5 21:17 | 显示全部楼层
楼主辛苦啦。为了配合java我刚泄了硬改了花。再
发表于 2007-7-5 22:33 | 显示全部楼层
lz一样导,导搜狗的吧,这个词库比较强
发表于 2007-7-5 22:49 | 显示全部楼层
支持了!
发表于 2007-7-5 22:57 | 显示全部楼层
哈哈.路过支持了:)1 :)1
发表于 2007-7-6 03:03 | 显示全部楼层
其实Google拼音、搜狗拼音的词库未必适合掌上设备
( A* s. L, b; p" ?  d( G1 G一来数据量过于庞大,占用内存不说还降低了效率
9 A/ k, B6 w( m' I& d0 ^二来这种基于网络搜索词频统计出来的词库,存在很多错误(Google拼音就有很多),加上软件本身并没有对这些错误校对,在平时的使用中难免会显现出来。
 楼主| 发表于 2007-7-6 10:17 | 显示全部楼层

回复 #19 Joystyle 的帖子

下午会发出词库的,很同意19楼 的意见,搜狗词库可能很全面,但体积庞大,放在内存太占容量。而且更重要的是,我不知道怎么把搜狗的默认词库搞出来。。。。
发表于 2007-7-6 12:33 | 显示全部楼层
这个我去年就做过了,本来还想把双拼放到巨硬里面,结果不行。
* l2 z1 B  W6 m搜狗输入法词库去它网站上有下载7 Y0 R0 q/ H! h9 n4 b
不过要自己标记拼音
发表于 2007-7-6 12:45 | 显示全部楼层
看了没什么感觉,因为我只用先进的梅花~
 楼主| 发表于 2007-7-6 17:09 | 显示全部楼层
大家在导入词库过程中可能会遇到解析失败的提示,这是因为极少部分词组(不会超过10个)的格式不符合巨硬的要求,不必理会,继续就好。我会继续修正词库的。
发表于 2007-7-7 01:06 | 显示全部楼层
我导入时,在mhpyphrase1.txt里面,出现了一个失败的提示,是21036 行,原为( y5 e: }9 K8 r
大da 腹fu 便bian 便8 c  {. A7 T4 e' O! r

& w" I6 g  D( W3 E7 i& g+ t我觉得应该修正为:1 }$ Y: w2 r) ^& J+ }
大da 腹fu 便pian 便pian(顺便改了下软件标错的拼音:)1 )
7 l, |* c; V5 Q
  A& V7 ]# `* x7 I. O在mhpyphrase2.txt里面,出现了两个失败提示,分别是:
" L/ j0 D1 f, _4 _/ B2 Q  H8 ^4 {7 b" L
第5940行,原为:: |2 i, P: e/ i8 F: }7 L! _
气qi 喘chuan 吁xu 吁xuxxxx% Y* p; ]5 f6 J- Z; g% ?1 [9 O" o
7 f& x, t$ g0 G3 F; `
我觉得应该修正为:
5 Z* M8 @% x: v  F' J* N' `气qi 喘chuan 吁xu 吁xu& c% g/ D* Y( D* t
           
$ b) X0 \' g: k4 z
( [, |! o' {. k/ }  W第38484行,原为:
2 h; `- {; n- ]$ A执zhi 拗niv    " L" F  f7 j( r6 Z/ s4 U3 G
: K8 w3 [1 T/ n  t% G6 l9 h
我觉得应该修正为:' d) U3 N& S" `/ K: t7 i
执zhi 拗niu% r; n  l9 Z; e* o5 I2 }! @7 @

- s& J# S" W1 _8 u, o) T; d; x3 K1 D9 v0 e
把修正上面三个错误后的词库也发上来吧。" b- N0 t+ B+ k

: ~; h9 z8 u1 a2 `[ 本帖最后由 sh89 于 2007-7-7 23:53 编辑 ]

修改后的词库.rar

472.5 KB, 下载次数: 618

发表于 2007-7-7 01:08 | 显示全部楼层
看起来巨硬内部还有一套机制来检测不合拼音规则的数据,否则mhpyphrase2里的那两个就应该通过了……
发表于 2007-7-7 01:16 | 显示全部楼层
另外,在搜狗实验室里,搜狗还提供了自己的互联网词库,大小是2M多一点,收词157202个,应该还可以接受吧,毕竟LZ的词库也有近100000个词了。
/ y: I6 O; u( d# V) U! Y& ?' W不知LZ是否有空再试试转一下这个词库?2 v% k, |* A8 L! ^6 i
http://www.sogou.com/labs/dl/w.html& n% F: j: k+ ~3 V5 Q

% I& t) M/ N3 C6 i' X) @  x[ 本帖最后由 sh89 于 2007-7-7 23:56 编辑 ]
发表于 2007-7-7 10:42 | 显示全部楼层
感谢楼主的辛苦,为广大胖友造福,回头试用下
发表于 2007-7-7 13:06 | 显示全部楼层
可以导入到巨硬3么谢谢!
发表于 2007-7-7 15:30 | 显示全部楼层
原帖由 sh89 于 2007-7-7 01:06 发表
+ Z& q7 b4 Y7 i: M( ^& v我导入时,在mhpyphrase1.txt里面,出现了一个失败的提示,是21036 行,原为
# K4 N# N% C+ B/ \6 V: i& c; P大da 腹fu 便bian 便
$ S8 {/ s4 Y1 k7 K2 _# e' t/ o- i' r/ Y
我觉得应该修正为:6 O! ?* E* m0 |, u2 G& |) r
大da 腹fu 便pian 便pian(顺便改了下错误的拼音:)1 )8 k# x' U4 @+ G/ P- G% Z% K) ^
. y5 o: Q7 @3 q! P" I! x1 T' ^) s
在mhpyphrase2.txt里面,出 ...
6 ?& @* m3 W( X8 ?
你这儿错了:6 ]% f% U- [8 y# n4 p2 U
大da 腹fu 便pain 便pian
 楼主| 发表于 2007-7-7 23:25 | 显示全部楼层
正在制做搜狗互联网词库的巨硬版,请大家等一下了
发表于 2007-7-7 23:55 | 显示全部楼层
你这儿错了:4 L4 b( }! }" E- ~
大da 腹fu 便pain 便pian
谢谢提醒,已经修正并重新上传了,我这个错误太粗心了……" y, I/ E8 u! }- c' k$ G
: u$ u% s2 y* }" M% X3 y$ c- h
正在制做搜狗互联网词库的巨硬版,请大家等一下了
非常感谢!
发表于 2007-7-8 00:09 | 显示全部楼层
谢谢谢谢,回头试用
 楼主| 发表于 2007-7-8 03:01 | 显示全部楼层
搜狗的互联网词库已经发出来啦,大家试用以下吧
发表于 2007-7-8 13:53 | 显示全部楼层
lz你太伟大了
发表于 2007-7-8 14:15 | 显示全部楼层
原帖由 realizer 于 2007-7-5 16:45 发表
) A2 F6 U  m2 K; C+ r梅花连导入词库的选项都没有,没的搞啊。。。。这方面掌易就没问题,也可以实现导入自己的词库
9 e4 b! T0 |4 g) s3 g

0 |8 @& S  L, y, x. q掌易这么导入??我没找到啊!
+ X( U+ s. g, u* _2 Q: G2 N另外用巨硬导入后会死机啊,屏幕点什么都没反应,这样是不是没导入成功啊?
 楼主| 发表于 2007-7-12 11:29 | 显示全部楼层
原帖由 vegasss 于 2007-7-8 14:15 发表
. H) @! r6 n8 [+ m+ f5 c% E8 \4 z% g' D& B. k$ q  S

' b8 w( {% }" Z$ N- ], f/ I掌易这么导入??我没找到啊!
6 W& p0 a9 J6 Z+ X9 ^7 I( Q另外用巨硬导入后会死机啊,屏幕点什么都没反应,这样是不是没导入成功啊?

& e9 d- l0 o. S# r. x: ^* i3 d6 ?$ T. Q5 r" p! E- B3 C7 _. h3 H

6 n- Q$ {4 \, J0 g2 c; C) F. A( |% p, ]( ]( F3 `2 v  N
3 x$ w; N$ B( C7 c# G0 t3 M
应该是只导入了重启之前的词组,是不是你的内存不够了
发表于 2007-7-12 14:46 | 显示全部楼层
搜狗词库太大了,我导了一下,大约有三兆!!心疼之下还是卸了!
发表于 2007-7-30 15:06 | 显示全部楼层
问一个很菜的问题,别丢砖头哦!( |* l' v% f, h1 g# y" v, l
分成两次导入,如果按LZ所言,只把后面的数字去掉,在卡上palm\llauncher(或计算机上)两个文件不就重名了吗?该如何合并呢?
发表于 2007-9-16 21:07 | 显示全部楼层
各位。我导入的时候怎么每行都提示失败呢,是不是有什么问题????
发表于 2007-9-30 17:21 | 显示全部楼层
比较猛!实际上我感觉定期备份词库是个非常好的习惯,别人做的词库适合你吗?显然两个人使用汉字的频率不是一样的
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

QQ|Archiver|手机版|小黑屋|吹友吧 ( 京ICP备05078561号 )

GMT+8, 2025-2-23 11:34 , Processed in 0.525724 second(s), 23 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表