之前发帖子问如何制作自己的巨硬词库,将如拼音加加的词库导入tero650的巨硬词库的方法,得到的答案是无法做到。经过不断的实践终于研究出一套方法。
' c$ C1 E) O k h' ~5 O; V7 ^0 u可能有人会说这个帖子应该在Hipda去发,但本人自开始使用650以来,主要都是在吹友吧学习到很多知识,比较有感情 ,所以在此首发。
8 Y" _8 s4 w9 u, ]) Z. s3 {( p3 I% k3 `
先介绍一下巨硬对可导入词库的要求,请参照一下转自Uglee大侠的说明内容:
. s( T S7 F- E% \( c& q1 @1 {! }: g, K: }* m" Q) {6 H
...........................导入词语需要规定格式的文本文件。文件的格式为:每一行为一个字或者一个词,每个字后面紧接拼音,然后是一个空格,最后一个拼音后面没有空格,回车要使用Unix格式的"\n"而不是Mac的"\r"或者PC的"\r\n",你可以用Editplus一类的文本编辑器来实现这一点;文件的最后一行需要是一个空行。示例文件如下:) C% q( @2 d9 F9 M5 f
会hui
) t9 C1 G# b+ n% [" n工gong
7 l1 b- f' K* U: T& S经jing
( g' A* S. y( e( J, S后hou 话hua+ I* x: _6 r( {" P" R k7 d
喊han 话hua
$ x6 {2 g) Z a坏huai 分fen 子zi& }& t& a+ ~4 t; e4 ?2 W3 g
豪hao 富fu* e. C: I0 h# o1 _$ q4 N; M! b
黑hei 户hu
+ j% Q t+ D5 n/ e. O1 H3 f9 ~花hua 好hao 月yue 圆yuan2 [: `0 d9 ]9 g) ^
.......................
+ h! V5 k' |7 k( W
* p. Y C6 U0 p: _! l' n1.对原始词库进行处理
) G( M4 r9 C* A4 d: r" o7 M首先,我们当然应该先有拼音加加,紫光,搜狗。。。等输入法的txt词库,这些词库的格式是以换行为分隔符的txt文本文件,不论何种词库文件除了汉字以外都会包括部分英文字母(拼音)对词进行注音,我们需要将这些英文字母删除。在这里,我建议大家将词库中的所有词复制到Excel中操作(注意:直接从txt粘贴到excel就可以了,而无须用excel打开txt词库文件)例如:将所有的词粘贴在A列,然后用查找替代功能将26个字母分别替代一遍,替代的时候在“查找内容”一栏填上单个英文字母,“替换为”一栏什么都不用填,这样可以删掉所有的英文字母,当然26个字母需要替换26遍,如果有数字的话也需要用以上方法将数字删除。之所以用Excel进行替换而不用记事本的原因主要是Excel的替换速度会比记事本快10倍都不止,而且在后面的处理过程中还继续需要使用到Excel。
' A4 x( Y- Z8 o3 |, P3 T6 L" ]; _! \ y b
/ S2 D# m1 _! N8 U: d# ]巨硬输入法是不支持超过4个汉字的词组的,所有我们必须忍痛割爱将5字以上的词组删除。这里需要用到偶们丰富的Excel知识 。在B列第一行,也就是B1,输入以下内容:=Len(A1),这个公式是用来输出相关单元格的字符长度的,如果是2个汉字的词组就会输出值2,以此类推3个汉字的词组就是3,4个汉字就是4.......................将所有词库中的所有词组都以此处理,确保每个词组旁都能输出改词组的长度。相信常用Excel的吹友都能明白我在说什么。然后用Excel中”数据“-》”筛选“-》自动筛选”的功能,将所有的大于4(注意不是大于5)的单元行都筛选出来,并进行删除。7 F9 G l+ P! E; F2 h
5 b7 i" W2 ^2 d; U, m) c
处理完后,将刚才自动筛选取消,以显示所有的词组,再选定A列中的词组单元格复制,粘贴到记事本中,这些我们最终需要的是一个只有汉字,每个词组都不超过4个汉字,且不带任何英文字母和数字,以回车为分隔符的txt词库文件。4 Y/ ?- h6 W( g) V% i" ]; x3 m
. w2 w4 K$ E- \2 o2.对词库中的词加拼音
8 w" z, n' ~, V5 v/ O6 [" p; r这里需要用到的一个软件,叫做“实用汉字转拼音4.6”,大家在网上随便一搜就有了,无需安装是个绿色软件。将软件打开后,软件下面有5列单选/复选框以设置拼音转换的格式,设置方法如下:
6 s* n# V x1 b5 F8 B6 m) l( F& k8 }第1列只选中“加上空格” 第2列只选中“左汉字友拼音” 第3列只选中“全小写” 第4列和第5列什么都不用选 将刚才处理过txt词库中的词直接就粘贴到“实用汉字转拼音”软件位于上部的文本框中,再点击“转换”按钮,再将转换的结果复制,粘贴到Excel的A列中。
6 t9 E* r; Z/ c" ?* C; u6 LPS:我曾将3万行的词从txt文件中粘贴到这个软件中进行转换,出现了转换词不全的问题,这个软件好像只转了5000多行就没下文了,但有时候又没问题,可以一下转换2,3万个词 1" /> 。有时候转换2,3万个词需要好几分钟,有时候就死机了,需要重新启动软件(不是重启电脑),重试几次就好了,所以大家在转换完拼音后需看看转换的最后一个词为标志,检查一下是否所有的词都转成拼音了。当然,如果各位大家的词库不大,不超过1万个词就不是什么问题了。
5 R) N N3 o$ X: x1 q( L; j/ s
, y; k$ H1 x+ y: S2 {" g5 c3.对汉字+拼音的Excel文件进行处理 转完的汉字+拼音的词库,每个词内部的每个字是以空格分隔的,我们需要将每个词最后一个空格删除,这里再次需要运用我们丰富的EXCEL知识了。Excel确实是很NB的处理工具啊 。我处理的方法是这样的,在B1单元格中键入“xxx”,在C1中键入公式“=A1&B1“。解释一下这个公式,”&“这个字符的作用在于将两个单元格中显示(注意是显示的内容,不是实际内容)的内容的连接在一起显示出来。然后复制C1单元格,用选择性粘贴将C1的数值到D1单元格中(这个我就不再解释了,不明白的朋友去查Excel教程吧),其他词组照此处理, 5 Q2 [+ N! M5 a# C
接下来,我们要继续对D列的词组进行加工,再次使用替换功能,将D列的" xxx"(注意xxx前面有个空格) 全部删除。我再解释一下这个步骤的思路:如果直接对空格进行删除,会将词组内字与字之间的空格也删除了,所以我们先将每个词组后面加上个xxx这样的不可能出现在拼音中的字符串以对最后一个空格加上标识,然后再将” xxx"删除就可以成功的将每个词组末尾的空格删除了......不知道我说明白了没有 - t3 F- j6 t) k3 `% w
再将处理过的D列汉字+拼音的词组复制粘贴到记事本中,注意根据巨硬对可导入词组的要求,txt文件末尾要有个空行,保存关闭。
: W) d. Z$ [# J5 f4.对词库的分隔符进行转换 根据Uglee的说明文件: 回车要使用Unix格式的"\n"而不是Mac的"\r"或者PC的"\r\n",你可以用Editplus一类的文本编辑器来实现这一点;文件的最后一行需要是一个空行。 1 A5 T/ a! w5 a* R' W. n: t
说实话,我也不明白为什么要怎么折腾....直接跟大家说如何操作吧,先下载Editplus,网上到处都有,随便哪里下都好。用Editplus打开刚才处理过的txt文本文件,选择Document --> File format (CR/LF)选项,在弹出的对话框里选Unix,然后保存关闭txt词库。 6 ]% T( h2 S7 Y+ [& R
5.最后一布,文件改名放入储存卡 将处理后的txt文件改名为mhpyphrase.txt, 放入储存卡的palm/launcher 目录下,在650的巨硬设置界面中导入就好了...............
( [ H( b% v) L8 i/ t
* |& t) R/ q0 O" y& J; R我试过了,5万个词组的词库导入需要将近10分钟的时间。导入个人字库后的巨硬输入法输入有比较明显的延迟,我理所当然的认为这是因为导入的词库过大(超过10万个词,分2次导入的),但经过几次650和巨硬的重启后又不会出现延迟的情况了,用起来和平时没什么差别,不明白为什么....7 {; g! f5 `/ W0 k) i0 }
2 F- q& l5 }( I8 G) I" q4 m大家有什么问题就尽管问吧,不知道还有多少朋友用巨硬.............." J; v8 {0 j! g- i* k. R& P
# T5 H+ I5 m) ~0 T- d
& B0 s$ T. r7 r+ `2 W! V
词库已经整理完毕,
巨硬词库.rar
(472.47 KB, 下载次数: 1073)
请参照下列说明文档:
/ T6 _5 W2 a1 q- K# A' t0 V& }. Q
本词库是基于拼音加加3的基础词库和本人使用拼音加加3后1年多所累计的词库,觉得应该可以涵盖大部分巨硬使用者的需求了。词库中的词最长为4个汉字,主要是为适应巨硬导入词库的需要。
1 b$ z0 E, G# M+ k" b我也考虑过使用搜狗的词库或拼音加加4.1的基础词库制作巨硬词库,但考虑到以此基础产生的词库动辄百万词组,生成的词库体积也会超过10M,并不实用。而我也看了以下百万词库的一些词,包括不少我们确实不太常用的词,例如阿尔法粒子什么的...所以最终还是选择了使用拼音加加3的作为基础生成巨硬词库。* Z: j: z$ E8 ^" ]
两个词库加在一起一共包括词组近10万,开始使用可能会有延迟情况,在大家导入完两个词库后再重启一下机器和巨硬就可以了。& m1 |3 ]% N1 P$ }5 \7 q
本人定制的巨硬词库分成两部分,请分2次导入。1 U( Y- O) h# c/ Z% t) ?
导入方法:
- z4 L/ w9 @3 Z2 b# m将txt词库文件名字改为mhpyphrase.txt,其实就是把文件末尾的数字删掉就可以了,然后将文件放入SD卡的Palm/launcher 目录
+ w7 y8 Q: v0 k6 W, w. B8 a下。然后进入巨硬的设置菜单导入就可以了。
2 O! f. c; d& H; i! }+ _8 g" W
0 t; ?% @& h" b( j$ b; r5 h[ 本帖最后由 realizer 于 2007-7-6 15:12 编辑 ] |