|
ZDicTool20130426维基百科词典制作工具(基于Wind-Bell ZDicTool20130326改进)
/ Q2 D. l5 o7 t5 ^附转换的zhwiki_20130417 百度网盘 http://pan.baidu.com/share/link?shareid=398800&uk=1812231598
6 z& |- [6 P/ q7 F# n' M
0 W: L6 v9 x$ U! J$ Y根据Wind-Bell在2013-3-26 01:44:11提供的转换维基的方法(http://www.treo8.com/bbs/forum.p ... 1&authorid=4654,第8楼文件),做一点补充,解决直接用ConvertZ繁简转换1.txt失败的情况。仅修改第2步,其他不变。" s o" [) r. ]2 u3 K2 ~
Wind-Bell的方法已经非常完善便捷了,向Wind-Bell致敬,同时感谢treo8一直以来对palmos和webos的支持。
4 p$ Q) [- D% _3 Y
) _& |$ e' W: X: HWind-Bell在2013-3-26 01:44:11方法,如下四步:* G5 `! x. [& j7 F' f
1:提取维基内容到txt& `7 B, R0 j% D0 C
ZDicToolDirect.py 维基源文件 1.txt
( i. X3 g& l1 ~9 n @ w5 C2:繁简转换3 x H% [5 P0 A1 u7 v; y* M4 v
使用ConvertZ转换1.txt为2.txt( X( s# n9 {1 W0 i; {
3:排序( l: V0 U6 E9 \& E/ ]
ZDicToolDirect.py -s 2.txt 3.txt g' p& O/ o! P% [
4:产生2.60版本的字典文件
) q- A3 w9 I4 YZDic26Tool3.py 3.txt wiki.pdb
1 i, f( \1 j% g, [9 n. g7 B
' C6 q K) M& d- Y改进方法说明:
% d$ {. p7 l5 L* K. T7 } t# T; R+ Y7 \! n$ T/ G6 K
1.软件环境:windows(不需要安装python,.py文件都已用pyinstaller-2.0打包成exe)9 \: A: F7 ~ o' q
工具:ConvertZ,convert.bat(根据osfans ZDicTool090110内的文件修改),解压工具(可以不用)
4 j4 T" u0 \. z& p5 v+ Z$ W% }3.输入:下载中文维基百科源文件,http://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles-multistream.xml.bz2. c1 L: Y) I, W) n0 I4 {& D! t6 r
4.输出:wiki.pdb,支持ZDic 2.60(PalmOS)/ZDic2 0.9.3(WebOS)的字典文件。
# X4 R* u9 u! S: S5.使用建议:统一目录。即每步生成的文件.xml.bz2,1.txt,2.txt,3.txt都在convert.bat,ZDicToolDirect.exe与ZDicToolDirect.exe同一目录下
! E2 |: j3 P: H) E, X3 ~6.修改原因:可能由于个人电脑硬件较差(我的笔记本硬件是CPU i3 M380 2.53GHz,内存2G),也可能是1.txt文件太大,大小近2G,直接用ConvertZ繁简转换1.txt失败。欢迎电脑硬件好的童鞋测试,应该可以通过正常转换。8 x6 o' R# P' h( A! u3 p) r
7.改进方法:对第2步进行调整,其他内容不变。第2步为分割转换合并,即“2.1对1.txt分割-->2.2对子文件进行ConvertZ繁简转换-2.3合并子文件成2.txt”。, F) e3 J2 v+ O- c" o- @. \1 k
: M* c& F) q% j7 L; e1 v! S/ |
改进后的完整方法:
( U6 _& C( K: l# ~2 c; s! ~, D' [
/ K( T2 j6 V& Q, u1.提取维基内容到txt
/ t9 ^6 H( e# V( {3 r9 K通过修改convert.bat运行,右键可以编辑,里面有具体说明,运行ZDicToolDirect 维基源文件.xml.bz2 1.txt
0 r( }6 c7 _" M- c也可以解压维基源文件.xml.bz2,获得维基源文件.xml,运行ZDicToolDirect.py 维基源文件.xml 1.txt, l- B' E! V( q/ h$ Y* }; r8 W5 x
'''( w5 s9 a8 z4 ?' z/ Q
如果了解python,可以安装python,然后运行python执行命令。
+ T$ u3 V: F. \2 n" y4 k6 R# h先改工作目录到ZDicToolDirect.py的位置,可以import os,然后os.chdir("目标目录"),然后运行python ZDicToolDirect.py 维基源文件.xml.bz2 1.txt,其他步骤同理。& L. N D0 a$ ]1 h
'''" B6 z( C( P, @
* h3 I: m& z, K1 [* V" G$ ]
2.繁简转换0 Z" X W, T) Q; {
具体做法:
, t# a1 q% W& e" q7 k2.1 对1.txt分割
. v* P4 F" ~) ~linux下用split命令。我试了几个txt分割软件(txt文本分割器1.0,老马的TextForever(FineReader)1.78)处理大文件都不行,后来在linux下用split命令搞定了。split -b 300M 1.txt,可以分成300M一份,名称xa(a...g).txt,共分成7份。具体大小可自动调整。
( i" n# Y) ?' G& V7 l# A关于linux,可能安装比较费时间,webos手机支持split命令,可以在WQI下链接手机一试,文件要放在手机里面,我没试过。
& a* v( |$ h7 m
$ I4 s) k- _2 j* I, I, V' x2.2 对子文件进行ConvertZ繁简转换7 V, A/ L& k6 Y' v( z4 I# c* g
回到windows系统,运行ConvertZ,导入子文件,选择GBK-GBK简体,转换即可。其实里面的内容是简体和繁体共存的状态,不细究了。
9 |& f# \0 ?( p3 X#运行时间5分钟" s6 }+ L- D+ J( r7 [
" [& @5 G+ ~# B& x5 g: L
2.3 合并子文件成2.txt y0 x" ?. T& v5 ^# P3 f# B B4 Q
依然在windows下,通过cmd里面的copy命令实现文本可并。运行cmd,然后cd /d 目标目录,进入子文件所在目录,再输入copy xa* 2.txt。& d9 S+ S8 b% I( J) v
#合并过程3分钟 E& H; @0 Z6 t K; R: J/ e% T7 ^
' C# n& k) x2 ]! R综上所述,通过split+ConvertZ+copy可以在低硬件配置环境下实现1.txt到2.txt的转换。之后再实施3,4布即可。
a1 L/ _# M% H8 r% l0 L( J& _" B" y1 p; f6 {+ @3 l$ `
3.排序
' a/ Q5 ~. J3 }9 L# a编辑convert.bat运行ZDicToolDirect -s 2.txt 3.txt ) p4 S4 k7 _+ H7 w1 s( K* y
#运行时间13分钟
) `* }/ z# U: A4 n% j) K' M A I9 ^- r$ N( z0 |, u
4.产生ZDic 2.60/ZDic2 0.9.3的字典文件
' I) h1 k5 g) d编辑convert.bat运行ZDic26Tool3 3.txt wiki.pdb' w' g- ~- \. }$ e- j
#运行时间9分钟$ Z: ?. V7 r- b8 G
) |5 U3 b" z) B3 W. a5 s
新的中文维基百科字典就搞定了。3 \$ [5 J% N4 q0 L
; k/ \; I! L# I8 d2 [- U
$ G" f0 V; i( U* a
! M0 I. P3 I& y9 R$ J. n
% x6 d! z, U8 W$ k7 v |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?加入我们
×
评分
-
查看全部评分
|