|
ZDicTool20130426维基百科词典制作工具(基于Wind-Bell ZDicTool20130326改进)4 o7 K# H9 \8 d1 C/ x* n# g
附转换的zhwiki_20130417 百度网盘 http://pan.baidu.com/share/link?shareid=398800&uk=1812231598. u8 w: E6 M) s
& ^8 A6 k! z6 d" A- y根据Wind-Bell在2013-3-26 01:44:11提供的转换维基的方法(http://www.treo8.com/bbs/forum.p ... 1&authorid=4654,第8楼文件),做一点补充,解决直接用ConvertZ繁简转换1.txt失败的情况。仅修改第2步,其他不变。
0 P7 m. @' [' v: E. VWind-Bell的方法已经非常完善便捷了,向Wind-Bell致敬,同时感谢treo8一直以来对palmos和webos的支持。+ `/ x0 z6 B( t# c4 t l
4 _$ h. K& q% VWind-Bell在2013-3-26 01:44:11方法,如下四步:
1 ^2 M5 N5 i6 [1:提取维基内容到txt3 a: n. s+ K# O9 {0 {5 K
ZDicToolDirect.py 维基源文件 1.txt
! t ]. R Q- r6 K2:繁简转换
7 N( U( d/ G1 K1 I; l使用ConvertZ转换1.txt为2.txt
8 t, ^4 o( r% r" l: c3:排序, q: W) V1 G, S. C0 y( A
ZDicToolDirect.py -s 2.txt 3.txt; P ^8 Y* r& }+ q8 r
4:产生2.60版本的字典文件
w& A- M" n# o/ JZDic26Tool3.py 3.txt wiki.pdb- R1 t4 n2 d' E0 V& Z
' B6 R; n) I7 |! _ C* ?2 C9 c5 E改进方法说明:
/ d& R) ~ I7 ]" b! d) j4 S$ H, t: @6 ?1 X! [- L
1.软件环境:windows(不需要安装python,.py文件都已用pyinstaller-2.0打包成exe)
# V, U6 y3 s& A; z; `: Q/ {工具:ConvertZ,convert.bat(根据osfans ZDicTool090110内的文件修改),解压工具(可以不用)
4 m% E2 y% x. ]6 h+ o3.输入:下载中文维基百科源文件,http://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles-multistream.xml.bz2
& C2 }/ F1 B, e$ o; r4.输出:wiki.pdb,支持ZDic 2.60(PalmOS)/ZDic2 0.9.3(WebOS)的字典文件。
i0 P1 m7 ~' m& W; z7 Y5.使用建议:统一目录。即每步生成的文件.xml.bz2,1.txt,2.txt,3.txt都在convert.bat,ZDicToolDirect.exe与ZDicToolDirect.exe同一目录下
+ ]4 f) \- ?* b" W6.修改原因:可能由于个人电脑硬件较差(我的笔记本硬件是CPU i3 M380 2.53GHz,内存2G),也可能是1.txt文件太大,大小近2G,直接用ConvertZ繁简转换1.txt失败。欢迎电脑硬件好的童鞋测试,应该可以通过正常转换。, C6 l! H w" H4 u5 Q0 \2 c* m
7.改进方法:对第2步进行调整,其他内容不变。第2步为分割转换合并,即“2.1对1.txt分割-->2.2对子文件进行ConvertZ繁简转换-2.3合并子文件成2.txt”。9 G# A+ F5 G+ J7 K. |
+ S! J3 W8 V: y改进后的完整方法:( |! t" ~0 C" }
, @* u% X* g9 h5 l4 x1.提取维基内容到txt
8 P5 H8 z- ?- A5 S8 H- O" X: a* P通过修改convert.bat运行,右键可以编辑,里面有具体说明,运行ZDicToolDirect 维基源文件.xml.bz2 1.txt
3 g) o" [, h9 P, G3 G2 V l" D也可以解压维基源文件.xml.bz2,获得维基源文件.xml,运行ZDicToolDirect.py 维基源文件.xml 1.txt9 ~% n. R5 D' U; ?/ n
'''! e, I# ~ _: P: F
如果了解python,可以安装python,然后运行python执行命令。/ ~& T$ g5 [& {+ I% i; X7 m* s
先改工作目录到ZDicToolDirect.py的位置,可以import os,然后os.chdir("目标目录"),然后运行python ZDicToolDirect.py 维基源文件.xml.bz2 1.txt,其他步骤同理。+ ?, ~0 e( T7 l& t" {9 ]
'''0 B! u& o0 @( i0 m/ o
" C( n" t. e+ S$ n1 ?+ a2.繁简转换) N5 \! G, x6 O; j
具体做法:* u- E) [1 B+ N6 g$ z0 b _) V6 S
2.1 对1.txt分割
+ _8 Z% Q1 b2 N! ^1 p2 blinux下用split命令。我试了几个txt分割软件(txt文本分割器1.0,老马的TextForever(FineReader)1.78)处理大文件都不行,后来在linux下用split命令搞定了。split -b 300M 1.txt,可以分成300M一份,名称xa(a...g).txt,共分成7份。具体大小可自动调整。
1 B/ [" { n1 @: x0 g5 b: N关于linux,可能安装比较费时间,webos手机支持split命令,可以在WQI下链接手机一试,文件要放在手机里面,我没试过。
+ K1 K- c; O" T: L3 `# t
, w- F4 E, J, g- }; K" p& \# |2.2 对子文件进行ConvertZ繁简转换
& x; |% x' h! z' d/ i& G回到windows系统,运行ConvertZ,导入子文件,选择GBK-GBK简体,转换即可。其实里面的内容是简体和繁体共存的状态,不细究了。
) z. Y3 q# S9 u4 {#运行时间5分钟5 \! Y" x+ d* m, A
3 u& ]! m. F! x4 T* o2.3 合并子文件成2.txt
0 j# u" T+ e/ P# e( [( x依然在windows下,通过cmd里面的copy命令实现文本可并。运行cmd,然后cd /d 目标目录,进入子文件所在目录,再输入copy xa* 2.txt。
) z5 C( C. b/ |9 n+ _#合并过程3分钟
" w J% k! {4 s5 z) y% o; M
, ]/ b# ^3 c3 N综上所述,通过split+ConvertZ+copy可以在低硬件配置环境下实现1.txt到2.txt的转换。之后再实施3,4布即可。
9 x) u( n( r; b- ^* Q' t% o/ a4 A N7 ~* p1 Y2 k
3.排序8 X/ @ s8 A/ \8 l( R2 g) a" s' q
编辑convert.bat运行ZDicToolDirect -s 2.txt 3.txt " q% @+ e) W1 s- Q+ c) @
#运行时间13分钟; \$ B: H; X$ Y+ u1 \! |, A- O
0 S: w0 S+ n( d7 K5 _$ |* i& V6 ~" E4.产生ZDic 2.60/ZDic2 0.9.3的字典文件
: j2 |2 V' V1 G6 b0 z$ r编辑convert.bat运行ZDic26Tool3 3.txt wiki.pdb" B5 i: o: h& t3 V0 K
#运行时间9分钟3 }1 `9 }$ U8 S+ Z/ I* @3 a
# K; D, }8 U: Q新的中文维基百科字典就搞定了。4 m9 w, z0 G2 g- d5 L. h
- b' r" E% r6 c3 D$ _8 M# z9 f1 k. u3 A0 ?$ N# ]$ f6 H
+ c! X7 G8 h; u } K! Z1 @' D
! T7 x/ k% G4 k! `2 } |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?加入我们
×
评分
-
查看全部评分
|