|
ZDicTool20130426维基百科词典制作工具(基于Wind-Bell ZDicTool20130326改进)# m; }5 |4 x) x
附转换的zhwiki_20130417 百度网盘 http://pan.baidu.com/share/link?shareid=398800&uk=1812231598
2 W4 b" z5 @- q7 n6 K, }0 W; O
8 P; Q5 y% y+ B5 M: O. z4 e6 z& I根据Wind-Bell在2013-3-26 01:44:11提供的转换维基的方法(http://www.treo8.com/bbs/forum.p ... 1&authorid=4654,第8楼文件),做一点补充,解决直接用ConvertZ繁简转换1.txt失败的情况。仅修改第2步,其他不变。; Y+ L. e% _4 M% [
Wind-Bell的方法已经非常完善便捷了,向Wind-Bell致敬,同时感谢treo8一直以来对palmos和webos的支持。
( X& }$ _9 P1 ^) I
: @- E8 v! r" I+ p/ [$ t" b' j* k3 LWind-Bell在2013-3-26 01:44:11方法,如下四步:
* x( ]4 u- r: }1:提取维基内容到txt* d1 z# a8 [% \4 M q
ZDicToolDirect.py 维基源文件 1.txt
7 T6 ^0 C1 z, [4 X T: i8 A5 U& \2:繁简转换3 G5 x4 S" t+ y+ ]9 G! ^
使用ConvertZ转换1.txt为2.txt
, P6 ? p- T' ]7 e# f9 m( H X3:排序# F4 P( v4 z! v' ?; ]
ZDicToolDirect.py -s 2.txt 3.txt
Q' u8 r# [& q& k/ V) w4 C4:产生2.60版本的字典文件; A" N; n5 a! k6 ~$ Z+ J1 ?
ZDic26Tool3.py 3.txt wiki.pdb
2 I7 n$ e6 A; i* e* n# P- X1 Q/ N7 Y. z" Z
改进方法说明:7 U' _% n/ k* N, Y
5 |% u }! L \$ J1 a$ U( c* t* ]1.软件环境:windows(不需要安装python,.py文件都已用pyinstaller-2.0打包成exe)/ p$ ^1 h4 k. [* h- T1 O
工具:ConvertZ,convert.bat(根据osfans ZDicTool090110内的文件修改),解压工具(可以不用)
. S% M j& {1 f4 [4 \0 s3.输入:下载中文维基百科源文件,http://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles-multistream.xml.bz2
$ g3 y7 ^- _& R( {) P* B4.输出:wiki.pdb,支持ZDic 2.60(PalmOS)/ZDic2 0.9.3(WebOS)的字典文件。0 f Z& v6 C. y. g- S
5.使用建议:统一目录。即每步生成的文件.xml.bz2,1.txt,2.txt,3.txt都在convert.bat,ZDicToolDirect.exe与ZDicToolDirect.exe同一目录下+ e5 B9 ^$ m N, e
6.修改原因:可能由于个人电脑硬件较差(我的笔记本硬件是CPU i3 M380 2.53GHz,内存2G),也可能是1.txt文件太大,大小近2G,直接用ConvertZ繁简转换1.txt失败。欢迎电脑硬件好的童鞋测试,应该可以通过正常转换。
5 j8 F% i# | \& @7.改进方法:对第2步进行调整,其他内容不变。第2步为分割转换合并,即“2.1对1.txt分割-->2.2对子文件进行ConvertZ繁简转换-2.3合并子文件成2.txt”。0 U/ Q0 Z; {1 B, \. z$ v! Z
9 C! u: y1 S/ ?1 ^改进后的完整方法:( e! @0 x1 O0 T* Q5 V# ]$ d2 z
* B# {/ m) `2 i) ]; r
1.提取维基内容到txt
, a; R3 C) ]) h9 W通过修改convert.bat运行,右键可以编辑,里面有具体说明,运行ZDicToolDirect 维基源文件.xml.bz2 1.txt$ f( _- I ]/ f- s# E
也可以解压维基源文件.xml.bz2,获得维基源文件.xml,运行ZDicToolDirect.py 维基源文件.xml 1.txt2 N1 b8 F2 _! N- I
'''+ e/ Y7 a/ l1 i4 \# ?
如果了解python,可以安装python,然后运行python执行命令。3 J) k' H) t4 @" a( v4 J9 ]
先改工作目录到ZDicToolDirect.py的位置,可以import os,然后os.chdir("目标目录"),然后运行python ZDicToolDirect.py 维基源文件.xml.bz2 1.txt,其他步骤同理。
, c* A& b4 v; x' h, \) z'''' t Y4 w1 K3 ]" B
3 O6 k! { J8 N" h' p: c
2.繁简转换
! @8 s2 z* X' V具体做法:
9 E" \$ L( i) ~* M$ z9 ?2.1 对1.txt分割7 S) S! V9 X/ X( V* h) p
linux下用split命令。我试了几个txt分割软件(txt文本分割器1.0,老马的TextForever(FineReader)1.78)处理大文件都不行,后来在linux下用split命令搞定了。split -b 300M 1.txt,可以分成300M一份,名称xa(a...g).txt,共分成7份。具体大小可自动调整。
$ t+ b5 A7 ]; D: D& r o0 V关于linux,可能安装比较费时间,webos手机支持split命令,可以在WQI下链接手机一试,文件要放在手机里面,我没试过。
$ Z4 p2 o2 U3 p* V% A: W% A! S; j% U+ k9 ~
2.2 对子文件进行ConvertZ繁简转换
/ n+ Q( T9 r% V3 A' g回到windows系统,运行ConvertZ,导入子文件,选择GBK-GBK简体,转换即可。其实里面的内容是简体和繁体共存的状态,不细究了。" h+ p9 b, R$ x0 H8 r( O
#运行时间5分钟' T3 d _* u, o+ `& x+ h
( P, F: f8 m L+ k& P9 f
2.3 合并子文件成2.txt
4 j* V. \" h4 L0 P3 y8 w依然在windows下,通过cmd里面的copy命令实现文本可并。运行cmd,然后cd /d 目标目录,进入子文件所在目录,再输入copy xa* 2.txt。; s* Z1 G& j7 f4 d0 Q1 m
#合并过程3分钟
" q- }. i2 {' g: c) a7 H E9 e; f- ~! R
综上所述,通过split+ConvertZ+copy可以在低硬件配置环境下实现1.txt到2.txt的转换。之后再实施3,4布即可。3 S# @3 _& Q" L- _7 Z
* W" I' s& D% G5 o. C# G3.排序4 {0 n( x5 A) Z4 N0 X$ N$ }* p. L1 l
编辑convert.bat运行ZDicToolDirect -s 2.txt 3.txt
- U( u8 j. E7 F% A( m+ G#运行时间13分钟2 R- A, o) }% U w5 c
5 v" e% n' x0 R6 i6 j# O
4.产生ZDic 2.60/ZDic2 0.9.3的字典文件+ I" m1 t) R# o' U) ~0 X* u9 O4 b
编辑convert.bat运行ZDic26Tool3 3.txt wiki.pdb
$ ?1 R4 H! p, R5 P6 s#运行时间9分钟
) x% |# |# J# a6 Y/ o; ^- W; ^ r/ a8 E/ \# I" n
新的中文维基百科字典就搞定了。
: S3 I' w' B- P! ?5 d
! T! I- O9 d4 Z4 F
2 @$ m2 |3 q) G* ?0 E# k
& ~7 A4 d3 M- c! U5 Z( {# l8 V0 X5 Q8 K
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?加入我们
×
评分
-
查看全部评分
|