|
ZDicTool20130426维基百科词典制作工具(基于Wind-Bell ZDicTool20130326改进), u3 L% J1 b1 d4 n
附转换的zhwiki_20130417 百度网盘 http://pan.baidu.com/share/link?shareid=398800&uk=1812231598
4 g9 o6 w' m* @
% ?- [$ K9 M* \7 Z5 x& l根据Wind-Bell在2013-3-26 01:44:11提供的转换维基的方法(http://www.treo8.com/bbs/forum.p ... 1&authorid=4654,第8楼文件),做一点补充,解决直接用ConvertZ繁简转换1.txt失败的情况。仅修改第2步,其他不变。1 ^8 A: M5 b$ ?
Wind-Bell的方法已经非常完善便捷了,向Wind-Bell致敬,同时感谢treo8一直以来对palmos和webos的支持。
3 ?# A3 M) k+ L6 b2 R# f- j7 i3 D9 z. x( F
Wind-Bell在2013-3-26 01:44:11方法,如下四步:% b4 z: d: A6 P K
1:提取维基内容到txt
) S1 C+ L' v) a. d! b% C nZDicToolDirect.py 维基源文件 1.txt4 A6 g. E# {6 p4 }( Y* K
2:繁简转换" y0 M+ g; O' Q N5 R' i+ Q$ M
使用ConvertZ转换1.txt为2.txt
- t1 P. \ R8 I3:排序
' y2 I4 C1 ?& m5 pZDicToolDirect.py -s 2.txt 3.txt+ d" l8 L* f, X, ~) i6 x/ t7 R, D
4:产生2.60版本的字典文件3 {3 }+ g& r3 X: B: G) }& Z0 s3 N1 Y! l
ZDic26Tool3.py 3.txt wiki.pdb
4 H* M- B! n* v1 @
+ g: G( Z1 J) s; w! E8 `改进方法说明:
, ^' X2 Z8 r' z* }( e
* u. w E$ B4 g: d1.软件环境:windows(不需要安装python,.py文件都已用pyinstaller-2.0打包成exe)
6 k: C( T& x& z `) _工具:ConvertZ,convert.bat(根据osfans ZDicTool090110内的文件修改),解压工具(可以不用), t. x7 p2 E; N; e
3.输入:下载中文维基百科源文件,http://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles-multistream.xml.bz2$ ]4 r" p/ @" J& t( x
4.输出:wiki.pdb,支持ZDic 2.60(PalmOS)/ZDic2 0.9.3(WebOS)的字典文件。
s+ d6 B* i4 D- j' m0 c$ N* a5.使用建议:统一目录。即每步生成的文件.xml.bz2,1.txt,2.txt,3.txt都在convert.bat,ZDicToolDirect.exe与ZDicToolDirect.exe同一目录下- Z1 M6 }9 D1 q J6 p
6.修改原因:可能由于个人电脑硬件较差(我的笔记本硬件是CPU i3 M380 2.53GHz,内存2G),也可能是1.txt文件太大,大小近2G,直接用ConvertZ繁简转换1.txt失败。欢迎电脑硬件好的童鞋测试,应该可以通过正常转换。% ?( n2 ~3 `0 C' t3 L
7.改进方法:对第2步进行调整,其他内容不变。第2步为分割转换合并,即“2.1对1.txt分割-->2.2对子文件进行ConvertZ繁简转换-2.3合并子文件成2.txt”。) K& f: K7 j* g6 e( Y7 e
% q6 |2 i3 G* e, Y3 ~0 ]) V. ?
改进后的完整方法:
2 {3 W* w. `8 Z, w, ?, H$ S5 F9 m; Z1 R
1.提取维基内容到txt
7 p* ^; N) Y# n3 b通过修改convert.bat运行,右键可以编辑,里面有具体说明,运行ZDicToolDirect 维基源文件.xml.bz2 1.txt4 l' d) Z% O, q" [4 X) w( L
也可以解压维基源文件.xml.bz2,获得维基源文件.xml,运行ZDicToolDirect.py 维基源文件.xml 1.txt& J8 i: b- c9 A/ E& F8 p
'''
6 W/ C. M9 n3 Y如果了解python,可以安装python,然后运行python执行命令。) E( v% Z, u5 Q. k" p( S# c5 _- }
先改工作目录到ZDicToolDirect.py的位置,可以import os,然后os.chdir("目标目录"),然后运行python ZDicToolDirect.py 维基源文件.xml.bz2 1.txt,其他步骤同理。8 J4 A: o$ e t- J* R6 V
'''' b! r" m4 a; E
0 H, _' L3 ~8 U0 ] s
2.繁简转换 k. e3 U1 G7 ~5 Q! C0 o0 x
具体做法:
1 f9 C: W6 {" K. S# `: Z2.1 对1.txt分割
& f1 } @) ]2 D5 |2 F- Dlinux下用split命令。我试了几个txt分割软件(txt文本分割器1.0,老马的TextForever(FineReader)1.78)处理大文件都不行,后来在linux下用split命令搞定了。split -b 300M 1.txt,可以分成300M一份,名称xa(a...g).txt,共分成7份。具体大小可自动调整。
% l6 B9 n( V$ D/ y0 u( }9 k/ q+ A关于linux,可能安装比较费时间,webos手机支持split命令,可以在WQI下链接手机一试,文件要放在手机里面,我没试过。# U. Q# a5 ?& N0 N- F
" }/ g3 J8 e6 D, }2.2 对子文件进行ConvertZ繁简转换
' ?7 S# y) D2 P, u9 K* `回到windows系统,运行ConvertZ,导入子文件,选择GBK-GBK简体,转换即可。其实里面的内容是简体和繁体共存的状态,不细究了。$ w8 Y' ?, C' [2 g( N" ?" q
#运行时间5分钟 _6 Q! E7 c1 N8 U( s" v+ [
' c3 d1 r T/ `" F2 O+ m7 g
2.3 合并子文件成2.txt
9 s, ] p2 w1 B5 K. r0 z/ f4 S$ U1 z& {; |依然在windows下,通过cmd里面的copy命令实现文本可并。运行cmd,然后cd /d 目标目录,进入子文件所在目录,再输入copy xa* 2.txt。
9 s# i* p, a C& L. t P#合并过程3分钟/ ^ P& e& m B$ G
5 p8 f$ b, l) ?4 T1 W9 s# n5 I综上所述,通过split+ConvertZ+copy可以在低硬件配置环境下实现1.txt到2.txt的转换。之后再实施3,4布即可。
, _$ H7 c7 L: o) Z4 A# ~* i
! \4 G) a- c& V% X3.排序; r. _0 w3 k$ |1 t1 c
编辑convert.bat运行ZDicToolDirect -s 2.txt 3.txt
( {' v% R% Z X1 I% `#运行时间13分钟
$ t3 I8 ?# ]7 \! ~3 R* @* c
& G4 q7 N" e9 U' W+ S4.产生ZDic 2.60/ZDic2 0.9.3的字典文件3 z9 d% Y) n( O4 L. @/ @
编辑convert.bat运行ZDic26Tool3 3.txt wiki.pdb6 ^2 L1 n* U3 P! N
#运行时间9分钟
, D! @) G( `0 I$ M! x$ d
/ a' k5 s* l! s$ V新的中文维基百科字典就搞定了。' t( y2 M5 I* |+ u* O: A
* T# b1 @+ h/ F4 p i& I
! ~8 [* {* s% P* V3 d- N1 x! X
7 N/ I% @1 y2 u) B+ L' g& d. [& h$ b y) E1 [) {( g
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?加入我们
×
评分
-
查看全部评分
|