|
ZDicTool20130426维基百科词典制作工具(基于Wind-Bell ZDicTool20130326改进)9 t* q6 Z2 t( n) M, T+ n6 ~
附转换的zhwiki_20130417 百度网盘 http://pan.baidu.com/share/link?shareid=398800&uk=1812231598
- R; z( _, q, V0 ]+ T0 S9 J' }
$ h" u2 |' q N& M' c0 t, X根据Wind-Bell在2013-3-26 01:44:11提供的转换维基的方法(http://www.treo8.com/bbs/forum.p ... 1&authorid=4654,第8楼文件),做一点补充,解决直接用ConvertZ繁简转换1.txt失败的情况。仅修改第2步,其他不变。
3 v k1 R2 S4 y3 AWind-Bell的方法已经非常完善便捷了,向Wind-Bell致敬,同时感谢treo8一直以来对palmos和webos的支持。. a9 B; d% ~" D2 U0 q; t o
1 A8 g; v! K$ V' }8 C
Wind-Bell在2013-3-26 01:44:11方法,如下四步:
. Q6 q- Q) _4 ]% }8 f1:提取维基内容到txt, W& K5 R, f' V) _7 i% t' M% D) {
ZDicToolDirect.py 维基源文件 1.txt* i, T; E0 {5 k
2:繁简转换
% W2 P2 B3 |$ z- ?使用ConvertZ转换1.txt为2.txt
2 I6 u6 H* i4 L; ^+ n; q3:排序8 G- J. S& H. B$ G, w
ZDicToolDirect.py -s 2.txt 3.txt& W7 G3 Y0 ?' p" z# `
4:产生2.60版本的字典文件% a' K) I9 x" s. w( n: h
ZDic26Tool3.py 3.txt wiki.pdb% H q3 S3 ~) W; P* u( l# C
; u- g' @1 k0 z改进方法说明: d' b6 \0 K F5 u& h- z! h
8 B [3 t$ F8 D0 q- j9 I5 \% R* |6 _1.软件环境:windows(不需要安装python,.py文件都已用pyinstaller-2.0打包成exe)
( }7 M0 \' b* N! l) k, f6 S% N工具:ConvertZ,convert.bat(根据osfans ZDicTool090110内的文件修改),解压工具(可以不用)- r& l' T4 e+ ?; x
3.输入:下载中文维基百科源文件,http://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles-multistream.xml.bz2
( Z G; J* C7 N, i4.输出:wiki.pdb,支持ZDic 2.60(PalmOS)/ZDic2 0.9.3(WebOS)的字典文件。0 Z% N) a4 G3 p, ^" ^
5.使用建议:统一目录。即每步生成的文件.xml.bz2,1.txt,2.txt,3.txt都在convert.bat,ZDicToolDirect.exe与ZDicToolDirect.exe同一目录下5 f* m/ ^& y5 I& T
6.修改原因:可能由于个人电脑硬件较差(我的笔记本硬件是CPU i3 M380 2.53GHz,内存2G),也可能是1.txt文件太大,大小近2G,直接用ConvertZ繁简转换1.txt失败。欢迎电脑硬件好的童鞋测试,应该可以通过正常转换。
* ^2 z2 `- ?7 D0 w# s" R( l7.改进方法:对第2步进行调整,其他内容不变。第2步为分割转换合并,即“2.1对1.txt分割-->2.2对子文件进行ConvertZ繁简转换-2.3合并子文件成2.txt”。1 @# P, k. q# U
8 }& B0 ~! n! U' H改进后的完整方法: i$ D4 L* \) B/ |0 g+ P
8 `: G. @6 p, ?9 l! u1.提取维基内容到txt
8 Q3 g- B! d O- O# Z# h4 h通过修改convert.bat运行,右键可以编辑,里面有具体说明,运行ZDicToolDirect 维基源文件.xml.bz2 1.txt" J* {0 p. M& I0 I6 a& F+ T
也可以解压维基源文件.xml.bz2,获得维基源文件.xml,运行ZDicToolDirect.py 维基源文件.xml 1.txt
- T& C, v3 q3 F" D* C6 s6 Y) h- U% T'''$ c9 B/ r( ^- X) j! b- \
如果了解python,可以安装python,然后运行python执行命令。
/ S- m+ Z3 ~% A3 {, [. v, S先改工作目录到ZDicToolDirect.py的位置,可以import os,然后os.chdir("目标目录"),然后运行python ZDicToolDirect.py 维基源文件.xml.bz2 1.txt,其他步骤同理。
" o, U0 Q. `; E3 Y1 T/ l5 A7 U5 [9 }1 J''', U% \; ]+ w7 R0 h6 w( M# z! _% ]( n
/ [$ o; Q% X+ n* W0 o
2.繁简转换8 S- j* C; p. ?8 Z- c; b5 H! Q o
具体做法:' D1 H5 S( @, u+ H
2.1 对1.txt分割
6 y1 Y8 c8 ]/ k0 @. d9 w Ulinux下用split命令。我试了几个txt分割软件(txt文本分割器1.0,老马的TextForever(FineReader)1.78)处理大文件都不行,后来在linux下用split命令搞定了。split -b 300M 1.txt,可以分成300M一份,名称xa(a...g).txt,共分成7份。具体大小可自动调整。& V! @! Q7 S% `4 ?% \
关于linux,可能安装比较费时间,webos手机支持split命令,可以在WQI下链接手机一试,文件要放在手机里面,我没试过。
; R% d ]: x8 M7 m. y3 }
5 U8 M9 N: {$ T3 c9 j: `2.2 对子文件进行ConvertZ繁简转换% e# E5 g) z* ?
回到windows系统,运行ConvertZ,导入子文件,选择GBK-GBK简体,转换即可。其实里面的内容是简体和繁体共存的状态,不细究了。5 `" y6 w, G% b* o
#运行时间5分钟: v) _, }2 U: b8 s$ i
7 X8 D, `, e+ X0 D- I# Z( p/ ^2 \+ L1 e
2.3 合并子文件成2.txt
" @( v0 J9 a4 ` n0 C: @# {% W& K依然在windows下,通过cmd里面的copy命令实现文本可并。运行cmd,然后cd /d 目标目录,进入子文件所在目录,再输入copy xa* 2.txt。
: p+ f/ Q# s1 ]0 Q5 h#合并过程3分钟
# x9 }/ {; Q3 e; u. v- U. S0 s7 z, B1 m0 v3 r
综上所述,通过split+ConvertZ+copy可以在低硬件配置环境下实现1.txt到2.txt的转换。之后再实施3,4布即可。
$ h C- r& h9 l( y/ {0 V
& Q8 F3 U, Q$ @# z3.排序5 T$ B: s3 H1 B. d6 C( t6 O
编辑convert.bat运行ZDicToolDirect -s 2.txt 3.txt $ S. n: }% \" ]" g$ X
#运行时间13分钟
9 d# d3 \$ e( J2 Q U6 H# s. U) r! U! u. U/ h
4.产生ZDic 2.60/ZDic2 0.9.3的字典文件
) h; Q, e, \, N编辑convert.bat运行ZDic26Tool3 3.txt wiki.pdb p$ P5 d9 i- w" m2 V
#运行时间9分钟
( p( e1 T- Y- [& N1 H
( D1 K" W% F9 s E/ G W+ A新的中文维基百科字典就搞定了。
. c1 J1 l) {9 J& R7 S' g4 D0 s. [. b% w0 E' Q* M
2 m: Y( T: U8 p/ U
# v# |* c2 T. G7 V
/ a: c+ L2 F3 G |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?加入我们
×
评分
-
查看全部评分
|