|
ZDicTool20130426维基百科词典制作工具(基于Wind-Bell ZDicTool20130326改进), @0 b; ]2 X5 [; P0 Q6 T, `
附转换的zhwiki_20130417 百度网盘 http://pan.baidu.com/share/link?shareid=398800&uk=1812231598
* u' i" ~5 t" @$ \& ~6 R* p" t; Y6 z, A N
根据Wind-Bell在2013-3-26 01:44:11提供的转换维基的方法(http://www.treo8.com/bbs/forum.p ... 1&authorid=4654,第8楼文件),做一点补充,解决直接用ConvertZ繁简转换1.txt失败的情况。仅修改第2步,其他不变。
X8 \ S# f7 W) o1 f8 y, QWind-Bell的方法已经非常完善便捷了,向Wind-Bell致敬,同时感谢treo8一直以来对palmos和webos的支持。
$ J; R3 q- {$ o5 S9 I9 Y/ A% c: z) M. S; k
Wind-Bell在2013-3-26 01:44:11方法,如下四步:
% l, s+ K3 k( h1:提取维基内容到txt
4 t+ T, m& W$ b% H4 o. S" R& L" pZDicToolDirect.py 维基源文件 1.txt
) i& G8 ^1 l- a/ `. A. U$ Y9 K2:繁简转换
% U6 O% ?+ J3 S( `. L# y3 l8 r使用ConvertZ转换1.txt为2.txt
% j9 F( G; _7 v. i4 M+ \3:排序
) Q$ E; [6 a% M. @2 WZDicToolDirect.py -s 2.txt 3.txt
0 p ? c z; l4:产生2.60版本的字典文件
3 q3 T5 ^) M- Y0 H- x+ m6 W7 f% w" {ZDic26Tool3.py 3.txt wiki.pdb7 F1 k: I9 _9 w5 \. c, m
$ L( }* F/ m. P5 w改进方法说明:' W7 w& a" v$ |
D1 @- O# R1 l1.软件环境:windows(不需要安装python,.py文件都已用pyinstaller-2.0打包成exe)& \$ w1 w# J8 S6 k/ H) ]$ p
工具:ConvertZ,convert.bat(根据osfans ZDicTool090110内的文件修改),解压工具(可以不用), C% r; t/ S* R, ?. W' u5 u7 `
3.输入:下载中文维基百科源文件,http://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles-multistream.xml.bz2
1 [ r- K! i8 v9 z# Q+ P8 i4.输出:wiki.pdb,支持ZDic 2.60(PalmOS)/ZDic2 0.9.3(WebOS)的字典文件。$ _' I0 q$ v% i
5.使用建议:统一目录。即每步生成的文件.xml.bz2,1.txt,2.txt,3.txt都在convert.bat,ZDicToolDirect.exe与ZDicToolDirect.exe同一目录下$ l, Q. t( o ` V/ _3 \
6.修改原因:可能由于个人电脑硬件较差(我的笔记本硬件是CPU i3 M380 2.53GHz,内存2G),也可能是1.txt文件太大,大小近2G,直接用ConvertZ繁简转换1.txt失败。欢迎电脑硬件好的童鞋测试,应该可以通过正常转换。
7 J3 [. _. Z" {5 g9 s4 S7.改进方法:对第2步进行调整,其他内容不变。第2步为分割转换合并,即“2.1对1.txt分割-->2.2对子文件进行ConvertZ繁简转换-2.3合并子文件成2.txt”。
: i; l, l/ p& d) N! Y3 f. @) W8 ]7 k# D+ ]* z5 d7 K. r$ U
改进后的完整方法:5 Y0 O4 D+ t' U& N
: a+ O, L8 i k/ h7 B1 w1.提取维基内容到txt
4 n# A4 c6 s% T+ I. |8 f通过修改convert.bat运行,右键可以编辑,里面有具体说明,运行ZDicToolDirect 维基源文件.xml.bz2 1.txt
8 J# e, U6 X8 Y5 f也可以解压维基源文件.xml.bz2,获得维基源文件.xml,运行ZDicToolDirect.py 维基源文件.xml 1.txt, s J1 U; ?+ R5 f: F
'''1 ?( I4 a* @/ l0 k, i% T. e
如果了解python,可以安装python,然后运行python执行命令。1 I2 \; C# w( w0 N
先改工作目录到ZDicToolDirect.py的位置,可以import os,然后os.chdir("目标目录"),然后运行python ZDicToolDirect.py 维基源文件.xml.bz2 1.txt,其他步骤同理。
: x8 o+ x O, Q! w7 a# s'''' R' V" A7 V% |9 g
$ A, S8 `( n7 D$ T
2.繁简转换
! ~5 k1 ]" B, X$ p L具体做法:
+ y5 n/ y* g" \7 M2.1 对1.txt分割
6 @- c% z7 n6 H; Ulinux下用split命令。我试了几个txt分割软件(txt文本分割器1.0,老马的TextForever(FineReader)1.78)处理大文件都不行,后来在linux下用split命令搞定了。split -b 300M 1.txt,可以分成300M一份,名称xa(a...g).txt,共分成7份。具体大小可自动调整。
- n& }" v) j0 O关于linux,可能安装比较费时间,webos手机支持split命令,可以在WQI下链接手机一试,文件要放在手机里面,我没试过。
) |4 k7 J8 O6 {& Y: o/ B( d/ k; G& P: b- F2 i; A& n3 q8 G
2.2 对子文件进行ConvertZ繁简转换
/ A# u8 u& L6 s- x# x7 H8 j& v回到windows系统,运行ConvertZ,导入子文件,选择GBK-GBK简体,转换即可。其实里面的内容是简体和繁体共存的状态,不细究了。4 U8 B4 s" W' w8 T
#运行时间5分钟
) Z( g$ |. [2 J) p
" k7 d, ?! X6 H2 s+ \3 C3 v& x2.3 合并子文件成2.txt" [- ?" a, q4 s- H- Q
依然在windows下,通过cmd里面的copy命令实现文本可并。运行cmd,然后cd /d 目标目录,进入子文件所在目录,再输入copy xa* 2.txt。5 l4 V: N& T! F( H. o' B" K) M, U
#合并过程3分钟
* J: d* @. l2 [2 }- S( A! @, I) ?$ S% _- T, w1 y8 ~
综上所述,通过split+ConvertZ+copy可以在低硬件配置环境下实现1.txt到2.txt的转换。之后再实施3,4布即可。
+ T# ~) W8 t+ z/ \1 N- X6 b$ ~& G- U: y# ^( N3 z Z2 l. i1 Z8 p, s
3.排序
& p( x: i' _# B& a1 E5 S5 x7 [2 N9 o( `编辑convert.bat运行ZDicToolDirect -s 2.txt 3.txt ! K1 e- \2 g" U$ Y
#运行时间13分钟! o6 V- ]. D& o$ Y
- y7 I/ D8 ^( T+ w4.产生ZDic 2.60/ZDic2 0.9.3的字典文件+ S" w" }$ Y. B" u. q' i
编辑convert.bat运行ZDic26Tool3 3.txt wiki.pdb
/ i: d% |* m$ F; w( Q, T#运行时间9分钟# _5 s5 g8 ^8 s6 K U: g1 c/ m4 F
! u: i' g7 l: }4 Z* y2 V7 ^新的中文维基百科字典就搞定了。8 {. }3 I) m/ G9 J$ B3 E! T
- I! v# J, p8 D6 i% |
* }, L; V. E6 Y
! f- I6 n6 @! X) f) G
6 C2 b3 }$ b1 t, f& d* ?* u |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?加入我们
×
评分
-
查看全部评分
|