|
ZDicTool20130426维基百科词典制作工具(基于Wind-Bell ZDicTool20130326改进). O- S% I) R+ u3 h W9 D" M
附转换的zhwiki_20130417 百度网盘 http://pan.baidu.com/share/link?shareid=398800&uk=1812231598
0 A0 S# ]/ |* ~+ P( k4 M9 P9 {4 d3 m3 h8 ^8 L( g
根据Wind-Bell在2013-3-26 01:44:11提供的转换维基的方法(http://www.treo8.com/bbs/forum.p ... 1&authorid=4654,第8楼文件),做一点补充,解决直接用ConvertZ繁简转换1.txt失败的情况。仅修改第2步,其他不变。6 r, ~ P; b; N# K+ s
Wind-Bell的方法已经非常完善便捷了,向Wind-Bell致敬,同时感谢treo8一直以来对palmos和webos的支持。! ?' R) x ?% X
8 P) a* `; }, s
Wind-Bell在2013-3-26 01:44:11方法,如下四步:
! P [- s2 @1 i( W' o1:提取维基内容到txt) B- n5 Z Z! i6 a# h& ?0 H2 u
ZDicToolDirect.py 维基源文件 1.txt6 s) k. r, h/ H# u, }* v
2:繁简转换
" ~5 a# S" J. w* p3 p$ z# n: m7 _使用ConvertZ转换1.txt为2.txt
3 |: i3 g# N! P: @3:排序. ]1 o" H1 Q! W0 [% a" Y
ZDicToolDirect.py -s 2.txt 3.txt
: m7 I! J* y; \) B- k4:产生2.60版本的字典文件5 Q* @) d! X, W2 b$ v& Q
ZDic26Tool3.py 3.txt wiki.pdb
6 w2 N7 {- N9 p- ]; {: V
; x: b8 c4 Y% o8 m8 s! ~改进方法说明:- L' r' K- Z, q2 M' x9 ], y8 r& l
9 T: ~1 @% S# S) b' U% ?$ I6 C+ _1.软件环境:windows(不需要安装python,.py文件都已用pyinstaller-2.0打包成exe). q) X* X3 S- q2 C/ s
工具:ConvertZ,convert.bat(根据osfans ZDicTool090110内的文件修改),解压工具(可以不用)
$ {' W% Q8 n" f8 M- s j# Z/ z3.输入:下载中文维基百科源文件,http://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles-multistream.xml.bz2
( ?* _7 e% D2 b1 X- o1 x, m( w4.输出:wiki.pdb,支持ZDic 2.60(PalmOS)/ZDic2 0.9.3(WebOS)的字典文件。' F! z, Z8 C8 t- [
5.使用建议:统一目录。即每步生成的文件.xml.bz2,1.txt,2.txt,3.txt都在convert.bat,ZDicToolDirect.exe与ZDicToolDirect.exe同一目录下* y9 _6 _8 o7 z$ N" j4 W
6.修改原因:可能由于个人电脑硬件较差(我的笔记本硬件是CPU i3 M380 2.53GHz,内存2G),也可能是1.txt文件太大,大小近2G,直接用ConvertZ繁简转换1.txt失败。欢迎电脑硬件好的童鞋测试,应该可以通过正常转换。
! X6 h# Z8 Z- ^# q M7 d7.改进方法:对第2步进行调整,其他内容不变。第2步为分割转换合并,即“2.1对1.txt分割-->2.2对子文件进行ConvertZ繁简转换-2.3合并子文件成2.txt”。
: h0 Y8 a' W: O( C
Z' e% x. k9 y8 ^2 U4 q改进后的完整方法:" D: _4 O: H# I
# Z0 g3 [. I; r0 b5 ^1 c1.提取维基内容到txt- ?. a; b' l2 y* {8 x+ ^
通过修改convert.bat运行,右键可以编辑,里面有具体说明,运行ZDicToolDirect 维基源文件.xml.bz2 1.txt: F2 |3 x& p( @4 V
也可以解压维基源文件.xml.bz2,获得维基源文件.xml,运行ZDicToolDirect.py 维基源文件.xml 1.txt
- R/ a7 k6 q, x& f7 n'''
: \5 W: s& M) d% b3 E6 |. I如果了解python,可以安装python,然后运行python执行命令。, `" x/ J! l/ ? ]9 I
先改工作目录到ZDicToolDirect.py的位置,可以import os,然后os.chdir("目标目录"),然后运行python ZDicToolDirect.py 维基源文件.xml.bz2 1.txt,其他步骤同理。7 |/ o8 W% D- c
'''/ A3 E5 A% n5 m, S3 L$ A
( S& C$ V6 H1 d- A. b2.繁简转换2 A1 R2 t1 k) m+ H
具体做法:& L! l5 e1 V2 l- b6 I
2.1 对1.txt分割
7 X4 c$ ^: ~. i" L a2 M" z( l" P/ Slinux下用split命令。我试了几个txt分割软件(txt文本分割器1.0,老马的TextForever(FineReader)1.78)处理大文件都不行,后来在linux下用split命令搞定了。split -b 300M 1.txt,可以分成300M一份,名称xa(a...g).txt,共分成7份。具体大小可自动调整。
6 V5 J" [0 Z; }7 [关于linux,可能安装比较费时间,webos手机支持split命令,可以在WQI下链接手机一试,文件要放在手机里面,我没试过。
- [/ I6 T. O8 H7 |- Y, l; S$ x
1 d1 h0 S; ]/ l- d+ F0 `# ~; U8 A2.2 对子文件进行ConvertZ繁简转换% W* N8 Y8 ~3 g9 m5 @
回到windows系统,运行ConvertZ,导入子文件,选择GBK-GBK简体,转换即可。其实里面的内容是简体和繁体共存的状态,不细究了。) Q% Y& s& s) O1 h N
#运行时间5分钟0 f: Z) p0 L8 U8 {6 j
+ z; j4 \/ ^& H6 a2.3 合并子文件成2.txt
8 p/ n+ \) U8 w z1 \9 u$ d依然在windows下,通过cmd里面的copy命令实现文本可并。运行cmd,然后cd /d 目标目录,进入子文件所在目录,再输入copy xa* 2.txt。3 p e0 `* b! p8 I2 [6 ^/ j/ d3 ?
#合并过程3分钟
( q- P6 j1 m3 J
# {4 ~% S; J1 S. y综上所述,通过split+ConvertZ+copy可以在低硬件配置环境下实现1.txt到2.txt的转换。之后再实施3,4布即可。
6 ` l/ `" c! g* \$ R A' R* m
& n5 l& D, {) d: \: [' Y& h+ c3.排序
$ E+ @/ n; f% w% ^- B5 u8 R编辑convert.bat运行ZDicToolDirect -s 2.txt 3.txt
. f6 V5 D7 T: z( P4 U, r& Q4 ^0 f#运行时间13分钟$ H' O: y+ s& E4 E8 J
& B+ J" D, C2 f+ }4.产生ZDic 2.60/ZDic2 0.9.3的字典文件; O( }- P& X" i- w& u/ z5 a- _
编辑convert.bat运行ZDic26Tool3 3.txt wiki.pdb
9 J$ Y+ a$ B3 p; ^1 h( c% R#运行时间9分钟
8 B) z5 l8 v1 N
& z' n; y! G3 Y( }% @' p3 B新的中文维基百科字典就搞定了。
E& U0 B6 @" q) J5 K3 m5 n0 ]0 V2 Q/ |
z5 W) j- i8 G8 j) B; u
4 P& \) u3 j4 O y G. I2 D; Q$ i' N# J4 H; E) R6 w
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?加入我们
×
评分
-
查看全部评分
|