|
ZDicTool20130426维基百科词典制作工具(基于Wind-Bell ZDicTool20130326改进)3 ?/ y8 }) ]- T1 P& i; m% o5 |
附转换的zhwiki_20130417 百度网盘 http://pan.baidu.com/share/link?shareid=398800&uk=1812231598
" U) e8 q' c$ @$ y. [0 ]& B
5 p- H/ o# s- |& h$ t; M* V b根据Wind-Bell在2013-3-26 01:44:11提供的转换维基的方法(http://www.treo8.com/bbs/forum.p ... 1&authorid=4654,第8楼文件),做一点补充,解决直接用ConvertZ繁简转换1.txt失败的情况。仅修改第2步,其他不变。+ v+ I2 V9 v k) b1 j: C1 b
Wind-Bell的方法已经非常完善便捷了,向Wind-Bell致敬,同时感谢treo8一直以来对palmos和webos的支持。
* v3 ~$ g8 S7 m3 f+ f2 r! A" V$ E* N. f% o( b
4 M& Q. S( \0 mWind-Bell在2013-3-26 01:44:11方法,如下四步:
) s" |& U# a! X. h' t1:提取维基内容到txt
. j5 ?# J T; l7 N3 a. Q/ V) j& WZDicToolDirect.py 维基源文件 1.txt
5 j8 |0 n4 S4 Q# f" J; [8 w: S2:繁简转换9 W+ L- i6 {! b! N" c0 }" Q
使用ConvertZ转换1.txt为2.txt7 h [+ P. v3 V! F3 N
3:排序7 y: p7 c& ~. R* c. B3 u! _
ZDicToolDirect.py -s 2.txt 3.txt$ i- U [' ?: q$ G$ H
4:产生2.60版本的字典文件; u' {: n7 I7 x3 `6 M/ T
ZDic26Tool3.py 3.txt wiki.pdb) T5 Z3 M* \ l4 T4 M
1 [0 @1 A- x# k1 Q* q& Q. a改进方法说明:
4 L% a" l6 z9 T0 G8 c" v8 t' b$ B( G" y- l
1.软件环境:windows(不需要安装python,.py文件都已用pyinstaller-2.0打包成exe)
, c* N; @3 d# I0 W1 R工具:ConvertZ,convert.bat(根据osfans ZDicTool090110内的文件修改),解压工具(可以不用)
1 b' o' H0 ?: `1 |* r3.输入:下载中文维基百科源文件,http://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles-multistream.xml.bz2
" e; I1 x' `1 X# X) |$ H! |4 s- @4.输出:wiki.pdb,支持ZDic 2.60(PalmOS)/ZDic2 0.9.3(WebOS)的字典文件。! G9 r+ M) }4 ]- {
5.使用建议:统一目录。即每步生成的文件.xml.bz2,1.txt,2.txt,3.txt都在convert.bat,ZDicToolDirect.exe与ZDicToolDirect.exe同一目录下8 g* B2 L. C, v2 ?6 p
6.修改原因:可能由于个人电脑硬件较差(我的笔记本硬件是CPU i3 M380 2.53GHz,内存2G),也可能是1.txt文件太大,大小近2G,直接用ConvertZ繁简转换1.txt失败。欢迎电脑硬件好的童鞋测试,应该可以通过正常转换。
1 j! a- g0 ]! R3 |7 A! j% V/ n7.改进方法:对第2步进行调整,其他内容不变。第2步为分割转换合并,即“2.1对1.txt分割-->2.2对子文件进行ConvertZ繁简转换-2.3合并子文件成2.txt”。* A6 g/ N# q N# C1 Y' L3 S! k
r+ z1 ]8 [+ D b3 I* F* C. s3 e
改进后的完整方法:
3 u/ N+ r- m3 m ]3 o" Q
7 C; x; d8 \2 U1.提取维基内容到txt
; {5 s3 J/ V/ X3 O, d通过修改convert.bat运行,右键可以编辑,里面有具体说明,运行ZDicToolDirect 维基源文件.xml.bz2 1.txt* {% I( Q% O$ ^( }% k
也可以解压维基源文件.xml.bz2,获得维基源文件.xml,运行ZDicToolDirect.py 维基源文件.xml 1.txt- `( W- U* t4 |6 c
'''
9 {4 p: S2 }- R+ a如果了解python,可以安装python,然后运行python执行命令。7 u9 a; t# s- _7 l# b0 j
先改工作目录到ZDicToolDirect.py的位置,可以import os,然后os.chdir("目标目录"),然后运行python ZDicToolDirect.py 维基源文件.xml.bz2 1.txt,其他步骤同理。
8 J) ?& B/ m1 d" i1 m6 N, N: p'''
' k, W/ b2 `* @8 c( F8 P! g: n# J1 d
2.繁简转换. z4 f" D- A, x) t4 o" _
具体做法:
/ B; z% s3 z! m2.1 对1.txt分割. w; _0 P! `. G0 W8 S, D& }" L
linux下用split命令。我试了几个txt分割软件(txt文本分割器1.0,老马的TextForever(FineReader)1.78)处理大文件都不行,后来在linux下用split命令搞定了。split -b 300M 1.txt,可以分成300M一份,名称xa(a...g).txt,共分成7份。具体大小可自动调整。
7 H2 h0 g9 B! p: M' w关于linux,可能安装比较费时间,webos手机支持split命令,可以在WQI下链接手机一试,文件要放在手机里面,我没试过。+ J& [" M6 K8 j0 P/ B
' K6 W, G1 `% p5 w7 [2.2 对子文件进行ConvertZ繁简转换
" n" \0 c* g, |回到windows系统,运行ConvertZ,导入子文件,选择GBK-GBK简体,转换即可。其实里面的内容是简体和繁体共存的状态,不细究了。- r6 K& |. v; ~: ?, k
#运行时间5分钟' i, g; P3 N& Q; d
4 E# K6 n; @" \7 f- L* V2.3 合并子文件成2.txt0 ~7 Y5 o9 ]9 V: }! Z; F3 p8 n
依然在windows下,通过cmd里面的copy命令实现文本可并。运行cmd,然后cd /d 目标目录,进入子文件所在目录,再输入copy xa* 2.txt。
9 k* K$ @. j s. I* {; Z% N; W% `4 ^% C* O#合并过程3分钟: g3 U' r+ L. `/ X% N1 y* C
- W- o9 c# E, o& \综上所述,通过split+ConvertZ+copy可以在低硬件配置环境下实现1.txt到2.txt的转换。之后再实施3,4布即可。# k4 U0 ]# m# z$ c% A$ u; v
1 B/ ^7 F" {7 }/ E3.排序
8 t$ K. P+ G2 ]9 h9 _编辑convert.bat运行ZDicToolDirect -s 2.txt 3.txt
) o5 J/ b% M0 q+ E5 o#运行时间13分钟( ?( w: U7 S) R' g8 F6 R2 n6 A
* o; \0 i2 g+ Q( M& f D0 N
4.产生ZDic 2.60/ZDic2 0.9.3的字典文件% K* K' I8 h! {( E3 c
编辑convert.bat运行ZDic26Tool3 3.txt wiki.pdb" Q: u5 t8 m0 I7 Q: z
#运行时间9分钟
" {/ |: u% e: W9 M$ d! g( z4 B$ ?4 h, h8 d4 w, y/ r6 O
新的中文维基百科字典就搞定了。
! o; A, f; ^, P) S& }+ M, I6 C1 ^9 S! n, T L5 ^+ y4 Q0 J. v. H$ ?
' l) |4 G5 H( }; k
- T [ ?9 A2 \; c$ P0 d( T0 s3 T# b. u* J9 a' j. k8 D
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?加入我们
×
评分
-
查看全部评分
|