|
本帖最后由 muxuezi 于 2012-9-10 22:56 编辑
. ?& P( N+ d7 W$ Z( ?) v+ f3 @( g8 [; z- S
http://kuai.xunlei.com/d/VXBXJIIHUJQV
- }- ~+ L8 k3 ?- Z* S3 U
" P4 u* N5 ?2 A9 H5 ~' ]$ a' ~%更新中文维基百科到20120604,词条468896条。) E S& [5 k7 `% O
%转换方法也有所改进。同样需要linux和window环境,用linux是vim处理词条效率很高,相信Windows也有高效方法,还没发现,期待新方法。undefined
& X, _ s4 k% y) f# }- ^9 E1、linux split:xml文件太大,先分割为小文件,内存情况定,若2G内存,可300MB/份,处理速度可以接受。也可以Windows 下找个txt分割器分割。0 c& K6 a0 j0 T3 C
2、windows pdbEditor090110/wiki for zdic:转换为txt,转换中可能出现异常词条,软件会提示。用NPP打开,找到异常词条,删除。
$ p4 \; ?; W4 j) B/ `0 v3、linux vim:通过linux vim处理所有不需要的词条和乱码。删除不含///的词条:v/\/\/\//d/,处理各种talk。
. H$ Z6 n( U2 z9 f. W5 V4、linux cat:将整理好的txt合并。也可以Windows cmd copy实现文本合并。4 p6 Z2 G& T; Z T4 L/ J; k$ m
5、windows pdbEditor090110/pdbEditor:转换为zidic pdb即可。& t% d3 r' |0 q( |, h
8 M( J# K. L, }$ j2 W: G, P: ?
$ ?+ B) g3 Q/ b3 y; c# L1 d( @%20120323
4 L/ v& o$ l1 j需求分析:总是用胖友转的wiki,最近在win7上用osfans的ZDicTool090110和pdbEditor090110直接转PDB,都没有成功。5 x3 K8 _8 X# Z2 S, b" ]& I
原因分析:维基的文件可能已经太大需要改写代码了,也许是我电脑的问题。总是出现内存不足的情况。
3 o+ l# e6 A. d* s: J9 n) l! u解决方法:! P/ z6 {, h* K* m4 @
先转txt格式,然后通过EmEditor打开,会看到一些词条没有被处理好,于是删除这些内容。$ W: B# R! {- V3 ~
将改好的保存后的txt再用ZDicTool090110将txt转PDB,就行了。
3 d6 I. ^* ] S( f) I% mZDicTool090110中的bat文件需要修改后使用,具体做法是“右键-编辑”,然后将需要运行的那行代码修改好,然后将前面的rem去掉。txt文件必须放在ZDicTool090110文件内。例如:rem zdictool wiki.txt zhwiki0316.pdb,删除rem,该条指令就可以使用。在linux下,通过终端也可以实现,直接运行ZDicTool.py文件就行,也可以实现wiki.txt zhwiki0316.pdb。 |
评分
-
查看全部评分
|