|
本帖最后由 muxuezi 于 2012-9-10 22:56 编辑 7 B) f* s g* }5 q3 M& L
% g- `' r- S3 L; i7 A$ b. j' r, f
http://kuai.xunlei.com/d/VXBXJIIHUJQV7 z9 y2 s s* y4 p) q5 s5 t
}8 B3 k2 N1 [' M8 z
%更新中文维基百科到20120604,词条468896条。7 D. p% O0 i! I$ [* ~2 P
%转换方法也有所改进。同样需要linux和window环境,用linux是vim处理词条效率很高,相信Windows也有高效方法,还没发现,期待新方法。undefined
2 G! q. E1 k- ^1、linux split:xml文件太大,先分割为小文件,内存情况定,若2G内存,可300MB/份,处理速度可以接受。也可以Windows 下找个txt分割器分割。1 r; V1 ?4 z; E+ }2 r9 H
2、windows pdbEditor090110/wiki for zdic:转换为txt,转换中可能出现异常词条,软件会提示。用NPP打开,找到异常词条,删除。
6 r6 [. `0 A" F. {0 P3、linux vim:通过linux vim处理所有不需要的词条和乱码。删除不含///的词条:v/\/\/\//d/,处理各种talk。
5 O5 }/ D$ G! e- u( u/ v! ?4、linux cat:将整理好的txt合并。也可以Windows cmd copy实现文本合并。" ?/ V; D) ~, r: g' _) Q2 e
5、windows pdbEditor090110/pdbEditor:转换为zidic pdb即可。
1 W! n3 |: W# Y- C( }, V" A9 [) ]" z: X! @1 D( P6 c7 R
! x) t( J! I% }, f, K%20120323
H' O8 t( Q7 c& P4 ]需求分析:总是用胖友转的wiki,最近在win7上用osfans的ZDicTool090110和pdbEditor090110直接转PDB,都没有成功。& }' J0 B6 y. S7 ^* X
原因分析:维基的文件可能已经太大需要改写代码了,也许是我电脑的问题。总是出现内存不足的情况。
3 k( P* O3 L" h解决方法:
' @- Y% [. e) H先转txt格式,然后通过EmEditor打开,会看到一些词条没有被处理好,于是删除这些内容。& L+ j( `- U, {2 v
将改好的保存后的txt再用ZDicTool090110将txt转PDB,就行了。
4 E( r2 Z7 ?1 Y0 X( zZDicTool090110中的bat文件需要修改后使用,具体做法是“右键-编辑”,然后将需要运行的那行代码修改好,然后将前面的rem去掉。txt文件必须放在ZDicTool090110文件内。例如:rem zdictool wiki.txt zhwiki0316.pdb,删除rem,该条指令就可以使用。在linux下,通过终端也可以实现,直接运行ZDicTool.py文件就行,也可以实现wiki.txt zhwiki0316.pdb。 |
评分
-
查看全部评分
|