|
本帖最后由 muxuezi 于 2012-9-10 22:56 编辑
1 z, Q, ?' Y7 }9 T R/ Z8 A5 q! r4 R* ~* t
http://kuai.xunlei.com/d/VXBXJIIHUJQV
' e: `* V0 @% T Z# [0 r+ J8 V) P$ C: `" C' u" ^8 p1 a
%更新中文维基百科到20120604,词条468896条。) U7 ?' g$ K( g& j5 n3 E& h
%转换方法也有所改进。同样需要linux和window环境,用linux是vim处理词条效率很高,相信Windows也有高效方法,还没发现,期待新方法。undefined ' |+ j/ i0 ~* k$ ] S
1、linux split:xml文件太大,先分割为小文件,内存情况定,若2G内存,可300MB/份,处理速度可以接受。也可以Windows 下找个txt分割器分割。. O4 y& J4 C6 B" C' B
2、windows pdbEditor090110/wiki for zdic:转换为txt,转换中可能出现异常词条,软件会提示。用NPP打开,找到异常词条,删除。
1 R4 T8 T7 A/ m3、linux vim:通过linux vim处理所有不需要的词条和乱码。删除不含///的词条:v/\/\/\//d/,处理各种talk。
* x+ L6 J' O( t7 B- h2 q1 U4、linux cat:将整理好的txt合并。也可以Windows cmd copy实现文本合并。
, S2 e9 }% J% `# q9 R# u8 |/ C' L5、windows pdbEditor090110/pdbEditor:转换为zidic pdb即可。
0 ~0 R! {3 x# M2 p3 b
4 z# s2 E! u3 {& C. g1 s, V' _1 J' r. M! B- g9 F8 Q) Z6 @; x
%20120323- z4 Z1 }, e; A) c/ m
需求分析:总是用胖友转的wiki,最近在win7上用osfans的ZDicTool090110和pdbEditor090110直接转PDB,都没有成功。% K! V; V* g* Y; F- F! S% z
原因分析:维基的文件可能已经太大需要改写代码了,也许是我电脑的问题。总是出现内存不足的情况。* @& j% f/ v, `# T; `. f
解决方法:- a. i/ W& l- P' |. M
先转txt格式,然后通过EmEditor打开,会看到一些词条没有被处理好,于是删除这些内容。. g' u& `# P* D' p( |
将改好的保存后的txt再用ZDicTool090110将txt转PDB,就行了。
& r" | Y' B% z7 @ZDicTool090110中的bat文件需要修改后使用,具体做法是“右键-编辑”,然后将需要运行的那行代码修改好,然后将前面的rem去掉。txt文件必须放在ZDicTool090110文件内。例如:rem zdictool wiki.txt zhwiki0316.pdb,删除rem,该条指令就可以使用。在linux下,通过终端也可以实现,直接运行ZDicTool.py文件就行,也可以实现wiki.txt zhwiki0316.pdb。 |
评分
-
查看全部评分
|