|
本帖最后由 muxuezi 于 2012-9-10 22:56 编辑 - {( Z1 q. b% W: r1 O# m# t
/ x5 y1 O/ m0 O( v4 y
http://kuai.xunlei.com/d/VXBXJIIHUJQV
+ X/ X' }$ `0 h" @$ P
- N: ]- ^1 B- l" t) d%更新中文维基百科到20120604,词条468896条。1 J) l B1 I L8 A
%转换方法也有所改进。同样需要linux和window环境,用linux是vim处理词条效率很高,相信Windows也有高效方法,还没发现,期待新方法。undefined
+ {0 k, M: ^8 U1、linux split:xml文件太大,先分割为小文件,内存情况定,若2G内存,可300MB/份,处理速度可以接受。也可以Windows 下找个txt分割器分割。/ e% P P% ]; t& b
2、windows pdbEditor090110/wiki for zdic:转换为txt,转换中可能出现异常词条,软件会提示。用NPP打开,找到异常词条,删除。
" z* p) z. U& P @3、linux vim:通过linux vim处理所有不需要的词条和乱码。删除不含///的词条:v/\/\/\//d/,处理各种talk。" r) Y7 k* Q/ p7 f5 Q5 A# ~
4、linux cat:将整理好的txt合并。也可以Windows cmd copy实现文本合并。; ^* L. O8 ~) g1 m- j
5、windows pdbEditor090110/pdbEditor:转换为zidic pdb即可。
8 |( l. h1 L" r2 f( y U* B1 o# A9 N1 o
' }% G0 q: s& {: ^, _3 {7 I$ z9 Z0 F: x
%20120323, d3 c' p7 k- ^6 \* ?6 A
需求分析:总是用胖友转的wiki,最近在win7上用osfans的ZDicTool090110和pdbEditor090110直接转PDB,都没有成功。
0 u0 ]3 s7 ~" |" P6 N( m原因分析:维基的文件可能已经太大需要改写代码了,也许是我电脑的问题。总是出现内存不足的情况。* O+ A( M0 k- D: K
解决方法:
5 w' O( A5 O7 l先转txt格式,然后通过EmEditor打开,会看到一些词条没有被处理好,于是删除这些内容。
) a0 K8 o" x+ U- u2 M9 |$ g- ]将改好的保存后的txt再用ZDicTool090110将txt转PDB,就行了。
8 p# c' g8 X6 h5 D N2 yZDicTool090110中的bat文件需要修改后使用,具体做法是“右键-编辑”,然后将需要运行的那行代码修改好,然后将前面的rem去掉。txt文件必须放在ZDicTool090110文件内。例如:rem zdictool wiki.txt zhwiki0316.pdb,删除rem,该条指令就可以使用。在linux下,通过终端也可以实现,直接运行ZDicTool.py文件就行,也可以实现wiki.txt zhwiki0316.pdb。 |
评分
-
查看全部评分
|