找回密码
 加入我们

QQ登录

只需一步,快速开始

搜索
楼主: osfans

字体/掌易码表/ZDic词典/SuperMemo/SugarMemo等制作工具pdbEditor09.01.11

[复制链接]
 楼主| 发表于 2008-11-3 22:06 | 显示全部楼层
先选择掌易码表 ,然后“添加词库”选择巨硬词库吧。
回复 支持 反对

使用道具 举报

发表于 2008-11-4 14:52 | 显示全部楼层

回复 161楼 osfans 的帖子

多谢指教,原来是这样…
回复 支持 反对

使用道具 举报

发表于 2008-11-4 15:09 | 显示全部楼层
原帖由 osfans 于 2008-11-3 17:45 发表 + [) s% X/ j2 M  G5 C* q
9 z  q0 K3 F. b2 S
正则替换那里我写错了,现在已经更正不会丢失内容了,另外,乱码的判断还是有点问题。% b  b; C: X! T* l3 }
分割我觉得设定一个记录数就行了吧?比如每个词典六万条。

* W( v* v( D8 b7 ~; L( |8 b9 O/ n7 x! q# V
嗯,简单可行。: z4 t2 P6 Q* ^" ]- N
/ ]1 {3 E3 A" q% i3 b
不过我没看过 ZDic 的源码,应该没有对文件大小什么的限制吧?只有记录数限制的话,那么我回头有空就改改程序,来实现拆分。
) j* Z: [" b6 W2 s3 s, P8 G- C1 b8 v. y! W' a/ @
[ 本帖最后由 emfox 于 2008-11-4 15:11 编辑 ]
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-11-4 16:28 | 显示全部楼层
看了一下,主要的限制就是第一条记录,就是保存索引词条的,那里有16K的限制,不能存太多。现在用中文维基是没有问题,看看用英文的到时有问题的话,我再改改zdic。
回复 支持 反对

使用道具 举报

发表于 2008-11-4 18:39 | 显示全部楼层
请问,那个py文件修改了么?呵呵,我还是想试试英文版wiki的转换。/ i& ?; [6 l/ P8 Y7 `1 O: j
4 P( ]) j. O) R7 U
2G的内存吃不消
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-11-4 19:10 | 显示全部楼层
emfox说要改呢,等他看看。' \& a, u  A3 w7 F5 h* W
你可以把xml拆成几块看看。
回复 支持 反对

使用道具 举报

发表于 2008-11-6 11:12 | 显示全部楼层
原帖由 采花郎 于 2008-11-4 18:39 发表
6 h1 ^1 p/ E( u: q/ v/ z请问,那个py文件修改了么?呵呵,我还是想试试英文版wiki的转换。0 c9 b* {4 C. h& m7 |

/ d- j& N7 S0 O+ h! ]3 T$ a2G的内存吃不消
4 H7 U7 c4 \- I" s

9 @2 C: h( t& f: \你再试试吧,这回连索引都不做了,全部在 bbsdb 文件里处理,应该不会怎么消耗内存了。, S" W2 J) ]6 p/ k' @: G: J

) i4 P, [* u. \( @- Y- @! [" n; G" ^但是文件太大的问题还是没解决……
. P% }, O- F) |  S. A, _% ?/ h; d1 G8 v
[ 本帖最后由 emfox 于 2008-11-6 21:31 编辑 ]

ZDicTool_emfox.py

10.2 KB, 下载次数: 591

回复 支持 反对

使用道具 举报

发表于 2008-11-7 20:13 | 显示全部楼层
回楼上,还是失败,2G内存没能吃下它
回复 支持 反对

使用道具 举报

发表于 2008-11-8 09:34 | 显示全部楼层
原帖由 采花郎 于 2008-11-7 20:13 发表
0 o3 p8 x- }4 F- S7 Y3 R回楼上,还是失败,2G内存没能吃下它

4 ]2 `( D1 F0 ^# p* i8 b, X$ T
7 X" U# [7 j% H5 P& y% y% {& O4 b没理由啊……我这里内存占用一直没有超过 300K ....7 i& _) @$ `7 R) s) l
& }3 A' y: I" u3 N8 A9 D
不过也没有用,这个肯定已经超限了,我这边运行的结果是这样的,供参考:% c/ \* n* f% s! r* g

" p8 d2 U; ^( a3 @# w0 [3 K1 P$ {~/wikipedia$ python ZDicTool_emfox.py enwiki.xml.bz2 enwiki.pdb
& ^: w1 t' d. ]5 Z+ |[21:35:53]Loading...# T5 g) E8 c/ A
[21:35:53]Processing...
3 O; T' v+ r; b1 N6 E3 k- ~! \[20:49:03]Saving...
: \! q! N& n& _/ Q; {' g" Z. k( n% qZDicTool_emfox.py:201: DeprecationWarning: 'H' format requires 0 <= number <= 65535! `8 x, i: A* n0 i( G# [+ \
  self.index=pack('>I2H8x',1,self.bnum,2)+self.lenSec+ self.index
* g) h3 t& a: d$ I9 |- iZDicTool_emfox.py:196: DeprecationWarning: 'H' format requires 0 <= number <= 65535
$ e4 X# _8 @, ?4 M4 U  self.pdbType,self.creatorID,0,0,self.bnum3 p( k0 |% M4 s3 i; [) L
ZDicTool_emfox.py:210: DeprecationWarning: struct integer overflow masking is deprecated
4 r! H7 X. ^% Q$ g5 o  B  towrite+=pack('>2L', offset, uid)
2 m3 t6 u; k; z# [8 o: C: w) {: M[20:52:01]Success! 23h16m8s passed.: S' y  S/ A0 s( c

* B# b) x) i9 v~/wikipedia$ ls -lh) [. y1 o# E2 e$ W  j
total 9.4G
" U* P, O: M" o: l* ]& S6 W) s$ y-rw-r--r-- 1 emfox emfox 5.2G 2008-11-07 20:51 enwiki.pdb: u- S2 R# T2 X5 y& j2 P
-rw-r--r-- 1 emfox emfox 4.2G 2008-10-31 16:01 enwiki.xml.bz2# `" E; ^5 i* G2 ~, J" l9 \; d* k
-rw------- 1 emfox emfox  11K 2008-11-06 21:35 ZDicTool_emfox.py
回复 支持 反对

使用道具 举报

发表于 2008-11-9 15:53 | 显示全部楼层
原来你是这样的命令行?# h$ j& I' ~1 n4 H! T8 n0 U1 O

+ l7 d5 Z4 I: c0 C我用的zdictool的那个可执行文件。
. O6 o# U3 S0 b6 v( D5 O
( G6 T+ D+ V* r% q  F- v9 e+ F再用你的办法试试看
, i! Y* T( W/ l& i5 z( K( O  s
: D/ A$ o2 V  j" e& F9 \* h你的是什么机器?居然要近24小时?
& I: t  r0 q. u, h1 }' Y1 S/ z" l+ X2 p$ v
我的机器是T8300 2.4G 3M。看看20小时能搞的定不
, C8 m) l; D- F1 z( L* i/ S, {6 k: i
按照目前进行的情况来看,内存占用很不错,内存没有看到增加。
  R( G6 ]8 X3 I( G! h) e$ Y( R# \( L6 ]' t' I2 u5 }: v) q1 h
不过似乎cpu占用率不是很高,只能使用单核,而且大概也就是35%的样子(100%是完全使用双核)
/ R/ U' P1 B6 |( ]1 z6 X+ b$ D3 K0 \+ _1 Z6 ~5 W/ G
[ 本帖最后由 采花郎 于 2008-11-9 15:56 编辑 ]
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-11-10 14:31 | 显示全部楼层
那个是emfox 自己改的,你看167楼。
2 H$ m% w- }% O" ?9 h
  P6 l" }9 s& i' U! ]( `: w英文wiki那个索引部分已经超过大小了,有些词可能就查不到了。
回复 支持 反对

使用道具 举报

发表于 2008-11-10 19:10 | 显示全部楼层
按照emfox的方法运行。从昨天下午3点开始,一直到现在近7点,超过了24小时,才运行完毕db文件- I5 C  e) X9 {6 K9 D& s; Z' ]
) D0 [' Q* g* ?1 w$ D: r3 @
现在已经开始生成pdb了。真是漫长。7 O& _, G% l: J$ Y
, V) }  |/ B4 z
奇怪的是,干嘛cpu占用一直都很低?要是能满负荷运行,应该不用这么长的时间
回复 支持 反对

使用道具 举报

发表于 2008-11-11 15:40 | 显示全部楼层
原帖由 采花郎 于 2008-11-10 19:10 发表
$ Y+ B% L$ q  y& E按照emfox的方法运行。从昨天下午3点开始,一直到现在近7点,超过了24小时,才运行完毕db文件! n8 a2 c4 q( _+ F9 U. \
- P, f0 e/ z1 \
现在已经开始生成pdb了。真是漫长。/ n- r+ A6 I. M7 d6 h/ D9 h
" c. u* y6 u: C# ~1 s
奇怪的是,干嘛cpu占用一直都很低?要是能满负荷运行,应该不用这么长的时间

+ @( O2 T2 S. i& U" [* b& T
) b4 B, M! R% F2 T8 O这程序主要就是面向数据,转换再转存一下,没有什么运算可言,想花 CPU 也花不了啊,因为原来全部在内存里搞,改成边转换边写硬盘,大量的 IO 自然会降低速度的,没办法。
4 n6 J! u) @. p) {+ Q. t我用的是一台 Xeon 带两个双核 2.8G 的 CPU 和 4G 内存,700G的 SCSI RAID5,我想你的机器应该也确实是要 24小时以上的,呵呵……
7 a  i) I9 A" I6 N  A; c& v7 [  ?7 O/ U3 d: \1 V
[ 本帖最后由 emfox 于 2008-11-11 15:50 编辑 ]
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-11-11 18:25 | 显示全部楼层
机器都这么牛啊?哇。不知道用C写,速度会不会快一些。
回复 支持 反对

使用道具 举报

发表于 2008-11-11 20:37 | 显示全部楼层
靠,enfox的机器真是牛啊。2 n2 N0 c8 ~6 `$ |
0 H* O; \2 Z. l  z
刚才回家,任务已经结束了,总共花了50小时零1分钟,真是太漫长了,整个过程只看到硬盘灯在不停地闪。cpu再强劲也没能派上用场。
/ W- K1 ^- U  M1 n& K: E1 T6 }# P
总算完成了,内存占用很小。
回复 支持 反对

使用道具 举报

发表于 2008-11-12 12:31 | 显示全部楼层
原帖由 采花郎 于 2008-11-11 20:37 发表
7 a9 C1 W. Z9 j# |8 F靠,enfox的机器真是牛啊。% b5 @& p8 P, Z% ?$ ?
) k, I1 k% s9 B# |- R& V5 j
刚才回家,任务已经结束了,总共花了50小时零1分钟,真是太漫长了,整个过程只看到硬盘灯在不停地闪。cpu再强劲也没能派上用场。
3 K$ q9 d; g" A4 {- Y1 v3 ?3 V4 Q
5 l. O  Y5 l" R0 }总算完成了,内存占用很小。
* u* x# A0 A3 u! M$ D. Z
+ W. u+ O7 L2 R0 W& d
话说,这个能用么? 我的卡只有 4G,没法试....
回复 支持 反对

使用道具 举报

发表于 2008-11-12 12:34 | 显示全部楼层
原帖由 osfans 于 2008-11-11 18:25 发表   x9 G7 M4 X- F# U6 h
机器都这么牛啊?哇。不知道用C写,速度会不会快一些。

# ?4 A) i& G- F* t. v" C$ `" }' Z6 {% {. p* J/ P
我觉得可能会差不多,主要时间应该都是耗在读写硬盘上,IO 一直消耗时间,这个跟语言关系不大
回复 支持 反对

使用道具 举报

发表于 2008-11-13 12:58 | 显示全部楼层
前面的 ZDicTool_emfox.py 那个文件是根据 10月17日的版本改的,现在更新成根据11月2日的版本修改。- a1 |5 Q8 l1 N) j" b. ?

* V- y& i, t/ f' z, K& ~0 j, X9 P同时附上 diff 文件。
3 p& K9 s5 t# d5 Q: g6 V
5 \- i9 w/ A% t1 t" Mosfans 看一下,能不能合并进去?这样我就不用每个版本都改了。还有一个问题,你的11月2日的版本里 fromPDB 函数里
! w3 E  k, T- G/ h& [/ I9 D2 i self.lines = {} 这一行是否是多余的?如果我没有理解错的话,应该是合并 pdb 文件时用的吧。

ZDicTool_emfox.py

10.54 KB, 下载次数: 731

diff.py

3.02 KB, 下载次数: 769

回复 支持 反对

使用道具 举报

发表于 2008-11-15 21:33 | 显示全部楼层
试着转换了部分搜狗的词库,有点点小问题请教osfans
6 i' E: A3 x8 K' F
) c+ o0 z1 q. Q' U' z7 G1 o, e) h1,转换的词库里面有大量的四字以上的词,把这样的词也做进来没事吧?输入的时候能正常跳出来吗?9 r  G- n% z$ u' ?* t% l3 ?% L
, j9 M! A7 D& i) o% d( |
2,词频排列问题。拼音字母的排序是否有一定的要求,我观察了部分已有pdb词库转换过来的txt,没发现什么规律$ E# p9 _8 m$ W6 r

& {8 ^2 T* s+ V! |0 \3,我新做的词库难道要按照字母的排列顺序一个个的塞进原有的词库txt,然后再转换成pdb?
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-11-16 21:43 | 显示全部楼层
原帖由 emfox 于 2008-11-13 12:58 发表 ! y/ f) Y# G" j1 j$ x
前面的 ZDicTool_emfox.py 那个文件是根据 10月17日的版本改的,现在更新成根据11月2日的版本修改。! \) x2 M( G6 u
- X, U. G) J! }
同时附上 diff 文件。
5 n" E* L& Z) U+ B+ {/ \
/ v: g% S' d! W" k3 P1 H% P$ H4 _- hosfans 看一下,能不能合并进去?这样我就不用每个版本都改了。还有一个问题,你的11 ...

# J; c2 a. _9 h" ?* C5 }7 Q4 e4 y$ E# _谢谢,有时间我合并进去。4 `% F' F5 n6 c# s6 |5 A
因为时间较慢,但是占用内存小,不会出现内存错误,是不是作为一个参数供选择,更合适一些?或者自动根据原始文件大小,决定用哪种方式。
回复 支持 反对

使用道具 举报

发表于 2008-11-17 15:03 | 显示全部楼层
hello   hello   hello
回复 支持 反对

使用道具 举报

发表于 2008-11-19 08:32 | 显示全部楼层
我见你一次顶你一次
回复 支持 反对

使用道具 举报

发表于 2008-11-19 10:50 | 显示全部楼层
原帖由 osfans 于 2008-11-16 21:43 发表 7 n* z$ J2 ^$ [+ z+ D. T# q! g

% g+ j' k( h( @, _! N" K& o谢谢,有时间我合并进去。7 g+ }4 C( N) |/ |4 L
因为时间较慢,但是占用内存小,不会出现内存错误,是不是作为一个参数供选择,更合适一些?或者自动根据原始文件大小,决定用哪种方式。

& m: D1 T( S( \) l% U! d# v' T, t! m) M9 N# s, Y
感谢合并~~ resizeBlock/B 函数我看情形再改改,看能不能进一步精简代码,呵呵
回复 支持 反对

使用道具 举报

发表于 2008-11-20 04:56 | 显示全部楼层

zdic旧版词典的音标问题

以前用zdic2.41,美国传统双解的音标是没有问题的
# B* a: X$ Z0 R3 x* m换到2.45后,音标显示不完全,重新解码并制作了新格式的词典,音标还是不对- u- f4 [3 H! G/ U1 P
2.45好像不再支持zdic内置字体了?那么音标怎么处理呢?美国传统的音标字体应该是GMX格式的
回复 支持 反对

使用道具 举报

发表于 2008-11-21 01:29 | 显示全部楼层
再尝试了一会儿,发现现在音标必须是单纯的括号且在第二行才能显示,美国传统的那种DJ[], KK[]必须改才行。
' ?4 H8 Q3 b) o% ~1 x等我改改试试
回复 支持 反对

使用道具 举报

发表于 2008-11-21 17:51 | 显示全部楼层
不知修正了什么bug,希望越来越完善
回复 支持 反对

使用道具 举报

发表于 2008-11-21 18:30 | 显示全部楼层
发现zdictool在分割超长词条时会发生乱码现象:
2 L2 V; I+ Z' n! y- w$ N9 Y* \( T$ V5 P$ k, z
如下:
$ l) J: P8 O3 q. U- L) n! Z* H  ?) P" J' R4 }* s( |3 r
转换后简体维基文库:
9 v) J5 ]1 t1 h8 D) o9 ? zhwikisourceluanma1.JPG
; M9 J, Q) L3 X1 c, m zhwikisourceluanma4.JPG
4 X0 y. s; |  q5 J% \- `. V: n$ @; ~- n
未转换维基文库:* F5 T- T- ]& K4 ~
zhwikisourceluanma1.JPG
+ q8 ]5 W. ~5 F) p zhwikisourceluanma6.JPG
, J$ q- o9 f/ A, X' d2 l# q: Z2 r7 _6 |
xml  ?' Y) H9 e: e% d
xmlzhwikisource.JPG + _* L, `. \7 @( Y$ S/ r/ V
4 X  G5 X3 P, f2 b$ v, D
可以看出,在xml源文件中,文本正常,但是转换完之后,会出现乱码,请考虑解决
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-11-22 13:57 | 显示全部楼层
原帖由 采花郎 于 2008-11-15 21:33 发表
' Q' _8 s/ ~. y# c+ k" \试着转换了部分搜狗的词库,有点点小问题请教osfans
. x7 k  y  O: \# G; k5 i
0 G5 k. g$ @: o, Q1,转换的词库里面有大量的四字以上的词,把这样的词也做进来没事吧?输入的时候能正常跳出来吗?
6 z( R$ k4 `* E1 r8 W! i- T" E: v: Y$ t+ m* a9 e( i/ D
2,词频排列问题。拼音字母的排序是否有一定的要求,我观 ...

5 ]! A1 p/ p5 j+ }# C四字以上的词也支持,我五笔里面就有。
+ {1 n+ V- K& I1 y; ^排序没有什么要求吧,不过现在可能是按照字排列的,因为没有词频信息。3 C4 [5 ~" E- q( g; `
不需要塞进去,直接合并就可以,自定义词可能是放在最前面。
* K0 N7 D$ j1 y2 |( @
% f( X4 t  t* z: O# i  a[ 本帖最后由 osfans 于 2008-11-22 14:00 编辑 ]
回复 支持 反对

使用道具 举报

发表于 2008-11-22 14:06 | 显示全部楼层
感谢osfans的解答,感谢osfans为大家做了这么多有益的工作,Palm有你才精彩。2 {9 F3 w2 h7 o0 D" k& w
. h3 |$ j; Y5 j
等笔记本回来了就开工,届时有什么问题,希望还有机会请教你。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-11-22 19:23 | 显示全部楼层
嗯,好的,到时再切磋。
回复 支持 反对

使用道具 举报

发表于 2008-11-23 00:53 | 显示全部楼层

花了两天功夫,作了美国传统双解的彩色版

可惜还是正文中的音标无法显示,希望以后的版本能解决
, L* [+ w6 c& y: g- F# [/ K& L. F4 @. c, g. B1 Q/ g
想要的可以去手掌印或者hi-pda看完整帖子* p! O; X8 v' W( A% V6 K9 j) Q$ ]. C3 `
http://www.hi-pda.com/forum/view ... xtra=&page=2###
$ s0 V- s" [3 \+ P$ @% c, I# \# ]) U1 q8 l  m! t- L
注意有国外服务器可以直接下载大文件
3 q5 [; l+ W1 V% B$ A+ E: @3 U1 L7 o0 M  s8 H
[ 本帖最后由 dracodoc 于 2008-11-23 03:18 编辑 ]
Learn1-color.png
Learn3-color.png
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-11-23 14:04 | 显示全部楼层
赞一个。支持。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-11-23 14:50 | 显示全部楼层

可以实现缩进和使用zdic里设置的字体颜色

请参考下方代码:
) e8 l  s3 R* Z//STECURRENTFONT//为正文颜色,
/ ?6 k4 \9 h+ S) O//STELEFTINDENT=xx//为缩进。

  1. 5 E+ N$ {! x# c8 e* O
  2. consider         5. To show consideration for:\n//STEBLUEFONT////STELEFTINDENT=10//体贴关心:\nfailed to consider the feelings of others.\n未能照顾到他人的感情\n//STECURRENTFONT////STELEFTINDENT=0//6. To esteem; regard.\n//STEBLUEFONT////STELEFTINDENT=10//尊重;看重
复制代码
回复 支持 反对

使用道具 举报

发表于 2008-11-24 02:28 | 显示全部楼层
原帖由 osfans 于 2008-11-23 14:50 发表 0 N3 E. ~4 E2 Y0 ]  s# @3 r: ?
请参考下方代码:' Z' L% O8 P; H9 Z2 Q
//STECURRENTFONT//为正文颜色,
+ y; O! f3 @! a6 k4 U9 {//STELEFTINDENT=xx//为缩进。; o, T- r3 i5 R" L! B  B
consider         5. To show consideration for:\n//STEBLUEFONT////STELEFTINDENT=10//体贴关心:\nfailed to consider the fe ...

* b$ e- r: _8 e
$ z4 [2 v" j# q+ b. `2 Q! Y1 [多谢!那我尝试一下
回复 支持 反对

使用道具 举报

发表于 2008-11-27 18:28 | 显示全部楼层
报告,显示信息又变成中文了……虽然没什么关系,但我在服务器上的 UTF-8 环境里就全是乱码...
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-11-27 20:38 | 显示全部楼层
哦,那我还改成英文的,把金山词霸的工具也给整合进去了。
回复 支持 反对

使用道具 举报

发表于 2008-12-1 14:09 | 显示全部楼层
报告 bug,似乎 <u> 标记的替代有问题,导致“省辖市”这一词条出现问题。5 o$ l6 f- ~1 @1 v2 R6 c  b. z# W4 E; ?' E

+ |. G' Q+ k: A3 z# k另外,建议不要用链接替代 <u> 标记,用一般的粗体加强就可以了,原因参看“省辖市”原条目的 <u> 标记使用。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-12-1 14:30 | 显示全部楼层
什么问题啊?我看还好啊,) j4 s& _/ y- J+ x( T* Y
那就改成灰色吧,呵呵。
回复 支持 反对

使用道具 举报

发表于 2008-12-2 10:10 | 显示全部楼层
真是万分感激,谢谢楼主!
回复 支持 反对

使用道具 举报

发表于 2008-12-2 17:47 | 显示全部楼层
增加老版本的支持吧,毕竟有喜欢用老版本词典的,个人感觉好像比新版的查词快些
" |  E+ x6 v) f* W$ y/ d% p9 p2 o: N) J7 g* O; @
不需要太多变化,只要能把超长词条分成4K大小,生成TXT,其余的工作用KDIC的工具就可以了
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

QQ|Archiver|手机版|小黑屋|吹友吧 ( 京ICP备05078561号 )

GMT+8, 2025-4-19 18:41 , Processed in 0.331635 second(s), 16 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表