找回密码
 加入我们

QQ登录

只需一步,快速开始

搜索
楼主: osfans

字体/掌易码表/ZDic词典/SuperMemo/SugarMemo等制作工具pdbEditor09.01.11

[复制链接]
 楼主| 发表于 2008-11-3 22:06 | 显示全部楼层
先选择掌易码表 ,然后“添加词库”选择巨硬词库吧。
回复 支持 反对

使用道具 举报

发表于 2008-11-4 14:52 | 显示全部楼层

回复 161楼 osfans 的帖子

多谢指教,原来是这样…
回复 支持 反对

使用道具 举报

发表于 2008-11-4 15:09 | 显示全部楼层
原帖由 osfans 于 2008-11-3 17:45 发表
6 o3 ]# K- D3 k% Q' v/ J  j2 M, l8 p( \( G3 f. L- Y1 r6 F! i
正则替换那里我写错了,现在已经更正不会丢失内容了,另外,乱码的判断还是有点问题。
3 S7 T6 ]7 L0 X7 h. b分割我觉得设定一个记录数就行了吧?比如每个词典六万条。
. H8 N8 w- @* f+ C: m0 J  f
: `- l' L& `* I
嗯,简单可行。! A2 H! J% f* P- l% r0 [$ k. N/ n
) O; n* h5 Q% a$ j
不过我没看过 ZDic 的源码,应该没有对文件大小什么的限制吧?只有记录数限制的话,那么我回头有空就改改程序,来实现拆分。
! z' T1 ~# ?4 l# N  T
8 x1 y  f/ i. u/ k" o' N8 P( S[ 本帖最后由 emfox 于 2008-11-4 15:11 编辑 ]
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-11-4 16:28 | 显示全部楼层
看了一下,主要的限制就是第一条记录,就是保存索引词条的,那里有16K的限制,不能存太多。现在用中文维基是没有问题,看看用英文的到时有问题的话,我再改改zdic。
回复 支持 反对

使用道具 举报

发表于 2008-11-4 18:39 | 显示全部楼层
请问,那个py文件修改了么?呵呵,我还是想试试英文版wiki的转换。
9 A! f' y2 B" {# r1 |+ P; A2 m: C" Y8 Y+ e* [
2G的内存吃不消
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-11-4 19:10 | 显示全部楼层
emfox说要改呢,等他看看。
* s+ H: e7 }; \+ T你可以把xml拆成几块看看。
回复 支持 反对

使用道具 举报

发表于 2008-11-6 11:12 | 显示全部楼层
原帖由 采花郎 于 2008-11-4 18:39 发表 ! V9 N+ ]; B' R: _* K
请问,那个py文件修改了么?呵呵,我还是想试试英文版wiki的转换。
: E3 D( |7 B/ R. g# x1 t' G
0 {  K% G$ ?9 `2 C3 q2G的内存吃不消

  O9 n: \, H/ C/ N1 [. y0 J+ y6 ^) D. r! L
你再试试吧,这回连索引都不做了,全部在 bbsdb 文件里处理,应该不会怎么消耗内存了。
0 e/ ?+ {# @% x; Y1 ]: s- E& K% u& _- N; n% R; V* ^8 K
但是文件太大的问题还是没解决……
+ \, f% [; b+ E% A6 d! `* u0 `' S" U8 a! R: P9 u: u; O- ]
[ 本帖最后由 emfox 于 2008-11-6 21:31 编辑 ]

ZDicTool_emfox.py

10.2 KB, 下载次数: 567

回复 支持 反对

使用道具 举报

发表于 2008-11-7 20:13 | 显示全部楼层
回楼上,还是失败,2G内存没能吃下它
回复 支持 反对

使用道具 举报

发表于 2008-11-8 09:34 | 显示全部楼层
原帖由 采花郎 于 2008-11-7 20:13 发表 # H! B& Z% m, U, L
回楼上,还是失败,2G内存没能吃下它

( f: m; m& Y& @9 o
: F6 f  o: |5 n, J" ~没理由啊……我这里内存占用一直没有超过 300K ....
$ }# C# S3 ^; w) @5 K
9 V& B2 P. F. ?/ x不过也没有用,这个肯定已经超限了,我这边运行的结果是这样的,供参考:* N  t  Y2 q5 W! ?! y' N2 ]
6 {4 N  W7 Z1 ^% x# {
~/wikipedia$ python ZDicTool_emfox.py enwiki.xml.bz2 enwiki.pdb
: o; S3 Z, g4 A. U: m7 g+ b[21:35:53]Loading...2 G# ]4 {/ o2 O0 Z5 Y4 }- c
[21:35:53]Processing...3 M0 [$ |6 o" Y' k4 Z1 m/ a% q
[20:49:03]Saving...* K: ^, ~. ]$ X4 P
ZDicTool_emfox.py:201: DeprecationWarning: 'H' format requires 0 <= number <= 65535/ K+ C' x) v, m) g
  self.index=pack('>I2H8x',1,self.bnum,2)+self.lenSec+ self.index% L* n; Q. U2 P
ZDicTool_emfox.py:196: DeprecationWarning: 'H' format requires 0 <= number <= 65535, w5 |( }5 M5 Z
  self.pdbType,self.creatorID,0,0,self.bnum$ [" p. ]& c8 l' g& A
ZDicTool_emfox.py:210: DeprecationWarning: struct integer overflow masking is deprecated& x) z  ^, c: k3 a) R7 h6 z8 D4 w
  towrite+=pack('>2L', offset, uid)
- d5 S3 ~# \* k7 o[20:52:01]Success! 23h16m8s passed.* T% b9 \" r! `

2 G) ~! V9 q! C% o; |9 r~/wikipedia$ ls -lh3 B6 I# X' q2 y8 b; ?# T
total 9.4G
; \, S, [2 [1 u' O0 q+ u6 T6 P-rw-r--r-- 1 emfox emfox 5.2G 2008-11-07 20:51 enwiki.pdb
  h3 `7 Q, u+ M# i-rw-r--r-- 1 emfox emfox 4.2G 2008-10-31 16:01 enwiki.xml.bz2: Z8 N4 [. P9 N  U  ~0 V
-rw------- 1 emfox emfox  11K 2008-11-06 21:35 ZDicTool_emfox.py
回复 支持 反对

使用道具 举报

发表于 2008-11-9 15:53 | 显示全部楼层
原来你是这样的命令行?2 p- l8 @4 l. n
! B* \' j1 f5 c( ~% ^  y) Z* B! f
我用的zdictool的那个可执行文件。- O& Q9 _$ f# r1 ^1 N' h7 Y

$ T  N& B& s) s2 U再用你的办法试试看; Q6 R7 r! p4 Y

% V7 l4 R: \8 R- m3 W你的是什么机器?居然要近24小时?7 G" H& F2 {0 j2 F4 v
8 X' s2 W, D7 H6 ~) F) {9 u
我的机器是T8300 2.4G 3M。看看20小时能搞的定不
* I4 z! x5 r+ S; c/ l/ b% ]: X' P( w3 c3 |
按照目前进行的情况来看,内存占用很不错,内存没有看到增加。
3 x8 I  M5 ~, q2 X6 f
* r' z5 Z+ ^- L$ Q不过似乎cpu占用率不是很高,只能使用单核,而且大概也就是35%的样子(100%是完全使用双核)' m- z5 _# E/ E. i1 Z5 S/ j2 I
! o# z* x5 I5 q: f
[ 本帖最后由 采花郎 于 2008-11-9 15:56 编辑 ]
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-11-10 14:31 | 显示全部楼层
那个是emfox 自己改的,你看167楼。% K" P% l0 B4 C' s

8 B. |8 [: a9 F+ j/ o英文wiki那个索引部分已经超过大小了,有些词可能就查不到了。
回复 支持 反对

使用道具 举报

发表于 2008-11-10 19:10 | 显示全部楼层
按照emfox的方法运行。从昨天下午3点开始,一直到现在近7点,超过了24小时,才运行完毕db文件
+ t# ^, w* q# l* m/ j+ [/ H# o
, `; |) N/ O. @% e6 e3 B: Q- a: X) ]现在已经开始生成pdb了。真是漫长。. @% c! q; y9 }: r
0 w1 K. X5 e. M; E* J
奇怪的是,干嘛cpu占用一直都很低?要是能满负荷运行,应该不用这么长的时间
回复 支持 反对

使用道具 举报

发表于 2008-11-11 15:40 | 显示全部楼层
原帖由 采花郎 于 2008-11-10 19:10 发表
( R5 `0 Y% m7 K& O* L1 K9 B' g按照emfox的方法运行。从昨天下午3点开始,一直到现在近7点,超过了24小时,才运行完毕db文件
9 S) h1 k$ M* r4 ?8 ~8 `6 x
4 d' N! l8 r0 s0 }9 a( M( T  T现在已经开始生成pdb了。真是漫长。- @7 y% a" R0 `% a6 t4 G7 y
; n  b8 @; ?! E( c: r
奇怪的是,干嘛cpu占用一直都很低?要是能满负荷运行,应该不用这么长的时间

+ ]) @; f( C$ Q" O4 d& x
# Y" C8 x2 k& Z$ ?这程序主要就是面向数据,转换再转存一下,没有什么运算可言,想花 CPU 也花不了啊,因为原来全部在内存里搞,改成边转换边写硬盘,大量的 IO 自然会降低速度的,没办法。
! `/ @1 W* |( g) y! I1 U我用的是一台 Xeon 带两个双核 2.8G 的 CPU 和 4G 内存,700G的 SCSI RAID5,我想你的机器应该也确实是要 24小时以上的,呵呵……
. Q4 S3 P- d( I5 }% E. c" e" ?) ~9 Y2 q( K& ~- K. }9 L# N" l
[ 本帖最后由 emfox 于 2008-11-11 15:50 编辑 ]
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-11-11 18:25 | 显示全部楼层
机器都这么牛啊?哇。不知道用C写,速度会不会快一些。
回复 支持 反对

使用道具 举报

发表于 2008-11-11 20:37 | 显示全部楼层
靠,enfox的机器真是牛啊。
' k: S; g2 P& K7 ], p
- Y% M( w% m6 z刚才回家,任务已经结束了,总共花了50小时零1分钟,真是太漫长了,整个过程只看到硬盘灯在不停地闪。cpu再强劲也没能派上用场。
/ k& Y, c* f' c, Q5 v# ~  ]4 P6 ^3 j3 V; Z" ]' `4 t  P$ P
总算完成了,内存占用很小。
回复 支持 反对

使用道具 举报

发表于 2008-11-12 12:31 | 显示全部楼层
原帖由 采花郎 于 2008-11-11 20:37 发表 & r  j( v9 N5 V4 Q) }) x- s" g
靠,enfox的机器真是牛啊。
8 u4 c( z. T* u
+ H% J5 `- g5 ^  X刚才回家,任务已经结束了,总共花了50小时零1分钟,真是太漫长了,整个过程只看到硬盘灯在不停地闪。cpu再强劲也没能派上用场。
" e2 G; {; L4 ^1 k1 z. l, y
. ~$ ]7 {. Z3 S" q2 g; E: j/ F总算完成了,内存占用很小。

: ?1 n- ~. A6 x& ~7 ?* A! |0 t. Q3 L2 O6 U6 X
话说,这个能用么? 我的卡只有 4G,没法试....
回复 支持 反对

使用道具 举报

发表于 2008-11-12 12:34 | 显示全部楼层
原帖由 osfans 于 2008-11-11 18:25 发表 0 ]; \; X" Q; g7 p' j4 ?
机器都这么牛啊?哇。不知道用C写,速度会不会快一些。

! D1 P: z/ P. E  w3 M, g  Y' j" D; h
9 O5 ?) h' }( p我觉得可能会差不多,主要时间应该都是耗在读写硬盘上,IO 一直消耗时间,这个跟语言关系不大
回复 支持 反对

使用道具 举报

发表于 2008-11-13 12:58 | 显示全部楼层
前面的 ZDicTool_emfox.py 那个文件是根据 10月17日的版本改的,现在更新成根据11月2日的版本修改。
5 _" b/ C$ I- v% F1 N6 S5 e' K) [! k1 h
同时附上 diff 文件。" r. G0 w" y7 N$ N3 v+ }, ~
  e9 C) K* N) F+ c' N
osfans 看一下,能不能合并进去?这样我就不用每个版本都改了。还有一个问题,你的11月2日的版本里 fromPDB 函数里
% v, u- _) M+ {% N) V self.lines = {} 这一行是否是多余的?如果我没有理解错的话,应该是合并 pdb 文件时用的吧。

ZDicTool_emfox.py

10.54 KB, 下载次数: 710

diff.py

3.02 KB, 下载次数: 751

回复 支持 反对

使用道具 举报

发表于 2008-11-15 21:33 | 显示全部楼层
试着转换了部分搜狗的词库,有点点小问题请教osfans" B# C0 v* `' r$ u. w

: H: |! V& F% k  x1,转换的词库里面有大量的四字以上的词,把这样的词也做进来没事吧?输入的时候能正常跳出来吗?4 {9 w; R1 f- Q3 k
* _7 a; j, `6 E8 b9 I: @2 s
2,词频排列问题。拼音字母的排序是否有一定的要求,我观察了部分已有pdb词库转换过来的txt,没发现什么规律
0 Z* ^$ Z5 b0 G5 k) o4 l8 F5 x
3 l6 r& P5 X; K4 x6 Z) m4 E9 o3,我新做的词库难道要按照字母的排列顺序一个个的塞进原有的词库txt,然后再转换成pdb?
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-11-16 21:43 | 显示全部楼层
原帖由 emfox 于 2008-11-13 12:58 发表 # L/ H! n% a. V! G) L# X
前面的 ZDicTool_emfox.py 那个文件是根据 10月17日的版本改的,现在更新成根据11月2日的版本修改。
6 ^% |0 w) O% c( x% E' e" [4 Y9 {- C& i) _9 Z3 l" w/ F  E
同时附上 diff 文件。
/ D: l* A: A0 J- m/ y1 D$ ~2 @4 B$ i2 M( {
osfans 看一下,能不能合并进去?这样我就不用每个版本都改了。还有一个问题,你的11 ...

- i: C; m; j% p: r  T4 u- Y谢谢,有时间我合并进去。
5 J5 r, O6 q: @( G+ @因为时间较慢,但是占用内存小,不会出现内存错误,是不是作为一个参数供选择,更合适一些?或者自动根据原始文件大小,决定用哪种方式。
回复 支持 反对

使用道具 举报

发表于 2008-11-17 15:03 | 显示全部楼层
hello   hello   hello
回复 支持 反对

使用道具 举报

发表于 2008-11-19 08:32 | 显示全部楼层
我见你一次顶你一次
回复 支持 反对

使用道具 举报

发表于 2008-11-19 10:50 | 显示全部楼层
原帖由 osfans 于 2008-11-16 21:43 发表
5 `  z: d1 V$ s: o6 H* ~; i) q* O8 Z: h. k. @" X$ H; j; k
谢谢,有时间我合并进去。0 J) p3 k; ]3 Z8 p4 {7 b
因为时间较慢,但是占用内存小,不会出现内存错误,是不是作为一个参数供选择,更合适一些?或者自动根据原始文件大小,决定用哪种方式。

2 n( d$ L( t& Y+ s
! p0 U/ C4 x  ]# \6 e感谢合并~~ resizeBlock/B 函数我看情形再改改,看能不能进一步精简代码,呵呵
回复 支持 反对

使用道具 举报

发表于 2008-11-20 04:56 | 显示全部楼层

zdic旧版词典的音标问题

以前用zdic2.41,美国传统双解的音标是没有问题的
3 @4 Q9 f. T/ r换到2.45后,音标显示不完全,重新解码并制作了新格式的词典,音标还是不对, P+ ?0 F, `" u5 m/ [* b. k6 L
2.45好像不再支持zdic内置字体了?那么音标怎么处理呢?美国传统的音标字体应该是GMX格式的
回复 支持 反对

使用道具 举报

发表于 2008-11-21 01:29 | 显示全部楼层
再尝试了一会儿,发现现在音标必须是单纯的括号且在第二行才能显示,美国传统的那种DJ[], KK[]必须改才行。
/ w- R) a8 H6 M) y等我改改试试
回复 支持 反对

使用道具 举报

发表于 2008-11-21 17:51 | 显示全部楼层
不知修正了什么bug,希望越来越完善
回复 支持 反对

使用道具 举报

发表于 2008-11-21 18:30 | 显示全部楼层
发现zdictool在分割超长词条时会发生乱码现象:( }# u2 e( I& V: p- _: [

6 W2 ~1 W; k+ ]1 e如下:/ {" h# h2 B$ c! n5 ]9 W

  J, u! F2 h$ H& t1 }转换后简体维基文库:2 h" M8 r7 x7 X+ @# A9 ~5 K/ e* Y* F
zhwikisourceluanma1.JPG
" H, g* F/ @' v0 Z# L4 V2 U zhwikisourceluanma4.JPG ! J$ l7 ~! Y! q6 R

2 V5 g7 h' @+ Q( S2 p未转换维基文库:1 ~; e4 [, f% K6 s, Z
zhwikisourceluanma1.JPG $ m; c' f3 d/ `2 \0 }5 }
zhwikisourceluanma6.JPG
6 M- |8 V& d% W& Q  C' W
& l, H( m  M. y5 P4 N4 Txml
1 p. B$ v1 g3 R: s6 p$ y) x8 X  X xmlzhwikisource.JPG
" Z6 h. B4 w$ V4 W+ v" Z
9 ?/ k7 ]' G$ {, {2 F$ J可以看出,在xml源文件中,文本正常,但是转换完之后,会出现乱码,请考虑解决
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-11-22 13:57 | 显示全部楼层
原帖由 采花郎 于 2008-11-15 21:33 发表
; g: L! {  L& K试着转换了部分搜狗的词库,有点点小问题请教osfans
- w( h8 Y. J& }/ R7 t4 A: ]1 U0 Q; Y1 n. p+ }( m
1,转换的词库里面有大量的四字以上的词,把这样的词也做进来没事吧?输入的时候能正常跳出来吗?
9 U3 j6 P2 O: W: H; x, Y1 E4 M' {0 T* s
2,词频排列问题。拼音字母的排序是否有一定的要求,我观 ...

9 \' [& G' c7 d$ B! F4 t$ i5 T; l四字以上的词也支持,我五笔里面就有。/ X& l  \0 O0 E* Q: i- F
排序没有什么要求吧,不过现在可能是按照字排列的,因为没有词频信息。
) X1 v4 M/ M0 z  L9 w: L; G不需要塞进去,直接合并就可以,自定义词可能是放在最前面。. G5 Q3 h3 ]* T* s
# {8 R5 Y0 P% E$ ?7 `6 y
[ 本帖最后由 osfans 于 2008-11-22 14:00 编辑 ]
回复 支持 反对

使用道具 举报

发表于 2008-11-22 14:06 | 显示全部楼层
感谢osfans的解答,感谢osfans为大家做了这么多有益的工作,Palm有你才精彩。
3 @' A1 l) A3 p; P: e8 ]; L
5 c& J$ H. b, R9 B: R6 e等笔记本回来了就开工,届时有什么问题,希望还有机会请教你。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-11-22 19:23 | 显示全部楼层
嗯,好的,到时再切磋。
回复 支持 反对

使用道具 举报

发表于 2008-11-23 00:53 | 显示全部楼层

花了两天功夫,作了美国传统双解的彩色版

可惜还是正文中的音标无法显示,希望以后的版本能解决
: w$ T( M+ ?2 Y' R) \3 ^
! }8 x4 h. N6 V& n. I想要的可以去手掌印或者hi-pda看完整帖子
& o' @7 o  S8 H& \! l: khttp://www.hi-pda.com/forum/view ... xtra=&page=2###
) c/ a- j+ \- V6 V7 ^
, J8 Y/ y0 M% b; \注意有国外服务器可以直接下载大文件( j& f$ B6 v% x, L. y

5 V4 u' d! m6 ~5 t! J[ 本帖最后由 dracodoc 于 2008-11-23 03:18 编辑 ]
Learn1-color.png
Learn3-color.png
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-11-23 14:04 | 显示全部楼层
赞一个。支持。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-11-23 14:50 | 显示全部楼层

可以实现缩进和使用zdic里设置的字体颜色

请参考下方代码:
# ^: b. a9 ], |: i9 a+ D) j0 q2 v//STECURRENTFONT//为正文颜色,
7 C4 X. A1 }! O! ]! C. E% n# ]//STELEFTINDENT=xx//为缩进。
  1. 5 L0 c: h+ P' o! b* E. N: N
  2. consider         5. To show consideration for:\n//STEBLUEFONT////STELEFTINDENT=10//体贴关心:\nfailed to consider the feelings of others.\n未能照顾到他人的感情\n//STECURRENTFONT////STELEFTINDENT=0//6. To esteem; regard.\n//STEBLUEFONT////STELEFTINDENT=10//尊重;看重
复制代码
回复 支持 反对

使用道具 举报

发表于 2008-11-24 02:28 | 显示全部楼层
原帖由 osfans 于 2008-11-23 14:50 发表
# e7 |9 H% n( k2 q- \$ |1 `4 `* E$ G请参考下方代码:+ F! v1 `  Y! {( \
//STECURRENTFONT//为正文颜色,0 n7 w6 K# u- i" z+ M: c7 K
//STELEFTINDENT=xx//为缩进。5 l+ S- O5 C8 E  m7 U
consider         5. To show consideration for:\n//STEBLUEFONT////STELEFTINDENT=10//体贴关心:\nfailed to consider the fe ...
2 E0 E  P- C% h, p1 P$ v- E0 [
. H3 T7 i4 |: ?2 d; V
多谢!那我尝试一下
回复 支持 反对

使用道具 举报

发表于 2008-11-27 18:28 | 显示全部楼层
报告,显示信息又变成中文了……虽然没什么关系,但我在服务器上的 UTF-8 环境里就全是乱码...
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-11-27 20:38 | 显示全部楼层
哦,那我还改成英文的,把金山词霸的工具也给整合进去了。
回复 支持 反对

使用道具 举报

发表于 2008-12-1 14:09 | 显示全部楼层
报告 bug,似乎 <u> 标记的替代有问题,导致“省辖市”这一词条出现问题。
0 ~6 k( s% w6 Y& {9 I
* Q5 P) x; i/ K5 g, J" T6 P' t另外,建议不要用链接替代 <u> 标记,用一般的粗体加强就可以了,原因参看“省辖市”原条目的 <u> 标记使用。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-12-1 14:30 | 显示全部楼层
什么问题啊?我看还好啊,
/ G6 C" g+ ~  v: C5 n" l那就改成灰色吧,呵呵。
回复 支持 反对

使用道具 举报

发表于 2008-12-2 10:10 | 显示全部楼层
真是万分感激,谢谢楼主!
回复 支持 反对

使用道具 举报

发表于 2008-12-2 17:47 | 显示全部楼层
增加老版本的支持吧,毕竟有喜欢用老版本词典的,个人感觉好像比新版的查词快些
4 v& _: Q7 H1 o$ q) }9 p% k
$ |, p) G: a: e1 B+ `6 r不需要太多变化,只要能把超长词条分成4K大小,生成TXT,其余的工作用KDIC的工具就可以了
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

QQ|Archiver|手机版|小黑屋|吹友吧 ( 京ICP备05078561号 )

GMT+8, 2024-12-23 08:45 , Processed in 0.489300 second(s), 15 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表