字体/掌易码表/ZDic词典/SuperMemo/SugarMemo等制作工具pdbEditor09.01.11

osfans · 发表于 2008-10-21 11:57

英文可能比较大，不能全部读入内存。最终可能一个词典也不够用。得另想办法。

wanderxjtu · 发表于 2008-10-22 14:41

原帖由 osfans 于 2008-8-10 20:01 发表
& w) y/ j% _) V程序源代码93072+ }3 c1 _- y- E# q$ ]
运行环境:
: A4 \7 Y1 v) i% n/ {9 B6 V) N) H% ?python2.5：http://python.org/ftp/python/2.5.2/python-2.5.2.msi( e1 _* t, c# i' ]7 E) y. f
wxpython unicode：http://downloads.sourceforge.net/wxpython/wxPython2.8-win32-unicode-2.8.8.1-py25.exe
: ~7 K, y3 k- x, o
) k% h' y2 R4 t, }目 ...

这个用了windows only的库ImageGrab, 还有windows的路径，我以为直接拿来就能在linux上用呢
囧

wanderxjtu · 发表于 2008-10-22 14:43

原帖由 wanderxjtu 于 2008-10-22 14:41 发表
( l2 e; S! Z6 S
# r4 u& }3 t) h% `0 w& f* @* }+ E; o, }6 Z6 x- T7 Q; z7 Q; {
这个用了windows only的库ImageGrab, 还有windows的路径，我以为直接拿来就能在linux上用呢" w2 N& L+ @, n/ H: d7 g7 {
囧

ImageGrab.py中的说明:
20 ##
21 # (New in 1.1.3)  The <b>ImageGrab</b> module can be used to copy
22 # the contents of the screen to a PIL image memory.
23 # <p>
24 # The current version works on Windows only.</p>
25 #
26 # @since 1.1.3
27 ##

去掉Import ImageGrab后的错误:
Traceback (most recent call last):
  File "./pdbEditor.py", line 1555, in <module>
GUI()
  File "./pdbEditor.py", line 1310, in GUI
Application(None, -1, size=(780, 515))
  File "./pdbEditor.py", line 862, in __init__
self.createPageFont()
  File "./pdbEditor.py", line 954, in createPageFont
self.initchoices()
  File "./pdbEditor.py", line 1005, in initchoices
os.chdir(os.path.join(os.environ['WINDIR'],'Fonts'))
  File "/usr/lib/python2.5/UserDict.py", line 22, in __getitem__
raise KeyError(key)
KeyError: 'WINDIR'

楼主能改下不？这个工作量应该不大吧，期待。

osfans · 发表于 2008-10-22 19:39

原帖由 wanderxjtu 于 2008-10-22 14:41 发表
- {* T+ z, k/ `) G* F4 h8 y. E* G" G

3 G: V+ f' f8 _+ f这个用了windows only的库ImageGrab, 还有windows的路径，我以为直接拿来就能在linux上用呢
6 {, D, c+ V# i2 p, P囧

哎呀，不好意思，本来是想跨平台的，后来，发现没人用，就在windows下开发了，你看看，不行的话就把grab的去掉，直接用pil生成字体吧。

geillizer · 发表于 2008-10-23 16:25

用

原帖由 osfans 于 2008-10-19 18:31 发表 1 N- T0 P* S |# o/ b5 `
是有个临时存储的,不过我估计存不下.
& y' t" n3 C4 _' ]/ z/ n* [% O" i你别解压,可以直接读压缩文件的.

解压了的xml是不是不能用zdictool.exe转换？

osfans · 发表于 2008-10-23 17:04

也可以，都支持，解压后会更快一些。

danish_liu · 发表于 2008-10-28 23:40

原先的\n 功能还有么？
我想实现
7.6 监视和测量装置的控制
组织应确定需实施的监视和测量以及所需的监视和测量装置，为产品符合确定的要求(见7.2.1)提供证据。
组织应建立过程，以确保监视和测量活动可行并以与监视和测量的要求相一致的方式实施。
为确保有效，必要时，测量设备应：
a) 对照能溯源到国际或国家标准的测量标准，按照规定的时间间隔或在使用前进行校准或检定。当不存在上述标准时，应记录校准或检定的依据；
b) 进行调整或必要时再调整；
这样写：
7.6监视和测量装置的控制\t[ISO9000条文]//STEHORIZONTALLINE// 组织应确定需实施的监视和测量以及所需的监视和测量装置，为产品符合确定的要求(见7.2.1)提供证据。组织应建立过程，以确保监视和测量活动可行并以与监视和测量的要求相一致的方式实施。为确保有效，必要时，测量设备应：\na)对照能溯源到国际或国家标准的测量标准，按照规定的时间间隔或在使用前进行校准或检定。当不存在上述标准时，应记录校准或检定的依据；\nb)进行调整或必要时再调整；\nc)得到识别，以确定其校准状态；\nd)防止可能使测量结果失效的调整；\ne)在搬运、维护和贮存期间防止损坏或失效。\n此外，//STEHORIZONTALLINE//\n注：作为指南，参见GB/T19022-1和GB/T19022-2。\n注：可追溯到设备校准记录的编号或其它标识满足了本要求\nc)的意图。
有什么问题么？为什么A)的都显示不出来？？
c) 得到识别，以确定其校准状态；
d) 防止可能使测量结果失效的调整；
e) 在搬运、维护和贮存期间防止损坏或失效。

osfans · 发表于 2008-10-28 23:54

“此外”后面的那条线有问题，只显示很短的一条，很怪。

A我显示出来啦

osfans · 发表于 2008-10-29 00:01

7.6监视和测量装置的控制\t[ISO9000

这里不直接用\t，而是按一下Tab键

danish_liu · 发表于 2008-10-29 00:11

谢谢，太快了实况转播啊

nickhuang · 发表于 2008-10-29 16:10

英文4.1G的版本，convert.bat运行了不到半小时，出错：

从提示看，我猜是内存溢出之类的错误，因为文件大小超过4G了，是不是某个变量只使用32位的，换成64位是不是就可以了？
osfans回答一下！谢谢！

osfans · 发表于 2008-10-29 18:14

对的，那个错误确实是那个意思，得改程序。
不过，现在的字典格式最多是16K*256*256，也就是1G。
估计得分成四本才行。

nickhuang · 发表于 2008-10-30 08:55

很高兴看到osfans现身了。
你的意思是改程序也没法做到一本？
字典格式最多是1G，主要的瓶颈在哪？

nickhuang · 发表于 2008-10-30 09:04

大概看了一下源码，确实是全部读进内存再处理的。
那我有个想法，能不能读一个单位处理一个单位然后直接写入pdb，这个单位可以是一行，一段，甚至是一个word。
对Python和XML不熟，但是我觉得处理好这个单位的划分，格式就不会乱，程序也完全可以跑起来的。
只是程序运行时间肯定增加不少，因为多了频繁访问I/O.

naill · 发表于 2008-10-30 11:43

还有一个问题，我打算重新制作字典，请问怎样在txt文档中加入音标的指示符？

osfans · 发表于 2008-10-30 12:14

原帖由 naill 于 2008-10-30 11:43 发表
8 t, }& o1 ?- k5 L0 \/ E; \还有一个问题，我打算重新制作字典，请问怎样在txt文档中加入音标的指示符？

现在音标仅在正文开头的
/音标/
或
[音标]
能识别，其他情况下就得自己写了。

osfans · 发表于 2008-10-30 12:15

原帖由 nickhuang 于 2008-10-30 08:55 发表
w2 v7 q3 k/ v( e, I) _很高兴看到osfans现身了。
9 H5 K) Z' | X3 Q9 \你的意思是改程序也没法做到一本？# K/ F+ M$ C( m9 a7 [
字典格式最多是1G，主要的瓶颈在哪？

瓶颈就是数据库记录数的限制吧，以及解压缩的单位的限制吧。

osfans · 发表于 2008-10-30 12:16

原帖由 nickhuang 于 2008-10-30 09:04 发表 ' V k( S* F9 i8 U
大概看了一下源码，确实是全部读进内存再处理的。
6 W, @* X7 I s, J$ _7 x2 G5 g/ B那我有个想法，能不能读一个单位处理一个单位然后直接写入pdb，这个单位可以是一行，一段，甚至是一个word。% L6 ` Z' r# G4 N
对Python和XML不熟，但是我觉得处理好这个单位的划分 ...

是的，是可以这样的，但是好像没必要，因为词典最大就1G，1G的话，内存加虚拟内存已经能够处理了，

naill · 发表于 2008-10-31 09:31

原帖由 osfans 于 2008-10-30 12:14 发表
# _% @+ B8 p5 W
+ r& [, J& v5 Y- j现在音标仅在正文开头的
5 v, I9 X+ [, m/ I( K7 i2 V/ W/音标/
1 W j/ J' Z' U, C或
0 D+ O1 N7 P+ P[音标]3 I( j4 l( L: Q; r( E
能识别，其他情况下就得自己写了。

老大，就是问你在正文中，用怎样的格式标注...
比如 //STExxxxFONT//音标//STESTDFONT//的格式。

nickhuang · 发表于 2008-10-31 09:31

原帖由 osfans 于 2008-10-30 12:15 发表
2 t0 _) l- u+ o$ Y1 N# [; |* r5 O: Z" b
瓶颈就是数据库记录数的限制吧，以及解压缩的单位的限制吧。

期待能突破这个限制啊，是不是要重写Zdiclib？
FAT32的4G空间限制肯定是无可奈何，但是可以下载小于4G的版本，也算是最终版了。

osfans · 发表于 2008-10-31 12:28

原帖由 naill 于 2008-10-31 09:31 发表
" E0 [* N2 G2 k( Z' L# s% N
# i1 W4 a1 |8 c; Y
' V3 A" c. c& e$ J: X& g8 u1 C老大，就是问你在正文中，用怎样的格式标注...8 [. x' Q) a0 b! o6 p4 _4 t) a5 g
比如 //STExxxxFONT//音标//STESTDFONT//的格式。

音标不能用这种格式，而是用调用图片的格式，比如：//STEBITMAP=9001//这表示第一个音标，
总共有255个，序号分别从9001到9255。具体是什么可以参看前人的GMX音标排序。

emfox · 发表于 2008-10-31 12:38

终于有点空了，我把 ZDicTool 的代码小改了一下，用 bsddb 写文件数据库，这样基本上只占用很小的内存就可以用了。所付出的代价是时间稍微增加了些，以 zhyue 做试验，执行时间从25秒增加到了35 秒，不过我认为这是值得的。

但是这只能解决生成的问题，生成以后的文件太大，ZDic 没法支持，我就真的没时间去搞了……

osfans · 发表于 2008-10-31 14:59

厉害啊，支持~

naill · 发表于 2008-11-1 22:22

原帖由 osfans 于 2008-10-31 12:28 发表
( k% ?/ z' e. Z9 C+ B
, k2 [5 \5 [+ S音标不能用这种格式，而是用调用图片的格式，比如：//STEBITMAP=9001//这表示第一个音标，# o8 A- u1 L, M' M0 Q7 Q
总共有255个，序号分别从9001到9255。具体是什么可以参看前人的GMX音标排序。

我知道GMX音标的格式，大家用的朗道金山117万词典就是我做的~~~。

其实你在第二行显示音标，肯定调用了什么语句。我的意思是，你可以自己定义一个格式什么的，当程序读到这个格式，就自动调用你写的函数，不就完了么？然后大家都按照这个格式把字典修改一下，也应该容易实现的啊。

采花郎 · 发表于 2008-11-2 01:55

老大，我试着反编译了一下词库，结果出现这样的问题，请问何故？

F:\Palm\000000\Key>zdictool -t a.pdb a.txt
[01:47:24]Loading...
[01:47:24]Processing...
[01:47:24]Error!
Traceback (most recent call last):
  File "ZDicTool.py", line 253, in <module>
app.p2t(pathi, patho)
  File "ZDicTool.py", line 232, in p2t
t.write(self.unste(f.read(endOffset - startOffset).decode('zlib')))
  File "encodings\zlib_codec.pyo", line 43, in zlib_decode
zlib.error: Error -3 while decompressing data: incorrect header check

是不是机器要装python-2.5.2.msi？我已经装了

机器性能不错，2.4G 45nm双核，2G内存，硬盘NTFS分区

[ 本帖最后由采花郎于 2008-11-2 01:56 编辑 ]

osfans · 发表于 2008-11-2 12:59

原帖由 naill 于 2008-11-1 22:22 发表
. z. F& c v0 p, b( T* [3 r, Z) r# I. K; H- S( k

! U7 a6 ]8 A6 ^4 G我知道GMX音标的格式，大家用的朗道金山117万词典就是我做的~~~。
8 H* @7 E3 h3 H
$ l4 {* ?3 i0 c& \8 l其实你在第二行显示音标，肯定调用了什么语句。我的意思是，你可以自己定义一个格式什么的，当程序读到这个格式，就自动调用你写的函数，不就 ...

是啊，是进行了替换啊，而且是把短的变成了长的，但是，以前写过把[[ ]]之间的内容自动换成超链接，据说速度比较慢，而且还容易重启，所以就不写了，主要的原因就是，把长字符串变成短字符串好变，但是，把短的变成长的，就容易出错了。因为源字符串，比如是16K，分配的新字符串得长于16K，这就比较麻烦。最极端的情况，每个字符都是音标，那估计得超过64K了。

osfans · 发表于 2008-11-2 13:00

原帖由 采花郎 于 2008-11-2 01:55 发表 - ]) Z6 k6 w  r( g5 e
老大，我试着反编译了一下词库，结果出现这样的问题，请问何故？
3 T, c. ]* P+ O  l6 d& N- s6 t; L- V' c$ z6 F! I
F:\Palm\000000\Key>zdictool -t a.pdb a.txt
! e! A- h& c2 v4 O5 l7 o! ^8 N[01:47:24]Loading...
+ K& s7 y- j7 {' L1 V[01:47:24]Processing...
: P5 H  e" W9 c! `[01:47:24]Error!
% ~4 |1 P; l, u# w; v* p- iTraceback (most recent call ...

这个a.pdb有多大啊？不大的话，传给我试试，我来调试一下，到底是怎么错了。
你装的东西没问题，齐全了。还是我程序的问题。
对了，难道是旧版本的词典？那就没法解了，用dekdic的速度快一些。

采花郎 · 发表于 2008-11-2 14:17

可能是旧版的词典，不太大，10来M的样子

dekdic？也是反编译的？反编译旧版词典？

另外，做中文wiki，我直接下载bz2压缩包转pdb很快，不到20分钟。

但是我按照你的提示，解压出xml文件以后，convertZ转简体，然后用zdictool转，已经过了一个多小时了，还没完。怪了，你不是说要快些吗？

[ 本帖最后由采花郎于 2008-11-2 14:18 编辑 ]

osfans · 发表于 2008-11-2 19:34

对的dekdic是反编译旧字典的，我也传到主楼吧。

转成简体后，注意存储的编码格式，还需要是utf-8格式。
不过有人反馈这个工具在转换wiki时，部分词典末尾会丢失部分内容，目前还没有查出错误所在。

采花郎 · 发表于 2008-11-2 19:46

回osfans兄

中途出错了，退出。

解压后的xml文件有九百多M，转成gbk编码以后就只有七百多M了，应该是没问题的，utf-8编码确实体积要大一些。

不过转换过来的xml始终都不能正确转成pdb，不知何故。我直接把解压后的九百多M的xml文件转pdb成功，所以估计应该是那个convertZ在转换过程中出了问题

下午把英文版的4.1G的bz2下载了，试着转换了一下，内存占用达到了2G（机器是2G的内存），后来上升到2.6G以后出错退出。

不过似乎听老兄你说zdic支持的词库不能大于1G？看来就算是转换成功了也没戏，呵呵，Zdic打不开

osfans · 发表于 2008-11-2 20:07

原帖由 采花郎 于 2008-11-2 19:46 发表 " B3 X& J1 Z* E- l
回osfans兄5 U3 a$ ~" i* \! N4 s2 K' |! Y
% t) `4 F6 W; u( y
中途出错了，退出。
' Z, E/ G3 o' j) a0 R* d' a' n
" k; O& N# B1 `$ R7 V e2 J5 f解压后的xml文件有九百多M，转成gbk编码以后就只有七百多M了，

要把转换之后的文件保存成utf8编码，不能使用gbk编码。然后再转换。

采花郎 · 发表于 2008-11-2 20:27

测试成功，直接用xml转的，晕倒，这个中文wiki才花了5分钟就完成了，确实比bz2的包快多了

osfans · 发表于 2008-11-2 21:00

先别删那个XML，待会我更新一下源程序，应该能解决内容丢失的问题。

采花郎 · 发表于 2008-11-2 21:20

osfans兄，你后面贴的那个py文件说不全部读入内存，解决了内存溢出的问题。但是我在处理4.1G英文版wiki的时候仍然出现内存溢出，内存占用无比大。请问这是何故？

我解压bz2以后再试试看会不会继续出现占用打量内存的情况，不过估计还是老样子。

[ 本帖最后由采花郎于 2008-11-2 21:35 编辑 ]

osfans · 发表于 2008-11-2 22:05

那个是一位网友改的，我机器无法测试，你试试看。zdic格式现在最大确实只能1G，

dooqee · 发表于 2008-11-2 22:48

非常不错

采花郎 · 发表于 2008-11-2 23:18

报告一下osfans，前面我遇到的问题果然是旧词库的问题，用了你的新工具以后，成功转换

谢谢osfans。

emfox · 发表于 2008-11-3 16:09

原帖由 采花郎 于 2008-11-2 21:20 发表
. y% s& W7 Z" W4 s& {3 \1 Dosfans兄，你后面贴的那个py文件说不全部读入内存，解决了内存溢出的问题。但是我在处理4.1G英文版wiki的时候仍然出现内存溢出，内存占用无比大。请问这是何故？/ `: X7 t1 o; l/ n

% a4 `. t4 n. M/ K% ^我解压bz2以后再试试看会不会继续出现占用打量内存 ...

那个 py 文件是我做的，我又仔细看了一下，是这么个问题：虽然已经不全部读入内存了，但是因为直接调用了 sorted()，所以词条（单词本身，不包括解释）还是要全部读入的，加上排序所用的开销，对于解压开来有19G之多的 enwiki 来说，应该也有七八百M吧……不过反正在我的4G的服务器上是制作成功了，嗯

但是总的来说，这个成功的意义虽然比较大，但实用价值等于零，因为 ZDic 根本认不得这么大的文件……

我下一步准备把那个大文件分成四五个小文件，不知道在 16K ZDic版本之前，zhwiki 都是分成两个文件的那种版本是怎么做到的？有大侠能告知一下的话，万分感谢~

osfans · 发表于 2008-11-3 17:45

原帖由 emfox 于 2008-11-3 16:09 发表
" v2 W6 c3 A6 b/ p \( Y% i) ]+ w, A/ s$ Q: |
* c* [1 S# H p9 I9 H
那个 py 文件是我做的，我又仔细看了一下，是这么个问题：虽然已经不全部读入内存了，但是因为直接调用了 sorted()，所以词条（单词本身，不包括解释）还是要全部读入的，加上排序所用的开销，对于解压开来有19G ...

正则替换那里我写错了，现在已经更正不会丢失内容了，另外，乱码的判断还是有点问题。
分割我觉得设定一个记录数就行了吧？比如每个词典六万条。

s = re.compile('(</?(p|font|br|tr|td|table|div|span|ref|small).*?>)|(\[\[[a-z]{2,3}(-[a-z]*?)?:[^\]]*?\]\])|()',\. W! G0 e; @/ @
re.I|re.DOTALL).sub('',s)

复制代码

[ 本帖最后由 osfans 于 2008-11-3 17:49 编辑 ]

sh89 · 发表于 2008-11-3 21:43

请问最新版本还支持导入巨硬词库吗？我下了exe版，发现可以导入掌易词库，但导入巨硬词库时提示format error。下了python的却不会用…

账号		自动登录	找回密码
密码			加入我们

字体/掌易码表/ZDic词典/SuperMemo/SugarMemo等制作工具pdbEditor09.01.11

浏览过的版块