|
《简明英汉汉英词典合集》整理版
( P0 y9 b; H. z) B2 p$ m解开江边小鸟制作的pdb后,原词典对应的文本文件大小104M,共2700731词条。整理后文本文件67M,共1607338词条。其中英汉1163937词条,汉英443400词条。
/ g w: @7 P- F/ e. y《中国汉语成语字词典合集》整理版: P' z, H E$ j o# p$ w
解开江边小鸟制作的pdb后,原词典对应的文本文件大小44M,共267715词条。整理后文本文件27M,共147584词条。
6 m) a9 A* x, T" x' @整理说明:' e& ~" a8 A( M3 P# x
1、程序很简单,每个词条使用"\n"(ASCII:0A)分隔开的。而释义和词条条目是用"\t"(ASCII:09)分隔。所以遍序检索"\n",可以逐条读出,然后截取词条条目。8 z2 I' Z; D% U: }) p' F7 M+ `3 V3 ] p
如果条目相同,词条总长度长的保留,词条总长度短的写入另一个文件。
5 L! m! p: _) T2 B7 T) M% b; u; D如果条目不同,将保留的词条写入最终的文件(无论同条目的有多少条,遍序下来只保留了最长释义的一条)。& L1 ]# Y; c7 A8 o# ?
2、这种思路很简单,对《简明英汉汉英词典合集》很有效,因为本来简明合集释义简单,保留最长释义词条的思路足够。: W7 a' _. W, V2 V" E; k" q
3、但是对于《中国汉语成语字词典合集》,我不是特别满意。主要是这本词典中,对单字的释义,各个词典本身的风格不一样,比如“大”,有的词典就一条:“大”,有的词典还分“大1”“大2”,有的词典还分“大2(1 接上页”。单纯的挑选长释义词条而删除短释义词条的方法,造成在单字方面筛选后不合理。
* o3 H9 z# U$ f4 p当然,对词组方面没有任何问题。
- D6 B& H+ P' Y8 a4、稍后整理后公布源程序,VC++6.0." i8 C2 q$ u9 t; {! a" M! R
6 Y% u4 ^5 E6 S* ]1 O4 p- ]
江边小鸟 发布这两个词典的原帖,原词典也可以在这里下载。6 w, i; M. w# ?! f5 }
http://bbs.tompda.com/viewthread.php?tid=2124695 |
评分
-
查看全部评分
|