|
Palm上的离线浏览工具有handstory,isilo,plucker等。Sunrise是配合plucker使用的桌面端程序。sunrise+plucker拥有抓取网页的速度快,可以转换RSS,能够自动登录网站,阅读英文方便,即点即译等诸多优点。 I* o% P" ]7 ^1 Y0 X- T
sunrise对中文的支持也并不弱,可以完美的转化GBK,GB2312编码的网页。唯一不能转化UTF-8网页,好在UTF-8的网页在所有中文网页中只占一小部分。/ f$ C' K* x' [
sunrise的脚本,和其他类似软件的脚本一样,可以把网页中你需要的部分抓取下来,而摒弃你不需要的部分,如广告等。下面是脚本使用前后的对比- J" _# S' B! ]( H, M
 " Y# b' K0 w/ @! ] S- O" c q" N& K
转换以后清爽多了吧.- |1 P! V( F, X P, Y' ?1 C
7 [" f- u6 H6 N7 {$ f6 R+ L sunrise的脚本非常容易理解和编写,甚至可以这么说,几乎不用你写任何代码就可以完成抓取任务。- ?# q3 @3 A, H% r
: d+ p0 `' p4 s1 p- x1 V 下面我们首先用一个简单实例来说明一个典型的sunrise频道是如何制作的。然后我们将来讨论制作过程的技术细节。
6 C7 W; j) z' R" g+ b 我们需要如下工具来辅助制作clip:' b" l& N$ s/ a
1.[url='http://www.pdasky.net/soft/11242.htm']Sunrise 0.42e[/url](需要java 虚拟机支持)" Y; a" j4 E( T+ }* V7 q+ I
2.[url='http://www.purpletech.com/xpe/index.jsp']XPath Explorer[/url]- q9 D/ Q3 H: E! M9 t2 }2 F
3.[url='http://www4.skycn.com/soft/458.html']Dreamweaver 8.0[/url](非必需)9 _1 M- B# y7 s) j& B
1.我们以网易的RSS频道为例.网址是http://news.163.com/special/a/00011K6L/allrss.html.进入头条新闻的xml rss2.0页面,我们用这个页面作为主页.由于这个页面是RSS页面,sunrise将不会对此页面进行转换.新建立一个sunrise频道,将网址拷入并按如下设置# l- @% E" Y# y. d4 e
, ]% g! U' Y; u- c, a9 j
/ N/ R- u6 P: C/ b, T 9 `9 n$ b! f" ^
6 }$ P2 }, e9 q
存储于任意目录中
2 k7 P% p# Q" I- ~, z0 A+ o
* H% ?4 K: f5 r; A* J- G4 T2.建立一个163_headline.xsl文件于相同目录中.写入以下文字(并不需要逐字输入,后面有完整文件下载)
& X4 m& g1 ^% ^( ~1 x( }0 t
7 i2 V. |5 J. O9 a$ E这个xsl文件就是sunrise的脚本文件了.以上内容可以看作一个模板,基本每个脚本文件都长得这个样子的.其中*********是我们需要修改的部分.我们只要把*********用我们想要的内容替代就行了.
) w. V& o' C! i+ [6 q! s3 Q- Q% u( b# [
3.用dreamweaver打开主页的任意一个次级页面,比如http://news.163.com/06/0502/15/2G4JKH7K0001124J.html,察看源文件,并另存为源文件.
! Q. f; | I k9 i! T8 \分别用dreamweaver(DW)和Xpath Explorer(Xpe)打开上述源文件,在dreamweaver中选中只包含新闻内容的部分,可以看到,此处为<div id="main">.! u0 c) x1 O% c! r* f) Q; U3 Y

/ ~; n- ^1 F! m5 S5 g( w然后再xpe里找到这个标签
1 u# d1 D3 H5 e0 I" K ' S6 s. K0 S1 E" o
找标签的时候可以用菜单expand all,然后拖动滚动条.如果看到某个地方有大量乱码(xpe不支持中文),一般这就是网页的正文部分.双击含有正文的标签.就可以在上面看到一个路径拉(学名xpath). ^" z. ]$ o% h. l) z( s9 z3 W
) x# {) s9 r* i% U$ x9 z! }
我们把xpath拷贝粘贴到163_headline.xsl中的********处就行了.8 w" l4 m& n7 ^2 u
4 }+ S+ L8 u( S4 ]9 G以下频道文件包含: w! |5 n! \( l% F3 E
网易博客文摘
" }; r8 Y6 T" {- Q. c+ G网易头条
0 _! d& ]& c) @) `$ ~CNN 头条新闻
: `& Y1 }; x$ _- C( M人民网体育3 J7 }& z. `$ W: B% C% e- _
人民网国际新闻 Y5 ~0 s7 Q( d+ \
凤凰网博客文摘4 E! K9 H% ~, i- \0 h( r, T; b: Z
新浪社会新闻
; Q) `% y9 ^* C" U1 o新浪国际新闻
1 y9 v# C' ~# j% }; L; G( D' M' L* t" |% I) ~$ f
[ Last edited by jetair on 2006-5-2 at 22:18 ] |
|