|
Palm上的离线浏览工具有handstory,isilo,plucker等。Sunrise是配合plucker使用的桌面端程序。sunrise+plucker拥有抓取网页的速度快,可以转换RSS,能够自动登录网站,阅读英文方便,即点即译等诸多优点。
5 J2 A4 t$ W9 e" c5 j/ @0 e sunrise对中文的支持也并不弱,可以完美的转化GBK,GB2312编码的网页。唯一不能转化UTF-8网页,好在UTF-8的网页在所有中文网页中只占一小部分。
: r9 t& o- `) v4 w! D: H" O sunrise的脚本,和其他类似软件的脚本一样,可以把网页中你需要的部分抓取下来,而摒弃你不需要的部分,如广告等。下面是脚本使用前后的对比
# }1 W) B- i7 ]* d9 W8 j2 X" u- T  : n/ D l+ M& d) o2 k
转换以后清爽多了吧.; x5 h$ V8 T* `( o
2 F H" A2 S' B
sunrise的脚本非常容易理解和编写,甚至可以这么说,几乎不用你写任何代码就可以完成抓取任务。4 o5 L7 K E( f; a
, l0 n" y7 g- R; \ 下面我们首先用一个简单实例来说明一个典型的sunrise频道是如何制作的。然后我们将来讨论制作过程的技术细节。5 K. A2 o6 h2 n: N2 v' f* Q0 G9 c
我们需要如下工具来辅助制作clip:% D2 L8 A/ [. V {" c% Q
1.[url='http://www.pdasky.net/soft/11242.htm']Sunrise 0.42e[/url](需要java 虚拟机支持)
7 r" Y; h6 O$ N( X 2.[url='http://www.purpletech.com/xpe/index.jsp']XPath Explorer[/url]. M; l0 z& R/ f
3.[url='http://www4.skycn.com/soft/458.html']Dreamweaver 8.0[/url](非必需)
) b$ b W5 |4 V% h 1.我们以网易的RSS频道为例.网址是http://news.163.com/special/a/00011K6L/allrss.html.进入头条新闻的xml rss2.0页面,我们用这个页面作为主页.由于这个页面是RSS页面,sunrise将不会对此页面进行转换.新建立一个sunrise频道,将网址拷入并按如下设置9 J% P8 p0 V# W5 f
1 |/ W* Y; D) o/ T/ E
' Y6 f( T7 B4 J/ E- O8 O# c
4 G# u( P2 [7 s# { d

; y( i v0 j9 k( z G, c存储于任意目录中0 I$ F) c) G% Z- n" J
% N" M! Y) ]$ _1 J) h% |. g2.建立一个163_headline.xsl文件于相同目录中.写入以下文字(并不需要逐字输入,后面有完整文件下载)
& B- f# u$ y( K$ o% M , e3 n: j6 H- y( w( o
这个xsl文件就是sunrise的脚本文件了.以上内容可以看作一个模板,基本每个脚本文件都长得这个样子的.其中*********是我们需要修改的部分.我们只要把*********用我们想要的内容替代就行了.
4 m! @' X* I3 d# k& Q4 h
2 D; @- \6 c- f3.用dreamweaver打开主页的任意一个次级页面,比如http://news.163.com/06/0502/15/2G4JKH7K0001124J.html,察看源文件,并另存为源文件.
6 Q* u6 S' C, r1 r分别用dreamweaver(DW)和Xpath Explorer(Xpe)打开上述源文件,在dreamweaver中选中只包含新闻内容的部分,可以看到,此处为<div id="main">.
! r* x A7 n, q! a9 Z+ m0 h5 b
- J2 x+ x. x* I9 B& A$ K然后再xpe里找到这个标签) C$ m, t9 a! v1 m+ I' @
/ d0 d/ Y/ K* c2 _
找标签的时候可以用菜单expand all,然后拖动滚动条.如果看到某个地方有大量乱码(xpe不支持中文),一般这就是网页的正文部分.双击含有正文的标签.就可以在上面看到一个路径拉(学名xpath).) K1 V; F7 z* g3 d9 o

8 N6 w7 k; J% d) h9 R5 `; l我们把xpath拷贝粘贴到163_headline.xsl中的********处就行了., | I) T, `! r& M; p
: S& U, j% x( l9 I( q以下频道文件包含( C2 V& Y- `# G0 J# V7 V
网易博客文摘- d" b, `" |! Z2 W$ G
网易头条
4 t$ N$ |0 ]% Q; Y5 s) G; w2 r+ WCNN 头条新闻
6 E- H5 R% t8 U4 T" q- i人民网体育. d r) \! Z# B Y
人民网国际新闻
, |4 z* t2 ]# O3 R凤凰网博客文摘
- T& [$ w: `* d1 L$ U新浪社会新闻
2 ?1 O/ H7 W5 ]7 z- ~新浪国际新闻
6 i+ C2 R; y9 ~0 P ~# c0 f. c ^1 `
[ Last edited by jetair on 2006-5-2 at 22:18 ] |
|