找回密码
 加入我们

QQ登录

只需一步,快速开始

搜索
查看: 1430|回复: 4

[PalmOS软件] [02-05-06] [原创][教程]快快乐乐看新闻----Sunrise脚本制作方法

[复制链接]
发表于 2006-5-2 21:57 | 显示全部楼层 |阅读模式
Palm上的离线浏览工具有handstory,isilo,plucker等。Sunrise是配合plucker使用的桌面端程序。sunrise+plucker拥有抓取网页的速度快,可以转换RSS,能够自动登录网站,阅读英文方便,即点即译等诸多优点。  I* o% P" ]7 ^1 Y0 X- T
  sunrise对中文的支持也并不弱,可以完美的转化GBK,GB2312编码的网页。唯一不能转化UTF-8网页,好在UTF-8的网页在所有中文网页中只占一小部分。/ f$ C' K* x' [
  sunrise的脚本,和其他类似软件的脚本一样,可以把网页中你需要的部分抓取下来,而摒弃你不需要的部分,如广告等。下面是脚本使用前后的对比- J" _# S' B! ]( H, M
  " Y# b' K0 w/ @! ]  S- O" c  q" N& K
转换以后清爽多了吧.- |1 P! V( F, X  P, Y' ?1 C

7 [" f- u6 H6 N7 {$ f6 R+ L  sunrise的脚本非常容易理解和编写,甚至可以这么说,几乎不用你写任何代码就可以完成抓取任务。- ?# q3 @3 A, H% r
  
: d+ p0 `' p4 s1 p- x1 V  下面我们首先用一个简单实例来说明一个典型的sunrise频道是如何制作的。然后我们将来讨论制作过程的技术细节。
6 C7 W; j) z' R" g+ b    我们需要如下工具来辅助制作clip:' b" l& N$ s/ a
    1.[url='http://www.pdasky.net/soft/11242.htm']Sunrise 0.42e[/url](需要java 虚拟机支持)" Y; a" j4 E( T+ }* V7 q+ I
    2.[url='http://www.purpletech.com/xpe/index.jsp']XPath Explorer[/url]- q9 D/ Q3 H: E! M9 t2 }2 F
    3.[url='http://www4.skycn.com/soft/458.html']Dreamweaver 8.0[/url](非必需)9 _1 M- B# y7 s) j& B
  1.我们以网易的RSS频道为例.网址是http://news.163.com/special/a/00011K6L/allrss.html.进入头条新闻的xml rss2.0页面,我们用这个页面作为主页.由于这个页面是RSS页面,sunrise将不会对此页面进行转换.新建立一个sunrise频道,将网址拷入并按如下设置# l- @% E" Y# y. d4 e
, ]% g! U' Y; u- c, a9 j
   
/ N/ R- u6 P: C/ b, T9 `9 n$ b! f" ^
6 }$ P2 }, e9 q
存储于任意目录中
2 k7 P% p# Q" I- ~, z0 A+ o
* H% ?4 K: f5 r; A* J- G4 T2.建立一个163_headline.xsl文件于相同目录中.写入以下文字(并不需要逐字输入,后面有完整文件下载)
& X4 m& g1 ^% ^( ~1 x( }0 t
7 i2 V. |5 J. O9 a$ E这个xsl文件就是sunrise的脚本文件了.以上内容可以看作一个模板,基本每个脚本文件都长得这个样子的.其中*********是我们需要修改的部分.我们只要把*********用我们想要的内容替代就行了.
) w. V& o' C! i+ [6 q! s3 Q- Q% u( b# [
3.用dreamweaver打开主页的任意一个次级页面,比如http://news.163.com/06/0502/15/2G4JKH7K0001124J.html,察看源文件,并另存为源文件.
! Q. f; |  I  k9 i! T8 \分别用dreamweaver(DW)和Xpath Explorer(Xpe)打开上述源文件,在dreamweaver中选中只包含新闻内容的部分,可以看到,此处为<div id="main">.! u0 c) x1 O% c! r* f) Q; U3 Y

/ ~; n- ^1 F! m5 S5 g( w然后再xpe里找到这个标签
1 u# d1 D3 H5 e0 I" K' S6 s. K0 S1 E" o
找标签的时候可以用菜单expand all,然后拖动滚动条.如果看到某个地方有大量乱码(xpe不支持中文),一般这就是网页的正文部分.双击含有正文的标签.就可以在上面看到一个路径拉(学名xpath).  ^" z. ]$ o% h. l) z( s9 z3 W
) x# {) s9 r* i% U$ x9 z! }
我们把xpath拷贝粘贴到163_headline.xsl中的********处就行了.8 w" l4 m& n7 ^2 u

4 }+ S+ L8 u( S4 ]9 G以下频道文件包含: w! |5 n! \( l% F3 E
网易博客文摘
" }; r8 Y6 T" {- Q. c+ G网易头条
0 _! d& ]& c) @) `$ ~CNN 头条新闻
: `& Y1 }; x$ _- C( M人民网体育3 J7 }& z. `$ W: B% C% e- _
人民网国际新闻  Y5 ~0 s7 Q( d+ \
凤凰网博客文摘4 E! K9 H% ~, i- \0 h( r, T; b: Z
新浪社会新闻
; Q) `% y9 ^* C" U1 o新浪国际新闻
1 y9 v# C' ~# j% }; L; G( D' M' L* t" |% I) ~$ f
[ Last edited by jetair on 2006-5-2 at 22:18 ]
回复

使用道具 举报

 楼主| 发表于 2006-5-2 21:59 | 显示全部楼层

频道文件

频道文件...

mychannels.rar

6.06 KB, 阅读权限: 1, 下载次数: 350

回复 支持 反对

使用道具 举报

发表于 2006-6-28 22:55 | 显示全部楼层
DINGGGGGGGGGGGGGGGGGGGGGGGGGGG.
回复 支持 反对

使用道具 举报

发表于 2009-1-14 07:52 | 显示全部楼层
链接包内的模板和地址,大多失效。转换出来不是乱码就是1k的文件。
回复 支持 反对

使用道具 举报

发表于 2009-3-21 22:40 | 显示全部楼层
谢谢楼主和ls
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

QQ|Archiver|手机版|小黑屋|吹友吧 ( 京ICP备05078561号 )

GMT+8, 2025-2-24 01:20 , Processed in 0.306628 second(s), 18 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表