[02-05-06] [原创][教程]快快乐乐看新闻----Sunrise脚本制作方法

jetair · 发表于 2006-5-2 21:57

Palm上的离线浏览工具有handstory,isilo,plucker等。Sunrise是配合plucker使用的桌面端程序。sunrise+plucker拥有抓取网页的速度快，可以转换RSS，能够自动登录网站,阅读英文方便，即点即译等诸多优点。
  sunrise对中文的支持也并不弱，可以完美的转化GBK,GB2312编码的网页。唯一不能转化UTF-8网页，好在UTF-8的网页在所有中文网页中只占一小部分。
  sunrise的脚本，和其他类似软件的脚本一样，可以把网页中你需要的部分抓取下来，而摒弃你不需要的部分，如广告等。下面是脚本使用前后的对比

转换以后清爽多了吧.

  sunrise的脚本非常容易理解和编写，甚至可以这么说，几乎不用你写任何代码就可以完成抓取任务。

  下面我们首先用一个简单实例来说明一个典型的sunrise频道是如何制作的。然后我们将来讨论制作过程的技术细节。
我们需要如下工具来辅助制作clip：
1.[url='http://www.pdasky.net/soft/11242.htm']Sunrise 0.42e[/url](需要java 虚拟机支持)
2.[url='http://www.purpletech.com/xpe/index.jsp']XPath Explorer[/url]
3.[url='http://www4.skycn.com/soft/458.html']Dreamweaver 8.0[/url](非必需)
  1.我们以网易的RSS频道为例.网址是http://news.163.com/special/a/00011K6L/allrss.html.进入头条新闻的xml rss2.0页面,我们用这个页面作为主页.由于这个页面是RSS页面,sunrise将不会对此页面进行转换.新建立一个sunrise频道,将网址拷入并按如下设置

存储于任意目录中

2.建立一个163_headline.xsl文件于相同目录中.写入以下文字(并不需要逐字输入,后面有完整文件下载)

这个xsl文件就是sunrise的脚本文件了.以上内容可以看作一个模板,基本每个脚本文件都长得这个样子的.其中*********是我们需要修改的部分.我们只要把*********用我们想要的内容替代就行了.

3.用dreamweaver打开主页的任意一个次级页面,比如http://news.163.com/06/0502/15/2G4JKH7K0001124J.html,察看源文件,并另存为源文件.
分别用dreamweaver(DW)和Xpath Explorer(Xpe)打开上述源文件,在dreamweaver中选中只包含新闻内容的部分,可以看到,此处为<div id="main">.

然后再xpe里找到这个标签

找标签的时候可以用菜单expand all,然后拖动滚动条.如果看到某个地方有大量乱码(xpe不支持中文),一般这就是网页的正文部分.双击含有正文的标签.就可以在上面看到一个路径拉(学名xpath).

我们把xpath拷贝粘贴到163_headline.xsl中的********处就行了.

以下频道文件包含
网易博客文摘
网易头条
CNN 头条新闻
人民网体育
人民网国际新闻
凤凰网博客文摘
新浪社会新闻
新浪国际新闻

[ Last edited by jetair on 2006-5-2 at 22:18 ]

jetair · 发表于 2006-5-2 21:59

频道文件...

chenwintek · 发表于 2006-6-28 22:55

DINGGGGGGGGGGGGGGGGGGGGGGGGGGG.

shane_kim · 发表于 2009-1-14 07:52

链接包内的模板和地址，大多失效。转换出来不是乱码就是1k的文件。

psterman · 发表于 2009-3-21 22:40

谢谢楼主和ls

账号		自动登录	找回密码
密码			加入我们

[PalmOS软件] [02-05-06] [原创][教程]快快乐乐看新闻----Sunrise脚本制作方法

频道文件