Board logo

标题: [讨论]监控多个网站连载小说更新的问题 [打印本页]

作者: honghunter     时间: 2007-4-29 01:46    标题: [讨论]监控多个网站连载小说更新的问题
俺的初步想法:


1,用个txt保存关注的小说的主页链接。
例如:http://club.book.sina.com.cn/yuanchuang/writing.php?wid=21359

2,过滤出有效的章节列表。
就是那些类似下面的链接。
http://club.book.sina.com.cn/yuanchuang/chapter.php?id=339061

然后和保存的列表比较,如果发现新链接就下载。


我现在遇到的问题是,发现我这样的做法对于网站本身的选择非常重要。
因为我现在就发现,sina的虽然容易抓取,但是更新慢,小说似乎也不多。

于是考虑,对于同一个小说,同时监控几个网站的更新情况。
但是又遇到问题,就是不同网站上面的同一个小说的章节划分,
可能是不一样的。

请教大家,这个有什么可行的处理方法?

作者: zhoushijay     时间: 2007-4-29 02:17
这个办法好,只是我不知道如果小说有更新是目录地址会变吗?和下面的章节地址没关系吧,还是怎么的?

作者: honghunter     时间: 2007-4-29 02:22
从我观察的几个小说站点看,小说的主页是不变的,其中上面的“21359”。估计是数据库中的标识符字段。

多数站点的小说章节一旦发布,也会有个不变的ID号,类似上面的“339061”。

作者: zhoushijay     时间: 2007-4-29 02:26
既然是不变的那怎么从地址知道他有没有更新呢?

作者: honghunter     时间: 2007-4-29 02:29
我的办法“过滤出有效的章节列表”,比如昨天过滤出来是47个,今天发现超过47个了,那么就是有更新了。

作者: zhoushijay     时间: 2007-4-29 02:32
这个难度有点大,得好好想想

作者: honghunter     时间: 2007-4-29 19:17
继续思考ING

作者: honghunter     时间: 2007-4-29 19:37
还有一个问题,就是因为同时监控多个小说,又要在多个站点上进行监控。所以,需要存储的信息也很多,我现在是每个站点的每个小说一个文件夹(里面几个文件)记录情况,感觉实在太繁琐了。

作者: honghunter     时间: 2007-4-29 21:51
请大家给点意见、建议吧。

作者: honghunter     时间: 2007-5-1 06:31
怎样才能精简用于存储状态的文件,是我现在考虑的主要问题。

现在对于每一个小说,在每个站点,要记录好几个文件。
小说主页1个;
小说的章节列表一个;
每个装节一个。

作者: zerocq     时间: 2007-5-1 18:02
一篇小说最后1章的网页文件名总是比前边高,每个网站都是这样的吧

把小说最后一篇的文件名记录在记事本文件中

curl下载页面取得最高的名件名和记录比较..更新记录...下载.....

思路^o^

作者: honghunter     时间: 2007-5-2 23:21
谢谢,我考虑一下。

作者: honghunter     时间: 2007-5-3 12:47
顶一下,期待各位给出提示。

作者: honghunter     时间: 2007-5-9 07:36
有没有使用批处理快速存取大量变量的方法哪?