Board logo

标题: 怎样把此论坛上所有网页下载下来,且能脱机使用? [打印本页]

作者: 740011611     时间: 2010-3-10 22:37    标题: 怎样把此论坛上所有网页下载下来,且能脱机使用?

怎样把此怎论坛上所有网页下载下来,且能脱机使用?

[ Last edited by 740011611 on 2010-3-19 at 18:33 ]
作者: radem     时间: 2010-3-11 01:33
恐怕不容易实现
作者: 000000000000000     时间: 2010-3-11 03:10
http://www.google.cn/search?&q=下载整个网站
作者: rs369007     时间: 2010-3-11 21:40
百度收索 全站下载 。。。
作者: 740011611     时间: 2010-3-12 16:25
谢谢各位,是不太容易实现!只能手工操作了。
作者: onlyu2000     时间: 2010-3-12 22:15
试试 telport pro
作者: 740011611     时间: 2010-3-14 19:37
不知道用Wget可以实现下载全站的目标不?
wget -r -p -np -E -k  http://www.cn-dos.net/forum/

发现有很多网页被重复下载了,怎么办呀?
作者: 740011611     时间: 2010-3-16 12:51
帮助下白?版主、、、
作者: HAT     时间: 2010-3-16 13:42
www.google.cn

注:

并不是希望楼主通过google搜索就能马上掌握wget或者curl的用法,而是希望楼主能搜索到“整站下载”之类的N年前就到处可见的工具。


[ Last edited by HAT on 2010-3-26 at 17:17 ]
作者: 523066680     时间: 2010-3-16 13:43
见过有人做过下载网志所有文章的脚本
是通过下载主页面,然后分析里面的链接
(像下一篇文章,下一页什么的,相关链接提取出来),再进一步下载,循环渐进的。

[ Last edited by 523066680 on 2010-3-16 at 13:44 ]
作者: 740011611     时间: 2010-3-16 21:33
斑竹,搜索整站下载软件吗?不知道哪种好用?我就想把此论坛的网页下载下来就行了。斑竹给个方法?????急用啊!

[ Last edited by 740011611 on 2010-3-19 at 18:34 ]
作者: plp626     时间: 2010-3-16 21:50
我网盘里(就我签名那个)有个绿色的整站下载工具,在C盘soft目录那个pro.rar,比较好用(非命令行的)。里面自带了一个注册机。注册之后可以无限制下载。

点击文件,新建工程向导,然后选择第二个——复制一个网站,包含该网站的目录结构那个选项,便可以镜像一个网站。

=====================================================
我插一句,你们尽管向我开炮:

网上下载整站的软件很多,但对于一个新手来说要使用好它,需要一个过程,谁都会用搜索,但是要掌握一个专业软件,必得懂一些专业知识,网上那些wge,curl,应该都是比较强大的工具,试问论坛里几个高手说他掌握的好了?若动不动就是给一个新手说google,好像这个问题太简单得不行似地,试问我们论坛就是让人学习怎么搜索吗?

联盟对于整站下载,或者wget,curl用法的讨论帖确实比较少的,仅有的帖子也停留在很浅的深度。

======================================================

  Quote:
Originally posted by 740011611 at 2010-3-14 07:37 PM:
不知道用Wget可以实现下载全站的目标不?
wget -r -p -np -E -k  http://www.cn-dos.net/forum/

发现有很多网页被重复下载了,怎么办呀?

我用wget下全站时用一个参数
wget -m www.cn-dos.net/forum
你可以试试

[ Last edited by plp626 on 2010-3-17 at 09:22 ]
作者: 740011611     时间: 2010-3-19 20:56
真的很感谢你们无私的帮助以及不厌其烦的解释!让我们这些新手有一个很好的学习环境。祝DOS联盟越办越好!

回到正题:我用wget -m http://www.cn-dos/forum  下载的大都是重复的文件(注意不是网页格式的!)这里不好截图,就没上传给你们看!
最后还得用for /f "delims=" %i in ('dir /a /b') do ren "%i" "%i.html" 重命名。
但是还有很多无用的网页,难道还得一个个删除吗?有没有更好的办法?

看到一个帖子是这样的:
@echo off

::下载精华索引帖子
cd.>essence.txt
wget -q -O essence.txt "http://www.cn-dos.net/forum/viewthread.php?tid=27667"

::这里设置文件的保存目录
set downdir=cn-dos论坛精华帖子
md %downdir%
echo\正在下载中...请稍后...

::批量下载帖子到新建的目录中
for /f %%a in ('sed -n "s/^\[.\{10\}\]{\([0-9]*\)}.*$/\1/p" essence.txt') do (
        wget -q -O %downdir%\%%a.html "http://www.cn-dos.net/forum/viewthread.php?tid=%%a&action=printable"
)

::下载完毕,打开目录
echo 下载完毕
ping -n 3 127.0.0.1 >nul&&start %downdir%



这个下载的就很好,不知道能用到这个地方不?麻烦高手们看看。
作者: Vista2008     时间: 2010-3-19 20:59
你搜索一下“网络快捕”,可惜下贴有点慢,都是HTML格式的。
作者: qinchun36     时间: 2010-3-20 14:59
你如果平时注意一点就会发现帖子的地址都是这样的(后面的几个参数不重要)

http://www.cn-dos.net/forum/viewthread.php?tid=帖子编号

直接输入就能进到一个帖子,而且很幸运,这个编号好像是按照自然数的样子递增的,现在差不多到了 50574 ,如果加上一个参数 &action=printable 那么就会出来一个可打印版本,即只包含基本帖子内容的页面,这就是你13楼说的那个,你大概选个数开始,循环下载就行了。

但是极不推荐这种方法,因为无法获取帖子名字,无法知道它是哪个版块的,也不知道哪些数是没有的(有些帖子已经被删除)
作者: 740011611     时间: 2010-3-20 20:15
那如果只下载“DOS批处理 & 脚本技术(批处理室)”这个版块的呢?有没有个范围?比如说从1-4000之类的?
作者: 740011611     时间: 2010-3-27 21:10
??