标题: 求助:如何将网页源代码用批处理转成文本格式
[打印本页]
作者: zb1007zb
时间: 2008-10-3 16:46
标题: 求助:如何将网页源代码用批处理转成文本格式
我想将一个网站上面的源代码 和 网页资料 转成文本格式
请教大侠们 如何实现
源代码就是网页上体现不出来的 (举例,像私服发布页这样的)
网页 就是网页的内容转成文本(举例,像文章这样的)
谢谢·~
===================
回2楼
我要的是通过网址下代码 而不是网页的文件
Last edited by zb1007zb on 2008-10-3 at 17:44 ]
作者: radem
时间: 2008-10-3 17:23
ren 网页文件 a.txt
作者: lxmxn
时间: 2008-10-3 17:47
Originally posted by zb1007zb at 2008-10-3 16:46:
我想将一个网站上面的源代码 和 网页资料 转成文本格式
请教大侠们 如何实现
源代码就是网页上体现不出来的 (举例,像私服发布页这样的)
我要的是通过网址下代码 而不是网页的文件
通过网址下载代码?
wget、curl、vbs 都可以试试。
作者: Evangel
时间: 2008-10-3 18:09
for /f %a in ('dir /a-d /b *.htm') do ren %a %~na.txt
作者: zb1007zb
时间: 2008-10-3 18:44
Originally posted by lxmxn at 2008-10-3 05:47 PM:
通过网址下载代码?
wget、curl、vbs 都可以试试。
那具体语法能否说下呢?
谢谢
作者: zb1007zb
时间: 2008-10-3 18:46
Originally posted by Evangel at 2008-10-3 06:09 PM:
for /f %a in ('dir /a-d /b *.htm') do ren %a %~na.txt
这位同学的批处理点了好像没反应哦
作者: hackate
时间: 2008-10-3 18:53
@echo off
<"%~f0" more +6 >tmp.vbs
cscript //NoLogo /e:vbscript tmp.vbs
pause
del tmp.vbs
goto:eof
Set oDOM = WScript.GetObject("http://www.ip138.com/ip2city.asp")
do until oDOM.readyState = "complete"
WScript.sleep 200
loop
WScript.echo oDOM.documentElement.outerText
你可以参考这个代码
这个代码就是获取指定的网页的文本
作者: zb1007zb
时间: 2008-10-3 18:58
Originally posted by hackate at 2008-10-3 06:53 PM:
@echo off
<"%~f0" more +6 >tmp.vbs
cscript //NoLogo /e:vbscript tmp.vbs
pause
del tmp.vbs
goto:eof
Set oDOM = WScript.GetObject("http://www.ip138.com/ip2city.asp")
...
7楼兄弟的这个可以 很强大
但是我对VBS不怎么懂
不晓得怎么转成文本
作者: hackate
时间: 2008-10-3 19:16
@echo off
<"%~f0" more +7 >tmp.vbs
(cscript //NoLogo /e:vbscript tmp.vbs
echo.)>>tmp.txt
pause
del tmp.vbs
goto:eof
Set oDOM = WScript.GetObject("http://www.ip138.com/ip2city.asp")
do until oDOM.readyState = "complete"
WScript.sleep 200
loop
WScript.echo oDOM.documentElement.outerText
把代码改成这样.就能把输出内容直接保存到tmp.txt文本文件中啦
作者: zb1007zb
时间: 2008-10-3 22:48
Originally posted by hackate at 2008-10-3 07:16 PM:
@echo off
<"%~f0" more +7 >tmp.vbs
(cscript //NoLogo /e:vbscript tmp.vbs
echo.)>>tmp.txt
pause
del tmp.vbs
goto:eof
Set oDOM = WScript.GetObject("http://www.ip138. ...
恩 很感谢楼上的仁兄
代码都没错了
可是我希望得到的 是网页的源代码
比如 <td align="left">08年/9月/03日/22点/00分</td>
<td align="left">电信</td>
这样的
因为我需要的一些链接只存在于代码里
光光网页上无法显示
再次谢谢各位了~~~~~~~~~
作者: shqf
时间: 2008-10-4 11:07
作者: dato
时间: 2008-10-4 11:42
http://www.topfisher.com/
一个有自编函数库的网页数据采集软件很强大,像你这种需求太简单了,自己参考论坛的例子学习吧,批实现的方法我在论坛也见过,不过说实在批这种东西有些写法实在是我的脑袋无法理解的,还是这种使用函数库的脚本比较简单.
作者: hackate
时间: 2008-10-4 12:30
晕死,既然是这样你没说清楚,你应该说要获取网页的原代码,HTML. 而不是说获取文本信息,我倒..
@echo off
<"%~f0" more +7 >tmp.vbs
(cscript //NoLogo /e:vbscript tmp.vbs
echo.)>>tmp.txt
pause
del tmp.vbs
goto:eof
Set oDOM = WScript.GetObject("http://www.ip138.com/ip2city.asp")
do until oDOM.readyState = "complete"
WScript.sleep 200
loop
WScript.echo oDOM.documentElement.outerHtml
这样就可以了..
作者: dato
时间: 2008-10-4 12:39
楼主不只获得源代码这么简单的.
其实像这种应用多半是在一个主索引页面采集深层URL链接,再根据URL跳转进入具体页面采集页面上的相应数据,这种用批就算能实现相应的代码也太具有针对性而不具备通用性,建议使用topfisher吧,以前只是把它当作一个数据采集软件进行数据分析,用久了发现自己平时的很多思维都改变了.一个可以真正在网络庞大的数据进行筛选分析数据的好东东
你的应用可以参考,7楼的采集实例
http://www.topfisher.com/phpbbs/read.php?tid=6919
具体用directread()函数就可以了
directRead(p1(字符串常量), p2(字符串常量), p3(字符串变量)): 从网页中直接读取数据
说明:
从网页中找到p1字符串(左字符串),和p2字符串(右字符串),把p1和p2之间的字符串赋值给p3.
参数:
p1:左字符串
p1:右字符串
p1:字符串变量
注意:
默认的情况下,directRead是从网页的最开始处搜索的。如果之前调用了setOffset,会从setOffset后的位置开始搜索.
例子:
//读取”<title>”和”</title>”之间的字符串给_$str1
directRead(“<title>”,”</title>”,_$str1)