Board logo

标题: 网页中的信息怎么提取 [打印本页]

作者: zxxhwlkj     时间: 2009-5-1 02:32    标题: 网页中的信息怎么提取

我想找出这个面页的关于瑞星2008网络版升级包的版本号/升级日期等信息。
这些信息是可变的,我只能找到升级包的下载地址。

附面页地址:http://www.zrit.com/rising/
附我已写的升级地址分析批处理,如有更好的加法请指教。
wget.exe http://www.zrit.com/rising/
if exist index.html geturls.exe index.htm>> 1.txt
geturls.exe index.html>> 1.txt
find "08netver" 1.txt >>02.txt

[ Last edited by zxxhwlkj on 2009-5-1 at 02:34 ]
作者: yangfengoo     时间: 2009-5-3 08:28

::新手练习 汗!好多临时文件!
::windows xp 通过

@echo off
setlocal enabledelayedexpansion
del /s /q index.html
wget.exe http://www.zrit.com/rising/
geturls.exe <index.html> 1.txt
find "08netver" 1.txt >02.txt

type index.html | findstr /n "2008官方升级包 08netver">temp1.txt
for /f "tokens=1 delims=:" %%a in (temp1.txt) do set /a num=%%a
for /f "skip=2 tokens=* delims=" %%b in (02.txt) do set ver=%%b
set /a ver1=0

for /f "skip=%num% tokens=3 delims=<" %%i in (index.html) do (
   for /f "tokens=2 delims=>" %%j in ("%%i") do (
     if !ver1! == 1 echo 版本:%%j>2008官方升级包信息.txt
     if !ver1! == 2 echo 大小:%%j>>2008官方升级包信息.txt
     if !ver1! == 3 echo 更新时间:%%j>>2008官方升级包信息.txt
     if !ver1! == 4 echo 下载地址:%ver%>>2008官方升级包信息.txt
     if !ver1! == 5 goto eof
set /a ver1+=1
      )
)
:eof
del 1.txt
del 02.txt
del temp1.txt
del index.html
[ Last edited by yangfengoo on 2009-5-3 at 09:35 ]
作者: zxxhwlkj     时间: 2009-5-5 22:00
对不起,你这提出来的是2008安装包的信息,不是升级包的。帮我再想想办法?
作者: yangfengoo     时间: 2009-5-5 23:19

::新手练习 汗!好多临时文件!
::windows xp 通过

@echo off
setlocal enabledelayedexpansion
del /s /q index.html
wget.exe http://www.zrit.com/rising/
geturls.exe <index.html> temp1.txt
find "08netver" temp1.txt >temp2.txt

type index.html | findstr /n "2008官方升级包">temp1.txt
for /f "tokens=1 delims=:" %%a in (temp1.txt) do set /a num=%%a
for /f "skip=2 tokens=* delims=" %%b in (temp2.txt) do set ver=%%b
set /a ver1=0

for /f "skip=%num% tokens=3 delims=<" %%i in (index.html) do (
   for /f "tokens=2 delims=>" %%j in ("%%i") do (
set /a ver1+=1
     if !ver1! == 1 echo 版本:%%j>2008官方升级包信息.txt
     if !ver1! == 2 echo 大小:%%j>>2008官方升级包信息.txt
     if !ver1! == 3 echo 更新时间:%%j>>2008官方升级包信息.txt
     if !ver1! == 4 echo 下载地址:%ver%>>2008官方升级包信息.txt
     if !ver1! == 5 goto eof

      )
)
:eof
del temp?.txt
del index.html
没注意检查,稍改就可以了。
作者: zxxhwlkj     时间: 2009-5-6 01:24
谢谢你,OK了
作者: yangfengoo     时间: 2009-5-6 01:42

::新手练习 努力学习
::windows xp 通过
::疑问 for /f "skip=1 tokens=4* delims=<>" %%b in ('type index.html | findstr "08netver"') do set ver=%%b 不能通过
::收获 for /f "skip=1 tokens=4* delims=<>" %%b in ('findstr "08netver" index.html') do set ver=%%b
::收获 for /f "skip=1 tokens=4* delims=<>" %%b in ('type index.html ^| findstr "08netver"') do set ver=%%b 终于明白

@echo off
setlocal enabledelayedexpansion

del index.html>nul

wget.exe http://www.zrit.com/rising/

for /f "skip=1 tokens=4* delims=<>" %%b in ('type index.html ^| findstr "08netver"') do set ver=%%b

for /f "tokens=1 delims=:" %%a in ('type index.html ^| findstr /n "2008官方升级包"') do set /a num=%%a

set /a ver1=0

for /f "skip=%num% tokens=3 delims=<" %%i in (index.html) do (
   for /f "tokens=2 delims=>" %%j in ("%%i") do (
     set /a ver1+=1
     if !ver1! == 1 echo 版本:%%j>2008官方升级包信息.txt
     if !ver1! == 2 echo 大小:%%j>>2008官方升级包信息.txt
     if !ver1! == 3 echo 更新时间:%%j>>2008官方升级包信息.txt
     if !ver1! == 4 echo 下载地址:%ver:~8,-1%>>2008官方升级包信息.txt
     if !ver1! == 5 goto eof

      )
)
:eof
del index.html
优化后的
作者: zxxhwlkj     时间: 2009-5-6 09:51
高,太高了,那我想学一下,这些信息有了,怎么对比今天的比昨天的新,版本更高,不然就不下载更新直接退出。这完整的怎么写呀。

解释:

对比当前的版本号,最好是杀毒软件的当前版本号,如果网上的比系统的更新,就下载,更旧就退出,提示,当前是最新的
作者: zxxhwlkj     时间: 2009-5-6 10:03
yangfengoo:
你这个程序提取http://www.luckfish.net/rising.htm这个页面的信息就不行了,请帮帮试试?