用http://www.topfisher.com/实现的.
topfisher在用于网页数据采集,数据分析是很强大的,虽然不支持图片验证,用户登录验证,但是对付常规页面还是小菜一碟.这个软件是目前所用过的所有采集软件里基于代码最灵活实现的. 其它更强大的也就那个织梦了,可以实时在线采集
//TopFisher v 2.10 脚本代码
//配置部分,您可以在这里直接修改配置参数
InitLink("http://bbs.xunshang.net/simple/index.php?t53815.html")
DbConnStr("Provider=Microsoft.JET.OLEDB.4.0;Data source=data.mdb;Jet OLEDB:Engine Type=5;")
dbTable("myTable",5)
//-----------------------------------------------------------
//代码部分
function main
webmem(DELETE,"<span style="display:none">","<br/>")
webmem(REPLACE,"<br/>","")
//这是TPF脚本的主函数,请将代码写在这里
_$str1=html.head.body.table.tr.td.table.tr.td.text
dellabel(_$str1)
printf(_$str1)
end
2010/04/26 02:06:39: main
2010/04/26 02:06:39: Creating .MDB file...
2010/04/26 02:06:39: Create .MDB file ok.
2010/04/26 02:06:39: open db ok.
2010/04/26 02:06:39: http://bbs.xunshang.net/simple/index.php?t53815.html
2010/04/26 02:06:39: write temp web file...
2010/04/26 02:06:39: webfile connect ok.
2010/04/26 02:06:39: Reading web file...
2010/04/26 02:06:39: Web file length is: 25798 bytes.
2010/04/26 02:06:39: building webBuffer...
2010/04/26 02:06:39: _$str1 =
2010/04/26 02:06:39: database closed.
2010/04/26 02:06:39: all .tpf file finished.
webMem(p1(操作指令),p2(字符串参数1),? p3(字符串参数2)): 直接对web页面源码进行过滤
说明:
直接对下载下来的web页面源码进行字符串过滤,如:替换某些字符串,或删除某些字符串等。这个函数一般情况下不需要使用。只有在某些网页源码比较杂乱,直接采集比较麻烦,需要先过滤一些无用的元素的时候,才有使用webMem函数的必要。
Last edited by dato on 2010-4-26 at 02:30 ]