Board logo

标题: BAT能否解决网页空白乱码的问题 [打印本页]

作者: cad55     时间: 2009-12-29 14:29    标题: BAT能否解决网页空白乱码的问题
目前网页空白处或结尾处添加了,仿复制文字的乱码。

试了多种方法,可以去除但很不方便

请大家分析分析,用BAT能否解决。

例如此处网页文字就添加了乱码:http://nj.bbs.house.sina.com.cn/thread-3069654-1.html?utm_source=xinshou?source=sina_news

作者: qinchun36     时间: 2009-12-29 20:37
BAT估计不好搞吧,首先获取页面内容就是个问题。

我的思路是获取所有HTML源代码,然后剔除它里面把颜色显示为白色的部分。

针对新浪这个BBS的相关帖子做了几个测试,写了一行脚本,好像可以实现。


javascript:document.write((document.body.innerHTML.replace(/<span*>*<\/span>/gi,"")).replace(/<font*#fff*>*<\/font>/gi,""));


先打开你要看的网页,然后把这个粘贴到地址栏,然后回车,就能看到没有杂物的文字,没有严格测试,我对正则表达式也不是太精通。

现在的文字看起来干净了,但可能还有残缺的HTML标记,复制到记事本中再从记事本复制出来的就是纯净的文本了。

Last edited by qinchun36 on 2009-12-29 at 20:44 ]