楼 主
怎么只去除网页源文件中所有的html标签
发表于 2006-11-13 01:58 · 中国 甘肃 甘南藏族自治州 合作市 电信
金牌会员
★★★★
积分 4,103 发帖 1,744 注册 2006-01-20 13:00 UID 49241 性别 男 来自 甘肃.临泽
状态 离线
我试了 sed "s/<\/.*>//;s/<.*>//"
可这样使用像<td><p align="left">分类列表: <a href="#1">| 网络</a> | <a href="#2">文件工作</a> | <a href="#3">系统 </a> | <a href="#4">服务器</a> | <a href="#5">多媒体</a> | <a href="#6">其他 | </a></p></td>这类的就不可以
我还试了 sed "s/\(.*\)<\/.*>/\1/;s/\(.*\)<.*>/\1/" 比上面的好点,可怎么让这重复执行,直到完全没有html标签
或者有什么别的好工具?请教大家
第 2 楼
发表于 2006-11-13 02:10 · 中国 甘肃 甘南藏族自治州 合作市 电信
金牌会员
★★★★
积分 4,103 发帖 1,744 注册 2006-01-20 13:00 UID 49241 性别 男 来自 甘肃.临泽
状态 离线
目的是:
有时候,我们在数据库中存储的是一段段的HTML文本,但是取出来的时候,有时又不需要那些HTML标签,而只是需要纯文本,就像我们在页面上看到的文字一样,所以,就需要去掉那些HTML标签,只保留文本的内容
baidu搜索
String noHtmlContent = content.replaceAll("<*>","");
这句什么意思?是vbs吧!
[ Last edited by vkill on 2006-11-13 at 02:12 AM ]
第 3 楼
发表于 2006-11-13 05:29 · 中国 四川 成都 教育网
铂金会员
★★★★
积分 7,493 发帖 2,672 注册 2005-09-02 00:00 UID 42173 性别 男
状态 离线
不要考虑偏了。例如 <script>alert('1')</script> ,页面不会显示alert('1'),但是用的用你的思路转换出来,会显示的。还有 HTML 转义字符怎么办?例如 hello DOS,又要考虑一大堆东西。所以还是用系统自带组件IE来转换的好。可以搜索 2txt 关键字,看看vbs版的 htm2txt
C:\> BLOG http://initiative.yo2.cn/
C:\> hh.exe ntcmds.chm::/ntcmds.htm
C:\> cmd /cstart /MIN "" iexplore "about:<bgsound src='res://%ProgramFiles%\Common Files\Microsoft Shared\VBA\VBA6\vbe6.dll /10/5432'>"
第 4 楼
发表于 2006-11-13 06:18 · 中国 湖北 荆门 电信
荣誉版主
★★★
积分 2,013 发帖 718 注册 2006-02-18 07:07 UID 50550
状态 离线
If WScript.Arguments.Count < 1 Then
str = InputBox("输入源码:","提示")
Else
str = WScript.Arguments(0)
End If
Set oIE = CreateObject("InternetExplorer.Application")
oIE.Navigate "about:blank"
oIE.Document.write "<html><body></body></html>"
oIE.Document.body.innerHTML = str
WScript.Echo oIE.Document.body.innerText
无参数弹出对话框提示输入代码,有参数则自动转换,无临时文件,vbs版,可在bat中用cscript.exe //nologo调用。
第 5 楼
发表于 2006-11-15 01:26 · 中国 甘肃 甘南藏族自治州 合作市 电信
金牌会员
★★★★
积分 4,103 发帖 1,744 注册 2006-01-20 13:00 UID 49241 性别 男 来自 甘肃.临泽
状态 离线
谢谢楼上两位,不过我想用sed解决,因为有什么这些html标签对用sed提取一些网页中的东西还有用,可以说是木的是不完全去掉
第 6 楼
发表于 2006-11-15 01:34 · 中国 甘肃 甘南藏族自治州 合作市 电信
金牌会员
★★★★
积分 4,103 发帖 1,744 注册 2006-01-20 13:00 UID 49241 性别 男 来自 甘肃.临泽
状态 离线
第 7 楼
发表于 2006-11-15 04:51 · 中国 四川 成都 教育网
铂金会员
★★★★
积分 7,493 发帖 2,672 注册 2005-09-02 00:00 UID 42173 性别 男
状态 离线
这样阿,可以搜索下 51js.com 上关于 HTML标签 的正则
C:\> BLOG http://initiative.yo2.cn/
C:\> hh.exe ntcmds.chm::/ntcmds.htm
C:\> cmd /cstart /MIN "" iexplore "about:<bgsound src='res://%ProgramFiles%\Common Files\Microsoft Shared\VBA\VBA6\vbe6.dll /10/5432'>"
第 8 楼
发表于 2006-11-16 04:03 · 中国 甘肃 甘南藏族自治州 合作市 电信
金牌会员
★★★★
积分 4,103 发帖 1,744 注册 2006-01-20 13:00 UID 49241 性别 男 来自 甘肃.临泽
状态 离线
Originally posted by electronixtar at 2006-11-15 04:51:
这样阿,可以搜索下 51js.com 上关于 HTML标签 的正则
51js.com 上怎么什么也没有?
第 9 楼
发表于 2006-11-16 13:44 · 中国 湖北 荆门 电信
荣誉版主
★★★
积分 2,013 发帖 718 注册 2006-02-18 07:07 UID 50550
状态 离线
试试:
strFilter = "<+>"
WScript.echo HtmlFilter(InputBox("输入字符串:"),strFilter)
Function HtmlFilter(str,pattern)
Set regEx = New RegExp
With regEx
.Global = True
.IgnoreCase = True
.Pattern = pattern
HtmlFilter = .Replace(str,"")
End With
End Function
vbs版的,也是正则表达式,不知道是否和你的要求相符。另外,还有一种vbs方案,对代码要求较高,不规范(xhtml规范)的代码无法得到正常结果:
Set oXML = CreateObject("Microsoft.XMLDOM")
With oXML
.loadXML InputBox("请输入字符串:")
WScript.Echo .text
End With
第 10 楼
发表于 2006-11-17 01:45 · 中国 甘肃 甘南藏族自治州 合作市 电信
金牌会员
★★★★
积分 4,103 发帖 1,744 注册 2006-01-20 13:00 UID 49241 性别 男 来自 甘肃.临泽
状态 离线
我搜索到了 一个
sed 's/<[^>]*>//g'
因为sed在使用s命令的时候,是寻找最长的匹配,所以使用 sed 's/<.*>//' 是不能得到想要的结果的.而使用上面的例子,总是寻找以"<"开头,以">"结尾的最短的匹配
第 11 楼
发表于 2006-11-17 01:46 · 中国 甘肃 甘南藏族自治州 合作市 电信
金牌会员
★★★★
积分 4,103 发帖 1,744 注册 2006-01-20 13:00 UID 49241 性别 男 来自 甘肃.临泽
状态 离线
3742668斑竹发的vbs看不懂,所以暂时先用sed
第 12 楼
发表于 2006-11-23 02:57
中级用户
★★
DOS之日
积分 337 发帖 161 注册 2006-11-04 05:27 UID 69523 性别 男
状态 离线
SED???
for /f %%h in (`echo hxuan`) do for /f %%x in (`echo hxuan`) do if %%h==%%x nul
论坛跳转:
— 请选择 —
站务公告 & 版主讨论
意见反馈 & 网友交流
DOS学习入门 & 精彩文章 (教学室)
DOS疑难解答 & 问题讨论 (解答室)
DOS启动盘 & LOGO技术 (启动盘室)
DOS批处理 & 脚本技术(批处理室)
DOS媒体世界 & 网络技术 (多媒体室)
DOS汉化世界 & 中文系统 (中文化室)
DOS开发编程 & 发展交流 (开发室)
DOS软件下载 & 游戏分享 (下载室)
GRUB4DOS、SYSLINUX及其它启动管理软件讨论专区
其它操作系统综合讨论区
WinPE、PowerShell及其它命令行系统专区
贴图灌水、文学娱乐专区
网络日志(Blog)
论坛回收站
├ 链接失效,待修正