Board logo

标题: sed获取网页特定数据组 [打印本页]

作者: jiulong     时间: 2008-2-23 15:35    标题: sed获取网页特定数据组

比如:用SED获取1:"DOS解答室"中"DOS疑难解答 & 问题讨论 (解答室) - 中国DOS联盟论坛 - 中国DOS联盟之联合DOS论坛"之后的2:"font-family: Tahoma, "之后的字符到";"结束

因为某个网页中相同的字符太多,所以拿CN-DOS疑难解答的源码做例
其中1:后的字符找不到相同,所以避免了脚本冲突

不知这样解决是否够清楚.
作者: lxmxn     时间: 2008-2-23 16:22
表达不够清楚,最好是贴一段源码上来,然后标记需要提取的部分。
作者: jiulong     时间: 2008-2-23 17:58
以下是网页代码
<p><P><FONT color=#000000>==========2008-02-23============<BR>巨人&nbsp; <a class="channel_keylink" href="http://www.txwb.com/Article/wyzy/wyzl/SFYX/200703/5605.html" target="_blank">恋爱盒子</a>&nbsp; <a class="channel_keylink" href="http://www.txwb.com/Article/wyzy/wyzl/GCYX/200703/5497.html" target="_blank">洛奇</a>online<BR>时空之泪&nbsp; 天堂I&nbsp; 武林外传<BR>超级跑跑 传奇世界 机战<BR>华夏</FONT></P>
<P><FONT color=#000000><A class="" title="文章标题:在职

我在SED语法内只能根据日期(%date:~0,10%),因为这个在整个网页代码是唯一的。

目的:获取所有中文字符 ,除华夏之后的“</FONT></P>”代码以后的中文都不要
“华夏”保留

这下说清楚了吧

还不清楚就看下面
要提取的字符:巨人
                     恋爱盒子
                     洛奇
                     时空之泪
                     天堂
                     武林外传
                     超级跑跑
                     传奇世界
                     机战
                     华夏


[ Last edited by jiulong on 2008-2-23 at 06:07 PM ]
作者: lxmxn     时间: 2008-2-23 19:06

sed -n "/2008/{s/[\x20-\x7e]/\n/gp;}" 网页文件.html|sed -n "/./s/^/\t/p"

作者: jiulong     时间: 2008-2-23 22:34
晕了,这样获取的是所有中文字符,我要的是从2008-到第一个<FONT color=#000000>代码之间的中文字符