标题: sed获取网页特定数据组
[打印本页]
作者: jiulong
时间: 2008-2-23 15:35
标题: sed获取网页特定数据组
比如:用SED获取1:"DOS解答室"中"DOS疑难解答 & 问题讨论 (解答室) - 中国DOS联盟论坛 - 中国DOS联盟之联合DOS论坛"之后的2:"font-family: Tahoma, "之后的字符到";"结束
因为某个网页中相同的字符太多,所以拿CN-DOS疑难解答的源码做例
其中1:后的字符找不到相同,所以避免了脚本冲突
不知这样解决是否够清楚.
作者: lxmxn
时间: 2008-2-23 16:22
表达不够清楚,最好是贴一段源码上来,然后标记需要提取的部分。
作者: jiulong
时间: 2008-2-23 17:58
以下是网页代码
<p><P><FONT color=#000000>==========2008-02-23============<BR>巨人 <a class="channel_keylink" href="http://www.txwb.com/Article/wyzy/wyzl/SFYX/200703/5605.html" target="_blank">恋爱盒子</a> <a class="channel_keylink" href="http://www.txwb.com/Article/wyzy/wyzl/GCYX/200703/5497.html" target="_blank">洛奇</a>online<BR>时空之泪 天堂I 武林外传<BR>超级跑跑 传奇世界 机战<BR>华夏</FONT></P>
<P><FONT color=#000000><A class="" title="文章标题:在职
我在SED语法内只能根据日期(%date:~0,10%),因为这个在整个网页代码是唯一的。
目的:获取所有中文字符 ,除华夏之后的“</FONT></P>”代码以后的中文都不要
“华夏”保留
这下说清楚了吧
还不清楚就看下面
要提取的字符:巨人
恋爱盒子
洛奇
时空之泪
天堂
武林外传
超级跑跑
传奇世界
机战
华夏
[
Last edited by jiulong on 2008-2-23 at 06:07 PM ]
作者: lxmxn
时间: 2008-2-23 19:06
sed -n "/2008/{s/[\x20-\x7e]/\n/gp;}" 网页文件.html|sed -n "/./s/^/\t/p"
作者: jiulong
时间: 2008-2-23 22:34
晕了,这样获取的是所有中文字符,我要的是从2008-到第一个<FONT color=#000000>代码之间的中文字符