中国DOS联盟论坛 - Powered by Discuz! Board

标题: sed获取网页特定数据组 [打印本页]

作者: jiulong 时间: 2008-2-23 15:35 标题: sed获取网页特定数据组

比如:用SED获取1:"DOS解答室"中"DOS疑难解答 & 问题讨论（解答室） - 中国DOS联盟论坛 - 中国DOS联盟之联合DOS论坛"之后的2:"font-family: Tahoma, "之后的字符到";"结束

因为某个网页中相同的字符太多,所以拿CN-DOS疑难解答的源码做例
其中1:后的字符找不到相同,所以避免了脚本冲突

不知这样解决是否够清楚.

作者: lxmxn 时间: 2008-2-23 16:22

表达不够清楚，最好是贴一段源码上来，然后标记需要提取的部分。

作者: jiulong 时间: 2008-2-23 17:58

以下是网页代码
==========2008-02-23============ 巨人  <a class="channel_keylink" href="http://www.txwb.com/Article/wyzy/wyzl/SFYX/200703/5605.html" target="_blank">恋爱盒子</a>  <a class="channel_keylink" href="http://www.txwb.com/Article/wyzy/wyzl/GCYX/200703/5497.html" target="_blank">洛奇</a>online 时空之泪  天堂I  武林外传 超级跑跑传奇世界机战 华夏
<A class="" title="文章标题：在职

我在SED语法内只能根据日期（%date:~0,10%）,因为这个在整个网页代码是唯一的。

目的：获取所有中文字符，除华夏之后的“”代码以后的中文都不要
“华夏”保留

这下说清楚了吧

还不清楚就看下面
要提取的字符：巨人
恋爱盒子
洛奇
时空之泪
天堂
武林外传
超级跑跑
传奇世界
机战
华夏

Last edited by jiulong on 2008-2-23 at 06:07 PM ]

作者: lxmxn 时间: 2008-2-23 19:06

sed -n "/2008/{s//\n/gp;}" 网页文件.html|sed -n "/./s/^/\t/p"

作者: jiulong 时间: 2008-2-23 22:34

晕了,这样获取的是所有中文字符,我要的是从2008-到第一个代码之间的中文字符