中国DOS联盟论坛 - Powered by Discuz! Board

标题: 求助:用sed命令提高执行效率 [打印本页]

作者: wbshu 时间: 2007-6-29 11:29 标题: 求助:用sed命令提高执行效率

各位高手,本人想编写一个批处理用于剔除文本文件中相同记录,虽然下面的脚本能够完成任务,但我认为sed命令非常强大,应该能够提高我的脚本效率.本人刚接触sed命令,还请高手指教!!
@echo off
set /a num=0
for /f %%i in (test.txt) do set /a num+=1
echo 发现了%num%条记录。
echo.
echo 正在剔除相同记录，请稍后......
echo.
for /l %%a in (1,1,%num%) do (
sed -n "%%a"p test.txt>temp1.txt
rem 提取比较项
for /f "tokens=*" %%i in (temp1.txt) do (
echo %%i>temp2.txt
sed "/%%i/d" test.txt>>temp2.txt
rem 删除相同项。这条语句能用嵌套语句吗？
type temp2.txt>test.txt
)
)
set /a num=0
for /f %%i in (test.txt) do set /a num+=1
echo.
echo 保留了%num%条文件记录。
del /f /q temp*.txt

作者: lxmxn 时间: 2007-6-29 11:34

举个具体的例子吧。

作者: wbshu 时间: 2007-6-29 11:39

比如test.txt文件是:

sss bbb ccc
eeeeee edd ffff
sssss wwwww
sss bbb ccc
aaa ddd eee

文件里面第一条和第4条相同,我要去掉第4条的记录最后成这样:
sss bbb ccc
eeeeee edd ffff
sssss wwwww
aaa ddd eee

如果有两条\三条......相同的话就保留一条记录.

作者: lxmxn 时间: 2007-6-29 12:58

gawk:

gawk "!arg++" Yourfile

#Gawk 下载
http://www.cn-dos.net/forum/viewthread.php?tid=31098&page=1#pid205571

作者: wbshu 时间: 2007-6-29 14:06

谢谢!!!要学的东西真多啊!

作者: bjsh 时间: 2007-6-29 23:23

这个问题用 awk 解决是最合适的选择;
用sed 就比较麻烦了;代码如下;

sed -n "G; s/\n/&&/; /^\([ -~]*\n\).*\n\1/d; s/\n//; h; P" test.txt

作者: gan2031 时间: 2007-6-30 00:20 标题: 谢谢!!!

谢谢!!!

作者: wbshu 时间: 2007-7-1 17:02

Originally posted by bjsh at 2007-6-29 11:23 PM:
这个问题用 awk 解决是最合适的选择;
用sed 就比较麻烦了;代码如下;

sed -n "G; s/\n/&&/; /^\(*\n\).*\n\1/d; s/\n//; h; P" test.txt

这条命令好像不适合本例，应该将“^\(*\n\)”参数换成“^\(.*\n\)”：

我试了一下，对于本例而言下面的代码也能达到效果：

sed -n "G; /^\(.*\n\).*\n\1/d; h ;P" Test.txt

总之，谢谢你的回复！