Board logo

标题: 求助:用sed命令提高执行效率 [打印本页]

作者: wbshu     时间: 2007-6-29 11:29    标题: 求助:用sed命令提高执行效率
各位高手,本人想编写一个批处理用于剔除文本文件中相同记录,虽然下面的脚本能够完成任务,但我认为sed命令非常强大,应该能够提高我的脚本效率.本人刚接触sed命令,还请高手指教!!
@echo off
set /a num=0
for /f %%i in (test.txt) do set /a num+=1
echo 发现了%num%条记录。
echo.
echo 正在剔除相同记录,请稍后......
echo.
for /l %%a in (1,1,%num%) do (
sed -n "%%a"p test.txt>temp1.txt
rem 提取比较项
for /f "tokens=*" %%i in (temp1.txt) do (
echo %%i>temp2.txt
sed "/%%i/d" test.txt>>temp2.txt
rem 删除相同项。 这条语句能用嵌套语句吗?
type temp2.txt>test.txt
)
)
set /a num=0
for /f %%i in (test.txt) do set /a num+=1
echo.
echo 保留了%num%条文件记录。
del /f /q temp*.txt

作者: lxmxn     时间: 2007-6-29 11:34
举个具体的例子吧。

作者: wbshu     时间: 2007-6-29 11:39
比如test.txt文件是:

sss bbb ccc
eeeeee edd ffff
sssss wwwww
sss bbb ccc
aaa ddd eee

文件里面第一条和第4条相同,我要去掉第4条的记录最后成这样:
sss bbb ccc
eeeeee edd ffff
sssss wwwww
aaa ddd eee

如果有两条\三条......相同的话就保留一条记录.

作者: lxmxn     时间: 2007-6-29 12:58
gawk:
gawk "!arg++" Yourfile


#Gawk 下载
http://www.cn-dos.net/forum/viewthread.php?tid=31098&page=1#pid205571

作者: wbshu     时间: 2007-6-29 14:06
谢谢!!!要学的东西真多啊!

作者: bjsh     时间: 2007-6-29 23:23
这个 问题 用 awk 解决是最合适的选择;
用sed 就比较麻烦了;代码如下;

sed -n "G; s/\n/&&/; /^\([ -~]*\n\).*\n\1/d; s/\n//; h; P" test.txt

作者: gan2031     时间: 2007-6-30 00:20    标题: 谢谢!!!
谢谢!!!

作者: wbshu     时间: 2007-7-1 17:02
Originally posted by bjsh at 2007-6-29 11:23 PM:
这个 问题 用 awk 解决是最合适的选择;
用sed 就比较麻烦了;代码如下;

sed -n "G; s/\n/&&/; /^\(*\n\).*\n\1/d; s/\n//; h; P" test.txt



这条命令好像不适合本例,应该将“^\(*\n\)”参数换成“^\(.*\n\)”:

我试了一下,对于本例而言下面的代码也能达到效果:

sed -n "G; /^\(.*\n\).*\n\1/d; h ;P" Test.txt


总之,谢谢你的回复!