中国DOS联盟论坛 - Powered by Discuz! Board

标题: 怎么去除TXT文件中重复的行 [打印本页]

作者: a9319751 时间: 2006-2-4 18:53 标题: 怎么去除TXT文件中重复的行

如题，可以用DOS命令实现吗？

FC ？

作者: a9319751 时间: 2006-2-4 19:06

怎么删除TXT中相同的行

作者: a9319751 时间: 2006-2-4 20:10

Const adOpenStatic = 3
Const adLockOptimistic = 3
Const adCmdText = &H0001

Set objConnection = CreateObject("ADODB.Connection")
Set objRecordSet = CreateObject("ADODB.Recordset")

strPathToTextFile = "C:\Scripts\"
strFile = "Test.txt"

objConnection.Open "Provider=Microsoft.Jet.OLEDB.4.0;" & _
"Data Source=" & strPathtoTextFile & ";" & _
"Extended Properties=""text;HDR=NO;FMT=Delimited"""

objRecordSet.Open "Select DISTINCT * FROM " & strFile, _
objConnection, adOpenStatic, adLockOptimistic, adCmdText

Do Until objRecordSet.EOF
Wscript.Echo objRecordSet.Fields.Item(0).Value
objRecordSet.MoveNext
Loop

作者: namejm 时间: 2006-9-5 08:42

　　请问楼主，你要删除所有的重复行还是对重复了N次的行只保留其中的一行？删除之后，不同行的相对位置还要保持不变吗？

作者: vkill 时间: 2006-9-6 03:13

假如你的文件是 a.txt

cd.>a_temp.txt
for /f "tokens=1 delims=," %%i in (a.txt) do (find a_temp.txt "%%i" && echo.>nul||echo %%i>>a_temp.txt)

生成新文件a_temp.txt 文件就是了，我在改一个东西的时候想到用的

Last edited by he200377 on 2006-9-6 at 03:15 ]

作者: namejm 时间: 2006-9-6 04:30

Re he200377：

　　事情没那么简单，你这个代码还有很多缺陷：

　　1、当后面有N行内容与第一行相同时，第一行的内容并不能被过滤掉；

　　2、当把一个文件的内容复制一次再接在原来的行后的话，输出的内容为复制之前的内容。也就是说，当文件内所有行都有重复N次的时候，还会打印1/N行的内容；

　　3、delims=, 这个分隔符有何依据？只用find而不用findstr的正则表达式，会把很多行中含有 %%i 字符串的行过滤掉；

　　4、echo %%i>>a_temp.txt这一句中会把原文件里行首的所有空格都去掉，也就是说不能保留原行的格式；

　　要实现过滤重复行的操作，还有很多情况是需要考虑的，并且，由于CMD对某些字符敏感，无论代码编写得如何完美，还是不能在所有场合中都适用。

　　最近也在思考这个问题该如何处理，也和论坛上的一些朋友探讨过，目前已经有了比较成熟的方案，正在除错的测试过程中。如果楼主能回答我在4楼提出的问题，那么，对我现在这个代码的完善就有了更好的帮助了。

Last edited by namejm on 2006-9-6 at 04:53 ]

作者: vkill 时间: 2006-9-6 04:42

Re namejm

1、当后面有N行内容与第一行相同时，第一行的内容并不能被过滤掉；
#可以的啊

2、当把一个文件的内容复制一次再接在原来的行后的话，输出的内容为复制之前电脑内容。也就是说，当文件内所有行都有重复N次的时候，还会打印1/N行的内容；
#不明白

3、delims=, 这个分隔符有何依据？只用find而不用findstr的正则表达式，会把很多行中含有%%i字符串的行过滤掉；
#这到是，没有想到，应该用findstr /v ,delims=,这里可以看情况改改，我直接复制过来也没有看

4、echo %%i>>a_temp.txt这一句中会把原文件里行首的所有空格都去掉，也就是说不能保留原行的格式；
#这确实不能保留原行的格式

作者: namejm 时间: 2006-9-6 04:51

Re he200377『第 8 楼』:

　　1、当你构造如a.txt所示的文本来测试就知道不可以了；

　　2、用如b.txt所示的文本测试一下就明白了。

a.txt



dos

china

dos

dos

bat

dos

b.txt



dos

china

bat

dos

china

bat

dos

china

bat

作者: willsort 时间: 2006-9-9 11:15

─────────────────　版务记录　─────────────────
执行：Will Sort
操作：移动主题：自 DOS疑難解答 & 問題討論（解答室）
说明：按照新的版区分划方案，本主题更适合于发表在此版区
─────────────────　版务记录　─────────────────

Last edited by willsort on 2006-9-13 at 23:21 ]

作者: namejm 时间: 2006-9-13 11:23

　　如果楼主是要把所有相同内容的行都删掉的话，可以用如下代码(本来想把各个功能都完善一下的，现在只做了个半成品)：



@echo off

:: mode con lines=25

:: 解决问题的思路：

:: 比较相邻三行的内容

:: 如果前两行内容相等，并且与第三行不相等，则取第二行的内容放入repetition.txt

:: 如此循环

:: 跳出for之后

:: 如果最后一行和倒数第二行内容相等，则把最后一行内容放入repetition.txt

:: 最后，用for从repetition.txt中逐行读出信息，在原文件中把这些信息过滤掉

:: 行首的空格将被忽略，空行将不被删除(且不纳入统计数据)

:: 效率惊人地高



:: 不能处理的符号有：

:: 管道符号:|

:: 连接符号：&、&&、||

:: 重定向符号：<、<<、>、>>

:: 转义符号：^

:: 其他字符："、;、:、\(但是在行首是可以的)



:: 弊端：

:: findstr不能搜索过长的字符串(长度是多少？)



:: Code by JM,Thanks to NaturalJ0

:: build on 2006-9-4～2006-9-

:: 还要完善或者开发的功能：

:: 对无用的临时文件的处理；统计被过滤的行数；操作时的提示；适应各种文件名；



cls

title 相同行内容过滤器-处理中...

call :blank

call :blank

echo                          正在处理，请耐心等待...

:: 做程序开始时间标记

set time_begin=%time:~0,-3%

for /f "tokens=1,2,3 delims=:" %%i in ("%time_begin%") do (

    set /a hour_b=%%i

    set /a munite_b=%%

    set /a second_b=%%

)



set lines_total=0

set count_same=0

>sort.txt sort<test.txt

cd.>repetition.txt

setlocal enabledelayedexpansion

for /f "tokens=*" %%i in (sort.txt) do (

    set first=!second!

    set second=!third!

    set third=%%i

    set /a lines_total+=1

    call :comp_

)

:: 当%second%未取到值的时候，要避免repetition.txt记录echo的状态

if not "%second%"=="" if "%second%"=="%third%" >>repetition.txt echo %third%&& set /a count_same+=1

:: 没有重复内容则不对原文件作过滤处理

findstr . repetition.txt>nul||(del /q repetition.txt & goto :result)

copy test.txt test.bak>nul

for /f "tokens=*" %%i in (repetition.txt) do (

    findstr /v "\<%%i\>" test.txt>>tmp.txt

    del /q test.txt

    ren tmp.txt test.txt

)

:result

for /f "tokens=*" %%i in (test.txt) do (

    set /a lines_spare+=1

)

if "%lines_spare%"=="" set lines_spare=0

:: 当文本内容超过3行，且存在用相同个数的空格为内容的行时

:: repetition.txt会记录echo的状态，会导致统计不准确

:: 所以还要用通过比较处理前后行数是否相同来校正统计数据

if "%lines_total%"=="%lines_spare%" (del /q repetition.txt&set count_same=0)

set /a lines_del=%lines_total%-%lines_spare%

cls

title 相同行内容过滤器-过滤结果

call :blank

echo ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

echo                   原文件共有 %lines_total% 行;共有 %count_same% 条重复记录.(未计算空行)

echo                   处理后的文件还剩 %lines_spare% 行.(未计算空行)

echo                   被删除的内容总计 %lines_del% 行



rem ======计算花费的时间========

set time_end=%time:~0,-3%

for /f "tokens=1,2,3 delims=:" %%i in ("%time_end%") do (

    set /a hour_e=%%

    set /a munite_e=%%j

    set /a second_e=%%k

)

call :time_lapse

echo                   耗时： %hour_% 小时 %munite_% 分 %second_% 秒.

echo.

echo                   test.txt为处理后的文件；test.bak为原始文件的备份

echo                   sort.txt为原始文件内容的排序文件，你可以很方便地

echo               查看文本内容重复与否及重复情况；

echo                   repetition为重复行的内容，升序排列；若原始文本没

echo               有重复行，则此文件不存在.

echo ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

call :blank

echo                                                                 按任意键退出...

pause>nul

goto :eof



:comp_

:: 当%second%或者三个变量全都取到空值的时候，要避免repetition.txt记录echo的状态

if not "%first%"=="" (

  if not "%second%"=="" (

    if "%second%"=="%first%" (

      if not "%second%"=="%third%" >>repetition.txt echo %second%&& set /a count_same+=1

    )

  )

)

goto :eof



rem =====计算运行程序花费的时间========

:time_lapse

:: 一定要按照 秒=>分钟=>小时 的顺序操作

if %second_e% lss %second_b% (

    set /a munite_e=%munite_e%-1

    set /a second_e=%second_e%+60

)

set /a second_=%second_e%-%second_b%

if %munite_e% lss %munite_b% (

    set /a hour_e=%hour_e%-1

    set /a munite_e=%munite_e%+60

)

set /a munite_=%munite_e%-%munite_b%

if %hour_e% lss %hour_b% (

    set /a hour_e=%hour_e%+24

)

set /a hour_=%hour_e%-%hour_b%

goto :eof



:blank

echo.

echo.

echo.

echo.

goto :eof

作者: a9319751 时间: 2006-9-13 11:40

to:willsort
我冤枉啊，斑竹大人，我是半年前发贴求救的，半年前还没这个板块的，我不是故意发错地方的。

作者: a9319751 时间: 2006-9-13 11:43

to:namejm
谢谢你半年后还能帮我找到这个帖子，并且帮我写出脚本，测试中

我打算半一个文本A.TXT中重复的行删除后，得到B.TXT

A

CHINA
DOS

DOS

cn dos
BBS
CHINA

B
CHINA
DOS
cn dos
BBS

Last edited by a9319751 on 2006-9-13 at 11:56 ]

作者: a9319751 时间: 2006-9-13 11:52

Originally posted by he200377 at 2006-9-6 03:13:
假如你的文件是 a.txt

cd.>a_temp.txt
for /f "tokens=1 delims=," %%i in (a.txt) do (find a_temp.txt "%%i" && echo.>nul||echo %%i>>a_temp.txt)

生栮..

谢谢你的回复，测试不错,但是未测试特殊字符

Last edited by a9319751 on 2006-9-13 at 11:59 ]

作者: namejm 时间: 2006-9-13 12:01

　　如果楼主只是想把重复N次的行打印一次，并且无须保持行的相对位置不变的话，可以参考bagpipe曾经写过的一段代码：

　　排序，过滤相同行（简单批处理）

Last edited by namejm on 2006-9-13 at 12:03 ]

作者: willsort 时间: 2006-9-13 23:25

Re a9319751『第 11 楼』:

很抱歉，我的操作失误给你带来了负面影响，对此我郑重表示道歉！

现已对原处理方式作出纠正，望周知。

作者: a9319751 时间: 2006-9-13 23:58

Originally posted by willsort at 2006-9-13 23:25:
Re a9319751『第 11 楼』:

很抱歉，我的操作失误给你带来了负面影响，对此我郑重表示道歉！

现已对原处理方式作出纠正，望周知。

willsort斑竹这么客气啊

作者: vkill 时间: 2006-9-14 00:20

Originally posted by namejm at 2006-9-13 12:01:
　　如果楼主只是想把重复N次的行打印一次，并且无须保持行的相对位置不变的话，可以参考bagpipe曾经写过的一段代码：

　　
写的很好

作者: redtek 时间: 2006-9-26 07:28

俺觉得要是想挑出唯一的电子邮件地址，在数千个行里，每行一个邮件地址。
或是，要挑出数千行里必须唯一的电话号码，
那么，其实可以象开玩笑的这么玩好玩～：）



@echo off



REM	却掉重复的行，按原顺序只留唯一

REM	用于挑出唯一命令、用于在让搜索到的电子邮件地址的唯一不重复性

REM	如果是含有批处理禁忌的特殊符号就算了，它就适合于上面功能。



REM	==============  S.bat  ======================

REM	  请将需要唯一不重复行的数据存成  dat.txt 文件名即可

REM	　以防止万一，自己建立的目录你自己删吧～：）









md redtek

for /f "tokens=*" %%a in (dat.txt) do (

	md redtek\^"%%a^"

)



dir /b /od redtek\ > Ok.txt

Notepad.exe  Ok.txt

这个是要挑出唯一性的模拟内容，可以存成 Dat.txt　文件与上面方法一试：）



dos

china

bat

redtek@sweetmeet.com

dos

china

bat

Redtek@sweetmeet.com

dos

china

bat

com

mco

comm

comm on

redtek@sweetmeet.com

on commm

com on mmn

comm ono

bta

bat b

2006

2006 12

2006.12.2006

















其实，谁让ＤＯＳ建目录的时候不能建重名的目录名啊，哈哈……

那规则既然被定好了，我们就利用ＤＯＳ建目录不能重名，

所以，有重名的系统自然会提示说什么什么，



但是！！它是建不上一个重名的目录的，哈哈……

所以，ＤＩＲ加参数只列文件名，然后按照我建立目录的时间来排序，

当然就是具有唯一性了。



不好意思，这是个开玩笑的玩法，不能用在别的有用的地方，权当大家笑笑开开心～：）



 Last edited by redtek on 2006-9-26 at 07:31 ]

作者: namejm 时间: 2006-9-26 13:15

　　楼上的方法虽然巧妙，但是却有很大的局限性：

　　首先，文件名的长度有限制，在XP的NTFS格式的分区中，最长的路径不能超过256个字符，除掉盘符、冒号和斜杠，只剩下最多253个字符的长度能做文件名，所以，当某行的字符数超过253的时候，你的代码就会出错；

　　其次，文件名中不能再出现冒号及一些特殊字符，如果文本中正好出现这些字符的话，代码同样会出错；当然，前面的那些代码同样不能处理敏感字符，但是至少还是可以处理冒号的；

　　最后，你创建了那么多的文件夹，临时文件的数量够吓人的，呵呵，最后还要删除它，给人的感觉很不爽啊。

　　当然，你说过了，这个只是弄来玩玩的，我们也就当做是在做智力体操，拓展思维，博众人一笑吧^_^

Last edited by namejm on 2006-9-26 at 13:17 ]

作者: redtek 时间: 2006-9-26 20:24

多谢namejm指点，哈哈～：）

作者: a9319751 时间: 2006-12-22 08:09

其实当初我想用这个处理QQ聊天的记录，中间可能有很多重复的，我想把多余的部分删掉，剩下按顺序排列

作者: jmz573515 时间: 2006-12-25 11:37

'功能：删除某个文件中内容相同的行，但保留内容相同的最上面的一行。
'弊端：效率太低。处理文件不要太大，请测试后使用。
'使用方法：将下面的内容复制到记事本另存为a.vbs之后把要处理的文件拖放到a.vbs上面即可。



starttime=timer

on error resume next

set fso=createobject("scripting.filesystemobject")

set fd=fso.getfile(Wscript.Arguments(0))

set file=fso.opentextfile(Wscript.Arguments(0),1)

Do while not(file.AtEndOfStream)

	n = n + 1

 tmp = file.readline

	ReDim Preserve temp(n-1)

	temp(n-1)= tmp

loop

file.Close

For x=0 to n-1

	For y= 1 to n-1

		If x <> y Then

			If temp(x) =temp (y) And x < y Then

				temp(y)="{059F6FBC-10FB-4FBC-BCF7-DB362A3DB1DB}"

			End If

		End If

	Next

Next



For x=0 to n-1

if temp(x)<>"{059F6FBC-10FB-4FBC-BCF7-DB362A3DB1DB}" then S= S & temp(x) & vbcrlf

Next

Set file = fso.OpenTextFile(Wscript.Arguments(0), 2, True)

file.write S

file.Close

endtime=timer

yongshi=cdbl(endtime-starttime)

msgbox "已经将" & fd.name & "文件里相同行的内容删除，用时" & Round(yongshi,2) & "妙。" & vbcrlf & "(保留了相同行内容的最上面的一行！)" ,48+4096,"操作完成"

set fso=nothing

set fd=nothing

set file=nothing

Last edited by jmz573515 on 2006-12-26 at 09:44 AM ]

作者: ldlcau 时间: 2007-4-10 05:29

@echo off
setlocal
if (%1)==() goto end
REM sort/r <%1 >tmp.txt 逆序
sort <%1 >tmp.txt
set "a="&(set b=)
type nul>sss.txt
for /f "delims=" %%a in (tmp.txt) do call :hehe "%%a"

del tmp.txt
set "a="&(set b=)
echo 完成
goto :eof

:hehe
set a=%b%
set b=%~1
if not "%a%"=="%b%" echo %b% >>sss.txt
goto :eof

:end
echo 对不起，参数错误!!!

请教下怎么按每行的字符数排列