中国DOS联盟论坛 - Powered by Discuz! Board

标题: 小说文本分割批处理 [打印本页]

作者: aiqian2008 时间: 2008-11-10 00:50 标题: 小说文本分割批处理

————————————————————————
@echo off&color a&setlocal enabledelayedexpansion
::因使用了延迟变量而舍弃了感叹号！！在使用之前先把感叹号转换为其他字符。
::原文件空白行也可以输出注意：只能分割大文件。
for /f %%i in ('type test.txt^|find /v /c ""') do set num=%%i
:start
cls&echo.
set /p "x= 请输要分成的份数:"
set "errorlevel="
set /a y=%num%/%x%
if errorlevel 2 goto start
echo.正在进行文件分割，请稍候...
set fs=1
for /f "tokens=1* delims=:" %%i in ('findstr /n "." test.txt') do (
set /a n+=1
set /a w=!fs!*%y%+1
if %%i gtr !n! call :loop %%i
echo.%%j>>"test!fs!.txt"
if !n! gtr !w! set /a fs+=1
)
echo.文件分割完毕，按任意键退出。&pause>nul
exit

:loop
echo.>>"test%fs%.txt"
set /a n+=1
if %1 gtr %n% goto loop
goto :eof
————————————————————————————

作者: HAT 时间: 2008-11-10 09:36

建议少用type

Last edited by HAT on 2008-11-10 at 09:40 ]

作者: tireless 时间: 2008-11-10 10:38

好像用 type 速度反倒比较快哦！

作者: HAT 时间: 2008-11-10 10:41 标题: Re 3楼

楼主是要分割大文本，用type来统计文本行数应该不是最快的方法吧？

作者: tireless 时间: 2008-11-10 10:43

以下是我用 timeit.exe 测试的数据，分别测试这三条命令：

find /v /c "" 1.txt
2.bat
type 1.txt|find /v /c ""

2.bat 的内容是：

@echo off
for /f %%a in (1.txt) do set /a n+=1
echo %n%

测试结果：

Average for find key over 288 runs

Version Number: Windows NT 5.1 (Build 2600)
Exit Time: 8:00 am, Monday, January 1 1601
Elapsed Time: 0:00:00.128
Process Time: 0:00:00.059

Average for for key over 288 runs

Version Number: Windows NT 5.1 (Build 2600)
Exit Time: 8:00 am, Monday, January 1 1601
Elapsed Time: 0:00:00.024
Process Time: 0:00:00.037

Average for type key over 288 runs

Version Number: Windows NT 5.1 (Build 2600)
Exit Time: 8:00 am, Monday, January 1 1601
Elapsed Time: 0:00:00.106
Process Time: 0:00:00.046

按想象我也认为直接 find 速度更快，而经由 type 再管道给 find 更慢。但测试下来，我测试了一个 4MB 的文本，感觉是 type 的快一些，不太相信，于是用 timeit 计算了下，确实是这样。

Last edited by tireless on 2008-11-10 at 10:48 ]

作者: aiqian2008 时间: 2008-11-10 21:51

谢谢大家的提醒，这的确是个问题，我重新考虑考虑
5楼的2.bat 会漏掉空白行，达不到效果