Board logo

标题: 小说文本分割批处理 [打印本页]

作者: aiqian2008     时间: 2008-11-10 00:50    标题: 小说文本分割批处理

———————————————————————— @echo off&color a&setlocal enabledelayedexpansion ::因使用了延迟变量而舍弃了感叹号!!在使用之前先把感叹号转换为其他字符。 ::原文件空白行也可以输出 注意:只能分割大文件。 for /f %%i in ('type test.txt^|find /v /c ""') do set num=%%i :start cls&echo. set /p "x= 请输要分成的份数:" set "errorlevel=" set /a y=%num%/%x% if errorlevel 2 goto start echo.正在进行文件分割,请稍候... set fs=1 for /f "tokens=1* delims=:" %%i in ('findstr /n "." test.txt') do ( set /a n+=1 set /a w=!fs!*%y%+1 if %%i gtr !n! call :loop %%i echo.%%j>>"test!fs!.txt" if !n! gtr !w! set /a fs+=1 ) echo.文件分割完毕,按任意键退出。&pause>nul exit :loop echo.>>"test%fs%.txt" set /a n+=1 if %1 gtr %n% goto loop goto :eof ————————————————————————————

作者: HAT     时间: 2008-11-10 09:36
建议少用type [ Last edited by HAT on 2008-11-10 at 09:40 ]

作者: tireless     时间: 2008-11-10 10:38
好像用 type 速度反倒比较快哦!

作者: HAT     时间: 2008-11-10 10:41    标题: Re 3楼

楼主是要分割大文本,用type来统计文本行数应该不是最快的方法吧?

作者: tireless     时间: 2008-11-10 10:43
以下是我用 timeit.exe 测试的数据,分别测试这三条命令: find /v /c "" 1.txt 2.bat type 1.txt|find /v /c "" 2.bat 的内容是:
@echo off for /f %%a in (1.txt) do set /a n+=1 echo %n%
测试结果:
Average for find key over 288 runs Version Number: Windows NT 5.1 (Build 2600) Exit Time: 8:00 am, Monday, January 1 1601 Elapsed Time: 0:00:00.128 Process Time: 0:00:00.059 Average for for key over 288 runs Version Number: Windows NT 5.1 (Build 2600) Exit Time: 8:00 am, Monday, January 1 1601 Elapsed Time: 0:00:00.024 Process Time: 0:00:00.037 Average for type key over 288 runs Version Number: Windows NT 5.1 (Build 2600) Exit Time: 8:00 am, Monday, January 1 1601 Elapsed Time: 0:00:00.106 Process Time: 0:00:00.046
按想象我也认为直接 find 速度更快,而经由 type 再管道给 find 更慢。但测试下来,我测试了一个 4MB 的文本,感觉是 type 的快一些,不太相信,于是用 timeit 计算了下,确实是这样。 [ Last edited by tireless on 2008-11-10 at 10:48 ]

作者: aiqian2008     时间: 2008-11-10 21:51
谢谢大家的提醒,这的确是个问题,我重新考虑考虑 5楼的2.bat 会漏掉空白行,达不到效果