标题:[分享]命令行下网页转文本的超强工具
作者:无奈何 | 时间:2006-11-27 11:48 | 标题:[分享]命令行下网页转文本的超强工具
命令行下网页转文本的超强工具
软件名:HtoX32c
这是 HtoX32 的命令行版本,具有很强的可定制功能,转换效果非常理想。我用过很多 html2txt 类的软件这是唯一一款转换效果让我满意的软件。这是小鬼子的作品,所以界面是日文的。我参照 HtoX32 汉化版及使用体会汉化了一下。不过不是现在汉化的,是很久以前弄的,刚刚让我从箱底翻出来。我不懂日文,又为了凑字节,所以汉化质量非常差。汗一下自己,这样的东西也敢贴出来。使用的时候一定注意加 /IP 参数不做编码转换,否则转换出来的东西谁也看不懂了。希望推荐的这个软件能给大家在整理网页资料时带来一点方便。
作者:redtek | 时间:2006-11-27 12:24
感谢版主提供这么好的工具,下载收藏~:)
作者:lxmxn | 时间:2006-11-27 12:43
恩,是不错啊,还有这么多参数可以用呢,感谢版主"尘封"的小工具,呵呵~
作者:vkill | 时间:2006-11-27 23:02
转换完是乱码怎么?还是喜欢 wget+sed ,觉得html标签有时候真有用
作者:无奈何 | 时间:2006-11-27 23:24
RE vkill
关于乱码顶楼帖子已经提及,一定要加 /IP 参数。
HtoX32c 与 sed、awk 等的处理各有侧重的,前者适合整篇文章转换,后者适合部分信息的提取。如果 HTML 标签被拆分到多行,用 sed 等处理会稍微麻烦一些。
作者:vkill | 时间:2006-11-27 23:32
Originally posted by 无奈何 at 2006-11-27 23:24:
RE vkill
关于乱码顶楼帖子已经提及,一定要加 /IP 参数。
HtoX32c 与 sed、awk 等的处理各有侧重的,前者适合整篇文章转换,后者适合部分信息的提取〠...
HTML 标签被拆分到多行这确实是问题,sed处理的时候真不好弄~呵呵~是各有侧重
作者:electronixtar | 时间:2006-11-28 09:06
如果 HTML 标签被拆分到多行,用 sed 等处理会稍微麻烦一些。
个人觉得还是用IE来作这种体力活的好,保证效果和用户在IE里看到的一样
htm2txt.vbs
set oDOM = WScript.GetObject(WScript.Arguments(0))
do until oDOM.readyState = "complete"
WScript.sleep 200
loop
WScript.Echo oDOM.Body.InnerText
使用实例:
转换 .chm 里的网页到txt
cscript //NoLogo //e:vbscript htm2txt.vbs ms-its:C:\WINDOWS\Help\ntcmds.chm::/ntcmds.htm > "%UserProfile%\桌面\Nt命令行.txt"
转换URL到txt
cscript //NoLogo //e:vbscript htm2txt.vbs http://www.Google.com > "%UserProfile%\桌面\Google首页.txt"
转换html文件到txt
cscript //NoLogo //e:vbscript htm2txt.vbs D:\test.htm > D:\test.txt
注意:此处的 D:\test.htm必须写
完整的全部路径
[
Last edited by electronixtar on 2006-11-28 at 11:38 PM ]
作者:lxmxn | 时间:2006-11-28 10:37
不错,给兄弟加分咯~
作者:lotus516 | 时间:2006-11-28 12:04
为什么我用electronixtar的脚本出了错!!cmd显示见附件!!!!
作者:lxmxn | 时间:2006-11-28 12:48
Originally posted by lotus516 at 2006-11-28 12:04:
为什么我用electronixtar的脚本出了错!!cmd显示见附件!!!!
仔细检查你的文件名和路径,以及文件是否存在,路径是否有空格,你就知道答案了。
作者:electronixtar | 时间:2006-11-28 23:39
为什么我用electronixtar的脚本出了错!!cmd显示见附件!!!!
仔细检查你的文件名和路径,以及文件是否存在,路径是否有空格,你就知道答案了。
忘记说了,不支持相对路径
作者:lotus516 | 时间:2006-11-29 01:35
Originally posted by lxmxn at 2006-11-28 12:48:
仔细检查你的文件名和路径,以及文件是否存在,路径是否有空格,你就知道答案了。
这就奇了,我的路径没有空格,是绝对路径,文件也存在,就是错!!!还是见附件!!!!我截了出错的屏和路径!!!
作者:无奈何 | 时间:2006-11-30 01:33
RE electronixtar
谢谢兄的 VBS 脚本,我也知道 VBS 的强大,只能寄希望于以后学习了。VBS 处理字符的速度怎么这么慢。
作者:electronixtar | 时间:2006-11-30 07:06
VBS 处理字符的速度怎么这么慢
不是vbs慢,是IE载入速度慢。那几句是调用的IE的内核 mshtml.dll 来解析的
[
Last edited by electronixtar on 2006-11-30 at 07:19 AM ]
作者:electronixtar | 时间:2006-11-30 07:15
re lotus516
这就奇了,我的路径没有空格,是绝对路径,文件也存在,就是错!!!还是见附件!!!!我截了出错的屏和路径!!!
可以试试 file://E:/电子书/1/0001.htm 这样的形式。看你的 htm 文件的图标,猜测你是改过 htm 文件关联的,可能会对代码的效果产生一定的影响。
[
Last edited by electronixtar on 2006-11-30 at 07:18 AM ]
作者:HUNRYBECKY | 时间:2006-12-03 02:51
无奈何斑竹的东西不错,我在YAHOO看到了他的SENDTO+全是批处理编写的,不错哈。不知道使用什么加密的,能否告诉我?因为你的加密好象没有什么效果。
cls
:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
:: SendTo+ -V0.1 --TextToClip.cmd
:: 无奈何@cn-dos.net - 2006-8-18 - mail:wunaihe@gmail.com
:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
@echo off
setlocal
if not DEFINED SendTo+ call :parent "%~dp0..\"
type "%~f1" | "%Sendto+%\CMD\winclip.exe" -c
goto :EOF
:parent
::获取文件父目录
set "SendTo+=%~dp1"
set "SendTo+=%SendTo+:~0,-1%"
goto :EOF
作者:mqycn | 时间:2007-04-06 09:18 | 标题:好咚咚
好咚咚啊
作者:flandy | 时间:2007-04-28 22:47
very good
作者:sunjiang0 | 时间:2007-05-12 05:26
不知道有什么用啊
作者:honghunter | 时间:2007-05-12 09:39
这个绝对是好东东,解决了我之前遇到的大问题。
不过楼上的几位,这样翻帖子,真有点奇怪。
作者:ddjk | 时间:2007-07-12 23:13
感谢版主提供这么好的工具
作者:zyfcxp | 时间:2007-09-07 18:26
感谢版主提供这么好的工具
作者:cooray | 时间:2007-09-08 22:40
果然不错,真是太感谢了^_^
作者:952268849 | 时间:2009-01-27 23:30 | 标题:不错
不错
作者:liu3157551 | 时间:2010-01-05 12:53
搜索到的好东西。收藏了
作者:sexfio | 时间:2010-01-15 01:53
On Error Resume Next
sTitle="html2txt"
GetHtmlFileName: '输出:HtmlFileName,包含文件完整路径
'从参数或对话框获得文件
If WScript.Arguments.Count=0 Then
Set objDialog = CreateObject("UserAccounts.CommonDialog")
objDialog.Filter = "HTML源文件件|*.html;*.htm|所有文件|*.*"
objDialog.ShowOpen
HtmlFileName = objDialog.FileName
If len(HtmlFileName)=0 Then
wscript.Quit
End If
Else
If Len(WScript.Arguments(0).Length)> 3 Then
HtmlFileName = WScript.Arguments(0)
End If
End If
'验证文件是否有效
Set fso =CreateObject("scripting.FileSystemObject")
If fso.FileExists(HtmlFileName)=False Then
MsgBox "文件不存在!",vbOKOnly, sTitle
WScript.Quit
End If
If Not left(fso.GetFile(HtmlFileName).Type ,4) = "HTML" Then
MsgBox "请不要选择一个非HTML文件!",vbOKOnly, sTitle
WScript.Quit
End If
Set HtmlFile=fso.GetFile(HtmlFileName)
ConvertHtmlToTxt:
'获取文件扩展名
i=ubound(split(HtmlFileName,"."))
ext=split(HtmlFileName,".")(i)
SaveName=Left (HtmlFileName,Len(HtmlFileName)-Len(ext)-1)
Set oHtml=CreateObject ("internetexplorer.application")
oHtml.Navigate HtmlFileName
oHtml.Document.execCommand "saveas","true",SaveName & ".txt"
oHtml.Quit
WScript.Quit
作者:fresco | 时间:2010-01-30 21:35
正需要这个工具。谢谢分享
作者:szoyj | 时间:2010-01-31 16:40
好东西,谢谢啊~
作者:huangyushun | 时间:2010-02-01 20:52
我草 最近无聊死
作者:gshccr | 时间:2010-06-25 20:48
支持一下啦!
作者:csanycall | 时间:2010-07-12 10:03
赞一个先,感觉还是不错滴
作者:pdanniel66 | 时间:2010-07-13 05:27
What is the difference from curl ? download and test it thanks .
作者:moonatoffice | 时间:2010-10-13 18:09
下回来看看,好不好用
作者:2261385 | 时间:2010-10-13 21:09 | 标题:挥长感谢
真的要谢谢你 我找了好久
作者:jxliuzj | 时间:2010-10-15 16:14
不错,下下来试试
作者:liuke474678380 | 时间:2010-11-12 09:58 | 标题:命令行下网页转文本的超强工具
非常不錯 !
作者:lb369 | 时间:2010-11-22 15:26
楼主真是好人,发这么好的东西.
作者:anxin | 时间:2010-12-01 10:51
不错,下下来试试
来源:https://www.cn-dos.net/forum/viewthread.php?tid=25122 · 打印时间 2026-06-24 13:19