标题: 【求助】htox32c转换html2txt 汉字乱码
[打印本页]
作者: plp626
时间: 2009-5-29 06:58
标题: 【求助】htox32c转换html2txt 汉字乱码
如题,搜索了无果,想问是那个参数可解决,还是压根就。。。
options :(参数设置括号内为缺省值)
/Cn 设每行列数最大值 (79)
/T{0|1} 转换页面标题
/I{a|j|s|e|u|8|p} 转换编码:
/S{0|1} 是否将连续空白内容合并
/L{0|1} 是否删除行首行末的空白
/E{0|1} 是否清除文中的EOF编码(0x1a)
/F{0|1} 如果转换后文本文件末尾不是回车符则添加回车符
/O{0|1} 输出覆盖已有文件时是否提示
/G{0|1|2|3|4"用户自定义字符串" (%s=指定替代文本)} <IMG>转换的标签
",2:"",3:"",4:用户定义]
/D{0|1|2} 表格之间文字的间隔符
/Q{0|1} 以指定强制换行
/A{0|1} 强制表格内文字总是左对齐
/U{0-7} 是否执行插入链接网址
这是转换百度首页的截图:

作者: plp626
时间: 2009-5-29 07:26
算了还是用VBS吧,哎。。。。
作者: plp626
时间: 2009-5-29 07:28
真的没人?
作者: plp626
时间: 2009-5-29 07:49
已经解决
答案为 h2x32c /ip index.html
作者: slore
时间: 2009-5-29 07:50
/ip
作者: knoppix7
时间: 2009-5-29 23:30
/ip
它那个程序默认吧给出来的字符全当S-JIS编码了..
作者: 740011611
时间: 2010-4-30 23:19
为什么加上 /ip 参数后也是乱码?我转换的是dos联盟本论坛的网页。
如下乱码:
TITLE : RUNDLL32鐨勫簲鐢紒 - DOS瀛︿範鍏ラ棬 & 绮惧僵鏂囩珷 锛堟暀瀛﹀锛?- 涓浗DOS鑱旂洘璁哄潧 - 涓浗DOS鑱旂洘涔嬭仈鍚圖OS璁哄潧
涓浗DOS鑱旂洘璁哄潧 佲 DOS瀛︿範鍏ラ棬 & 绮惧僵鏂囩珷 锛堟暀瀛﹀锛?佲 RUNDLL32鐨勫簲鐢紒
Last edited by 740011611 on 2010-5-3 at 09:23 ]
附件
1:
效果.rar (2010-5-3 09:19, 24.77 KiB,下载次数: 13)
作者: 740011611
时间: 2010-5-3 09:24
不要沉了啊,为什么解决不了呢?
作者: freeants001
时间: 2010-5-3 13:27
Originally posted by 740011611 at 2010-4-30 23:19:
为什么加上 /ip 参数后也是乱码?我转换的是dos联盟本论坛的网页。
如下乱码:
TITLE : RUNDLL32鐨勫簲鐢紒 ...
编码问题。
(ECHO.F100,102 EF BB BF
ECHO.RCX
ECHO.3
ECHO.NTMP.$$
ECHO.W
ECHO.Q
)|DEBUG
htox32c /O0 /ip curl.html
copy/b TMP.$$ + /b curl.txt TMP.$$
copy/b TMP.$$ curl.txt
del /q TMP.$$
start curl.txt
作者: 740011611
时间: 2010-5-3 20:18
多谢,你的代码执行的很好。呵呵。但是我对编码一窍不通,在本论坛也收索了下,不是很懂,能讲讲你那段代码的详细意思吗?还有中国dos联盟本论坛采用的是什么编码方式啊??
Last edited by 740011611 on 2010-5-3 at 20:55 ]
作者: freeants001
时间: 2010-5-3 22:31
对于编码,我对是七窍通了六窍,下面就个人理解讲一下
1首先说一下为什么HtoX32c.exe转换后会出现乱码。
这个不是HtoX32c.exe程序的Bug,而是原文件缺少UTF-8文件头(EF BB BF)。
注:可以用Debug的D命令查看一下,也可以用附件中的小工具(以前学C时写的)
2哪为什么网页和Notepad中没有出现乱码呢?
这是因为源html文件中有下面这一句限定了编码:
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
而Notepad中查看没有出现乱码是因为Notepad有一定的智能识别功能(个人推测,有时这个会弄出令人啼笑皆非的事情,打开Notepad输入“联通”二字,保存再次打开试试你会看到什么)
转换后的文件也缺少文件头,而记事本此时又不能智能的识别,所以就乱码了。因此只要加上文件头就可以了。
本人不善言辞,讲的比较乱,希望对你有所帮助;)
附件
1:
hex.rar (2010-5-3 22:31, 17.94 KiB,下载次数: 13)
作者: 740011611
时间: 2010-5-4 15:24
谢谢了
作者: plp626
时间: 2010-6-16 00:59
copy/b TMP.$$ + /b curl.txt TMP.$$
写成这样子好理解:
copy /b TMP.$$ + curl.txt TMP.$$
作者: plp626
时间: 2010-6-16 01:16
Originally posted by freeants001 at 2010-5-3 01:27 PM:
编码问题。
(ECHO.F100,102 EF BB BF
ECHO.RCX
ECHO.3
ECHO.NTMP.$$
ECHO.W
ECHO.Q
)|DEBUG
htox32c /O0 /ip curl.html
copy/b TMP.$$ + /b curl.txt TMP.$$
copy/b TMP.$$ curl.tx ...
在这个代码中:
copy/b TMP.$$ curl.txt
我很好奇为什么这句没有提示
改写 curl.txt 吗? (Yes/No/All)
Last edited by plp626 on 2010-6-16 at 01:18 ]
作者: plp626
时间: 2010-6-16 01:35
用这个代码吧,可读性强。copy /b 有bug 害 的我实验了半个小时
(ECHO.F100,102 EF BB BF
ECHO.RCX
ECHO.3
ECHO.NTMP.$$
ECHO.W
ECHO.Q
)|DEBUG
htox32c /O0 /ip curl.html
copy/b TMP.$$ + curl.txt TMP.$$
ren tmp.$$ curl.txt
start curl.txt
作者: 740011611
时间: 2010-6-16 18:54
呵呵,多谢!我转换过的网页有很多,能批量的转换编码吗?你这个代码好像只能处理一个转换后的文本文件.