Board logo

标题: 【求助】htox32c转换html2txt 汉字乱码 [打印本页]

作者: plp626     时间: 2009-5-29 06:58    标题: 【求助】htox32c转换html2txt 汉字乱码
如题,搜索了无果,想问是那个参数可解决,还是压根就。。。
options :(参数设置括号内为缺省值)
/Cn 设每行列数最大值 (79)
/T{0|1} 转换页面标题
/I{a|j|s|e|u|8|p} 转换编码:

/S{0|1} 是否将连续空白内容合并
/L{0|1} 是否删除行首行末的空白
/E{0|1} 是否清除文中的EOF编码(0x1a)
/F{0|1} 如果转换后文本文件末尾不是回车符则添加回车符
/O{0|1} 输出覆盖已有文件时是否提示
/G{0|1|2|3|4"用户自定义字符串" (%s=指定替代文本)} <IMG>转换的标签
",2:"",3:"",4:用户定义]
/D{0|1|2} 表格之间文字的间隔符
/Q{0|1} 以指定强制换行
/A{0|1} 强制表格内文字总是左对齐
/U{0-7} 是否执行插入链接网址

这是转换百度首页的截图:

作者: plp626     时间: 2009-5-29 07:26
算了还是用VBS吧,哎。。。。

作者: plp626     时间: 2009-5-29 07:28
真的没人?

作者: plp626     时间: 2009-5-29 07:49
已经解决
答案为 h2x32c /ip index.html

作者: slore     时间: 2009-5-29 07:50
/ip

作者: knoppix7     时间: 2009-5-29 23:30
/ip
它那个程序默认吧给出来的字符全当S-JIS编码了..

作者: 740011611     时间: 2010-4-30 23:19
为什么加上 /ip 参数后也是乱码?我转换的是dos联盟本论坛的网页。

如下乱码:




TITLE : RUNDLL32鐨勫簲鐢紒 - DOS瀛︿範鍏ラ棬 & 绮惧僵鏂囩珷 锛堟暀瀛﹀锛?- 涓浗DOS鑱旂洘璁哄潧 - 涓浗DOS鑱旂洘涔嬭仈鍚圖OS璁哄潧

涓浗DOS鑱旂洘璁哄潧 佲 DOS瀛︿範鍏ラ棬 & 绮惧僵鏂囩珷 锛堟暀瀛﹀锛?佲 RUNDLL32鐨勫簲鐢紒

Last edited by 740011611 on 2010-5-3 at 09:23 ]
附件 1: 效果.rar (2010-5-3 09:19, 24.77 KiB,下载次数: 13)

作者: 740011611     时间: 2010-5-3 09:24
不要沉了啊,为什么解决不了呢?

作者: freeants001     时间: 2010-5-3 13:27
Originally posted by 740011611 at 2010-4-30 23:19:
为什么加上 /ip 参数后也是乱码?我转换的是dos联盟本论坛的网页。

如下乱码:




TITLE : RUNDLL32鐨勫簲鐢紒 ...


编码问题。


(ECHO.F100,102 EF BB BF
ECHO.RCX
ECHO.3
ECHO.NTMP.$$
ECHO.W
ECHO.Q
)|DEBUG
htox32c /O0 /ip curl.html
copy/b TMP.$$ + /b curl.txt TMP.$$
copy/b TMP.$$ curl.txt
del /q TMP.$$
start curl.txt


作者: 740011611     时间: 2010-5-3 20:18
多谢,你的代码执行的很好。呵呵。但是我对编码一窍不通,在本论坛也收索了下,不是很懂,能讲讲你那段代码的详细意思吗?还有中国dos联盟本论坛采用的是什么编码方式啊??

Last edited by 740011611 on 2010-5-3 at 20:55 ]

作者: freeants001     时间: 2010-5-3 22:31
对于编码,我对是七窍通了六窍,下面就个人理解讲一下
1首先说一下为什么HtoX32c.exe转换后会出现乱码。
这个不是HtoX32c.exe程序的Bug,而是原文件缺少UTF-8文件头(EF BB BF)。
注:可以用Debug的D命令查看一下,也可以用附件中的小工具(以前学C时写的)

2哪为什么网页和Notepad中没有出现乱码呢?
这是因为源html文件中有下面这一句限定了编码:
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
而Notepad中查看没有出现乱码是因为Notepad有一定的智能识别功能(个人推测,有时这个会弄出令人啼笑皆非的事情,打开Notepad输入“联通”二字,保存再次打开试试你会看到什么)


转换后的文件也缺少文件头,而记事本此时又不能智能的识别,所以就乱码了。因此只要加上文件头就可以了。

本人不善言辞,讲的比较乱,希望对你有所帮助;)
附件 1: hex.rar (2010-5-3 22:31, 17.94 KiB,下载次数: 13)

作者: 740011611     时间: 2010-5-4 15:24
谢谢了

作者: plp626     时间: 2010-6-16 00:59
copy/b TMP.$$ + /b curl.txt TMP.$$

写成这样子好理解:
copy /b TMP.$$ + curl.txt TMP.$$

作者: plp626     时间: 2010-6-16 01:16
Originally posted by freeants001 at 2010-5-3 01:27 PM:


编码问题。


(ECHO.F100,102 EF BB BF
ECHO.RCX
ECHO.3
ECHO.NTMP.$$
ECHO.W
ECHO.Q
)|DEBUG
htox32c /O0 /ip curl.html
copy/b TMP.$$ + /b curl.txt TMP.$$
copy/b TMP.$$ curl.tx ...



在这个代码中:
copy/b TMP.$$ curl.txt 

我很好奇为什么这句没有提示
改写 curl.txt 吗? (Yes/No/All)

Last edited by plp626 on 2010-6-16 at 01:18 ]

作者: plp626     时间: 2010-6-16 01:35
用这个代码吧,可读性强。copy /b 有bug 害 的我实验了半个小时

(ECHO.F100,102 EF BB BF
ECHO.RCX
ECHO.3
ECHO.NTMP.$$
ECHO.W
ECHO.Q
)|DEBUG
htox32c /O0 /ip curl.html
copy/b TMP.$$ + curl.txt TMP.$$
ren tmp.$$ curl.txt
start curl.txt

作者: 740011611     时间: 2010-6-16 18:54
呵呵,多谢!我转换过的网页有很多,能批量的转换编码吗?你这个代码好像只能处理一个转换后的文本文件.