Board logo

标题: 提取特定字符串之间的文本。并命名 [打印本页]

作者: 405285977     时间: 2009-5-16 23:08    标题: 提取特定字符串之间的文本。并命名

例如:有一个文件夹,有很多txt。
例如:qwe152.txt

要求提取文本中:

<td>        
            <h3 ALIGN="CENTER"><font COLOR="#000080"><strong>

作为开头

<hr>            
            <p align="right"> </td>

作为结尾的文本。包含这些字符

因为做电子书需要。只需要其中的部分内容。所以截取。可能中间某一行中的文本很长。也可能有特殊字符。

保存提取的文本内容为qwe152.htm(即文件名和原文件名一致。扩展名不同,文件名不是按1-10那样有序排列的。)

[ Last edited by 405285977 on 2009-5-17 at 00:32 ]
作者: jmz573515     时间: 2009-5-17 03:22

set fso=createobject("scripting.filesystemobject")
set folder=fso.getfolder(".")
for each file in folder.files
        if lcase(right(file,4))=".txt" then
                createfile(fso.getfile(file).name)
        end if
next
msgbox "文件整理结束!",4096
sub createfile(a)
        set file=fso.opentextfile(a)
        s=file.readall
        file.close
        filename=left(a,len(a)-4)&".html"
        set file=fso.createtextfile(filename)
        file.write re(s)
        file.close
end sub

function re(a)
        set rex=new regexp
        rex.pattern="<td>([\S\s]*)<h3 ALIGN=""CENTER""><font COLOR=""#000080""><strong>([\S\s]*)<hr>([\S\s]*)<p align=""right"">([\S\s]*)</td>"
        rex.global=true
        set mt=rex.execute(a)
        for each m in mt
                re=re&m&vbcrlf
        next
end function
[ Last edited by jmz573515 on 2009-5-17 at 05:59 ]
作者: 405285977     时间: 2009-5-17 03:39
</td>               
    <td valign="top" align="left" width="20">            
      <p> </td>           
    <td width="1" valign="top" align="left" bgcolor="#000000"><br>         
    </td>           
    <td width="20" valign="top" align="left">           
                  
      <p>            
    </td>           
    <td width="569" valign="top" align="left">           
    <div align="left">        
      <table border="0" cellpadding="0" cellspacing="5" width="540" class="e12">        
        <tr>        
          <td>        
            <h3 ALIGN="CENTER"><font COLOR="#000080"><strong>      
         
    房颤和猝死相关新基因被发现</strong></font></h3>      
    <p ALIGN="RIGHT"><font COLOR="#000080" size="2">&nbsp;&nbsp;&nbsp;&nbsp;            
    <font FACE="楷体_GB2312"></font></font></p>            
          </td>            
        </tr>            
        <tr>            
          <td><hr><p>&nbsp;&nbsp;&nbsp;&nbsp;        本报讯(记者 胡德荣)华中科技大学生命学院人类基因组研究中心王擎教授及其博士生张贤钦等,新近发现了1个与心房颤动(房颤)和猝死直接相关的NUP155新基因。其研究论文近日发表在《细胞》(Cell 2008,135:1017)杂志上。<br><br>&nbsp;&nbsp;&nbsp;&nbsp;        研究者对1个有着5代成员的大型房颤疾病家系进行遗传分析后证实,NUP155基因产生的一种突变会导致房颤和猝死。该家族有7例心脏病患者,其中5人不到2岁即发生猝死。家族中,患者体内NUP155基因存在突变,而健康成员携带的该基因正常。<br><br>&nbsp;&nbsp;&nbsp;&nbsp;        研究者发现,NUP155是一个编码核孔复合物组分的基因,其主要功能是控制遗传物质mRNA由细胞核到细胞质的转运,以便翻译成为蛋白质。NUP155也控制一些重要蛋白质由细胞质到细胞核的转运。所以,NUP155是一个处于比较上游位置的调控基因,能够对其他基因和蛋白质的表达进行调控,从而造成了房颤发生,通常威胁到青壮年人群的健康。NUP155基因的一些细微改变,也有可能增加常见的散发性房颤发生的危险。<br><br>&nbsp;&nbsp;&nbsp;&nbsp;        专家认为,该研究为治疗房颤和猝死等心脏病提供了新的靶点。</p>            
</td>               
        </tr>               
        <tr>               
          <td>              
            
              &nbsp;&nbsp; 责任编辑  &nbsp;<br>            
            <br>            
            中国新闻</font></p>            
            <hr>            
            <p align="right"> </td>   
        </tr>   
        <tr>   
          <td class=t12>                                       
                  
                  | <a href="../../aboutus.htm"> 报社简介</a> | <a href="../../subscribe.htm"> 订阅报刊</a> |            
                  <a href="../../contribute.htm"> 读者投稿</a> | <a href="../../ad.htm">广告联系</a> |            
                  <a href="../../index.html">返回主页</a> |</font></p><font color="#000080">                                                
                  
                  版权所有<br>
作者: 405285977     时间: 2009-5-17 03:39
只需要:::::

<td>        
            <h3 ALIGN="CENTER"><font COLOR="#000080"><strong>      
         
    房颤和猝死相关新基因被发现</strong></font></h3>      
    <p ALIGN="RIGHT"><font COLOR="#000080" size="2">&nbsp;&nbsp;&nbsp;&nbsp;            
    <font FACE="楷体_GB2312"></font></font></p>            
          </td>            
        </tr>            
        <tr>            
          <td><hr><p>&nbsp;&nbsp;&nbsp;&nbsp;        本报讯(记者 胡德荣)华中科技大学生命学院人类基因组研究中心王擎教授及其博士生张贤钦等,新近发现了1个与心房颤动(房颤)和猝死直接相关的NUP155新基因。其研究论文近日发表在《细胞》(Cell 2008,135:1017)杂志上。<br><br>&nbsp;&nbsp;&nbsp;&nbsp;        研究者对1个有着5代成员的大型房颤疾病家系进行遗传分析后证实,NUP155基因产生的一种突变会导致房颤和猝死。该家族有7例心脏病患者,其中5人不到2岁即发生猝死。家族中,患者体内NUP155基因存在突变,而健康成员携带的该基因正常。<br><br>&nbsp;&nbsp;&nbsp;&nbsp;        研究者发现,NUP155是一个编码核孔复合物组分的基因,其主要功能是控制遗传物质mRNA由细胞核到细胞质的转运,以便翻译成为蛋白质。NUP155也控制一些重要蛋白质由细胞质到细胞核的转运。所以,NUP155是一个处于比较上游位置的调控基因,能够对其他基因和蛋白质的表达进行调控,从而造成了房颤发生,通常威胁到青壮年人群的健康。NUP155基因的一些细微改变,也有可能增加常见的散发性房颤发生的危险。<br><br>&nbsp;&nbsp;&nbsp;&nbsp;        专家认为,该研究为治疗房颤和猝死等心脏病提供了新的靶点。</p>            
</td>               
        </tr>               
        <tr>               
          <td>              
            
              &nbsp;&nbsp; 责任编辑  &nbsp;<br>            
            <br>            
            中国新闻</font></p>            
            <hr>            
            <p align="right"> </td>
作者: 405285977     时间: 2009-5-17 03:40
楼上那个用的好像不行。
作者: yishanju     时间: 2009-5-17 05:43
把文件上传一下。
作者: jmz573515     时间: 2009-5-17 06:00
改了下,再试下看看可不可以。
作者: yishanju     时间: 2009-5-17 06:16
写个大概的代码:

FR -RNNLIC:".*(<td>.*<h3 ALIGN=\"CENTER\"><font COLOR=\"#000080\"><strong>(.*)<hr>.*<p align="right"> </td>.*" -T:"\1" AA.HTM

没有经过测试。。。