在国立生物技术信息中心(NCBI)中的碱基序列下载后,是在一个文件中,文档扩展名为.fasta,很多个序列都在一个文档中,使用起来不是太方便,请大家帮我看看能否用拆分文本文档的方法拆分(扩展名为.fasta,可以用写字板打开)。
要求:
1、将文件从空行处拆分为单个文件
2、将每段中如'>gi|167427515|gb|'后面的字符如''EU289029’'提取出来做为文件名
3、将拆分后文件的扩展名改为.seq
多谢各位大侠了。
文本样式下载地址:
http://biogene.ys168.com/?jdfwkey=wwmfl1
文本样式:
>gi|167427515|gb|EU289029.1| Newcastle disease virus strain VG/GA clone 5, complete genome
ACCAAACAGAGAATCCGTGAGTTACGATAAAAGGCGAAGGAGCAATTGAAGTCGCACGGGTAGAAGGTGT
GAATCTCGAGTGCGAGCCCGAAGCACAAACTCGAGGAAGCCTTCTGCCAACATGTCTTCCGTATTCGACG.........................
>gi|167424515|gb|EU289029.1| Newcastle disease virus strain VG/GA clone 5, complete genome
ACCAAACAGAGAATCCGTGAGTTACGATAAAAGGCGAAGGAGCAATTGAAGTCGCACGGGTAGAAGGTGT
GAATCTCGAGTGCGAGCCCGAAGCACAAACTCGAGGAAGCCTTCTGCCAACATGTCTTCCGTATTCGACG.........................
>gi|218511471|gb|FJ480823.1| Newcastle disease virus strain Go/CH/HLJ/2/06 fusion protein (F) mRNA, complete cds
ATGGGCTCCAGACCTTCTACCAAGAACCCAGCACCTATGATGCTGACTATCCGGGTCGCGCTGGTACTGA
GTTGCATCTGTCCGGCAAACTCCATTGATGGCAGGCCTCTTGCAGCTGCAGGAATTGTGGTTACAGGAGA.............................
>gi|167427515|gb|EU289029.1| Newcastle disease virus strain VG/GA clone 5, complete genome
ACCAAACAGAGAATCCGTGAGTTACGATAAAAGGCGAAGGAGCAATTGAAGTCGCACGGGTAGAAGGTGT
GAATCTCGAGTGCGAGCCCGAAGCACAAACTCGAGGAAGCCTTCTGCCAACATGTCTTCCGTATTCGACG.........................
Last edited by biogene on 2009-5-22 at 23:10 ]