标题: [求助成功]文档拆分 一 (拆分NCBI中fasta格式的文档)
[打印本页]
作者: biogene
时间: 2009-5-23 00:48
标题: [求助成功]文档拆分 一 (拆分NCBI中fasta格式的文档)
在国立生物技术信息中心(NCBI)中的碱基序列下载后,是在一个文件中,文档扩展名为.fasta,很多个序列都在一个文档中,使用起来不是太方便,请大家帮我看看能否用拆分文本文档的方法拆分(扩展名为.fasta,可以用写字板打开)。
要求:
1、将文件从空行处拆分为单个文件
2、将每段中如'>gi|167427515|gb|'后面的字符如''EU289029’'提取出来做为文件名
3、将拆分后文件的扩展名改为.seq
多谢各位大侠了。
文本样式下载地址:
http://biogene.ys168.com/?jdfwkey=wwmfl1
文本样式:
>gi|167427515|gb|EU289029.1| Newcastle disease virus strain VG/GA clone 5, complete genome
ACCAAACAGAGAATCCGTGAGTTACGATAAAAGGCGAAGGAGCAATTGAAGTCGCACGGGTAGAAGGTGT
GAATCTCGAGTGCGAGCCCGAAGCACAAACTCGAGGAAGCCTTCTGCCAACATGTCTTCCGTATTCGACG.........................
>gi|167424515|gb|EU289029.1| Newcastle disease virus strain VG/GA clone 5, complete genome
ACCAAACAGAGAATCCGTGAGTTACGATAAAAGGCGAAGGAGCAATTGAAGTCGCACGGGTAGAAGGTGT
GAATCTCGAGTGCGAGCCCGAAGCACAAACTCGAGGAAGCCTTCTGCCAACATGTCTTCCGTATTCGACG.........................
>gi|218511471|gb|FJ480823.1| Newcastle disease virus strain Go/CH/HLJ/2/06 fusion protein (F) mRNA, complete cds
ATGGGCTCCAGACCTTCTACCAAGAACCCAGCACCTATGATGCTGACTATCCGGGTCGCGCTGGTACTGA
GTTGCATCTGTCCGGCAAACTCCATTGATGGCAGGCCTCTTGCAGCTGCAGGAATTGTGGTTACAGGAGA.............................
>gi|167427515|gb|EU289029.1| Newcastle disease virus strain VG/GA clone 5, complete genome
ACCAAACAGAGAATCCGTGAGTTACGATAAAAGGCGAAGGAGCAATTGAAGTCGCACGGGTAGAAGGTGT
GAATCTCGAGTGCGAGCCCGAAGCACAAACTCGAGGAAGCCTTCTGCCAACATGTCTTCCGTATTCGACG.........................
[
Last edited by biogene on 2009-5-22 at 23:10 ]
作者: yishanju
时间: 2009-5-23 00:56
贴 下载地址
作者: biogene
时间: 2009-5-23 01:14
下载地址已经贴上了,在我的永硕网盘
http://biogene.ys168.com/?jdfwkey=wwmfl1 ---一般文件-- NCBI文件样式.fasta
[
Last edited by biogene on 2009-5-22 at 18:18 ]
作者: netbenton
时间: 2009-5-23 01:39
@echo off&setlocal enabledelayedexpansion
for /f "delims=" %%a in (NCBI文件样式.fasta) do (
for /f "tokens=4 delims=|" %%b in ("%%a") do (if "%%b" neq "" set name=%%~nb.seq)
echo %%a>>!name!
)
pause
作者: biogene
时间: 2009-5-23 06:40
很好用,谢谢netbenton的帮助