中国DOS联盟论坛 - Powered by Discuz! Board

标题: [求助成功]文档拆分一（拆分NCBI中fasta格式的文档） [打印本页]

作者: biogene 时间: 2009-5-23 00:48 标题: [求助成功]文档拆分一（拆分NCBI中fasta格式的文档）

在国立生物技术信息中心（NCBI）中的碱基序列下载后，是在一个文件中，文档扩展名为.fasta，很多个序列都在一个文档中，使用起来不是太方便，请大家帮我看看能否用拆分文本文档的方法拆分（扩展名为.fasta，可以用写字板打开）。

要求：
1、将文件从空行处拆分为单个文件
2、将每段中如'>gi|167427515|gb|'后面的字符如''EU289029’'提取出来做为文件名
3、将拆分后文件的扩展名改为.seq

多谢各位大侠了。

文本样式下载地址： http://biogene.ys168.com/?jdfwkey=wwmfl1
文本样式：
>gi|167427515|gb|EU289029.1| Newcastle disease virus strain VG/GA clone 5, complete genome
ACCAAACAGAGAATCCGTGAGTTACGATAAAAGGCGAAGGAGCAATTGAAGTCGCACGGGTAGAAGGTGT
GAATCTCGAGTGCGAGCCCGAAGCACAAACTCGAGGAAGCCTTCTGCCAACATGTCTTCCGTATTCGACG.........................

>gi|167424515|gb|EU289029.1| Newcastle disease virus strain VG/GA clone 5, complete genome
ACCAAACAGAGAATCCGTGAGTTACGATAAAAGGCGAAGGAGCAATTGAAGTCGCACGGGTAGAAGGTGT
GAATCTCGAGTGCGAGCCCGAAGCACAAACTCGAGGAAGCCTTCTGCCAACATGTCTTCCGTATTCGACG.........................

>gi|218511471|gb|FJ480823.1| Newcastle disease virus strain Go/CH/HLJ/2/06 fusion protein (F) mRNA, complete cds
ATGGGCTCCAGACCTTCTACCAAGAACCCAGCACCTATGATGCTGACTATCCGGGTCGCGCTGGTACTGA
GTTGCATCTGTCCGGCAAACTCCATTGATGGCAGGCCTCTTGCAGCTGCAGGAATTGTGGTTACAGGAGA.............................

>gi|167427515|gb|EU289029.1| Newcastle disease virus strain VG/GA clone 5, complete genome
ACCAAACAGAGAATCCGTGAGTTACGATAAAAGGCGAAGGAGCAATTGAAGTCGCACGGGTAGAAGGTGT
GAATCTCGAGTGCGAGCCCGAAGCACAAACTCGAGGAAGCCTTCTGCCAACATGTCTTCCGTATTCGACG.........................

Last edited by biogene on 2009-5-22 at 23:10 ]

作者: yishanju 时间: 2009-5-23 00:56

贴下载地址

作者: biogene 时间: 2009-5-23 01:14

下载地址已经贴上了，在我的永硕网盘http://biogene.ys168.com/?jdfwkey=wwmfl1 －－－一般文件－－ NCBI文件样式.fasta

Last edited by biogene on 2009-5-22 at 18:18 ]

作者: netbenton 时间: 2009-5-23 01:39

@echo off&setlocal enabledelayedexpansion

for /f "delims=" %%a in (NCBI文件样式.fasta) do (

    for /f "tokens=4 delims=|" %%b in ("%%a") do (if "%%b" neq "" set name=%%~nb.seq)

    echo %%a>>!name!

)

pause

作者: biogene 时间: 2009-5-23 06:40

很好用，谢谢netbenton的帮助