温馨提示:本文翻译自stackoverflow.com，查看原文请点击：search - extract sequences from multifasta file by ID in file using awk

awk bioinformatics multiline search fasta

search - 使用awk通过文件中的ID从multifasta文件中提取序列

发布于 2020-04-12 11:54:18

我想从multifasta文件中提取与ID的单独列表匹配的ID序列。

FASTA文件seq.fasta：

>7P58X:01332:11636
TTCAGCAAGCCGAGTCCTGCGTCGTTACTTCGCTT
CAAGTCCCTGTTCGGGCGCC
>7P58X:01334:11605
TTCAGCAAGCCGAGTCCTGCGTCGAGAGTTCAAGTC
CCTGTTCGGGCGCCACTGCTAG
>7P58X:01334:11613
ACGAGTGCGTCAGACCCTTTTAGTCAGTGTGGAAAC
>7P58X:01334:11635
TTCAGCAAGCCGAGTCCTGCGTCGAGAGATCGCTTT
CAAGTCCCTGTTCGGGCGCCACTGCGGGTCTGTGTC
GAGCG
>7P58X:01336:11621
ACGCTCGACACAGACCTTTAGTCAGTGTGGAAATCT
CTAGCAGTAGAGGAGATCTCCTCGACGCAGGACT

ID文件id.txt：

7P58X:01332:11636
7P58X:01334:11613

我想获取仅具有与id.txt文件中的ID匹配的序列的fasta文件：

>7P58X:01332:11636
TTCAGCAAGCCGAGTCCTGCGTCGTTACTTCGCTTT
CAAGTCCCTGTTCGGGCGCC
>7P58X:01334:11613
ACGAGTGCGTCAGACCCTTTTAGTCAGTGTGGAAAC

我真的很喜欢在这里和这里的答案中找到的awk方法，但是那里给出的代码对于我给出的示例仍然无法完美运行。原因如下：

（1）

awk -v seq="7P58X:01332:11636" -v RS='>' '$1 == seq {print RS $0}' seq.fasta

该代码对于多行序列效果很好，但是ID必须单独插入到代码中。

（2）

awk 'NR==FNR{n[">"$0];next} f{print f ORS $0;f=""} $0 in n{f=$0}' id.txt seq.fasta

此代码可以从id.txt文件中获取ID，但仅返回多行序列的第一行。

我想这很不错，那就是修改代码（2）中的RS变量，但是到目前为止，我的所有尝试都失败了。有人可以帮我吗？

提问者

Dalibor Miklík

被浏览

52

查看英文版

查看原文

Ed Morton 2018-04-10 00:47

$ awk -F'>' 'NR==FNR{ids[$0]; next} NF>1{f=($2 in ids)} f' id.txt seq.fasta
>7P58X:01332:11636
TTCAGCAAGCCGAGTCCTGCGTCGTTACTTCGCTT
CAAGTCCCTGTTCGGGCGCC
>7P58X:01334:11613
ACGAGTGCGTCAGACCCTTTTAGTCAGTGTGGAAAC

fibar 2020-04-08 23:16:15

应该如何修改它以接受上一步中通过管道传输的seq.fasta文件？

Ed Morton 2020-04-08 23:18:33

whatever | awk '...' id.txt -

相关问题

1

通过数据库中的文本字段实现智能搜索

2

检查在任意范围F中是否有从S点到达G点的方法

3

具有搜索参数的Freemarker分页

4

无法通过Flutter中的SearchDelegate类传递用户数据

5

为什么我的蛮力子字符串搜索返回额外的计数？

6

如何退出跳格搜索视图？

7

对RecyclerView实施搜索过滤器

8

在J中使用向量/矩阵时，输出值及其关联的索引

9

搜索并替换标题键嵌套对象vue js上的字符串

10

如何在单元格中搜索文本，单元格中可能有多个值

热门github

1

PowerShell for every system! (翻译：适用于各系统的PowerShell)

2

the elegant TypeScript UI framework

3

DeepResearchAgent is a hierarchical multi-agent system designed not only for deep research tasks but also for general-purpose task solving. The framework leverages a top-level planning agent to coordinate multiple specialized lower-level agents, enabling automated task decomposition and efficient execution across diverse and complex domains.

4

A cryptocurrency trading API with more than 100 exchanges in JavaScript / TypeScript / Python / C# / PHP / Go (翻译：一个 JavaScript / Python / PHP 加密货币交易 API，支持 100 多个比特币/山寨币交易所)

5

Collection of awesome LLM apps with AI Agents and RAG using OpenAI, Anthropic, Gemini and opensource models.

6

Perplexica is an AI-powered search engine. It is an Open source alternative to Perplexity AI

7

Invoicing, Time tracking, File reconciliation, Storage, Financial Overview & your own Assistant made for Freelancers

8

🧩 Patches for ReVanced (翻译：🧩ReVanced 维护的官方补丁)

9

AI orchestration framework to build customizable, production-ready LLM applications. Connect components (models, vector DBs, file converters) to pipelines or agents that can interact with your data. With advanced retrieval methods, it's best suited for building RAG, question answering, semantic search or conversational agent chatbots.

10

docker mcp CLI plugin / MCP Gateway

11

Google's multi-model AI framework in Javascript, Go and Python

12

Parsing gigabytes of JSON per second : used by Facebook/Meta Velox, the Node.js runtime, ClickHouse, WatermelonDB, Apache Doris, Milvus, StarRocks

13

Implement a ChatGPT-like LLM in PyTorch from scratch, step by step (翻译：从头开始一步一步实现类似ChatGPT的LLM)

14

🚀🤖 Crawl4AI: Open-source LLM Friendly Web Crawler & Scraper. Don't be shy, join here: https://discord.gg/jP8KfhDhyN

15

A collection of projects showcasing RAG, agents, workflows, and other AI use cases