Найти все шаблоны в мультифактовом файле, включая перекрывающиеся мотивы

Question

Найти все шаблоны в мультифактовом файле, включая перекрывающиеся мотивы

1

У меня есть файл мультифаста, это выглядит так:

>NP_001002156.1
MKTAVDRRKLDLLYSRYKDPQDENKIGVDGIQQFCDDLMLDPASVSVLIVAWKFRAATQCEFSRQEFLDG
MTDLGCDSPEKLKSLLPRLEQELKDSGKFRDFYRFTFSFAKSPGQKCLDLEMAVAYWNLILSGRFKFLGL
WNTFLLEHHKKSIPKDTWNLLLDFGNMIADDMSNYAEEGAWPVLIDDFVEFARPIVTAENLQTL
>NP_957070.2
MAKDAGLKETNGEIKLFINQSPGKAAGVLQLLTVHPASITTVKQILPKTLTVTGAHVLPHMVVSTPQRPT
IPVLLTSPHTPTAQTQQESSPWSSGHCRRADKSGKGLRHFSMKVCEKVQKKVVTSYNEVADELVQEFSSA
DHSSISPNDAVSSCHVYDQKNIRRRVYDALNVLMAMNIISKDKKEIKWIGFPTNSAQECEDLKAERQRRQ
ERIKQKQSQLQELIVQQIAFKNLVQRNREVEQQSKRSPSANTIIQLPFIIINTSKKTIIDCSISNDKFEY
LFNFDSMFEIHDDVEVLKRLGLALGLESGRCSAEQMKIATSLVSKALQPYVTEMAQGSVNQPMDFSHVAA
ERRASSSTSSRVETPTSLMEEDEEDEEEDYEEEDD
>NP_123456.1
MALLLLLGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG
...

Хотя существует отличный скрипт на python для обработки поиска по мотивам в мультифактовом файле (https://www.biostars.org/p/14305/), если использовать шаблон "[KHR] {3}", он вернет только мотив список и много пустых результатов:

>NP_001002156.1
:['RRK']
>NP_001002156.1
:[]
>NP_001002156.1
:['HHK']
>NP_957070.2
:[]
>NP_957070.2
:['RRR']
...

и какой-то мотив (HKK) просочился в той же последовательности.

Здесь я нашел еще один скрипт на Python:

#coding:utf-8
import re
pattern = "[KHR]{3}"
with open('seq.fasta') as fh:
    fh.readline() 
    seq = ""
    for line in fh:
         seq += line.strip() 
rgx = re.compile(pattern)
result = rgx.search(seq)
patternfound = result.group()
span = result.span()
leftpos = span[0]-10
if leftpos < 0:
   leftpos = 0
print(seq[leftpos:span[0]].lower() + patternfound + seq[span[1]:span[1]+10].lower())

он возвращает первый сопоставленный мотив, найденный в контексте (вперед на 10 аминокислот после сопоставленного мотива и назад на 10 перед сопоставленным мотивом) только для одной последовательности фаста (1-й) для первой последовательности поста NP_001002156.1 с использованием scirpt, возвращаемый результат:

mktavdRRKldllysrykd

но у него нет заголовка файла "> NP_001002156.1", а остальные 2 мотива в контексте были опущены:

glwntfllehHHKksipkdtwnl
lwntfllehhHKKsipkdtwnll

Здесь я хочу, чтобы требуемый скрипт возвращал совпавший мотив с его отправкой в контексте каждой последовательности fastta в мультифактовом файле, и он представлял бы результаты следующим образом:

>NP_001002156.1_matchnumber_1_(7~9)
mktavdrRRKldllysrykd
>NP_001002156.1_matchnumber_2_(148~150) 
glwntfllehHHKksipkdtwnl
>NP_001002156.1_matchnumber_3_(149~151)
lwntfllehhHKKsipkdtwnll
>NP_957070.2_matchnumber_1_(163~165)
chvydqknirRRRvydalnvlma
>NP_123456.1
no match found

Примечание. Положение совмещенного шаблона не является положением контекста.

Кто-нибудь может мне помочь? Заранее спасибо.

james 11 янв. 2019, в 06:16

Источник

0

Так что же такое "мотив"? Трехбуквенный шаблон? Почему это «RRK» в одном примере, а затем HHK в другом, перекрывающееся с HKK в следующем и затем RRR в последнем? Не могли бы вы объяснить? (Или вы хотите, чтобы ответили только люди, которые знают это?)
zdim 11 янв. 2019, в 05:46
0

Подожди ... какая-нибудь трехсимвольная комбинация из [HKR]?
zdim 11 янв. 2019, в 05:53
0

Насколько большими могут быть эти файлы?
zdim 11 янв. 2019, в 06:00
0

@zdim Это будет не только HKR или какой-то другой паттерн, он будет отличаться, мы должны посмотреть на сворачиваемость белка и его свойства. Последовательность белка не похожа на последовательность ДНК, поэтому максимальный размер белка ~ 50К символов. Но в файле мы можем сохранить n номеров последовательности, заголовок последовательности Fasta начинается с >
mkHun 11 янв. 2019, в 06:26
0

@ zdim syn Синтаксис шаблона Regex можно использовать для поиска предопределенного шаблона среди любых строк, этот пример - просто белковые последовательности. Размер файла составляет около 40 МБ, спасибо!
james 11 янв. 2019, в 06:42
0

@mkHun и james : смотри, я не биолог. Я готов помочь здесь, но вы не помогаете. Можете ли вы взглянуть на мой первый комментарий и сказать, что означает «мотив»? Это то, что я догадался во втором комментарии?
zdim 11 янв. 2019, в 06:44
0

@ Здим, большое спасибо! мотив - это некоторые строки, сохраняющие положение символов, например: P [AZ] {2} P, P в 1-м и последнем положениях сохраняются, в то время как во 2-м положении символ может быть любым символом среди A ~ Z, здесь он может быть удвоен, так что есть 3-е положение, которое совпадает со 2-м из-за параметра {2}, означает: AA, AC, ... YZ, любые 2 комбинации символов в порядке.
james 11 янв. 2019, в 07:04
0

Хорошо, это объясняет, что такое "мотив", спасибо. Так что в этом вопросе это конкретно [HKR] {3}, правильно? (Имеется в виду HHH, HHK, HKR и т. Д.). Смотри мой ответ.
zdim 11 янв. 2019, в 07:10
0

@zdim, да, ты прав! Для [KHR] {3} это означает, что есть 3 позиции, и символ в 3 позициях является любым символом среди K, H или R, поэтому RRK является правильным, очевидно, HHK, HHH, HKK ... если он имеет что из строк, все правильно.
james 11 янв. 2019, в 07:21
0

@ zdim, на самом деле, вы можете определить мотив, основываясь на ваших исследованиях и правилах Regex.
james 11 янв. 2019, в 07:23
0

Хорошо, хорошо, это то, что я понял. Вот что вам нужно в этом вопросе, в частности [KHR] {3}? Тогда мой ответ должен быть в порядке.
zdim 11 янв. 2019, в 07:24
0

@ zdim, да, в вопросе я хочу объединить два сценария или другой сценарий, созданный для вывода результатов, которые я хотел, спасибо!
james 11 янв. 2019, в 07:26
0

@james Я написал код, чтобы получить результат, который вы объяснили; Я не использовал (и не заботился о) эти два сценария. Он ловит все, что вы заявили, включая перекрывающиеся мотивы.
zdim 11 янв. 2019, в 07:29
0

Примечание: код Python, который вы показываете, не может поймать перекрывающиеся мотивы (например, HHKK), так как после первого совпадения (HHK) их регулярное выражение пройдет необходимую позицию для второго совпадения (это после первого K, поэтому все, что он видит следующим, только один K). Чтобы получить это, можно использовать «lookahead» (или другие более сложные подходы), как в моем ответе.
zdim 11 янв. 2019, в 07:33
0

@zdim, да, ваши соображения верны, если есть перекрывающиеся мотивы, лучше всего найти их в пуле или в собранном виде (например, HHKK). Как сказал mkHun, шаблон или мотив в этом случае будут отличаться, поэтому я могу изменить ваш код, чтобы он соответствовал желаемому мотиву, кроме [KHR] {3}? Большое спасибо !
james 11 янв. 2019, в 07:41
0

@james Да, вы можете изменить это в том месте, где оно используется. Я не извлек его в переменную, потому что: (1) я не знал, что такое «мотив» (2) после вашего объяснения я вижу, что могут быть фиксированные символы («консервативные»), и в этом случае регулярное выражение может понадобиться настройка.
zdim 11 янв. 2019, в 07:44
0

@zdim, спасибо за подробное объяснение
james 12 янв. 2019, в 09:27
0

Я отредактировал заголовок, чтобы быть более точным, и упомянуть дублирование, которое является важной частью проблемы здесь. Если вам не нравится, пожалуйста, во что бы то ни стало "откат" :). Вы можете сделать это, щелкнув «отредактировано ...» ниже середины вопроса (над моим именем пользователя), и затем вы увидите ревизии и опцию «откатить» предыдущую.
zdim 13 апр. 2019, в 08:24

Показать ещё 16 комментариев

Теги:

python

perl

1 ответ

Ещё вопросы

Так что же такое "мотив"? Трехбуквенный шаблон? Почему это «RRK» в одном примере, а затем HHK в другом, перекрывающееся с HKK в следующем и затем RRR в последнем? Не могли бы вы объяснить? (Или вы хотите, чтобы ответили только люди, которые знают это?)
Подожди ... какая-нибудь трехсимвольная комбинация из [HKR]?
Насколько большими могут быть эти файлы?
@zdim Это будет не только HKR или какой-то другой паттерн, он будет отличаться, мы должны посмотреть на сворачиваемость белка и его свойства. Последовательность белка не похожа на последовательность ДНК, поэтому максимальный размер белка ~ 50К символов. Но в файле мы можем сохранить n номеров последовательности, заголовок последовательности Fasta начинается с >
@ zdim syn Синтаксис шаблона Regex можно использовать для поиска предопределенного шаблона среди любых строк, этот пример - просто белковые последовательности. Размер файла составляет около 40 МБ, спасибо!
@mkHun и james : смотри, я не биолог. Я готов помочь здесь, но вы не помогаете. Можете ли вы взглянуть на мой первый комментарий и сказать, что означает «мотив»? Это то, что я догадался во втором комментарии?
@ Здим, большое спасибо! мотив - это некоторые строки, сохраняющие положение символов, например: P [AZ] {2} P, P в 1-м и последнем положениях сохраняются, в то время как во 2-м положении символ может быть любым символом среди A ~ Z, здесь он может быть удвоен, так что есть 3-е положение, которое совпадает со 2-м из-за параметра {2}, означает: AA, AC, ... YZ, любые 2 комбинации символов в порядке.
Хорошо, это объясняет, что такое "мотив", спасибо. Так что в этом вопросе это конкретно [HKR] {3}, правильно? (Имеется в виду HHH, HHK, HKR и т. Д.). Смотри мой ответ.
@zdim, да, ты прав! Для [KHR] {3} это означает, что есть 3 позиции, и символ в 3 позициях является любым символом среди K, H или R, поэтому RRK является правильным, очевидно, HHK, HHH, HKK ... если он имеет что из строк, все правильно.
@ zdim, на самом деле, вы можете определить мотив, основываясь на ваших исследованиях и правилах Regex.
Хорошо, хорошо, это то, что я понял. Вот что вам нужно в этом вопросе, в частности [KHR] {3}? Тогда мой ответ должен быть в порядке.
@ zdim, да, в вопросе я хочу объединить два сценария или другой сценарий, созданный для вывода результатов, которые я хотел, спасибо!
@james Я написал код, чтобы получить результат, который вы объяснили; Я не использовал (и не заботился о) эти два сценария. Он ловит все, что вы заявили, включая перекрывающиеся мотивы.
Примечание: код Python, который вы показываете, не может поймать перекрывающиеся мотивы (например, HHKK), так как после первого совпадения (HHK) их регулярное выражение пройдет необходимую позицию для второго совпадения (это после первого K, поэтому все, что он видит следующим, только один K). Чтобы получить это, можно использовать «lookahead» (или другие более сложные подходы), как в моем ответе.
@zdim, да, ваши соображения верны, если есть перекрывающиеся мотивы, лучше всего найти их в пуле или в собранном виде (например, HHKK). Как сказал mkHun, шаблон или мотив в этом случае будут отличаться, поэтому я могу изменить ваш код, чтобы он соответствовал желаемому мотиву, кроме [KHR] {3}? Большое спасибо !
@james Да, вы можете изменить это в том месте, где оно используется. Я не извлек его в переменную, потому что: (1) я не знал, что такое «мотив» (2) после вашего объяснения я вижу, что могут быть фиксированные символы («консервативные»), и в этом случае регулярное выражение может понадобиться настройка.
@zdim, спасибо за подробное объяснение
Я отредактировал заголовок, чтобы быть более точным, и упомянуть дублирование, которое является важной частью проблемы здесь. Если вам не нравится, пожалуйста, во что бы то ни стало "откат" :). Вы можете сделать это, щелкнув «отредактировано ...» ниже середины вопроса (над моим именем пользователя), и затем вы увидите ревизии и опцию «откатить» предыдущую.

zdim · Accepted Answer · 2019-01-11T04-47-00.000Z

"Мотив" здесь - любая длинная комбинация символов [HKR]; мотивы могут совпадать.

Перекрытие разрешается с помощью "заглядывания" в регулярное выражение. Подробности смотрите ниже. Ни один из цитируемых или показанных ресурсов, кажется, не справляется с этим, и я не вижу, как они поймали бы перекрывающиеся мотивы.

use warnings;
use strict;
use feature 'say';

my $file = shift || die "Usage: $0 fasta-file\n";    
open my $fh, '<', $file or die "Can't open $file: $!";

my ($seq, $seq_name);
while (<$fh>) {
    chomp;
    if (/^>(.*)/) {
        # Process the previous assembled sequence
        if ($seq) {
            proc_seq($seq_name, $seq);
            $seq = ''; 
        }
        $seq_name = $1; 
        next;
    }   
    $seq .= $_; 
}
# Process the last one    
proc_seq($seq_name, $seq);

sub proc_seq {
    my ($seq_name, $seq, $multiline) = @_; 

    # Build output in the loop, as motifs are found. By default, print all
    # output for one seq_name in one line. To print each motif on its own
    # line instead, invoke this sub with a true third argument (1 will do).
    my $output = ">$seq_name";

    my $cnt = 0;
    while ($seq =~ /([HKR])(?=([HKR]{2}))/g) { 
        ++$cnt;shot/
        my $motif = $1 . $2; 
        my $pos = pos($seq);
        my $pre_context = ($pos >= 11) 
            ? substr($seq, $pos-11, 10) 
            : substr($seq, 0,       $pos-1);
        my $post_context = substr $seq, $pos+2, 10;

        $output .= " n$cnt($pos~" . ($pos+2) . ") ";
        $output .= "\n"  if $multiline;
        $output .= lc($pre_context) . $motif . lc($post_context);
    } 
    say ($cnt > 0  ? $output  : $output . ' no match found');
}

Обратите внимание на регулярное выражение: нам нужен запрос на просмотр второго и третьего символа, чтобы можно было улавливать перекрывающиеся мотивы.

Пример. Существует HHKK в первой последовательности, с перекрывающимися мотивами HHK и HKK. Если регулярное выражение соответствует HHK используя /[HKR]{3}/ то после этого положение механизма регулярных выражений в строке следует после первого K, поскольку оно "потребляет" HHK. Таким образом, все, что он может видеть дальше, это только один K и поэтому нет [HKR]{3} чтобы соответствовать следующему, и поэтому он пропускает следующий мотив.

Таким образом, вместо этого я сопоставляю только одну букву и делаю "предпросмотр" для следующих двух. Затем после сопоставления H (и "увидев", что за HK действительно следует) расходуется только одна буква, и двигатель обошел только этот первый H, и он помещается перед вторым H для следующего совпадения. Теперь он сможет следующим образом сопоставить HKK таким же образом (и, таким образом, он может продолжать сопоставлять даже многократно перекрывающиеся мотивы).

Это идентифицирует все, что указано в желаемом выводе (который имеет опечатку); обратите внимание на изменение требований в комментарии, чтобы напечатать все мотивы для одной последовательности в одной строке. Так что печатает

>NP_001002156.1 n1(7~9) mktavdRRKldllysrykd n2(148~150) lglwntflleHHKksipkdtwnl n3(149~151) glwntfllehHKKsipkdtwnll
>NP_957070.2 n1(163~165) schvydqkniRRRvydalnvlma
>NP_bogus_with_no_motifs  no match found

со всеми мотивами для того же имени последовательности в одной строке, как и хотелось. Я добавил фиктивную строку для ввода без каких-либо мотивов, чтобы проверить дополнение no match found; это сделало последнюю строку в выводе выше.

Еще есть возможность напечатать каждый мотив на отдельной строке, как это было первоначально необходимо: вызвать функцию proc_seq с дополнительным третьим аргументом, который имеет значение true, например,

proc_seq($seq_name, $seq, 1)

и тогда он напечатает

>NP_001002156.1 n1(7~9) 
mktavdRRKldllysrykd n2(148~150) 
lglwntflleHHKksipkdtwnl n3(149~151) 
glwntfllehHKKsipkdtwnll
>NP_957070.2 n1(163~165) 
schvydqkniRRRvydalnvlma
>NP_bogus_with_no_motifs  no match found

@james Добавлено подробное объяснение того, как регулярное выражение в ответе ловит перекрывающиеся мотивы. (Обратите внимание, есть и другие способы, конечно.)
@ Здим ， работает очень хорошо и очень быстро! Я ценю вашу большую помощь！
@james Отлично :) Дайте мне знать, если возникнут вопросы
@james Добро пожаловать :) Я просто исправил числа для "крайнего случая" (когда в строке недостаточно символов перед совпадением, чтобы вывести 10 для контекста - оно было выключено на 1)
Отлично! Если в последовательности не найдено совпадений, например, NP_123456.1 совпадений не найдено, то даст ли это результат> NP_123456.1 \ n совпадений не найдено? Я отредактировал пост.
пожалуйста, смотрите последний комментарий и отредактированный пост. Большое спасибо!
@james Если вы хотите , чтобы добавить флаг ( my $cnt=0; ) в начале функции, и увеличивать его внутри в while цикла, поэтому , когда есть результаты. После в while петли, проверьте эту переменную и , если она еще не нулевой , то не было никаких совпадений найдено , и вы можете напечатать это.
Я стараюсь, как вы сказали, это прекрасно! Большое спасибо!
когда шаблон похож на '/ ([KHR]) (? = ([KHR] {2,})) / g', иногда он возвращает правильный шаблон в последовательности, но неправильное положение границы, например, > NP_001002156.1 (150 ~ 152) glwntflleHHKKksipkdtwnl, на самом деле это 150 ~ 153. Как исправить эту ошибку? Большое спасибо !
@james Это теперь с переменной длиной мотива? Тогда вы должны увидеть, сколько вы на самом деле получили во втором захвате. $pos+2 теперь там, потому что в примере в вопросе у нас всегда есть еще два символа (после первого). Если это не исправлено, возьмите длину: $pos+length($2) . (Или, поскольку это будет использоваться более одного раза, сначала сохраните его в переменной.)
Круто !!!, я изменил $ pos + 2 на $ pos + length ($ 2), и поместил $ cnt как matchnumber, он отлично работает! Ваш Perl-код - это ворота для меня, чтобы выучить Perl, Большое спасибо !!!
Если в одной последовательности мультифакторного файла есть много определенных мотивов, я хочу, чтобы выходные данные представляли собой одну строку для последующей удобной обработки, например, последовательность фастов NP_001002156.1 имеет 3 определенных мотива, я хочу, чтобы 3 мотива и их диапазоны были представлены в одной строке как следующее:> NP_001002156.1 (7 ~ 9) mktavRRKldllysrykd (148 ~ 150) glwntfllehHHKksipkdtwnl (149 ~ 151) Я пытался отредактировать твой сценарий, чтобы получить это, но, к сожалению, мне не удалось. Не могли бы вы помочь мне разобраться? Спасибо!
@james Редактирование ... как только мы подходим к этому, возникает вопрос: полезно ли каким-то образом выстраивать вывод - например, чтобы он был столбчатым? Кажется, это не имеет значения, поскольку может быть много разных позиций / номеров мотивов, но если это так, то их легко добавить.
Я просто хочу, чтобы он был выстроен в линию и разделен пробелами, потому что мотив - это только один из факторов, которые я хочу отфильтровать, этого достаточно для пар области мотива и мотива, разделенных пробелом. Спасибо за ваш добрый ответ!
@james ОК. Отредактировано, пожалуйста, посмотрите. Сейчас я отредактирую еще немного, чтобы улучшить текст / объяснения; пожалуйста, дайте мне знать, если что-то не так или может быть улучшено.
это дает мне результат, который я хотел, это потрясающе !!! Один вопрос: когда у последовательности нет мотива, я хочу добавить «совпадение не найдено», и еще один момент - добавить $ cnt для подсчета номера мотива, например,>> NP_001002156.1 matchnumber1 ( 7 ~ 9) mktavdRRKldllysrykd matchnumber2 (148 ~ 150) lglwntflleHHKksipkdtwnl matchnumber3 (149 ~ 151) glwntfllehHKKsipkdtwnll ", Не могли бы вы помочь мне? Большое спасибо!
@james Конечно ... буквально matchnumberX ? (Это большая фраза, я бы лучше использовал numX или даже nX :)
@james Добавлено (и проверено, но, конечно, проверьте)
NX в порядке, это упрощено, это очень хорошая идея!
@james По какой - то причине я забыл на самом деле добавить его здесь (только испытанную в моем коде), извините - теперь он будет добавлен. И счет отчета изменился на nX
@yeah, это здорово! пожалуйста, добавьте $ cnt ++ перед "my $ motif = $ 1. $ 2;" в цикле while, как вы и предлагали ранее. Теперь, это дает мне желаемый результат!
@james Ой, все еще забыл это, спасибо - добавил.
вау, когда я занят тестированием вашего кода, вы должны написать подробную техническую статью по этому вопросу. Большое спасибо за помощь!