Команда Unix для поиска строк, общих в двух файлах

Question

Команда Unix для поиска строк, общих в двух файлах

144

Я уверен, что однажды нашел команду unix, которая могла печатать общие строки из двух или более файлов, знает ли кто-нибудь ее имя? Это было намного проще, чем diff.

too much php 17 дек. 2008, в 07:36

Источник

5

Ответы на этот вопрос не обязательно то, что все захотят, так как comm требует отсортированных входных файлов. Если вы хотите просто построчно, это здорово. Но если вы хотите то, что я бы назвал «антидифф», то comm не делает эту работу.
Robert P. Goldman 20 апр. 2012, в 14:15
0

@ RobertP.Goldman есть способ получить общее между двумя файлами, когда file1 содержит частичный шаблон, такой как pr-123-xy-45 а file2 содержит ec11_orop_pr-123-xy-45.gz . Мне нужен ec11_orop_pr-123-xy-45.gz содержащий ec11_orop_pr-123-xy-45.gz
Chandan Choudhury 02 нояб. 2015, в 07:20
0

Смотрите это для сортировки текстовых файлов построчно
y2k-shubham 25 июль 2018, в 07:29

Показать ещё 1 комментарий

Теги:

shell

unix

command-line

11 ответов

48

Чтобы легко применить команду comm к несортированным файлам, используйте Bash замену процессов:

$ bash --version
GNU bash, version 3.2.51(1)-release
Copyright (C) 2007 Free Software Foundation, Inc.
$ cat > abc
123
567
132
$ cat > def
132
777
321

Итак, файлы abc и def имеют одну общую линию, одну с "132". Использование comm в несортированных файлах:

$ comm abc def
123
    132
567
132
    777
    321
$ comm -12 abc def # No output! The common line is not found
$

В последней строке не было выхода, общая строка не была обнаружена.

Теперь используйте отсортированные файлы comm, сортируя файлы с заменой процесса:

$ comm <( sort abc ) <( sort def )
123
            132
    321
567
    777
$ comm -12 <( sort abc ) <( sort def )
132

Теперь мы получили строку 132!

Stephan Wehner 20 июль 2014, в 15:54

2

итак ... sort abc > abc.sorted , sort dev > def.sorted и затем comm -12 abc.sorted def.sorted ?
Nikana Reklawyks 01 нояб. 2017, в 01:28
1

@NikanaReklawyks А затем не забудьте удалить временные файлы впоследствии, и справиться с очисткой в случае ошибки. Во многих случаях замена процесса также будет происходить намного быстрее, поскольку вы можете избежать дискового ввода-вывода, пока результаты помещаются в память.
tripleee 08 дек. 2017, в 05:41

24

Может быть, вы имеете в виду comm?

Сравнение отсортированных файлов FILE1 и FILE2 по строкам.

Без параметров выведите трех столбцов. Колонка 1 содержит строки, уникальные для FILE1, столбец два содержат строки, уникальные для FILE2 и три столбца содержат строки, общие для обоих файлов.

Секрет в поиске этой информации - это информационные страницы. Для программ GNU они гораздо более подробные, чем их man-страницы. Попробуйте info coreutils, и он перечислит вам все полезные полезные утилиты.

Johannes Schaub - litb 17 дек. 2008, в 07:29

19

Чтобы дополнить однострочный Perl, здесь его эквивалент awk:

awk 'NR==FNR{arr[$0];next} $0 in arr' file1 file2

Это будет читать все строки из file1 в массив arr[], а затем проверить каждую строку в file2, если она уже существует в массиве (т.е. file1). Найденные строки будут напечатаны в том порядке, в котором они отображаются в file2. Обратите внимание, что сравнение in arr использует всю строку из file2 в качестве индекса для массива, поэтому оно будет сообщать только точные совпадения на всех строках.

Tatjana Heuser 11 окт. 2014, в 22:36

2

Это правильный ответ. Ни один из остальных не может быть настроен на работу вообще (я не пробовал perl , потому что). Спасибо за миллион, мисс
entonio 30 май 2016, в 09:48
1

Сохранение порядка при отображении общих строк может быть действительно полезным в некоторых случаях, из-за которых исключается связь.
tuxayo 13 июль 2016, в 13:07
1

В случае, если кто-то хочет сделать то же самое на основе определенного столбца, но не знает awk, просто замените оба $ 0 на $ 5, например, для столбца 5, чтобы получить строки, разделенные на 2 файла с одинаковыми словами в столбце 5
FatihSarigol 31 янв. 2019, в 15:15

Показать ещё 1 комментарий

17

Пока

grep -v -f 1.txt 2.txt > 3.txt

дает вам разницу в двух файлах (что находится в 2.txt, а не в 1.txt), вы можете легко выполнить

grep -f 1.txt 2.txt > 3.txt

собрать все общие строки, которые должны обеспечить легкое решение вашей проблемы. Если вы отсортировали файлы, вы должны взять comm, тем не менее. Привет!

ferdy 20 янв. 2015, в 18:24

2

grep делает некоторые странные вещи, которые вы можете не ожидать. В частности, все в 1.txt будет интерпретироваться как регулярное выражение, а не простая строка. Также любая пустая строка в 1.txt будет соответствовать всем строкам в 2.txt . Так что это будет работать только в очень специфических ситуациях.
Christopher Schultz 22 июль 2015, в 14:05
13

@ChristopherSchultz: Возможно обновить этот ответ, чтобы он работал лучше, используя нотации grep POSIX, которые поддерживаются grep встречающимся в большинстве современных вариантов Unix. Добавьте -F (или используйте fgrep ) для подавления регулярных выражений. Добавьте -x (для точного), чтобы соответствовать только целым строкам.
Jonathan Leffler 22 июль 2015, в 14:20
0

Почему мы должны принимать comm для отсортированных файлов?
Ulysse BN 24 апр. 2017, в 03:23
2

@UlysseBN comm может работать с произвольно большими файлами до тех пор, пока они сортируются, потому что для этого требуется всего лишь три строки в памяти (я предполагаю, что GNU comm даже знал бы, что нужно сохранять только префикс, если строки действительно длинные). Решение grep должно хранить все поисковые выражения в памяти.
tripleee 08 дек. 2017, в 05:44

Показать ещё 2 комментария

8

perl -ne 'print if ($seen{$_} .= @ARGV) =~ /10$/'  file1 file2

user2592005 17 июль 2013, в 16:24

0

это работает лучше, чем команда comm как она ищет каждую строку file1 в file2 где comm будет сравниваться, только если строка n в file1 равна строке n в file2 .
teriiehina 11 окт. 2014, в 12:32
1

@teriiehina: нет; comm не просто сравнивает строку N в файле1 со строкой N в файле2. Он может прекрасно управлять серией строк, вставленных в любой файл (что, конечно, эквивалентно удалению серии строк из другого файла). Это просто требует, чтобы входы были в отсортированном порядке.
Jonathan Leffler 22 июль 2015, в 14:24
0

Лучше, чем comm отвечает, если кто-то хочет сохранить порядок. Лучше, чем awk ответьте, если не хотите дубликатов.
tuxayo 13 июль 2016, в 13:16
0

Объяснение здесь: stackoverflow.com/questions/17552789/…
Chris Koknat 25 авг. 2017, в 23:18

Показать ещё 2 комментария

4

awk 'NR==FNR{a[$1]++;next} a[$1] ' file1 file2

R S John 14 авг. 2016, в 10:40

3

Если эти два файла еще не отсортированы, вы можете использовать:

comm -12 <(sort a.txt) <(sort b.txt)

и он будет работать, избегая сообщения об ошибке comm: file 2 is not in sorted order при выполнении comm -12 a.txt b.txt.

Basj 21 июль 2017, в 11:26

0

Вы правы, но это по сути повторяет другой ответ , который действительно не дает никакой выгоды. Если вы решите ответить на более старый вопрос, на котором уже есть точные и правильные ответы, добавление нового ответа в конце дня может не принести вам никакой пользы. Если у вас есть какая-то отличительная новая информация, или вы убеждены, что все остальные ответы неверны, обязательно добавьте новый ответ, но «еще один ответ», дающий ту же основную информацию спустя долгое время после того, как вопрос задан, обычно выигрывает » Я не заработаю тебе много кредитов.
Jonathan Leffler 21 сен. 2017, в 06:47
0

Я даже не видел этот ответ @JonathanLeffler, потому что эта часть была в самом конце ответа, смешанного с другими элементами ответа раньше. Хотя другой ответ является более точным, мое преимущество, я думаю, состоит в том, что для того, кто хочет быстрого решения, нужно будет прочитать только две строки. Иногда мы ищем подробный ответ, а иногда мы спешим, и быстрый для чтения готовый к вставке ответ - это хорошо.
Basj 21 сен. 2017, в 10:28
0

Кроме того, я не забочусь о кредите / репутации, я не публиковал для этой цели.
Basj 21 сен. 2017, в 10:35
1

Также обратите внимание, что синтаксис подстановки процесса <(command) не переносим в оболочку POSIX, хотя он работает в Bash и некоторых других.
tripleee 08 дек. 2017, в 05:37

Показать ещё 2 комментария

3

В ограниченной версии Linux (как QNAP (nas), над которым я работал):
- comm не существует
- grep -f file1 file2 может вызвать некоторые проблемы, как сказал @ChristopherSchultz, и использование grep -F -f file1 file2 было очень медленным (более 5 минут - не закончилось - более 2-3 секунд с использованием метода ниже для файлов более 20 МБ)

Итак, вот что я сделал:

sort file1 > file1.sorted
sort file2 > file2.sorted

diff file1.sorted file2.sorted | grep "<" | sed 's/^< *//' > files.diff
diff file1.sorted files.diff | grep "<" | sed 's/^< *//' > files.same.sorted

Если "files.same.sorted" должен быть в том же порядке, что и исходный, чем добавить эту строку для того же порядка, что и файл1:

awk 'FNR==NR {a[$0]=$0; next}; $0 in a {print a[$0]}' files.same.sorted file1 > files.same

или, для того же порядка, чем файл2:

awk 'FNR==NR {a[$0]=$0; next}; $0 in a {print a[$0]}' files.same.sorted file2 > files.same

Master DJon 20 март 2016, в 09:29

2

Просто для справки, если кто-то все еще смотрит, как это сделать для нескольких файлов, см. связанный ответ Поиск совпадающих строк по многим файлам.

Объединив эти два ответа (ans1 и ans2), я думаю, вы можете получить результат, который вы не требуя сортировки файлов:

#!/bin/bash
ans="matching_lines"

for file1 in *
do 
    for file2 in *
        do 
            if  [ "$file1" != "$ans" ] && [ "$file2" != "$ans" ] && [ "$file1" != "$file2" ] ; then
                echo "Comparing: $file1 $file2 ..." >> $ans
                perl -ne 'print if ($seen{$_} .= @ARGV) =~ /10$/' $file1 $file2 >> $ans
            fi
         done 
done

Просто сохраните его, дайте ему права выполнения (chmod +x compareFiles.sh) и запустите его. Он примет все файлы, присутствующие в текущем рабочем каталоге, и сделает сравнение all-vs-all, оставив в файле match_lines результат.

Что нужно улучшить:

Пропустить каталоги
Избегайте сравнения всех файлов два раза (file1 vs file2 и file2 vs file1).
Возможно, добавьте номер строки рядом с соответствующей строкой

akarpovsky 08 нояб. 2013, в 16:30

-1

rm file3.txt

cat file1.out | while read line1
do
        cat file2.out | while read line2
        do
                if [[ $line1 == $line2 ]]; then
                        echo $line1 >>file3.out
                fi
        done
done

Это должно сделать это.

Alan Joseph 01 сен. 2013, в 10:19

1

попытался отформатировать ваш код - пожалуйста, проверьте, отредактируйте и улучшите :-)
kleopatra 01 сен. 2013, в 09:54
0

Спасибо за форматирование.
Alan Joseph 02 сен. 2013, в 11:36
1

Вам, вероятно, следует использовать rm -f file3.txt если вы собираетесь удалить файл; это не сообщит ни о какой ошибке, если файл не существует. OTOH, это не было бы необходимо, если бы ваш скрипт просто отображал стандартный вывод, позволяя пользователю сценария выбирать, куда выводить данные. В конечном итоге вы, вероятно, захотите использовать $1 и $2 (аргументы командной строки) вместо фиксированных имен файлов ( file1.out и file2.out ). Это оставляет алгоритм: он будет медленным. Он будет читать file2.out один раз для каждой строки в file1.out . Это будет медленно, если файлы большие (скажем, несколько килобайт).
Jonathan Leffler 22 июль 2015, в 14:42
0

Хотя это может номинально работать, если у вас есть входные данные, которые не содержат метасимволов оболочки (подсказка: посмотрите, какие предупреждения вы получаете от shellcheck.net ), этот наивный подход ужасно неэффективен. Такой инструмент, как grep -F который считывает один файл в память, а затем делает один проход над другим, избегает многократного зацикливания обоих входных файлов.
tripleee 08 дек. 2017, в 05:40

Показать ещё 2 комментария

Ещё вопросы

Ответы на этот вопрос не обязательно то, что все захотят, так как comm требует отсортированных входных файлов. Если вы хотите просто построчно, это здорово. Но если вы хотите то, что я бы назвал «антидифф», то comm не делает эту работу.
@ RobertP.Goldman есть способ получить общее между двумя файлами, когда file1 содержит частичный шаблон, такой как pr-123-xy-45 а file2 содержит ec11_orop_pr-123-xy-45.gz . Мне нужен ec11_orop_pr-123-xy-45.gz содержащий ec11_orop_pr-123-xy-45.gz
Смотрите это для сортировки текстовых файлов построчно
итак ... sort abc > abc.sorted , sort dev > def.sorted и затем comm -12 abc.sorted def.sorted ?
@NikanaReklawyks А затем не забудьте удалить временные файлы впоследствии, и справиться с очисткой в случае ошибки. Во многих случаях замена процесса также будет происходить намного быстрее, поскольку вы можете избежать дискового ввода-вывода, пока результаты помещаются в память.
Это правильный ответ. Ни один из остальных не может быть настроен на работу вообще (я не пробовал perl , потому что). Спасибо за миллион, мисс
Сохранение порядка при отображении общих строк может быть действительно полезным в некоторых случаях, из-за которых исключается связь.
В случае, если кто-то хочет сделать то же самое на основе определенного столбца, но не знает awk, просто замените оба $ 0 на $ 5, например, для столбца 5, чтобы получить строки, разделенные на 2 файла с одинаковыми словами в столбце 5
grep делает некоторые странные вещи, которые вы можете не ожидать. В частности, все в 1.txt будет интерпретироваться как регулярное выражение, а не простая строка. Также любая пустая строка в 1.txt будет соответствовать всем строкам в 2.txt . Так что это будет работать только в очень специфических ситуациях.
@ChristopherSchultz: Возможно обновить этот ответ, чтобы он работал лучше, используя нотации grep POSIX, которые поддерживаются grep встречающимся в большинстве современных вариантов Unix. Добавьте -F (или используйте fgrep ) для подавления регулярных выражений. Добавьте -x (для точного), чтобы соответствовать только целым строкам.
Почему мы должны принимать comm для отсортированных файлов?
@UlysseBN comm может работать с произвольно большими файлами до тех пор, пока они сортируются, потому что для этого требуется всего лишь три строки в памяти (я предполагаю, что GNU comm даже знал бы, что нужно сохранять только префикс, если строки действительно длинные). Решение grep должно хранить все поисковые выражения в памяти.
это работает лучше, чем команда comm как она ищет каждую строку file1 в file2 где comm будет сравниваться, только если строка n в file1 равна строке n в file2 .
@teriiehina: нет; comm не просто сравнивает строку N в файле1 со строкой N в файле2. Он может прекрасно управлять серией строк, вставленных в любой файл (что, конечно, эквивалентно удалению серии строк из другого файла). Это просто требует, чтобы входы были в отсортированном порядке.
Лучше, чем comm отвечает, если кто-то хочет сохранить порядок. Лучше, чем awk ответьте, если не хотите дубликатов.
Объяснение здесь: stackoverflow.com/questions/17552789/…
Вы правы, но это по сути повторяет другой ответ , который действительно не дает никакой выгоды. Если вы решите ответить на более старый вопрос, на котором уже есть точные и правильные ответы, добавление нового ответа в конце дня может не принести вам никакой пользы. Если у вас есть какая-то отличительная новая информация, или вы убеждены, что все остальные ответы неверны, обязательно добавьте новый ответ, но «еще один ответ», дающий ту же основную информацию спустя долгое время после того, как вопрос задан, обычно выигрывает » Я не заработаю тебе много кредитов.
Я даже не видел этот ответ @JonathanLeffler, потому что эта часть была в самом конце ответа, смешанного с другими элементами ответа раньше. Хотя другой ответ является более точным, мое преимущество, я думаю, состоит в том, что для того, кто хочет быстрого решения, нужно будет прочитать только две строки. Иногда мы ищем подробный ответ, а иногда мы спешим, и быстрый для чтения готовый к вставке ответ - это хорошо.
Кроме того, я не забочусь о кредите / репутации, я не публиковал для этой цели.
Также обратите внимание, что синтаксис подстановки процесса <(command) не переносим в оболочку POSIX, хотя он работает в Bash и некоторых других.
попытался отформатировать ваш код - пожалуйста, проверьте, отредактируйте и улучшите :-)
Вам, вероятно, следует использовать rm -f file3.txt если вы собираетесь удалить файл; это не сообщит ни о какой ошибке, если файл не существует. OTOH, это не было бы необходимо, если бы ваш скрипт просто отображал стандартный вывод, позволяя пользователю сценария выбирать, куда выводить данные. В конечном итоге вы, вероятно, захотите использовать $1 и $2 (аргументы командной строки) вместо фиксированных имен файлов ( file1.out и file2.out ). Это оставляет алгоритм: он будет медленным. Он будет читать file2.out один раз для каждой строки в file1.out . Это будет медленно, если файлы большие (скажем, несколько килобайт).
Хотя это может номинально работать, если у вас есть входные данные, которые не содержат метасимволов оболочки (подсказка: посмотрите, какие предупреждения вы получаете от shellcheck.net ), этот наивный подход ужасно неэффективен. Такой инструмент, как grep -F который считывает один файл в память, а затем делает один проход над другим, избегает многократного зацикливания обоих входных файлов.

Jonathan Leffler · Accepted Answer · 2008-12-17T08-35-00.000Z

163

Лучший ответ

Команда, которую вы ищете, comm. например: -

comm -12 1.sorted.txt 2.sorted.txt

Здесь:

-1: подавить столбец 1 (строки, уникальные для 1.sorted.txt)

-2: подавить столбец 2 (строки, уникальные для 2.sorted.txt)

Jonathan Leffler 17 дек. 2008, в 08:35

26

Типичное использование: comm -12 1.sorted.txt 2.sorted.txt
Fedir RYKHTIK 11 июнь 2013, в 15:54
36

Хотя для comm нужны отсортированные файлы, вы можете использовать grep -f file1 file2, чтобы получить общие строки обоих файлов.
ferdy 20 янв. 2015, в 17:29
2

@ferdy (повторяю мой комментарий из вашего ответа, поскольку ваш, по сути, является повторным ответом, опубликованным в виде комментария) grep делает некоторые странные вещи, которые вы, возможно, не ожидаете. В частности, все в 1.txt будет интерпретироваться как регулярное выражение, а не простая строка. Также любая пустая строка в 1.txt будет соответствовать всем строкам в 2.txt . Так что grep будет работать только в очень специфических ситуациях. Вы, по крайней мере, захотите использовать fgrep (или grep -f ), но пустая строка, вероятно, приведет к хаосу в этом процессе.
Christopher Schultz 22 июль 2015, в 14:08
11

См Ферди «s ответ ниже, и Кристофер Шульца » s и мои комментарии к нему. TL; DR - использовать grep -F -x -f file1 file2 .
Jonathan Leffler 22 июль 2015, в 14:31
0

@JonathanLeffler Как можно получить выходные данные в разных файлах?
bapors 20 сен. 2017, в 09:47
0

@bapors: я не уверен, что вы спрашиваете. Если вы хотите, чтобы в одном файле были только строки в файле File1, в другом - только в файле File2, а в третьем - только в строках, то (при условии, что ни одна из строк в файлах не начинается с табуляции), вы можете использовать sed для разделения вывод на три файла. Но это то, что вы спрашиваете?
Jonathan Leffler 20 сен. 2017, в 13:24
0

@JonathanLeffler да, это именно то, о чем я спрашивал. Я не очень уверен в sed , не могли бы вы показать пример, если все в порядке?
bapors 21 сен. 2017, в 01:27
1

@bapors: я ответил на вопросы и ответы, ответив на которые сам, как получить выходные данные команды comm в 3 отдельных файла? Ответ был слишком велик, чтобы здесь было удобно.
Jonathan Leffler 21 сен. 2017, в 05:56
0

@JonathanLeffler большое спасибо! Я ценю!
bapors 21 сен. 2017, в 07:42
0

Требуется ли для файлов одинаковое количество строк?
Hi-Angel 15 янв. 2018, в 21:01
1

@ Hi-Angel - нет, файлы могут быть разных размеров.
Jonathan Leffler 15 янв. 2018, в 21:37

Показать ещё 9 комментариев