Самый быстрый способ узнать, совпадают ли два файла в Unix / Linux?

Question

Самый быстрый способ узнать, совпадают ли два файла в Unix / Linux?

156

У меня есть оболочка script, в которой мне нужно проверить, совпадают ли два файла или нет. Я делаю это для большого количества файлов, и в моей script команда diff кажется узким местом производительности.

Здесь строка:

diff -q $dst $new > /dev/null

if ($status) then ...

Может ли быть более быстрый способ сравнения файлов, может быть, пользовательский алгоритм вместо стандартного diff?

JDS 15 окт. 2012, в 17:52

Источник

7

Это действительно придирчиво, но вы не спрашиваете, являются ли два файла одинаковыми, вы спрашиваете, имеют ли два файла одинаковое содержимое. Одинаковые файлы имеют одинаковые inode (и одно и то же устройство).
Zano 04 нояб. 2014, в 09:08
1

В отличие от принятого ответа, измерение в этом ответе не распознает заметных различий между diff и cmp .
wedi 04 май 2018, в 09:07

Теги:

file

linux

unix

diff

7 ответов

37

Мне нравится @Alex Howansky использовал для этого 'cmp --silent'. Но мне нужен как положительный, так и отрицательный ответ, поэтому я использую:

cmp --silent file1 file2 && echo '### SUCCESS: Files Are Identical! ###' || echo '### WARNING: Files Are Different! ###'

Затем я могу запустить это в терминале или с помощью ssh для проверки файлов с постоянным файлом.

pn1 dude 01 окт. 2015, в 01:08

12

Если ваша команда echo success (или любая другая команда, которую вы положили на ее место) терпит неудачу, будет запущена ваша команда «отрицательного ответа». Вы должны использовать конструкцию if-then-else-fi. Например, как этот простой пример .
Wildcard 06 янв. 2016, в 00:10
0

заменить, пожалуйста, последний " в сценарии
Rudziankoŭ 11 авг. 2016, в 12:45

16

Почему бы вам не получить хэш обоих файлов?

Попробуйте этот script, вызовите его, например, script.sh, а затем запустите его следующим образом: script.sh file1.txt file2.txt

#!/bin/bash

file1=`md5 $1`
file2=`md5 $2`

if [ "$file1" = "$file2" ]
then
    echo "Files have the same content"
else
    echo "Files have NOT the same content"
fi

jabaldonedo 15 окт. 2012, в 18:43

0

извините, не уверен, что вы имеете в виду, я не слишком долго писал сценарии Unix.
JDS 15 окт. 2012, в 17:09
0

Если два файла одинаковы, то они будут иметь одинаковое значение хеш-функции. Например, если 'file1.txt' содержит 'aaa' и 'file2.txt' так, то когда вы получите хэш md5: md5 file1.txt, вы получите: 5c9597f3c8245907ea71a89d9d39d08e, который будет таким же, как и md5 file2.txt, если вы обрабатываете оба хэша, и они одинаковы, вы можете быть уверены, что они оба имеют одинаковое содержание :)
jabaldonedo 15 окт. 2012, в 17:18
0

О, прямо как какая-то контрольная сумма. Я рассматривал это как возможность; Есть ли простая команда Unix для этого?
JDS 15 окт. 2012, в 17:32
0

md5 - это команда unix для поиска хеша md5 двух файлов.
hlin117 09 янв. 2015, в 05:10
0

Кроме того, @jabaldonedo, я думаю, вам нужен только один знак = чтобы проверить равенство двух строк в bash.
hlin117 09 янв. 2015, в 05:17
0

В Mac OSX используйте «md5 -q filename», потому что с -q путь также выводится. Это означает, что тест "$ file1" == "$ file2" никогда не будет успешным.
Robin Zimmermann 12 фев. 2015, в 07:50
6

К вашему сведению, это не гарантируется, поэтому, вероятно, должен быть отказ от ответственности ...
will 03 март 2015, в 13:55
0

@ Не могли бы вы объяснить, почему это не сработает? Кажется, что cmp является более чистым способом решения этой проблемы, но теоретически это звучит так, как будто оно должно работать?
THIS USER NEEDS HELP 17 фев. 2016, в 18:05
2

@THISUSERNEEDSHELP Это потому, что алгоритмы хеширования не один в один. Они спроектированы таким образом, что пространство хеширования велико, и разные входы имеют высокую вероятность создания разных хешей. Однако реальность такова, что хеш-пространство конечно, а диапазон возможных файлов для хеширования - нет, в конечном итоге вы столкнетесь. В криптологии это называется Атака на День Рождения .
will 18 фев. 2016, в 09:51
3

@ Будет эффективно работать. С математической точки зрения вероятность того, что он не работает, составляет около 1/(2^511) . Если вы не беспокоитесь о том, что кто-то намеренно пытается создать столкновение, идея этого метода, создающего ложное срабатывание, на самом деле не является серьезной проблемой. cmp все еще более эффективен, так как он не должен читать весь файл в случае, если файлы не совпадают.
Ajedi32 05 май 2016, в 14:41
1

@ Ajedi32 эффективно гарантирует оксюморон. Просто у него очень высокий шанс на работу. Это просто предостережение, которое заслуживает упоминания.
will 05 май 2016, в 15:01
0

@ Да, я понял. Но с такими вероятностями, как я полагаю, вероятность того, что комический луч случайным образом перевернется в процессоре, вероятно, будет выше, в результате чего оператор равенства выдаст неверный результат. Вероятность столкновения с хешем - наименьшее из ваших беспокойств.
Ajedi32 05 май 2016, в 15:04
1

@ Ajedi32, весь эффект космических лучей намного выше, по оценкам IBM, он составляет около 1 ошибки в месяц на 256 МБ в ОЗУ .
will 05 май 2016, в 15:15
6

OP запросил самый быстрый способ ... не будет ли поиск первого несоответствующего бита (используя cmp) быстрее (если они не совпадают), чем хеширование всего файла, особенно если файлы большие?
KoZm0kNoT 06 июль 2016, в 13:13
2

@ Ajedi32, хотя обычно 2 ^ 511 кажется большим числом, с точки зрения алгоритмов хеширования оно крошечное. В файле размером 1 МБ содержится 8388608 битов, что дает общее возможное количество файлов с размером точно 1 МБ и общим количеством возможных комбинаций битов 2 ^ 8388608. Это означает, что в хеш-пространстве 2 ^ 511 будет 2 ^ 8388608/2 ^ 511 = 2 ^ 8388097 столкновений в МИНИМАЛЬНО. Каждый дополнительный байт в размере файла увеличивает это на 2 ^ 8. Хеш-коллизии происходят довольно регулярно, и сценарии / программы должны иметь возможность с ними справляться. Мало того, что cmp будет быстрее на локальном хранилище, но и более точным.
BeowulfNode42 03 окт. 2016, в 08:47
0

@ BeowulfNode42 Хотя верно то, что математически говорящие коллизии в любой хэш-функции обязательно должны существовать, на самом деле поиск такого в криптографически защищенной хеш-функции - это не то, что происходит «регулярно». Фактически, обнаружение любого такого столкновения в современном криптографически безопасном алгоритме хеширования будет считаться действительно большим делом и, вероятно, будет воспринято как признак того, что алгоритм не так безопасен, как предполагалось ранее. (Не стесняйтесь доказать, что я не прав, опубликовав пример столкновения SHA-256 или SHA-512. На сегодняшний день такого столкновения не известно.)
Ajedi32 03 окт. 2016, в 13:32
0

@ Ajedi32 мы говорим о хешировании для сравнения файлов, а не о криптографии. Тот факт, что оба могут использовать одни и те же функции (по разным причинам и по-разному), означает, что вычислительные усилия, затраченные на хеширование 2 целых файлов в локальной файловой системе, просто для определения того, что файлы ПОЧТИ, безусловно, одинаковы / различны, пустая трата времени. В частности, поскольку хэш-функции, используемые в качестве запроса OP, обычно используют более простые функции с меньшим числом битов для экономии времени вычислений, чем крипто-хэши с высокой степенью защиты, такие как crc32 или даже простой xor слов.
BeowulfNode42 04 окт. 2016, в 11:12
0

@ BeowulfNode42 Этот ответ использует MD5, а не простой CRC. В любом случае, моя точка зрения не в том, что хеширование лучше, чем в cmp (на самом деле, как я уже говорил в своем первоначальном комментарии), совсем наоборот, просто шансы на столкновение ничтожно малы, и поэтому я считаю, что этот метод «не гарантированно работает». "вводит в заблуждение.
Ajedi32 04 окт. 2016, в 14:23
2

MD5 лучше, если вы делаете сравнение один ко многим. Вы можете хранить хэш md5 в качестве атрибута или в базе данных для каждого файла. Если появляется новый файл, и вам нужно проверить, существует ли такой же файл где-либо в файловой системе, тогда все, что вам нужно сделать, - это вычислить хэш нового файла и проверить все предыдущие. Я уверен, что Git использует хеширование для проверки изменений файла во время коммита, но они используют SHA1.
JimHough 04 нояб. 2016, в 11:10
0

В моей коробке почему-то не было команды md5
Kolob Canyon 15 нояб. 2016, в 23:04
0

@KolobCanyon попробуйте md5sum
BeowulfNode42 24 фев. 2017, в 02:16
0

@ Ajedi32 MD5 был взломан в течение многих лет. Существует программное обеспечение генератора столкновений MD5, которое может работать на современных ПК для генерации столкновений менее чем за 45 минут, bishopfox.com/resources/tools/other-free-tools/… . Также у SHA-1 теперь официально выпущено столкновение, см. Shattered.it . Проблема заключается в том, что по мере того, как предпринимаются новые попытки взлома, в дикой природе появляется все больше и больше файлов с одинаковым хэш-кодом, и все больше и больше ранее безопасных кодов больше не используются. Например, если SHA-256 настолько безопасен, почему даже SHA-512 или выше? Они ожидают, что это сломается.
BeowulfNode42 24 фев. 2017, в 02:23
1

@ BeowulfNode42 Вот почему я предвосхитил свой комментарий: «Если вы не беспокоитесь о том, что кто-то намеренно пытается создать столкновение»
Ajedi32 24 фев. 2017, в 04:36

Показать ещё 21 комментарий

4

Для файлов, которые не отличаются друг от друга, любой метод требует полного чтения обоих файлов, даже если чтение было в прошлом.

Альтернативы нет. Поэтому создание хэшей или контрольных сумм в определенный момент времени требует чтения всего файла. Большие файлы требуют времени.

Поиск метаданных файлов намного быстрее, чем чтение большого файла.

Итак, есть ли какие-либо метаданные файлов, которые вы можете использовать, чтобы установить, что файлы разные? Размер файла? или даже результаты команды файла, которая только что прочитала небольшую часть файла?

Пример фрагмента кода размера файла:

  ls -l $1 $2 | 
  awk 'NR==1{a=$5} NR==2{b=$5} 
       END{val=(a==b)?0 :1; exit( val) }'

[ $? -eq 0 ] && echo 'same' || echo 'different'

Если файлы имеют одинаковый размер, вы застреваете с полными файлами.

jim mcnamara 15 окт. 2012, в 20:35

1

Используйте ls -n чтобы избежать проблем, если имена пользователей или групп имеют пробелы.
tricasse 19 март 2016, в 13:26

2

Попробуйте также использовать команду cksum:

chk1=`cksum <file1> | awk -F" " '{print $1}'`
chk2=`cksum <file2> | awk -F" " '{print $1}'`

if [ $chk1 -eq $chk2 ]
then
  echo "File is identical"
else
  echo "File is not identical"
fi

Команда cksum выдаст количество байтов файла. См. 'Man cksum'.

Nono Taps 23 сен. 2016, в 02:32

2

Это была моя первая мысль тоже. Однако хеши имеют смысл, если вам приходится сравнивать один и тот же файл много раз, поскольку хеш вычисляется только один раз. Если вы сравниваете его только один раз, тогда md5 все равно читает весь файл, поэтому остановка cmp при первом разнице будет намного быстрее.
Francesco Dondi 06 сен. 2017, в 14:13

0

Поскольку я сосать и не хватает очков репутации, я не могу добавить этот лакомый кусочек в качестве комментария.

Но, если вы собираетесь использовать команду cmp (и вам не нужно/хотите быть подробным), вы можете просто захватить статус выхода. На странице man cmp:

Если FILE "-" или отсутствует, прочитайте стандартный ввод. Состояние выхода равно 0, если входы одинаковы, 1, если разные, 2, если проблема.

Итак, вы можете сделать что-то вроде:

STATUS="$(cmp --silent $FILE1 $FILE2; echo $?)"  # "$?" gives exit status for each comparison

if [[$STATUS -ne 0]]; then  # if status isn't equal to 0, then execute code
    DO A COMMAND ON $FILE1
else
    DO SOMETHING ELSE
fi

Gregory Martin 29 нояб. 2018, в 00:25

0

Выполняя некоторые тесты с помощью малины Pi 3B+ (я использую оверлейную файловую систему и периодически синхронизируюсь), я провел сравнение своих собственных для diff -q и cmp -s; обратите внимание, что это журнал изнутри /dev/shm, поэтому скорость доступа к диску не является проблемой:

[root@mypi shm]# dd if=/dev/urandom of=test.file bs=1M count=100 ; time diff -q test.file test.copy && echo diff true || echo diff false ; time cmp -s test.file test.copy && echo cmp true || echo cmp false ; cp -a test.file test.copy ; time diff -q test.file test.copy && echo diff true || echo diff false; time cmp -s test.file test.copy && echo cmp true || echo cmp false
100+0 records in
100+0 records out
104857600 bytes (105 MB) copied, 6.2564 s, 16.8 MB/s
Files test.file and test.copy differ

real    0m0.008s
user    0m0.008s
sys     0m0.000s
diff false

real    0m0.009s
user    0m0.007s
sys     0m0.001s
cmp false
cp: overwrite âtest.copyâ? y

real    0m0.966s
user    0m0.447s
sys     0m0.518s
diff true

real    0m0.785s
user    0m0.211s
sys     0m0.573s
cmp true
[root@mypi shm]# pico /root/rwbscripts/utils/squish.sh

Я провел пару раз. cmp -s последовательно использовал несколько более короткое время на тестовом ящике, который я использовал. Поэтому, если вы хотите использовать cmp -s, чтобы делать вещи между двумя файлами....

identical (){
  echo "$1" and "$2" are the same.
  echo This is a function, you can put whatever you want in here.
}
different () {
  echo "$1" and "$2" are different.
  echo This is a function, you can put whatever you want in here, too.
}
cmp -s "$FILEA" "$FILEB" && identical "$FILEA" "$FILEB" || different "$FILEA" "$FILEB"

Jack Simth 09 нояб. 2018, в 18:55

Ещё вопросы

Это действительно придирчиво, но вы не спрашиваете, являются ли два файла одинаковыми, вы спрашиваете, имеют ли два файла одинаковое содержимое. Одинаковые файлы имеют одинаковые inode (и одно и то же устройство).
В отличие от принятого ответа, измерение в этом ответе не распознает заметных различий между diff и cmp .
Если ваша команда echo success (или любая другая команда, которую вы положили на ее место) терпит неудачу, будет запущена ваша команда «отрицательного ответа». Вы должны использовать конструкцию if-then-else-fi. Например, как этот простой пример .
заменить, пожалуйста, последний " в сценарии
извините, не уверен, что вы имеете в виду, я не слишком долго писал сценарии Unix.
Если два файла одинаковы, то они будут иметь одинаковое значение хеш-функции. Например, если 'file1.txt' содержит 'aaa' и 'file2.txt' так, то когда вы получите хэш md5: md5 file1.txt, вы получите: 5c9597f3c8245907ea71a89d9d39d08e, который будет таким же, как и md5 file2.txt, если вы обрабатываете оба хэша, и они одинаковы, вы можете быть уверены, что они оба имеют одинаковое содержание :)
О, прямо как какая-то контрольная сумма. Я рассматривал это как возможность; Есть ли простая команда Unix для этого?
md5 - это команда unix для поиска хеша md5 двух файлов.
Кроме того, @jabaldonedo, я думаю, вам нужен только один знак = чтобы проверить равенство двух строк в bash.
В Mac OSX используйте «md5 -q filename», потому что с -q путь также выводится. Это означает, что тест "$ file1" == "$ file2" никогда не будет успешным.
К вашему сведению, это не гарантируется, поэтому, вероятно, должен быть отказ от ответственности ...
@ Не могли бы вы объяснить, почему это не сработает? Кажется, что cmp является более чистым способом решения этой проблемы, но теоретически это звучит так, как будто оно должно работать?
@THISUSERNEEDSHELP Это потому, что алгоритмы хеширования не один в один. Они спроектированы таким образом, что пространство хеширования велико, и разные входы имеют высокую вероятность создания разных хешей. Однако реальность такова, что хеш-пространство конечно, а диапазон возможных файлов для хеширования - нет, в конечном итоге вы столкнетесь. В криптологии это называется Атака на День Рождения .
@ Будет эффективно работать. С математической точки зрения вероятность того, что он не работает, составляет около 1/(2^511) . Если вы не беспокоитесь о том, что кто-то намеренно пытается создать столкновение, идея этого метода, создающего ложное срабатывание, на самом деле не является серьезной проблемой. cmp все еще более эффективен, так как он не должен читать весь файл в случае, если файлы не совпадают.
@ Ajedi32 эффективно гарантирует оксюморон. Просто у него очень высокий шанс на работу. Это просто предостережение, которое заслуживает упоминания.
@ Да, я понял. Но с такими вероятностями, как я полагаю, вероятность того, что комический луч случайным образом перевернется в процессоре, вероятно, будет выше, в результате чего оператор равенства выдаст неверный результат. Вероятность столкновения с хешем - наименьшее из ваших беспокойств.
@ Ajedi32, весь эффект космических лучей намного выше, по оценкам IBM, он составляет около 1 ошибки в месяц на 256 МБ в ОЗУ .
OP запросил самый быстрый способ ... не будет ли поиск первого несоответствующего бита (используя cmp) быстрее (если они не совпадают), чем хеширование всего файла, особенно если файлы большие?
@ Ajedi32, хотя обычно 2 ^ 511 кажется большим числом, с точки зрения алгоритмов хеширования оно крошечное. В файле размером 1 МБ содержится 8388608 битов, что дает общее возможное количество файлов с размером точно 1 МБ и общим количеством возможных комбинаций битов 2 ^ 8388608. Это означает, что в хеш-пространстве 2 ^ 511 будет 2 ^ 8388608/2 ^ 511 = 2 ^ 8388097 столкновений в МИНИМАЛЬНО. Каждый дополнительный байт в размере файла увеличивает это на 2 ^ 8. Хеш-коллизии происходят довольно регулярно, и сценарии / программы должны иметь возможность с ними справляться. Мало того, что cmp будет быстрее на локальном хранилище, но и более точным.
@ BeowulfNode42 Хотя верно то, что математически говорящие коллизии в любой хэш-функции обязательно должны существовать, на самом деле поиск такого в криптографически защищенной хеш-функции - это не то, что происходит «регулярно». Фактически, обнаружение любого такого столкновения в современном криптографически безопасном алгоритме хеширования будет считаться действительно большим делом и, вероятно, будет воспринято как признак того, что алгоритм не так безопасен, как предполагалось ранее. (Не стесняйтесь доказать, что я не прав, опубликовав пример столкновения SHA-256 или SHA-512. На сегодняшний день такого столкновения не известно.)
@ Ajedi32 мы говорим о хешировании для сравнения файлов, а не о криптографии. Тот факт, что оба могут использовать одни и те же функции (по разным причинам и по-разному), означает, что вычислительные усилия, затраченные на хеширование 2 целых файлов в локальной файловой системе, просто для определения того, что файлы ПОЧТИ, безусловно, одинаковы / различны, пустая трата времени. В частности, поскольку хэш-функции, используемые в качестве запроса OP, обычно используют более простые функции с меньшим числом битов для экономии времени вычислений, чем крипто-хэши с высокой степенью защиты, такие как crc32 или даже простой xor слов.
@ BeowulfNode42 Этот ответ использует MD5, а не простой CRC. В любом случае, моя точка зрения не в том, что хеширование лучше, чем в cmp (на самом деле, как я уже говорил в своем первоначальном комментарии), совсем наоборот, просто шансы на столкновение ничтожно малы, и поэтому я считаю, что этот метод «не гарантированно работает». "вводит в заблуждение.
MD5 лучше, если вы делаете сравнение один ко многим. Вы можете хранить хэш md5 в качестве атрибута или в базе данных для каждого файла. Если появляется новый файл, и вам нужно проверить, существует ли такой же файл где-либо в файловой системе, тогда все, что вам нужно сделать, - это вычислить хэш нового файла и проверить все предыдущие. Я уверен, что Git использует хеширование для проверки изменений файла во время коммита, но они используют SHA1.
В моей коробке почему-то не было команды md5
@ Ajedi32 MD5 был взломан в течение многих лет. Существует программное обеспечение генератора столкновений MD5, которое может работать на современных ПК для генерации столкновений менее чем за 45 минут, bishopfox.com/resources/tools/other-free-tools/… . Также у SHA-1 теперь официально выпущено столкновение, см. Shattered.it . Проблема заключается в том, что по мере того, как предпринимаются новые попытки взлома, в дикой природе появляется все больше и больше файлов с одинаковым хэш-кодом, и все больше и больше ранее безопасных кодов больше не используются. Например, если SHA-256 настолько безопасен, почему даже SHA-512 или выше? Они ожидают, что это сломается.
@ BeowulfNode42 Вот почему я предвосхитил свой комментарий: «Если вы не беспокоитесь о том, что кто-то намеренно пытается создать столкновение»
Используйте ls -n чтобы избежать проблем, если имена пользователей или групп имеют пробелы.
Это была моя первая мысль тоже. Однако хеши имеют смысл, если вам приходится сравнивать один и тот же файл много раз, поскольку хеш вычисляется только один раз. Если вы сравниваете его только один раз, тогда md5 все равно читает весь файл, поэтому остановка cmp при первом разнице будет намного быстрее.

Alex Howansky · Accepted Answer · 2012-10-15T19-14-00.000Z

274

Лучший ответ

Я полагаю, что cmp остановится при разнице первого байта:

cmp --silent $old $new || echo "files are different"

Alex Howansky 15 окт. 2012, в 19:14

1

Как я могу добавить больше команд, чем только одну? Я хочу скопировать файл и перезагрузиться.
feedc0de 14 июнь 2014, в 15:09
0

@DanielBrunner: вы можете скопировать из стандартного ввода в файл и стандартный вывод с помощью команды tee .
Anders Rabo Thorbeck 18 июнь 2014, в 06:51
1

Обратите внимание, что на моем cmp мне не нужно было ярлык, чтобы эхо, он напечатает сообщение, если они отличаются или молчать, если они этого не делают.
eresonance 11 май 2015, в 17:44
0

@eresonance Правильно, пример просто предназначен для того, чтобы показать, как вы бы захватили возвращаемый статус для того, чтобы написать условие.
Alex Howansky 11 май 2015, в 17:56
4

cmp -s $old $new также работает. -s это сокращение от --silent
Rohmer 05 март 2016, в 01:09
5

Для повышения скорости вы должны проверить, чтобы размеры файлов были равны перед сравнением содержимого. Кто-нибудь знает, делает ли это cmp?
BeowulfNode42 03 окт. 2016, в 09:09
1

Для запуска нескольких команд вы можете использовать скобки: cmp -s old new || {эхо нет; эхо; эхо же; }
unfa 15 март 2017, в 09:29
5

@ BeowulfNode42 да, любая приличная реализация cmp сначала проверит размер файла. Вот версия GNU, если вы хотите увидеть дополнительные оптимизации, которые она включает: git.savannah.gnu.org/cgit/diffutils.git/tree/src/cmp.c
Ryan Graham 06 апр. 2018, в 02:00
0

@RyanGraham спасибо за ссылку. Я вижу, что если используется ключ -s или --silent, он будет использовать проверку размера, чтобы немедленно завершить работу, если файлы имеют разные размеры. Я вижу, что он также имеет несколько других оптимизаций, таких как файлы 0 размера, или файлы с одинаковым индексом (т.е. оба файла являются ссылками на один и тот же файл).
BeowulfNode42 06 апр. 2018, в 08:07
0

Я думаю, что самый быстрый (для ввода) это cmp -l $old $new , и вы не получите вывод для одного и того же и много для разных файлов, lol
Man 09 май 2018, в 04:56

Показать ещё 8 комментариев