Инструмент Bash для получения n-й строки из файла

Question

Инструмент Bash для получения n-й строки из файла

446

Есть ли "канонический" способ сделать это? Я использую head -n | tail -1, который делает трюк, но мне было интересно, есть ли инструмент Bash, который специально извлекает строку (или диапазон строк) из файла.

Под "каноническим" подразумевается программа, основная функция которой выполняется.

Vlad Vivdovitch 16 май 2011, в 21:09

Источник

10

«Путь Unix» состоит в том, чтобы объединить инструменты, которые хорошо выполняют свою работу. Поэтому я думаю, что вы уже нашли очень подходящий метод. Другие методы включают awk и sed и я уверен, что кто-то может придумать Perl с одним вкладышем или около того;)
0xC0000022L 16 май 2011, в 19:35
3

Двойная команда предполагает, что head | tail решение является неоптимальным. Были предложены другие более почти оптимальные решения.
Jonathan Leffler 16 май 2011, в 19:57
0

Проводили ли вы какие-либо тесты, на которых решение является самым быстрым для среднего случая?
Marcin 17 май 2011, в 11:56
5

Тесты (для диапазона) в строке cat X и строке Y огромного файла в Unix & Linux . (cc @Marcin, если тебе все еще интересно после двух с лишним лет)
Kevin 08 авг. 2013, в 14:13
4

head | tail решение не работает, если вы запрашиваете строку, которой нет во входных данных: она напечатает последнюю строку.
jarno 01 март 2016, в 00:24

Показать ещё 3 комментария

Теги:

bash

shell

unix

awk

sed

19 ответов

235

sed -n '2p' < file.txt

напечатает вторую строку

sed -n '2011p' < file.txt

2011-я линия

sed -n '10,33p' < file.txt

строка 10 до строки 33

sed -n '1p;3p' < file.txt

1-я и 3-я строка

и т.д.

Для добавления строк с помощью sed вы можете проверить это:

sed: вставьте строку в определенную позицию

jm666 16 май 2011, в 20:10

0

Почему «<» необходимо в этом случае? Разве я не достиг бы того же результата без него?
Rafael Barbosa 27 май 2013, в 14:10
5

@RafaelBarbosa < в этом случае не требуется. Просто я предпочитаю использовать перенаправления, потому что я часто использовал перенаправления вроде sed -n '100p' < <(some_command) - так, универсальный синтаксис :). Это НЕ менее эффективно, потому что перенаправление выполняется с помощью shell при разветвлении себя, поэтому ... это всего лишь предпочтение ... (и да, это на один символ длиннее) :)
jm666 27 май 2013, в 16:11
0

@ jm666 На самом деле это на 2 символа длиннее, так как вы обычно ставите «<», а также дополнительный пробел «» после <вместо одного пробела, если вы не использовали <:)
rasen58 11 авг. 2016, в 20:59
1

@ rasen58 пробел тоже символ? :) / ладно, шучу - ты прав / :)
jm666 12 авг. 2016, в 06:58
0

Это примерно в 5 раз медленнее, чем комбинация хвост / голова при чтении файла с 50M строк
duhaime 04 июнь 2018, в 14:42
0

@duhaime конечно, если кто-то должен сделать оптимизации. Но ИМХО для «общих» проблем это нормально и разница незаметна. Кроме того, head / tail не решает сценарий sed -n '1p;3p' - то есть печатать больше несмежных строк ...
jm666 04 июнь 2018, в 17:12
0

Аминь! Просто хотел создать заметку для дураков, таких как я, которые должны выполнить поиск строк миллиарды раз для какой-то задачи ...
duhaime 04 июнь 2018, в 17:54
1

@duhaime конечно - заметка правильная и нужна. :)
jm666 04 июнь 2018, в 18:32

Показать ещё 6 комментариев

70

У меня есть уникальная ситуация, когда я могу проверить предлагаемые решения на этой странице, и поэтому я пишу этот ответ в качестве консолидации предлагаемых решений с включенным временем выполнения для каждого.

Настройка

У меня есть файл текстовых данных ASCII 3.261 гигабайт с одной парой ключ-значение для каждой строки. Файл содержит 3,339,550,320 строк в целом и бросает вызов открытию в любом редакторе, который я пробовал, в том числе и в моем Vim. Мне нужно подмножить этот файл, чтобы исследовать некоторые из значений, которые я обнаружил, только начинающиеся вокруг строки ~ 500 000 000.

Поскольку в файле столько строк:

Мне нужно извлечь только подмножество строк, чтобы сделать что-нибудь полезное с данными.
Чтение каждой строки, предшествующей значениям, которые меня волнуют, займет много времени.
Если решение читает прошлые строки, о которых я забочусь, и продолжаю читать остальную часть файла, он будет тратить время на чтение почти 3 миллиардов нерелевантных строк и займет в 6 раз больше необходимого.

Мой лучший сценарий - это решение, которое извлекает только одну строку из файла без чтения каких-либо других строк в файле, но я не могу представить, как это сделать в Bash.

В целях моего здравомыслия я не собираюсь читать полные 500 000 000 строк, которые мне нужны для моей собственной проблемы. Вместо этого я попытаюсь извлечь строку 50 000 000 из 3,339,550,320 (что означает, что чтение полного файла займет в 60 раз больше необходимого).

Я буду использовать встроенный time для тестирования каждой команды.

Baseline

Сначала рассмотрим, как решение head tail:

$ time head -50000000 myfile.ascii | tail -1
pgm_icnt = 0

real    1m15.321s

Базовая линия для строки 50 миллионов - 00: 01:15.321, если бы я пошел прямо за 500 миллионов, это, вероятно, было бы ~ 12,5 минут.

вырезать

Я сомневаюсь в этом, но это стоит того:

$ time cut -f50000000 -d$'\n' myfile.ascii
pgm_icnt = 0

real    5m12.156s

Это заняло 00: 05: 12,156 для запуска, что намного медленнее базового! Я не уверен, прочитал ли он весь файл или только до 50 миллионов долларов до остановки, но независимо от того, что это не похоже на жизнеспособное решение проблемы.

AWK

Я только запускал решение с помощью exit, потому что не ожидал запуска полного файла:

$ time awk 'NR == 50000000 {print; exit}' myfile.ascii
pgm_icnt = 0

real    1m16.583s

Этот код запустился в 00: 01:16.583, который только на 1 секунду медленнее, но все же не улучшает базовую линию. При такой скорости, если команда exit была исключена, вероятно, понадобилось бы около 76 минут, чтобы прочитать весь файл!

Perl

Я также запустил существующее решение Perl:

$ time perl -wnl -e '$.== 50000000 && print && exit;' myfile.ascii
pgm_icnt = 0

real    1m13.146s

Этот код работал в 00: 01:13.146, что на ~ 2 секунды быстрее базовой линии. Если бы я запустил его на 500 000 000, это, вероятно, займет ~ 12 минут.

СЕПГ

Главный ответ на доске, вот мой результат:

$ time sed "50000000q;d" myfile.ascii
pgm_icnt = 0

real    1m12.705s

Этот код работал в 00: 01:12.705, что на 3 секунды быстрее базовой линии и ~ 0,4 секунды быстрее, чем Perl. Если бы я запустил его на полных 500 000 000 строк, это, вероятно, заняло бы ~ 12 минут.

файле проекта

У меня есть bash 3.1 и поэтому не могу проверить решение mapfile.

Заключение

Похоже, что по большей части трудно улучшить решение head tail. В лучшем случае решение sed обеспечивает повышение эффективности на 3%.

(проценты, рассчитанные по формуле % = (runtime/baseline - 1) * 100)

Строка 50 000 000

00: 01:12,705 (-00: 00: 02,616 = -3,47%) sed
00: 01:13,146 (-00: 00: 02,177 = -2,89%) perl
00: 01:15.321 (+00: 00: 00.000 = + 0.00%) head|tail
00: 01:16,583 (+00: 00: 01,262 = + 1,68%) awk
00: 05: 12,156 (+00: 03: 56,835 = + 314,43%) cut

Ряд 500 000 000

00: 12: 07.050 (-00: 00: 26.160) sed
00: 12: 11.460 (-00: 00: 21.750) perl
00: 12: 33.210 (+00: 00: 00.000) head|tail
00: 12: 45,830 (+00: 00: 12,620) awk
00: 52: 01.560 (+00: 40: 31.650) cut

Строка 3,338,559,320

01: 20: 54.599 (-00: 03: 05.327) sed
01: 21: 24.045 (-00: 02: 25.227) perl
01: 23: 49.273 (+00: 00: 00.000) head|tail
01: 25: 13.548 (+00: 02: 35.735) awk
05: 47: 23.026 (+04: 24: 26.246) cut

CaffeineConnoisseur 30 авг. 2016, в 01:13

0

Интересно, сколько времени займет просто закачивание всего файла в / dev / null. (Что, если это был только тест жесткого диска?)
sanmai 23 март 2019, в 02:52

43

С awk это довольно быстро:

awk 'NR == num_line' file

Если это верно, выполняется поведение по умолчанию awk: {print $0}.

Альтернативные версии

Если ваш файл окажется огромным, вам лучше exit после прочтения нужной строки. Таким образом вы сохраняете время процессора.

awk 'NR == num_line {print; exit}' file

Если вы хотите указать номер строки из переменной bash, вы можете использовать:

awk 'NR == n' n=$num file
awk -v n=$num 'NR == n' file   # equivalent

fedorqui 22 янв. 2014, в 09:57

3

Я надеялся прочитать здесь ответ на awk . Хорошая заметка на выходе, не подумал бы об этом. Возможно также включить эквивалент awk -vn=$num 'NR == n' ?
ShellFish 05 июль 2015, в 02:32
1

@ShellFish спасибо, только что обновил с этой эквивалентной версией!
fedorqui 06 июль 2015, в 07:59
8

awk == читабельный сед
Ciro Santilli 新疆改造中心六四事件法轮功 10 авг. 2015, в 10:28

Показать ещё 1 комментарий

26

Ничего себе, все возможности!

Попробуйте следующее:

sed -n "${lineNum}p" $file

или один из них в зависимости от вашей версии Awk:

awk  -vlineNum=$lineNum 'NR == lineNum {print $0}' $file
awk -v lineNum=4 '{if (NR == lineNum) {print $0}}' $file
awk '{if (NR == lineNum) {print $0}}' lineNum=$lineNum $file

(Возможно, вам придется попробовать команду nawk или gawk).

Есть ли инструмент, который выполняет печать только этой конкретной строки? Не один из стандартных инструментов. Однако sed, вероятно, самый близкий и простой в использовании.

David W. 17 май 2011, в 12:58

19

Этот вопрос помечен Bash, здесь Bash (≥4): используйте mapfile с опцией -s (skip) и -n (count).

Если вам нужно получить 42-ю строку файла file:

mapfile -s 41 -n 1 ary < file

В этот момент у вас будет массив ary, поля которого содержат строки file (включая конечную новую строку), где мы пропустили первые 41 строку (-s 41) и остановились после прочтения одной строки (-n 1). Так что на самом деле 42-я линия. Чтобы распечатать его:

printf '%s' "${ary[0]}"

Если вам нужен ряд строк, скажем, диапазон 42-666 (включительно) и скажите, что вы не хотите самостоятельно выполнять математику и печатать их на стандартном выводе:

mapfile -s $((42-1)) -n $((666-42+1)) ary < file
printf '%s' "${ary[@]}"

Если вам тоже нужно обработать эти строки, не очень удобно хранить конечную новую строку. В этом случае используйте опцию -t (обрезка):

mapfile -t -s $((42-1)) -n $((666-42+1)) ary < file
# do stuff
printf '%s\n' "${ary[@]}"

У вас может быть функция для вас:

print_file_range() {
    # $1-$2 is the range of file $3 to be printed to stdout
    local ary
    mapfile -s $(($1-1)) -n $(($2-$1+1)) ary < "$3"
    printf '%s' "${ary[@]}"
}

Нет внешних команд, только Bash встроенных!

gniourf_gniourf 17 май 2014, в 14:12

19

# print line number 52
sed '52!d' file

Полезные однострочные скрипты для sed

Steven Penny 18 окт. 2012, в 06:02

10

Вы также можете использовать sed print и quit:

sed -n '10{p;q;}' file   # print line 10

bernd 17 май 2011, в 12:37

2

Что -n делать?
Nikana Reklawyks 05 янв. 2013, в 23:58
5

Опция -n отключает действие по умолчанию для печати каждой строки, как вы наверняка заметили, быстро взглянув на справочную страницу.
tripleee 08 авг. 2013, в 14:03
0

В GNU sed все ответы sed примерно одинаковы. Поэтому (для GNU sed ) это лучший ответ sed , поскольку это сэкономит время для больших файлов и небольших значений n-й строки .
agc 02 апр. 2017, в 18:08

Показать ещё 1 комментарий

9

Согласно моим тестам, с точки зрения производительности и удобочитаемости моя рекомендация:

tail -N+N | head -1

N - номер строки, которую вы хотите. Например, tail -N+7 input.txt | head -1 tail -N+7 input.txt | head -1 напечатает 7-ю строку файла.

tail -N+N будет печатать все, начиная с строки N, а head -1 остановит ее после одной строки.

Альтернативный head -N | tail -1 head -N | tail -1, возможно, немного читаем. Например, это напечатает 7-ю строку:

head -7 input.txt | tail -1

Когда дело доходит до производительности, нет большой разницы для меньших размеров, но он будет превосходить tail | head tail | head (сверху), когда файлы становятся огромными.

Самое интересное узнать о sed 'NUMq;d', но я бы сказал, что это будет понято меньшим количеством людей из коробки, чем решение голова/хвост, а также медленнее, чем хвост/голова.

В моих тестах обе версии хвостов/головок превосходили sed 'NUMq;d' последовательно. Это соответствует другим показателям, которые были опубликованы. Трудно найти случай, когда хвосты/головы были действительно плохими. Это также неудивительно, так как это операции, которые, как вы ожидаете, будут сильно оптимизированы в современной системе Unix.

Чтобы получить представление о различиях в производительности, это число, которое я получаю за огромный файл (9.3G):

tail -N+N | head -1 tail -N+N | head -1: 3,7 с
head -N | tail -1 head -N | tail -1: 4,6 с
sed Nq;d: 18,8 с

Результаты могут отличаться, но производительность head | tail head | tail и tail | head tail | head, в общем, сопоставима для небольших входов, а sed всегда медленнее с существенным фактором (около 5 раз или около того).

Чтобы воспроизвести мой бенчмарк, вы можете попробовать следующее, но предупреждайте, что он создаст файл 9.3G в текущем рабочем каталоге:

#!/bin/bash
readonly file=tmp-input.txt
readonly size=1000000000
readonly pos=500000000
readonly retries=3

seq 1 $size > $file
echo "*** head -N | tail -1 ***"
for i in $(seq 1 $retries) ; do
    time head "-$pos" $file | tail -1
done
echo "-------------------------"
echo
echo "*** tail -n+N | head -1 ***"
echo

seq 1 $size > $file
ls -alhg $file
for i in $(seq 1 $retries) ; do
    time tail -n+$pos $file | head -1
done
echo "-------------------------"
echo
echo "*** sed Nq;d ***"
echo

seq 1 $size > $file
ls -alhg $file
for i in $(seq 1 $retries) ; do
    time sed $pos'q;d' $file
done
/bin/rm $file

Вот результат запуска на моей машине (ThinkPad X1 Carbon с SSD и 16 ГБ памяти). Я предполагаю, что в конечном итоге все будет происходить из кеша, а не с диска:

*** head -N | tail -1 ***
500000000

real    0m9,800s
user    0m7,328s
sys     0m4,081s
500000000

real    0m4,231s
user    0m5,415s
sys     0m2,789s
500000000

real    0m4,636s
user    0m5,935s
sys     0m2,684s
-------------------------

*** tail -n+N | head -1 ***

-rw-r--r-- 1 phil 9,3G Jan 19 19:49 tmp-input.txt
500000000

real    0m6,452s
user    0m3,367s
sys     0m1,498s
500000000

real    0m3,890s
user    0m2,921s
sys     0m0,952s
500000000

real    0m3,763s
user    0m3,004s
sys     0m0,760s
-------------------------

*** sed Nq;d ***

-rw-r--r-- 1 phil 9,3G Jan 19 19:50 tmp-input.txt
500000000

real    0m23,675s
user    0m21,557s
sys     0m1,523s
500000000

real    0m20,328s
user    0m18,971s
sys     0m1,308s
500000000

real    0m19,835s
user    0m18,830s
sys     0m1,004s

Philipp Claßen 31 июль 2017, в 14:01

1

Отличается ли производительность между head | tail против tail | head ? Или это зависит от того, какая строка печатается (начало файла или конец файла)?
wisbucky 18 янв. 2018, в 20:59
1

@wisbucky У меня нет точных цифр, но один недостаток, заключающийся в том, чтобы сначала использовать хвост, а затем «голову -1», заключается в том, что вам нужно заранее знать общую длину. Если вы этого не знаете, вам придется сначала посчитать это, что приведет к потере производительности. Еще одним недостатком является то, что он менее интуитивно понятен в использовании. Например, если у вас число от 1 до 10, и вы хотите получить 3-ю строку, вам придется использовать «tail -8 | head -1». Это более подвержено ошибкам, чем "head -3 | tail -1".
Philipp Claßen 18 янв. 2018, в 21:11
0

извините, я должен был включить пример, чтобы быть ясным. head -5 | tail -1 против tail -n+5 | head -1 . На самом деле, я нашел другой ответ, который сделал тестовое сравнение и нашел tail | head будет быстрее. stackoverflow.com/a/48189289
wisbucky 19 янв. 2018, в 00:28
1

@wisbucky Спасибо, что упомянули об этом! Я сделал несколько тестов и должен согласиться, что это всегда было немного быстрее, независимо от положения линии от того, что я видел. Учитывая это, я изменил свой ответ, а также включил тест на случай, если кто-то захочет его воспроизвести.
Philipp Claßen 19 янв. 2018, в 19:15

Показать ещё 2 комментария

7

Вы также можете использовать Perl для этого:

perl -wnl -e '$.== NUM && print && exit;' some.file

Timofey Stolbov 16 май 2011, в 20:24

6

Самое быстрое решение для больших файлов всегда имеет хвост, при условии, что два расстояния:

от начала файла до стартовой строки. Позволяет называть его S
расстояние от последней строки до конца файла. Будь то E

известны. Тогда мы могли бы использовать это:

mycount="$E"; (( E > S )) && mycount="+$S"
howmany="$(( endline - startline + 1 ))"
tail -n "$mycount"| head -n "$howmany"

howmany - это просто количество требуемых строк.

Дополнительная информация в https://unix.stackexchange.com/a/216614/79743

user2350426 17 июль 2015, в 06:13

0

Пожалуйста, уточните единицы S и E (т. E Байты, символы или строки).
agc 02 апр. 2017, в 18:16

4

В качестве следствия для CaffeineConnoisseur очень полезный бенчмаркинг ответа... Мне было любопытно, насколько быстро метод "mapfile" сравнивался с другими (так как это не было проверено), поэтому я попытался быстро и грязно сравнить скорость, как У меня есть bash 4. Бросил тест на метод "хвост" (вместо головы), упомянутый в одном из комментариев на верхний ответ, когда я был на нем, так как люди поют свои похвалы. У меня почти нет размера используемого тестового файла; лучшее, что я смог найти в кратчайшие сроки, это 14M родословный файл (длинные строки, разделенные пробелами, всего 12000 строк).

Короткая версия: mapfile появляется быстрее, чем метод cut, но медленнее, чем все остальное, поэтому я бы назвал его dud. хвост | head, OTOH, похоже, что он может быть самым быстрым, хотя с файлом такого размера разница не такая существенная по сравнению с sed.

$ time head -11000 [filename] | tail -1
[output redacted]

real    0m0.117s

$ time cut -f11000 -d$'\n' [filename]
[output redacted]

real    0m1.081s

$ time awk 'NR == 11000 {print; exit}' [filename]
[output redacted]

real    0m0.058s

$ time perl -wnl -e '$.== 11000 && print && exit;' [filename]
[output redacted]

real    0m0.085s

$ time sed "11000q;d" [filename]
[output redacted]

real    0m0.031s

$ time (mapfile -s 11000 -n 1 ary < [filename]; echo ${ary[0]})
[output redacted]

real    0m0.309s

$ time tail -n+11000 [filename] | head -n1
[output redacted]

real    0m0.028s

Надеюсь это поможет!

Jo Valentine-Cooper 10 янв. 2018, в 15:44

4

Все приведенные выше ответы напрямую отвечают на вопрос. Но здесь менее прямое решение, но потенциально более важная идея, чтобы спровоцировать мысль.

Так как длины строк произвольны, все байты файла перед n-й строкой нужно читать. Если у вас огромный файл или вам нужно многократно повторять эту задачу, и этот процесс занимает много времени, вам следует серьезно подумать о том, следует ли вам сначала хранить ваши данные по-другому.

Реальное решение состоит в том, чтобы иметь индекс, например. в начале файла, с указанием позиций, где начинаются строки. Вы можете использовать формат базы данных или просто добавить таблицу в начале файла. Альтернативно создайте отдельный файл индекса, который будет сопровождать ваш большой текстовый файл.

например. вы можете создать список позиций символов для строк новой строки:

awk 'BEGIN{c=0;print(c)}{c+=length()+1;print(c+1)}' file.txt > file.idx

затем прочитайте с помощью tail, который фактически seek непосредственно в соответствующую точку в файле!

например. для получения строки 1000:

tail -c +$(awk 'NR=1000' file.idx) file.txt | head -1

Это может не работать с 2-байтовыми/многобайтными символами, так как awk является "знающим персонажа", но хвост не является.
Я не тестировал это против большого файла.
Также см. этот ответ.
Альтернативно - разбить файл на более мелкие файлы.

Sanjay Manohar 12 окт. 2017, в 12:22

3

Если вы получили несколько строк, разделив их на \n (обычно новая строка). Вы также можете использовать "cut":

echo "$data" | cut -f2 -d$'\n'

Вы получите вторую строку из файла. -f3 дает вам 3-ю строку.

danger89 07 янв. 2016, в 17:09

0

Может также использоваться для отображения нескольких строк: cat FILE | cut -f2,5 -d$'\n' отобразит строки 2 и 5 ФАЙЛА. (Но это не сохранит порядок.)
Andriy Makukha 25 янв. 2018, в 11:16

2

Уже много хороших ответов. Я лично перехожу с awk. Для удобства, если вы используете bash, просто добавьте ниже в свой файл ~/.bash_profile. И в следующий раз, когда вы входите в систему (или если вы отправите свой.bash_profile после этого обновления), у вас будет новая отличная "n-я" функция, доступная для передачи ваших файлов через.

Выполните это или поместите его в свой файл ~/.bash_profile (если используете bash) и снова запустите bash (или выполните source ~/.bach_profile)

# print just the nth piped in line nth() { awk -vlnum=${1} 'NR==lnum {print; exit}'; }

Затем, чтобы использовать его, просто проведите через него. Например,:

$ yes line | cat -n | nth 5 5 line

JJC 17 нояб. 2017, в 17:35

2

Один из возможных способов:

sed -n 'NUM{p;q}'

Обратите внимание, что без команды q, если файл большой, sed продолжает работать, что замедляет вычисление.

Jindra Helcl 16 март 2016, в 15:29

1

Используя то, что говорили другие, я хотел, чтобы это была быстрая и денди-функция в моей оболочке bash.

Создать файл: ~/.functions

Добавьте к нему содержимое:

getline() { line=$1 sed $line'q;d' $2 }

Затем добавьте это в свой файл ~/.bash_profile:

source ~/.functions

Теперь, когда вы открываете новое окно bash, вы можете просто вызвать функцию так:

getline 441 myfile.txt

Mark Shust 17 янв. 2018, в 14:42

1

Для печати n-й строки с помощью sed с переменной в виде номера строки:

a=4
sed -e $a'q:d' file

Здесь флаг '-e' предназначен для добавления script для выполнения команды.

aliasav 13 март 2015, в 07:46

1

Двоеточие является синтаксической ошибкой и должно быть точкой с запятой.
tripleee 16 фев. 2016, в 04:26

0

Я поместил некоторые из приведенных выше ответов в короткий скрипт bash, который вы можете поместить в файл с именем get.sh и связать его с /usr/local/bin/get (или любым другим именем, которое вы предпочитаете).

#!/bin/bash
if [ "${1}" == "" ]; then
    echo "error: blank line number";
    exit 1
fi
re='^[0-9]+$'
if ! [[ $1 =~ $re ]] ; then
    echo "error: line number arg not a number";
    exit 1
fi
if [ "${2}" == "" ]; then
    echo "error: blank file name";
    exit 1
fi
sed "${1}q;d" $2;
exit 0

Убедитесь, что он исполняется с

$ chmod +x get

Свяжите это, чтобы сделать это доступным на PATH с

$ ln -s get.sh /usr/local/bin/get

Наслаждайтесь ответственно!

п

polarise 28 янв. 2019, в 16:41

Ещё вопросы

«Путь Unix» состоит в том, чтобы объединить инструменты, которые хорошо выполняют свою работу. Поэтому я думаю, что вы уже нашли очень подходящий метод. Другие методы включают awk и sed и я уверен, что кто-то может придумать Perl с одним вкладышем или около того;)
Двойная команда предполагает, что head | tail решение является неоптимальным. Были предложены другие более почти оптимальные решения.
Проводили ли вы какие-либо тесты, на которых решение является самым быстрым для среднего случая?
Тесты (для диапазона) в строке cat X и строке Y огромного файла в Unix & Linux . (cc @Marcin, если тебе все еще интересно после двух с лишним лет)
head | tail решение не работает, если вы запрашиваете строку, которой нет во входных данных: она напечатает последнюю строку.
Почему «<» необходимо в этом случае? Разве я не достиг бы того же результата без него?
@RafaelBarbosa < в этом случае не требуется. Просто я предпочитаю использовать перенаправления, потому что я часто использовал перенаправления вроде sed -n '100p' < <(some_command) - так, универсальный синтаксис :). Это НЕ менее эффективно, потому что перенаправление выполняется с помощью shell при разветвлении себя, поэтому ... это всего лишь предпочтение ... (и да, это на один символ длиннее) :)
@ jm666 На самом деле это на 2 символа длиннее, так как вы обычно ставите «<», а также дополнительный пробел «» после <вместо одного пробела, если вы не использовали <:)
@ rasen58 пробел тоже символ? :) / ладно, шучу - ты прав / :)
Это примерно в 5 раз медленнее, чем комбинация хвост / голова при чтении файла с 50M строк
@duhaime конечно, если кто-то должен сделать оптимизации. Но ИМХО для «общих» проблем это нормально и разница незаметна. Кроме того, head / tail не решает сценарий sed -n '1p;3p' - то есть печатать больше несмежных строк ...
Аминь! Просто хотел создать заметку для дураков, таких как я, которые должны выполнить поиск строк миллиарды раз для какой-то задачи ...
@duhaime конечно - заметка правильная и нужна. :)
Интересно, сколько времени займет просто закачивание всего файла в / dev / null. (Что, если это был только тест жесткого диска?)
Я надеялся прочитать здесь ответ на awk . Хорошая заметка на выходе, не подумал бы об этом. Возможно также включить эквивалент awk -vn=$num 'NR == n' ?
@ShellFish спасибо, только что обновил с этой эквивалентной версией!
Опция -n отключает действие по умолчанию для печати каждой строки, как вы наверняка заметили, быстро взглянув на справочную страницу.
В GNU sed все ответы sed примерно одинаковы. Поэтому (для GNU sed ) это лучший ответ sed , поскольку это сэкономит время для больших файлов и небольших значений n-й строки .
Отличается ли производительность между head | tail против tail | head ? Или это зависит от того, какая строка печатается (начало файла или конец файла)?
@wisbucky У меня нет точных цифр, но один недостаток, заключающийся в том, чтобы сначала использовать хвост, а затем «голову -1», заключается в том, что вам нужно заранее знать общую длину. Если вы этого не знаете, вам придется сначала посчитать это, что приведет к потере производительности. Еще одним недостатком является то, что он менее интуитивно понятен в использовании. Например, если у вас число от 1 до 10, и вы хотите получить 3-ю строку, вам придется использовать «tail -8 | head -1». Это более подвержено ошибкам, чем "head -3 | tail -1".
извините, я должен был включить пример, чтобы быть ясным. head -5 | tail -1 против tail -n+5 | head -1 . На самом деле, я нашел другой ответ, который сделал тестовое сравнение и нашел tail | head будет быстрее. stackoverflow.com/a/48189289
@wisbucky Спасибо, что упомянули об этом! Я сделал несколько тестов и должен согласиться, что это всегда было немного быстрее, независимо от положения линии от того, что я видел. Учитывая это, я изменил свой ответ, а также включил тест на случай, если кто-то захочет его воспроизвести.
Пожалуйста, уточните единицы S и E (т. E Байты, символы или строки).
Может также использоваться для отображения нескольких строк: cat FILE | cut -f2,5 -d$'\n' отобразит строки 2 и 5 ФАЙЛА. (Но это не сохранит порядок.)
Двоеточие является синтаксической ошибкой и должно быть точкой с запятой.

anubhava · Accepted Answer · 2011-05-16T21-32-00.000Z

627

Лучший ответ

head, а pipe с tail будет медленным для огромного файла. Я бы предложил sed следующим образом:

sed 'NUMq;d' file

Где NUM - номер строки, которую вы хотите распечатать; так, например, sed '10q;d' file для печати 10-й строки file.

Пояснение:

NUMq немедленно прекратится, когда номер строки NUM.

d удалит строку вместо ее печати; это заблокировано на последней строке, потому что q заставляет остальную часть script пропускаться при выходе.

Если у вас есть NUM в переменной, вам нужно использовать двойные кавычки вместо одиночного:

sed "${NUM}q;d" file

anubhava 16 май 2011, в 21:32

33

Для тех, кому интересно, это решение кажется примерно в sed -n 'NUMp' раз быстрее, чем решения sed -n 'NUMp' и sed 'NUM!d' предложенные ниже.
Skippy le Grand Gourou 18 фев. 2014, в 16:48
60

Я думаю, что tail -n+NUM file | head -n1 скорее всего будет такой же быстрой или быстрой. По крайней мере, это было (значительно) быстрее в моей системе, когда я попробовал его с NUM 250000 для файла с полмиллиона строк. YMMV, но я не понимаю почему.
rici 25 март 2014, в 02:43
12

Вы правы, кажется, что tail|head примерно в 2–3 раза быстрее, чем команда sed предложенная в этом ответе - я должен был также проверить это…
Skippy le Grand Gourou 04 апр. 2014, в 18:08
2

@SkippyleGrandGourou: я создал файл со 100 миллионами строк в /dev/shm . Как sed 'NUM!d' и sed -n NUMp режиме реального времени требуется 14,8 секунды, чтобы получить 100-миллионный рубеж. Но sed 'NUMq;d' занимает 15,1 секунды . И tail|head заняла всего 3,0 секунды в режиме реального времени!
erik 17 май 2014, в 14:18
3

@SkippyleGrandGourou: Поместить число в ускорение не имеет особого смысла, поскольку ускорение полностью зависит от того, «как далеко» вниз в файле находится целевая строка, учитывая, что оптимизация этого ответа заключается в выходе сразу после печати целевой строки. и, следовательно, не нужно читать остальную часть файла.
mklement0 11 июнь 2014, в 14:56
1

@rici: я вижу то же самое в Ubuntu 12.04, где решение на основе « tail / head-based solution is about 5 times faster, but, curiously, on OS X 10.9.3 the roles are reversed: the решение sed` быстрее, хотя и не очень. Любопытно, что оба решения работали заметно медленнее в OSX, чем в Ubuntu.
mklement0 11 июнь 2014, в 15:07
1

@erik: выбирая поиск последней строки в своем тесте, вы отменяете специфическую оптимизацию этого ответа: выход сразу после печати целевой строки - попробуйте снова с линией в середине . Кроме того, разницу между 14,8 и 15,1 секундами можно просто объяснить изменяющимися условиями выполнения (насколько загруженной была ваша машина, когда выполнялись тесты) - в вашем конкретном тестовом случае решения 3 sed практически идентичны.
mklement0 11 июнь 2014, в 15:15
4

@ mklement0: я полагаю, что это связано с реализацией tail , а косвенно - с stdio. Вы можете попробовать сравнить tail -n+$HUGE foo с версией UUOC: cat foo | tail -n+$HUGE . Иногда это на самом деле ускоряет процесс (несмотря на все шутки о UUOC), потому что он побеждает неоптимизации, такие как mmap.
rici 11 июнь 2014, в 15:33
1

@rici (редакция предыдущего комментария) В Linux (Ubuntu 12.04, Fedora 20) использование cat действительно быстрее (почти в два раза быстрее), но только если файл еще не был кэширован . Как только файл кэшируется , прямое использование аргумента имени файла происходит быстрее (примерно на 1/3 быстрее), а производительность cat остается неизменной. Любопытно, что в OS X 10.9.3, похоже, ничего из этого не имеет значения: cat / no cat , кешированный файл или нет. @anubhava: мое удовольствие.
mklement0 11 июнь 2014, в 17:42
0

@ mklement0: не уверены, что поняли ваш комментарий о том, что ускорение не имеет особого смысла, так как это то, что вы делаете в следующих комментариях? В любом случае, конечно, ускорение зависит от тестового примера, от настройки и даже больше. Но я полагаю, что они дают хорошее представление о том, в чем может быть разница.
Skippy le Grand Gourou 14 июнь 2014, в 10:11
1

@SkippyleGrandGourou: Мои числа относятся к конкретному тестовому примеру (т. Е. @ Rici; и даже там результаты предназначены только для того, чтобы дать вам общий смысл, так как есть много других переменных). Вы пытались сделать общее заявление об ускорении, которое бессмысленно по указанным причинам. Другими словами: ваши цифры не имеют смысла, если вы не описываете конкретный сценарий тестирования. Например: с тем же входным файлом из 500 000 строк (сгенерированным с помощью seq 500000 > file ), если я получу первую строку , я примерно увижу ускорение, которое вы описываете; если я получу последнюю строку , ускорения НЕТ.
mklement0 14 июнь 2014, в 15:24
0

@ mklement0: извините, что не изложил очевидное. Результаты будут зависеть не только от размера файла и количества строк, которые вы пытаетесь извлечь, но и от конфигурации вашего оборудования (например, мои тесты были проведены на SSD, я думаю, что это имеет значение) и сколько ресурсов уже используется на момент проведения теста. FWIW, я не дал одно число, но диапазоны , именно потому, что я пробовал разные тестовые случаи - избегая бесполезных случаев, таких как первая / последняя строки.
Skippy le Grand Gourou 14 июнь 2014, в 15:54
2

@SkippyleGrandGourou: Учитывая специфику этой оптимизации , даже ваши диапазоны чисел бессмысленны как общее утверждение . Единственный общий вывод заключается в следующем: (а) эта оптимизация может быть безопасно применена ко всем входным данным, (б) эффекты будут варьироваться от нуля до драматических , в зависимости от индекса искомой линии по отношению к количеству общих линий.
mklement0 14 июнь 2014, в 16:04
0

@ mklement0 В большинстве тестов, которые я делал, tail | head работал лучше. Даже лучше, чем head | tail для случаев закрытия начала файла, конца файла или в середине. Прочитайте все детали и проведите свои собственные тесты, используя скрипт, который я разместил здесь: http://unix.stackexchange.com/a/216614/79743 .
user2350426 17 июль 2015, в 05:29
1

@BinaryZebra Аккуратные тесты, но вы не упомянули, что применяете оптимизацию: выбираете, применять ли сначала tail или head , в зависимости от количества искомых строк относительно общего количества строк, что требует подсчета входных строк вверх фронт . Таким образом, вам нужно 2 отдельные команды, а также нужно учитывать количество строк в таймингах. Также обратите внимание, что если ваш ввод поступает из стандартного ввода или FIFO, отсчет времени может даже не быть опцией (потому что ввод потребляется при первом чтении).
mklement0 17 июль 2015, в 14:05
1

@BinaryZebra также: Файловые и утилиты реализации отличаются на разных платформах, и даже если мы не будем учитывать время, необходимое для подсчета строк, на моей машине OSX 10.10.4, sed еще - заметно - обгоняет ваш оптимизированный head / tail решение во всех тестовых случаях, кроме последнего: номер строки, близкий к концу очень большого файла. Как правило, чем ближе целевая строка к концу файла, и чем больше входной файл, тем лучше будет работать ваша оптимизация. Ваш URL в качестве ссылки (пропустите форматирование кода): unix.stackexchange.com/a/216614/79743
mklement0 17 июль 2015, в 14:11
1

Не могли бы вы объяснить, пожалуйста, эту команду? Sed обрабатывает строки, пока не встретит номер строки NUM затем выполнит q , например остановится. Затем выполняется d и почему он удаляет все строки раньше? Все ли строки от 0 до NUM находятся в памяти для этого шага, затем sed удаляет их и выводит текущую строку или ...?
Ellochka Cannibal 16 авг. 2015, в 15:11
12

sed 'NUMq выведет первые файлы NUM а ;d удалит все, кроме последней строки.
anubhava 16 авг. 2015, в 17:07
0

Кажется, это странно взаимодействует с каналом от xargs - я получаю сообщение об ошибке, xargs что xargs был прерван signal 13 .
Kyle Strand 05 окт. 2016, в 21:51
0

Я проверил, и с xargs нормально.
anubhava 05 окт. 2016, в 22:24
0

@rici ваше решение легче запомнить и легко изменить, чтобы получить больше строк, чем просто Nth. Если вы опубликуете это как решение, я бы одобрил это.
Katu 22 нояб. 2016, в 09:10
1

При тестировании производительности таких операций убедитесь, что вы исключаете системный кеш ввода-вывода как фактор. Второй раз, когда файл читается, он, скорее всего, читается из ОЗУ, тогда как первый раз был с диска - что может быть причиной того, что вторая операция выполняется намного быстрее. Либо убедитесь, что достаточно свободной памяти для кэширования всего файла, и прочитайте его с помощью 'cat file> / dev / null', чтобы кэшировать его перед запуском тестов, либо вместо этого очистите кеш системного ввода-вывода между ними.
unfa 01 авг. 2017, в 15:29
0

он выводит мне весь файл. совет не работает.
Ihor B. 04 янв. 2018, в 11:58

Показать ещё 21 комментарий