Какой простой способ прочитать случайную строку из файла в командной строке Unix?

Question

Какой простой способ прочитать случайную строку из файла в командной строке Unix?

190

PolyThinker 15 янв. 2009, в 19:31

Источник

0

Каждая строка дополняется до фиксированной длины?
Tracker1 15 янв. 2009, в 19:03
0

нет, каждая строка имеет переменное количество символов
Newbie Prog 15 янв. 2009, в 19:04
0

большой файл: stackoverflow.com/questions/29102589/…
Ciro Santilli 新疆改造中心六四事件法轮功 20 нояб. 2015, в 09:58

Показать ещё 1 комментарий

Теги:

linux

unix

command-line

13 ответов

Ещё вопросы

Каждая строка дополняется до фиксированной длины?
нет, каждая строка имеет переменное количество символов
большой файл: stackoverflow.com/questions/29102589/…

unbeknown · Answer 1 · 2009-01-15T20-38-00.000Z

277

Вы можете использовать shuf:

shuf -n 1 $FILE

Существует также утилита rl. В Debian это в пакете randomize-lines, который делает именно то, что вы хотите, хотя и не доступен во всех дистрибутивах. На своей домашней странице он рекомендует использовать вместо shuf (чего не было, когда он был создан, я считаю). shuf является частью GNU coreutils, rl не является.

rl -c 1 $FILE

unbeknown 15 янв. 2009, в 20:38

0

мне действительно нравится этот подход шуфа!
Johannes Schaub - litb 15 янв. 2009, в 19:39
2

Спасибо за подсказку shuf , она встроена в Fedora.
Cheng 02 дек. 2010, в 02:52
0

Есть ли у этого r1 какие-либо преимущества? shuf швы для работы отлично!
Thomas Ahle 10 июнь 2011, в 15:46
0

Шуф великолепен в качестве замены для главного командования, полезно знать
Tomasz Tybulewicz 10 июнь 2013, в 07:45
5

AndAlso, sort -R определенно собирается сделать один ждать много , если дело со значительно большими файлами - 80kk линии -, в то время как, shuf -n актов вполне мгновенно.
Rubens 18 июнь 2013, в 06:56
20

Вы можете получить shuf на OS X, установив coreutils из Homebrew. Может быть назван gshuf вместо shuf .
Alyssa Ross 27 дек. 2013, в 22:27
2

Точно так же вы можете использовать randomize-lines в OS X с помощью brew install randomize-lines; rl -c 1 $FILE
Jamie 09 апр. 2014, в 18:03
0

@Rubens: тот же вопрос
jfs 24 сен. 2014, в 18:50
0

@JFSebastian: тот же ответ
Rubens 24 сен. 2014, в 21:13
0

@ThomasAhle, сводная информация о пакете Debian для случайных строк r1 Пользователям рекомендуется вместо этого использовать команду shuf, которая должна быть доступна по умолчанию. Этот пакет может считаться устаревшим. Следовательно, shuf представляется предпочтительным.
Adam Katz 17 дек. 2014, в 21:50
1

Обратите внимание, что shuf является частью GNU Coreutils и поэтому не обязательно будет доступен (по умолчанию) в системах * BSD (или Mac?). Перл @ Tracker1 с одной строкой ниже является более переносимым (и, по моим тестам, немного быстрее).
Adam Katz 19 дек. 2014, в 21:49
0

Почему этот ответ в нижней части, хотя он имеет наибольшее количество голосов?
kouton 07 март 2015, в 06:55
0

@kouton вы сортируете по возрасту?
Tim 08 июль 2015, в 16:27
0

@Tim сортируется по «Active», сортировка по умолчанию.
kouton 09 июль 2015, в 09:07
0

@kouton сортировать по голосам.
Tim 09 июль 2015, в 09:08
0

Это классная команда! Еще одно колесо, которое я заново изобрел, не зная, что оно уже существует в моем вкусе Unix! Спасибо!
Sol 08 июль 2016, в 14:23
0

хотя это не подходит для огромных файлов ... Я получаю сообщение об ошибке «shuf: read: Cannot to memory out» для файла объемом 70 ГБ
jimijazz 07 окт. 2016, в 00:30
0

Это отличный ответ. Я просто хотел бы отметить, что в случае, если требуется более 1 строки, shuf и rl делают перестановки линий, а не случайные ничьи. Т.е. если вы хотите нарисовать k случайных линий, вам нужно будет выполнить shuf -n 1 k раз. Это будет опираться на N ^ k возможностей вместо N! / (Nk)! возможности, где N - общее количество строк. Например, получить 7 случайных строк из wordlist.txt: for n in {1..7}; do shuf -n1 wordlist.txt; done
sujeet 09 март 2017, в 04:19

Показать ещё 16 комментариев

PolyThinker · Answer 2 · 2009-01-16T10-43-00.000Z

63

Другая альтернатива:

head -$((${RANDOM} % `wc -l < file` + 1)) file | tail -1

PolyThinker 16 янв. 2009, в 10:43

28

$ {RANDOM} генерирует только числа меньше 32768, поэтому не используйте это для больших файлов (например, словарь английского языка).
Ralf 13 март 2012, в 20:16
3

Это не дает вам одинаковую вероятность для каждой строки из-за операции по модулю. Это едва имеет значение, если длина файла << 32768 (и совсем не так, если оно делит это число), но, возможно, стоит отметить.
Anaphory 21 март 2014, в 17:58
10

Вы можете расширить это до 30-битных случайных чисел, используя (${RANDOM} << 15) + ${RANDOM} . Это значительно уменьшает смещение и позволяет работать с файлами, содержащими до 1 миллиарда строк.
nneonneo 19 июнь 2015, в 05:42
0

@nneonneo: Очень крутой трюк, хотя по этой ссылке он должен делать ИЛИ вместо $ {RANDOM} stackoverflow.com/a/19602060/293064
Jay Taylor 12 июль 2015, в 01:54
0

+ и | одинаковы, так как ${RANDOM} по определению равен 0..32767.
nneonneo 12 июль 2015, в 07:12
0

Это приводит к серьезным потерям производительности, так как нужно считать строки, чтобы быть уверенным, что они читают в нужную точку.
Charles Duffy 19 март 2018, в 22:35

Показать ещё 4 комментария

Thomas Vander Stichele · Answer 3 · 2010-11-10T12-41-00.000Z

50

sort --random-sort $FILE | head -n 1

(Мне нравится, что подход shuf выше даже лучше - я даже не знал, что существует, и я бы никогда не нашел этот инструмент самостоятельно)

Thomas Vander Stichele 10 нояб. 2010, в 12:41

10

+1 Мне это нравится, но вам может потребоваться совсем недавняя sort , не работающая ни на одной из моих систем (CentOS 5.5, Mac OS 10.7.2). Кроме того, бесполезное использование cat может быть уменьшено до sort --random-sort < $FILE | head -n 1
Steve Kehlet 16 фев. 2012, в 19:02
0

sort -R <<< $'1\n1\n2' | head -1 скорее всего, вернет 1 и 2, потому что sort -R сортирует повторяющиеся строки вместе. То же самое относится и к sort -Ru , потому что он удаляет повторяющиеся строки.
Lri 15 сен. 2012, в 11:03
5

Это относительно медленно, так как весь файл должен быть перетасован sort перед отправкой его в head . shuf выбирает случайные строки из файла и работает намного быстрее.
Bengt 25 нояб. 2012, в 17:33
1

@SteveKehlet, пока мы на нем, sort --random-sort $FILE | head Лучше всего использовать sort --random-sort $FILE | head , так как он позволяет напрямую обращаться к файлу, возможно, обеспечивая эффективную параллельную сортировку.
WaelJ 06 июнь 2014, в 18:22
0

@WaelJ Хорошего улучшения!
Steve Kehlet 09 июнь 2014, в 16:13
5

--random-sort и -R специфичны для сортировки GNU (поэтому они не будут работать с sort BSD или Mac OS). GNU sort узнал эти флаги в 2005 году, поэтому вам нужен GNU coreutils 6.0 или новее (например, CentOS 6).
RJHunter 09 апр. 2015, в 07:09
0

из Википедии: «это не полный случайный случайный порядок, потому что он будет сортировать одинаковые строки вместе»
janosdivenyi 14 апр. 2015, в 10:58
0

@Bengt: ничего не написано, пока shuf прочитает весь файл в память. sort может работать, даже если файл не помещается в памяти.
jfs 26 сен. 2015, в 00:59

Показать ещё 6 комментариев

Tracker1 · Answer 4 · 2009-01-15T20-30-00.000Z

11

perlfaq5: Как выбрать случайную строку из файла? Здесь используется алгоритм выборки коллектора из книги Camel:

$ perl -e 'srand; rand($.) < 1 && ($line = $_) while <>; print $line;' file

Это имеет существенное преимущество в пространстве над чтением всего файла. Вы можете найти доказательство этого метода в статье "Компьютерное программирование", том 2, раздел 3.4.2, Дональд Э. Кнут.

Tracker1 15 янв. 2009, в 20:30

1

Просто для целей включения (в случае, если указанный сайт отключается), вот код, на который указывал Tracker1: "cat filename | perl -e 'while (<>) {push (@ _, $ _);} print @ _ [рандов () * @ _]; ';»
Anirvan 15 янв. 2009, в 19:16
3

Это бесполезное использование кошки. Вот небольшое изменение кода, найденного в perlfaq5 (и любезно предоставлено книгой Camel): perl -e 'srand; rand ($.) <1 && ($ line = $ _) while <>; выведите $ line; ' имя файла
Mr. Muskrat 15 янв. 2009, в 21:55
1

сюрприз! Это пошло вниз
Nathan Fellman 13 май 2009, в 06:57
0

эээ ... связанный сайт, то есть
Nathan Fellman 22 май 2009, в 04:48
0

Я только что shuf N-строчную версию этого кода с shuf . Код на Perl немного быстрее (на 8% быстрее, на время пользователя, на 24% - на системное время), хотя я обнаружил, что код perl «кажется» менее случайным (я написал музыкальный автомат с его использованием).
Adam Katz 17 дек. 2014, в 21:59
2

Больше пищи для размышлений: shuf хранит весь входной файл в памяти , что является ужасной идеей, в то время как этот код хранит только одну строку, поэтому предел этого кода - количество строк в INT_MAX (2 ^ 31 или 2 ^ 63 в зависимости от ваша арка), предполагая, что любая из его выбранных потенциальных линий помещается в память.
Adam Katz 19 дек. 2014, в 21:58

Показать ещё 4 комментария

Paolo Tedesco · Answer 5 · 2009-01-15T20-25-00.000Z

10

с помощью bash script:

#!/bin/bash
# replace with file to read
FILE=tmp.txt
# count number of lines
NUM=$(wc - l < ${FILE})
# generate random number in range 0-NUM
let X=${RANDOM} % ${NUM} + 1
# extract X-th line
sed -n ${X}p ${FILE}

Paolo Tedesco 15 янв. 2009, в 20:25

0

Случайный может быть 0, Sed нуждается в 1 для первой строки. sed -n 0p возвращает ошибку.
asalamon74 15 янв. 2009, в 19:20
0

ммм - как насчет $ 1 для "tmp.txt" и $ 2 для NUM?
blabla999 15 янв. 2009, в 19:22
0

но даже с ошибкой, заслуживающей внимания, так как она не требует perl или python и настолько эффективна, насколько вы можете получить (чтение файла ровно дважды, но не в память - так что он будет работать даже с огромными файлами).
blabla999 15 янв. 2009, в 19:28
0

@ asalamon74: спасибо @ blabla999: если мы сделаем из него функцию, хорошо за 1 доллар, но почему бы не вычислить NUM?
Paolo Tedesco 15 янв. 2009, в 19:28
0

Изменение строки sed на: head - $ {X} $ {FILE} | Хвост -1 должен это сделать
JeffK 15 янв. 2009, в 19:34
0

Обнаружено бесполезное использование кошки, wc счастливо принимает файлы напрямую
Hasturkun 15 янв. 2009, в 21:00
0

@Hasturkun: будьте осторожны - вывод wc зависит от того, читает ли он stdin или имя файла из командной строки. Конечно, 'wc -l <$ FILE' будет в порядке; использование 'wc -l $ FILE' (без перенаправления) было бы ошибкой.
Jonathan Leffler 16 янв. 2009, в 08:06
0

@Hasturkun & J.Leffler: кошка должна была избегать wc печати имени файла. Исправлено с предложением 'wc -l <$ FILE', спасибо
Paolo Tedesco 16 янв. 2009, в 08:26
0

Имена переменных должны быть заключены в кавычки, особенно $FILE . Фигурные скобки здесь излишни. Я рекомендую использовать строчные или смешанные имена переменных, чтобы избежать возможных конфликтов имен с переменными оболочки или среды.
Dennis Williamson 28 окт. 2011, в 14:22
0

Если файл имеет 32769 или более строк, последние никогда не выбираются. wc - l меня не должно быть пробела.
Lri 15 сен. 2012, в 11:12

Показать ещё 8 комментариев

Yokai · Answer 6 · 2016-05-23T07-25-00.000Z

9

Это просто.

cat file.txt | shuf -n 1

Конечно, это чуть медленнее, чем "shuf -n 1 file.txt" на нем.

Yokai 23 май 2016, в 07:25

1

Лучший ответ. Я не знал об этой команде. Обратите внимание, что -n 1 указывает 1 строку, и вы можете изменить ее на более чем 1. shuf можно использовать и для других целей; Я просто передал ps aux и grep чтобы случайно убить процессы, частично совпадающие с именем.
sudo 18 янв. 2017, в 22:53

asalamon74 · Answer 7 · 2009-01-15T19-39-00.000Z

4

Одиночная строка bash:

sed -n $((1+$RANDOM%`wc -l test.txt | cut -f 1 -d ' '`))p test.txt

Незначительная проблема: дублировать имя файла.

asalamon74 15 янв. 2009, в 19:39

2

более легкая проблема. выполнение этого в / usr / share / dict / words приводит к появлению слов, начинающихся с «A». Играя с этим, у меня примерно 90% слов "А" и 10% слов "Б". Пока не начинается с цифр, которые составляют заголовок файла.
bibby 30 сен. 2010, в 05:01
0

wc -l < test.txt позволяет избежать необходимости cut трубу.
fedorqui 11 май 2015, в 17:56

Adam Rosenfield · Answer 8 · 2009-01-15T20-01-00.000Z

3

Вот простой Python script, который выполнит задание:

import random, sys
lines = open(sys.argv[1]).readlines()
print(lines[random.randrange(len(lines))])

Использование:

python randline.py file_to_get_random_line_from

Adam Rosenfield 15 янв. 2009, в 20:01

1

Это не совсем работает. Останавливается после одной строки. Чтобы сделать это, я сделал это: import random, sys lines = open(sys.argv[1]).readlines() для i в диапазоне (len (линии)): rand = random.randint (0, len (линии) ) -1) print lines.pop (rand),
Jed Daniels 14 янв. 2011, в 20:13
0

Глупая система комментариев с дерьмовым форматированием. Разве форматирование в комментариях не работало когда-то давно?
Jed Daniels 14 янв. 2011, в 20:14
0

randint включительно, поэтому len(lines) может привести к IndexError. Вы можете использовать print(random.choice(list(open(sys.argv[1])))) . Есть также эффективный для памяти алгоритм отбора проб из пласта .
jfs 24 сен. 2014, в 19:08
2

Довольно голодный; рассмотрим файл размером 3 ТБ.
Michael Campbell 27 май 2015, в 15:43
0

@MichaelCampbell: алгоритм отбора проб резервуара, о котором я упоминал выше, может работать с файлом размером 3 ТБ (если размер линии ограничен).
jfs 26 сен. 2015, в 01:02
0

Использование py это хорошо. -l назначает входящие строки в список, l . py авто-импорт модулей stdlib. так что вы можете сделать cat $FILE | py -l "random.choice(l)" . Попробуйте: python -m this | py -l "random.choice(l)" ... на самом деле просто py this | py -l "random.choice(l)" ;)
hangtwenty 05 янв. 2016, в 21:23

Показать ещё 4 комментария

Baskar · Answer 9 · 2013-09-04T08-25-00.000Z

2

Другой способ: awk '

awk NR==$((${RANDOM} % `wc -l < file.name` + 1)) file.name

Baskar 04 сен. 2013, в 08:25

2

Это использует awk и bash ( $RANDOM - это bashism ). Вот чистый метод awk (mawk), использующий ту же логику, что и приведенный выше код perlfaq5 @ Tracker1: awk 'rand() * NR < 1 { line = $0 } END { print line }' file.name (вау, он еще короче чем код perl!)
Adam Katz 19 дек. 2014, в 21:33
0

Этот код должен прочитать файл ( wc ), чтобы получить счетчик строк, а затем снова должен прочитать (часть) файл ( awk ), чтобы получить содержимое заданного случайного номера строки. Ввод / вывод будет намного дороже, чем получение случайного числа. Мой код читает файл только один раз. Проблема с awk rand() состоит в том, что он затрачивается на основе секунд, поэтому вы получите дубликаты, если будете запускать их слишком быстро.
Adam Katz 19 дек. 2014, в 21:41

jrjc · Answer 10 · 2015-08-17T09-18-00.000Z

Решение, которое также работает на MacOSX, а также должно работать на Linux (?):

N=5
awk 'NR==FNR {lineN[$1]; next}(FNR in lineN)' <(jot -r $N 1 $(wc -l < $file)) $file

Где:

N - количество случайных строк, которые вы хотите
NR==FNR {lineN[$1]; next}(FNR in lineN) file1 file2 - > сохранить номера строк, записанные в file1, а затем напечатать соответствующую строку в file2
jot -r $N 1 $(wc -l < $file) → произвольно нарисовать N числа (-r) в диапазоне (1, number_of_line_in_file) с помощью jot. Подстановка процесса <() сделает его похожим на файл для интерпретатора, поэтому file1 в предыдущем примере.

dreday13 · Answer 11 · 2017-08-23T07-49-00.000Z

Вот что я обнаружил, так как моя Mac OS не использует все легкие ответы. Я использовал команду jot для генерации числа, поскольку решения переменной $RANDOM кажутся не очень случайными в моем тесте. При тестировании моего решения у меня было большое разброс в решениях, представленных на выходе.

  RANDOM1=`jot -r 1 1 235886`
   #range of jot ( 1 235886 ) found from earlier wc -w /usr/share/dict/web2
   echo $RANDOM1
   head -n $RANDOM1 /usr/share/dict/web2 | tail -n 1

Эхо переменной - это визуализация генерируемого случайного числа.

Ken · Answer 12 · 2017-06-15T14-32-00.000Z

#!/bin/bash

IFS=$'\n' wordsArray=($(<$1))

numWords=${#wordsArray[@]}
sizeOfNumWords=${#numWords}

while [ True ]
do
    for ((i=0; i<$sizeOfNumWords; i++))
    do
        let ranNumArray[$i]=$(( ( $RANDOM % 10 )  + 1 ))-1
        ranNumStr="$ranNumStr${ranNumArray[$i]}"
    done
    if [ $ranNumStr -le $numWords ]
    then
        break
    fi
    ranNumStr=""
done

noLeadZeroStr=$((10#$ranNumStr))
echo ${wordsArray[$noLeadZeroStr]}

Так как $ RANDOM генерирует числа меньше, чем количество слов в / usr / share / dict / words, которое имеет 235886 (в любом случае на моем Mac), я просто генерирую 6 отдельных случайных чисел между 0 и 9 и объединяю их в строку. Затем я проверяю, что число меньше 235886. Затем удаляю начальные нули, чтобы проиндексировать слова, которые я сохранил в массиве. Поскольку каждое слово является отдельной строкой, это можно легко использовать для любого файла, чтобы случайным образом выбрать строку.

peak · Answer 13 · 2015-12-14T23-36-00.000Z

Используя только vanilla sed и awk и без использования $RANDOM, простой, экономный по размеру и разумно быстрый "однострочный" для выбора одной строки псевдослучайно из файла с именем FILENAME выглядит следующим образом:

sed -n $(awk 'END {srand(); r=rand()*NR; if (r<NR) {sub(/\..*/,"",r); r++;}; print r}' FILENAME)p FILENAME

(Это работает, даже если FILENAME пуст, и в этом случае линия не испускается.)

Посмотрите комментарий, который я разместил за год до этого ответа , в котором есть более простое решение awk, которое не требует sed. Также обратите внимание на мое предостережение о генераторе случайных чисел в awk, который запускается целыми секундами.