Почему чтение строк из stdin намного медленнее в C ++, чем в Python?

Question

Почему чтение строк из stdin намного медленнее в C ++, чем в Python?

1558

Я хотел сравнить строки чтения строкового ввода из stdin, используя Python и C++, и был шокирован, увидев, что мой код C++ работает на порядок медленнее, чем эквивалентный код Python. Так как мой C++ ржавый и я еще не эксперт Pythonista, пожалуйста, скажите мне, если я делаю что-то не так или я что-то неправильно понимаю.

TL; DR ответ: cin.sync_with_stdio(false) утверждение: cin.sync_with_stdio(false) или просто используйте вместо него fgets. TL; DR результаты: прокрутите до самого конца моего вопроса и посмотрите на таблицу.

C++ код:

#include <iostream>
#include <time.h>

using namespace std;

int main() {
    string input_line;
    long line_count = 0;
    time_t start = time(NULL);
    int sec;
    int lps;

    while (cin) {
        getline(cin, input_line);
        if (!cin.eof())
            line_count++;
    };

    sec = (int) time(NULL) - start;
    cerr << "Read " << line_count << " lines in " << sec << " seconds.";
    if (sec > 0) {
        lps = line_count / sec;
        cerr << " LPS: " << lps << endl;
    } else
        cerr << endl;
    return 0;
}

// Compiled with:
// g++ -O3 -o readline_test_cpp foo.cpp

Эквивалент Python:

#!/usr/bin/env python
import time
import sys

count = 0
start = time.time()

for line in  sys.stdin:
    count += 1

delta_sec = int(time.time() - start_time)
if delta_sec >= 0:
    lines_per_sec = int(round(count/delta_sec))
    print("Read {0} lines in {1} seconds. LPS: {2}".format(count, delta_sec,
       lines_per_sec))

Вот мои результаты:

$ cat test_lines | ./readline_test_cpp
Read 5570000 lines in 9 seconds. LPS: 618889

$cat test_lines | ./readline_test.py
Read 5570000 lines in 1 seconds. LPS: 5570000

Должен заметить, что я пробовал это как в Mac OS X 10.6.8 (Snow Leopard), так и в Linux 2.6.32 (Red Hat Linux 6.2). Первый - это MacBook Pro, а второй - очень мощный сервер, не то чтобы это было слишком уместно.

$ for i in {1..5}; do echo "Test run $i at 'date'"; echo -n "CPP:"; cat test_lines | ./readline_test_cpp ; echo -n "Python:"; cat test_lines | ./readline_test.py ; done
Test run 1 at Mon Feb 20 21:29:28 EST 2012
CPP:   Read 5570001 lines in 9 seconds. LPS: 618889
Python:Read 5570000 lines in 1 seconds. LPS: 5570000
Test run 2 at Mon Feb 20 21:29:39 EST 2012
CPP:   Read 5570001 lines in 9 seconds. LPS: 618889
Python:Read 5570000 lines in 1 seconds. LPS: 5570000
Test run 3 at Mon Feb 20 21:29:50 EST 2012
CPP:   Read 5570001 lines in 9 seconds. LPS: 618889
Python:Read 5570000 lines in 1 seconds. LPS: 5570000
Test run 4 at Mon Feb 20 21:30:01 EST 2012
CPP:   Read 5570001 lines in 9 seconds. LPS: 618889
Python:Read 5570000 lines in 1 seconds. LPS: 5570000
Test run 5 at Mon Feb 20 21:30:11 EST 2012
CPP:   Read 5570001 lines in 10 seconds. LPS: 557000
Python:Read 5570000 lines in  1 seconds. LPS: 5570000

Крошечное приложение и резюме

Для полноты я подумал, что я обновлю скорость чтения для того же файла в том же окне с помощью исходного (синхронизированного) кода C++. Опять же, это для 100-строчного файла на быстром диске. Вот сравнение, с несколькими решениями/подходами:

Implementation      Lines per second
python (default)           3,571,428
cin (default/native)         819,672
cin (no sync)             12,500,000
fgets                     14,285,714
wc (not fair comparison)  54,644,808

JJC 21 фев. 2012, в 01:41

Источник

10

Вы запускали свои тесты несколько раз? Возможно, есть проблема с кешем диска.
Vaughn Cato 21 фев. 2012, в 02:20
0

@VaughnCato Да, и на двух разных машинах.
JJC 21 фев. 2012, в 02:22
0

Попробуйте скопировать тестовый файл во второй отдельный файл, чтобы они кэшировались отдельно.
Russell Borogove 21 фев. 2012, в 02:33
6

@JJC: я вижу две возможности (при условии, что вы удалили проблему с кэшированием, предложенную Дэвидом): 1) производительность <iostream> отстой. Не в первый раз это происходит. 2) Python достаточно умен, чтобы не копировать данные в цикле for, потому что вы его не используете. Вы можете повторно протестировать, пытаясь использовать scanf и char[] . В качестве альтернативы вы можете попробовать переписать цикл так, чтобы что-то было сделано со строкой (например, сохранить 5-ю букву и объединить ее в результате).
J.N. 21 фев. 2012, в 02:35
3

Еще одна вещь, это своего рода простой тест, который на самом деле не отражает производительность языка N по сравнению с языком M. Python может иметь очень умную оптимизацию для того конкретного случая, который вы не получите при запуске полнофункционального приложения.
J.N. 21 фев. 2012, в 02:39
1

@JJC, вы, вероятно, должны использовать time.time() вместо datetime.datetime.now().seconds ; вы получите результаты с плавающей запятой и не сможете делить на ноль при вычислении LPS. Я получаю похожие результаты (Python примерно в 10 раз быстрее) на моей машине.
Russell Borogove 21 фев. 2012, в 02:43
0

@JN версия Python все еще намного быстрее, если я собираю символ из каждой строки.
Russell Borogove 21 фев. 2012, в 02:48
2

@JN Python определенно недостаточно умен, чтобы избежать копирования данных. Кроме того, файл должен быть прочитан, чтобы увидеть, где находятся новые строки
John La Rooy 21 фев. 2012, в 03:04
0

Насколько большие файлы? Если бы строки не были очень длинными, я бы сомневался, что это может быть проблемой кеширования. т.е. кеш не будет очищен / разбит между запусками
John La Rooy 21 фев. 2012, в 03:06
0

@gnibbler: есть две копии, и вы можете сохранить одну
J.N. 21 фев. 2012, в 03:07
0

Я получаю разницу в 3 раза, используя fscanf. Это странно, потому что в какой-то момент Python должен использовать базовый C API.
J.N. 21 фев. 2012, в 03:08
0

На самом деле, 2 раза при использовании файла большего размера (точность была слишком низкой с 1 сек).
J.N. 21 фев. 2012, в 03:14
0

Возможно ли, что виртуальная машина Python выполняет какое-то умное буферизованное чтение stdin при передаче в него файла, чтобы не приходилось выходить в кэш диска при каждом чтении одной строки?
brendanw 21 фев. 2012, в 03:14
11

Проблема в синхронизации с stdio - см. Мой ответ.
Vaughn Cato 21 фев. 2012, в 03:30
0

@brendanw, да, но также и C и C ++. Реализация C Python почти наверняка полагается на stdio для этого. В современной системе AFAIK задействовано много уровней кеширования.
Karl Knechtel 21 фев. 2012, в 03:39
14

Поскольку никто, кажется, не упомянул, почему вы получаете дополнительную строку с C ++: не проверяйте cin.eof() !! Поместите вызов getline в оператор if.
Xeo 21 фев. 2012, в 18:29
19

wc -l быстрый, потому что читает поток более чем по одной строке за раз (это может быть комбинация fread(stdin)/memchr('\n') ). Результаты Python в том же порядке, например, wc-l.py
jfs 27 фев. 2012, в 00:21
1

@JFSebastian Спасибо за этот фрагмент кода Python! Похоже, что wc использует safe_read, который является просто оболочкой для обычного чтения и читает 16k за раз. Изменив код Python для использования буфера 16 КБ вместо 32 КБ и запустив его на том же компьютере и тестовом файле, сокращение потребовалось 4 секунды (т.е. 25 000 000 LPS) Спасибо!
JJC 28 фев. 2012, в 00:26
0

Похожий вопрос: stackoverflow.com/questions/8310039/…
Matt Joiner 11 март 2012, в 10:18
0

Хороший пост. Но я просто хотел бы упомянуть, что проблему переполнения буфера с scanf можно решить, указав количество символов для чтения (для любого типа данных). Смотрите параметр ширины, упомянутый в ссылке . В качестве примера: char s [10]; Scanf ( "% 9s", с); // Это будет читать не более 9 символов из ввода. int x; зсапЕ ( "% 2d", & х); // Это будет читать двухзначное число из ввода. (только упоминание) Это может позаботиться о переполнении буфера. Также нельзя указывать динамическую ширину, но для преодоления этого можно просто сгенерировать
pareshverma91 11 март 2012, в 18:05
1

Ответ на вопрос «почему мой ввод / вывод медленный?» почти всегда "буферизация".
nibot 12 март 2012, в 14:46
2

крошечный, знаменитый вопрос! Если вы хотите получить производительность на скорости wc, вы можете сделать это: не вызывайте построчные функции, а готовьте двоичные блоки и проверяйте их по одному целому за раз, логически маскируя их, используя битовые маски XOR для символ новой строки. (это обычно приводит к меньшему количеству однобайтовых выборок). Кроме того, используйте встроенные функции stdio, чтобы указывать его буфер на тот, который вы выделяете. затем вы можете проверить это напрямую. есть больше вуду, если вы действительно хотите злоупотреблять stdio, так что вы даже не приблизились к достижению лимита, но вы, вероятно, сейчас находитесь на пределе диска, поэтому нет смысла злоупотреблять им
std''OrgnlDave 26 апр. 2012, в 04:24
0

@ std''OrgnlDave Спасибо, эти советы звучат многообещающе! Если вам случится иметь / написать / найти какой-нибудь простой пример кода, реализующий некоторые из них, и опубликовать его как ответ (или, по крайней мере, ссылку), я и будущие читатели этого вопроса были бы очень благодарны за ваше обучение. Ура!
JJC 26 апр. 2012, в 09:00
0

Для полноты, почему бы вам не добавить быструю версию Python и аналогичный код C ++ на диаграмму внизу? Вы также можете подумать о том, чтобы переместить диаграмму наверх, поскольку люди могут не найти ее в довольно длинном посте. Действительно интересное чтение!
Thomas Ahle 14 янв. 2014, в 08:46
0

В соответствии со stackoverflow.com/questions/21107131/… Вы можете ускорить свой код Python в два раза, просто извлекая его в функцию.
Eugene Krokhalev 14 янв. 2014, в 18:23
0

@ThomasAhle, на какую «быструю версию Python» вы ссылаетесь? Спасибо за предложения, я скопирую график наверх.
JJC 15 янв. 2014, в 16:38
0

@ JCC Я имел в виду тот, что из Edit 6
Thomas Ahle 16 янв. 2014, в 08:41
0

Кроме того, смотрите мой следующий вопрос о разделении строк в C ++ против Python ... похожая история скорости, где наивный подход медленнее в C ++! Здесь: stackoverflow.com/q/9378500/379037
JJC 27 янв. 2015, в 17:53
3

Это действительно очень познавательно. А также еще раз подчеркивают тот факт, что C ++ является мощным, но только тогда, когда его использование уделяется большое внимание.
v.oddou 05 авг. 2015, в 03:36
0

На вашем месте я бы посмотрел на функции mmap и memchr. Поскольку память не является проблемой, отобразите весь файл в вашей программе с помощью mmap, а затем обработайте, используя memchr, чтобы выяснить «пределы строки». А также очень полезно сказать ядру, что вы читаете последовательно
xryl669 14 сен. 2015, в 15:33
1

Вы также можете исправить цикл C ++. Этот дополнительный тест в цикле может быть дорогостоящим. while (getline(cin, input_line)){line_count++;}
Martin York 09 апр. 2018, в 16:14
0

fscanf и scanf не обязательно небезопасны, но их использование безопасно, поскольку вам нужно использовать %#s , где # на 1 меньше размера вашего буфера, а не только %s если вы не хотите рисковать переполнением буфера.
Justin C. B. 13 июнь 2018, в 13:55
1

@JJC Пожалуй, самым поучительным здесь является ваш результат, показывающий, насколько быстрее подход низкоуровневых fgets из базовой библиотеки C stdio, чем все, что вы кодировали в C ++. Теоретически возможно превзойти даже эту цифру с помощью крошечной пользовательской программы на C, которая итеративно превращает небуферизованные системные вызовы read в достаточно большой буфер BUFSIZE фиксированной длины или через эквивалентные системные вызовы mmap , а затем просматривает эти подсчеты с помощью новых строк а-ля for (char *cp = buf; *cp; cp++) count += *cp == "\n" , но вам, вероятно, все равно придется настроить BUFSIZE для вашей системы, как это уже сделал stdio.
tchrist 26 янв. 2019, в 13:33

Показать ещё 31 комментарий

Теги:

c++

python

benchmarking

readline

iostream

getline

12 ответов

153

Просто из любопытства я посмотрел, что происходит под капотом, и я использовал dtruss/strace для каждого теста.

C++

./a.out < in
Saw 6512403 lines in 8 seconds.  Crunch speed: 814050

syscalls sudo dtruss -c ./a.out < in

CALL                                        COUNT
__mac_syscall                                   1
<snip>
open                                            6
pread                                           8
mprotect                                       17
mmap                                           22
stat64                                         30
read_nocancel                               25958

Python

./a.py < in
Read 6512402 lines in 1 seconds. LPS: 6512402

syscalls sudo dtruss -c ./a.py < in

CALL                                        COUNT
__mac_syscall                                   1
<snip>
open                                            5
pread                                           8
mprotect                                       17
mmap                                           21
stat64                                         29

2mia 11 март 2012, в 18:17

113

Я здесь на несколько лет позади, но:

В "Редактировании 4/5/6" исходного поста вы используете конструкцию:

$ /usr/bin/time cat big_file | program_to_benchmark

Это неправильно по нескольким причинам:

Вы на самом деле рассчитываете выполнение "кота", а не своего эталона. Использование ЦП 'user' и 'sys', отображаемое в 'time', - это использование 'cat', а не вашей тестовой программы. Хуже того, "реальное" время также не обязательно точное. В зависимости от реализации 'cat' и конвейеров в вашей локальной ОС, вполне возможно, что 'cat' записывает окончательный гигантский буфер и завершает работу задолго до того, как процесс чтения завершит свою работу.
Использование "кошка" не является необходимым и на самом деле контрпродуктивно; вы добавляете движущиеся части. Если вы работали в достаточно старой системе (т.е. С одним ЦП и - в некоторых поколениях компьютеров - вводом-выводом быстрее, чем ЦП) - сам факт запуска "кошки" может существенно повлиять на результаты. Вы также подвержены любой буферизации ввода и вывода и другой обработке 'cat'. (Это, вероятно, принесло бы вам награду "Бесполезное использование кошки", если бы я был Рэндал Шварц.

Лучшая конструкция будет:

$ /usr/bin/time program_to_benchmark < big_file

В этом утверждении это оболочка, которая открывает big_file, передавая его вашей программе (ну, на самом деле, "time", которая затем выполняет вашу программу как подпроцесс) в качестве уже открытого дескриптора файла. Ответственность за чтение файла лежит исключительно на программе, которую вы пытаетесь сравнить. Это дает вам реальное прочтение его производительности без ложных осложнений.

Я упомяну два возможных, но на самом деле неправильных, "исправления", которые также могут быть рассмотрены (но я "нумерую" их по-разному, поскольку это не те вещи, которые были неверны в оригинальном посте):

О. Вы можете "исправить" это, синхронизируя только вашу программу:

$ cat big_file | /usr/bin/time program_to_benchmark

Б. или путем синхронизации всего трубопровода:

$ /usr/bin/time sh -c 'cat big_file | program_to_benchmark'

Это неправильно по тем же причинам, что и №2: они все еще используют "кошку" без необходимости. Я упоминаю их по нескольким причинам:

они более "естественны" для людей, которым не совсем удобны средства перенаправления ввода/вывода оболочки POSIX
могут быть случаи, когда требуется 'cat' (например, для чтения файла требуется какая-то привилегия для доступа, и вы не хотите предоставлять эту привилегию программе для сравнительного анализа: 'sudo cat/dev/sda |/usr/bin/time my_compression_test --no-output ')
на практике, на современных машинах добавленная "кошка" в конвейере, вероятно, не имеет реального значения

Но я говорю это последнее с некоторой нерешительностью. Если мы рассмотрим последний результат в "Редактировать 5" -

$ /usr/bin/time cat temp_big_file | wc -l
0.01user 1.34system 0:01.83elapsed 74%CPU ...

- это утверждает, что "кошка" потребляла 74% ЦП во время теста; и действительно, 1,34/1,83 составляет примерно 74%. Возможно пробег:

$ /usr/bin/time wc -l < temp_big_file

заняло бы только оставшиеся 49 секунд! Вероятно, нет: здесь 'cat' должен был платить за системные вызовы read() (или эквивалентные), которые передавали файл с 'диска' (фактически буферный кеш), а также за канал, записывающий их для доставки их в 'wc'. Правильный тест все равно должен был бы выполнять эти вызовы read(); только вызовы write-to-pipe и read-from-pipe были бы сохранены, и они должны быть довольно дешевыми.

Тем не менее, я предсказываю, что вы сможете измерить разницу между 'cat file | wc -l 'и' wc -l <file 'и найдите заметную (двузначный процент) разницу. Каждый из более медленных тестов будет платить аналогичный штраф в абсолютном времени; что, однако, составило бы меньшую долю его большего общего времени.

На самом деле я провел несколько быстрых тестов с мусорным файлом объемом 1,5 гигабайта в системе Linux 3.13 (Ubuntu 14.04), получив эти результаты (на самом деле это результаты "best of 3"; после заполнения кеша, конечно):

$ time wc -l < /tmp/junk
real 0.280s user 0.156s sys 0.124s (total cpu 0.280s)
$ time cat /tmp/junk | wc -l
real 0.407s user 0.157s sys 0.618s (total cpu 0.775s)
$ time sh -c 'cat /tmp/junk | wc -l'
real 0.411s user 0.118s sys 0.660s (total cpu 0.778s)

Обратите внимание, что результаты двух конвейеров утверждают, что они заняли больше процессорного времени (user + sys), чем в реальном времени. Это потому, что я использую встроенную в оболочку команду "время", которая осведомлена о конвейере; и я нахожусь на многоядерной машине, где отдельные процессы в конвейере могут использовать отдельные ядра, накапливая процессорное время быстрее, чем в реальном времени. Используя /usr/bin/time, я вижу меньше процессорного времени, чем в реальном времени, - показывая, что он может рассчитывать только один элемент конвейера, переданный ему в его командной строке. Кроме того, вывод оболочки дает миллисекунды, в то время как /usr/bin/time дает только сотни секунд.

Таким образом, на уровне эффективности "wc -l" "кошка" имеет огромное значение: 409/283 = 1.453 или на 45.3% больше в реальном времени и 775/280 = 2.768, или колоссальные 177% больше используемого процессора! На моем случайном тестовом боксе.

Я должен добавить, что между этими стилями тестирования есть по крайней мере еще одно существенное различие, и я не могу сказать, является ли это преимуществом или недостатком; Вы должны решить это самостоятельно:

Когда вы запускаете 'cat big_file |/usr/bin/time my_program ', ваша программа получает входные данные из конвейера точно в темпе, который посылает' cat ', и кусками не больше, чем записано' cat '.

Когда вы запускаете '/usr/bin/time my_program <big_file', ваша программа получает дескриптор открытого файла к реальному файлу. Ваша программа - или во многих случаях библиотеки ввода/вывода того языка, на котором она была написана, - может выполнять различные действия при представлении файлового дескриптора, ссылающегося на обычный файл. Он может использовать mmap (2) для отображения входного файла в его адресное пространство вместо использования явных системных вызовов read (2). Эти различия могут оказать гораздо большее влияние на результаты теста, чем небольшая стоимость запуска двоичного файла 'cat'.

Конечно, это интересный результат теста, если одна и та же программа работает существенно по-разному в двух случаях. Это показывает, что программа или ее библиотеки ввода/вывода действительно делают что-то интересное, например, использование mmap(). Таким образом, на практике может быть полезно выполнить тесты в обоих направлениях; возможно, не учитывая результат "кошка", чтобы "простить" стоимость запуска самой "кошки".

Bela Lubkin 06 май 2017, в 22:16

23

Вау, это было довольно проницательно! Хотя я знал, что cat не нужен для ввода данных в stdin программ и что перенаправление <shell является предпочтительным, я обычно придерживался cat из-за потока данных слева направо, который прежний метод сохраняет визуально когда я рассуждаю о трубопроводах. Различия в производительности в таких случаях я считаю незначительными. Но я очень ценю, что ты нас обучил, Бела.
JJC 09 май 2017, в 01:16
5

Я воздержусь от откровения лично, так как это не касается первоначального вопроса (обратите внимание, что использование кошки постоянно в конкурирующих примерах). Но, опять же, спасибо за интеллектуальную дискуссию о плюсах и минусах * nix.
JJC 09 май 2017, в 01:18
10

Перенаправление разбирается из командной строки оболочки на ранней стадии, что позволяет вам выполнить одно из следующих действий, если оно дает более приятный вид потока слева направо: $ < big_file time my_program $ time < big_file my_program Это должно работать в любой оболочке POSIX (т.е. не `csh`, и я не уверен насчет экзотики типа` rc`:)
Bela Lubkin 10 май 2017, в 21:55
5

Опять же, помимо, возможно, неинтересной инкрементальной разницы в производительности из-за одновременного запуска двоичного файла `cat`, вы отказываетесь от возможности тестируемой программы иметь возможность mmap () входного файла. Это может иметь огромное значение в результатах. Это верно, даже если вы сами написали тесты на разных языках, используя только их идиому «строки ввода из файла». Это зависит от подробной работы их различных библиотек ввода / вывода.
Bela Lubkin 10 май 2017, в 22:01
1

Не забывайте, что вы все равно можете выполнять перенаправление слева направо: <file program делает почти то же самое (с упомянутыми предостережениями, упомянутыми JJC), что и cat file | program
Justin C. B. 13 июнь 2018, в 13:50
0

Примечание: встроенное time Bash измеряет весь конвейер, а не первую программу. time seq 2 | while read; do sleep 1; done распечаток 2 сек, /usr/bin/time seq 2 | while read; do sleep 1; done отпечатки 0 сек.
folkol 24 нояб. 2018, в 09:03
1

@folkol - да, << Обратите внимание, что два конвейера показывают [показывают] больше ЦП [чем] в реальном времени [используя] (Bash) встроенную команду «время»; ... / usr / bin / time ... может указывать только один элемент конвейера, переданный ему в его командной строке. >>»
Bela Lubkin 26 нояб. 2018, в 22:06

Показать ещё 5 комментариев

84

Я воспроизвел исходный результат на своем компьютере с помощью g++ на Mac.

Добавление следующих инструкций в версию С++ перед циклом while приводит его в строку с Python:

std::ios_base::sync_with_stdio(false);
char buffer[1048576];
std::cin.rdbuf()->pubsetbuf(buffer, sizeof(buffer));

sync_with_stdio улучшила скорость до 2 секунд, а установка большего буфера уменьшила ее до 1 секунды.

karunski 21 фев. 2012, в 04:21

5

Вы можете попробовать разные размеры буфера, чтобы получить больше полезной информации. Я подозреваю, что вы увидите быстро убывающую отдачу.
Karl Knechtel 21 фев. 2012, в 03:37
8

Я был слишком поспешен в своем ответе; установка размера буфера в значение, отличное от значения по умолчанию, не дает заметной разницы.
karunski 21 фев. 2012, в 03:51
102

Я бы также не стал устанавливать буфер размером 1 МБ в стеке. Это может привести к переполнению стека (хотя я думаю, что это хорошее место для обсуждения!)
Matthieu M. 21 фев. 2012, в 07:30
11

Matthieu, Mac по умолчанию использует стек процессов 8 МБ. Linux использует 4 МБ на поток по умолчанию, IIRC. 1 МБ - не такая уж большая проблема для программы, которая преобразует ввод с относительно малой глубиной стека. Что еще более важно, std :: cin уничтожит стек, если буфер выйдет из области видимости.
SEK 14 янв. 2014, в 09:28
22

@SEK Размер стека по умолчанию для Windows составляет 1 МБ.
Étienne 15 март 2014, в 02:11
1

Следует отметить, что влияние pubsetbuf на буфер cin не стандартизировано. Реализация может действительно использовать предоставленный буфер, игнорировать его (который будет унаследованным действием по умолчанию от std :: basic_streambuf) или, возможно, даже делать что-то еще. Смотрите также stackoverflow.com/questions/12481463/…
Arne Vogel 09 июнь 2015, в 18:10
1

Чтобы выделить @SEK 'более важно': comment: если буфер находится в стеке, вы не можете позволить функции возвращаться до тех пор, пока файл не будет закрыт или использование буфера не будет прекращено иным образом.
greggo 22 сен. 2017, в 22:10

Показать ещё 5 комментариев

35

getline, stream scanf, scanf, могут быть удобны, если вам не важно время загрузки файла или если вы загружаете небольшие текстовые файлы. Но если вам важна производительность, вам нужно просто поместить весь файл в память (при условии, что он уместится).

Вот пример:

//open file in binary mode
std::fstream file( filename, std::ios::in|::std::ios::binary );
if( !file ) return NULL;

//read the size...
file.seekg(0, std::ios::end);
size_t length = (size_t)file.tellg();
file.seekg(0, std::ios::beg);

//read into memory buffer, then close it.
char *filebuf = new char[length+1];
file.read(filebuf, length);
filebuf[length] = '\0'; //make it null-terminated
file.close();

Если вы хотите, вы можете обернуть поток вокруг этого буфера для более удобного доступа, например так:

std::istrstream header(&filebuf[0], length);

Кроме того, если вы контролируете файл, рассмотрите возможность использования плоского двоичного формата данных вместо текста. Надежнее читать и писать, потому что вам не нужно иметь дело со всеми неопределенностями пробелов. Он также меньше и намного быстрее разбирается.

Stu 14 март 2012, в 00:43

16

Кстати, причина, по которой счетчик строк для версии С++ больше, чем счетчик для версии Python, заключается в том, что флаг eof устанавливается только тогда, когда делается попытка прочитать за пределами eof. Таким образом, правильный цикл будет:

while (cin) {
    getline(cin, input_line);

    if (!cin.eof())
        line_count++;
};

Gregg 11 март 2012, в 17:21

65

Действительно правильный цикл будет таким: while (getline(cin, input_line)) line_count++;
Jonathan Wakely 05 май 2012, в 14:42
0

@JonathanWakely Я знаю, что я довольно поздно, но используйте ++line_count; а не line_count++; ,
val 11 фев. 2019, в 15:22
1

@val, если это что-то меняет, у вашего компилятора есть ошибка. Переменная - это long , и компилятор вполне способен сказать, что результат приращения не используется. Если он не генерирует идентичный код для постинкремента и преинкремента, он не работает.
Jonathan Wakely 11 фев. 2019, в 16:31

Показать ещё 1 комментарий

15

Следующий код был быстрее для меня, чем другой код, размещенный здесь до сих пор: (Visual Studio 2013, 64-битный, 500 МБ файл с длиной строки равномерно в [0, 1000)).

const int buffer_size = 500 * 1024;  // Too large/small buffer is not good.
std::vector<char> buffer(buffer_size);
int size;
while ((size = fread(buffer.data(), sizeof(char), buffer_size, stdin)) > 0) {
    line_count += count_if(buffer.begin(), buffer.begin() + size, [](char ch) { return ch == '\n'; });
}

Это превосходит все мои попытки Python более чем в 2 раза.

Petter 23 апр. 2014, в 15:05

0

Вы можете получить даже быстрее, чем это с крошечной пользовательской, но совершенно простой C-программой, которая итеративно превращает небуферизованные системные BUFSIZE read в статический буфер длины BUFSIZE или через эквивалентные соответствующие системные BUFSIZE mmap , а затем перебирает этот буфер, считая символы новой строки for (char *cp = buf; *cp; cp++) count += *cp == "\n" . Вы должны будете настроить BUFSIZE для вашей системы, однако, что stdio уже сделало для вас. Но этот цикл for должен компилироваться в потрясающе быстрые инструкции на языке ассемблера для аппаратного обеспечения вашего компьютера.
tchrist 26 янв. 2019, в 13:42
0

count_if и лямбда также компилируются в «потрясающе быстро-быстрый ассемблер».
Petter 26 янв. 2019, в 17:15

13

В вашем втором примере (с помощью scanf()) причина, по которой это еще медленнее, может быть вызвана тем, что scanf ( "% s" ) анализирует строку и ищет любое пространство char (пробел, табуляция, новая строка).

Кроме того, да, CPython делает некоторое кэширование, чтобы избежать чтения жесткого диска.

davinchi 21 фев. 2012, в 05:09

11

Первый элемент ответа: <iostream> медленный. Проклятье медленно. Я получаю огромное повышение производительности с помощью scanf, как показано ниже, но он все еще в два раза медленнее, чем Python.

#include <iostream>
#include <time.h>
#include <cstdio>

using namespace std;

int main() {
    char buffer[10000];
    long line_count = 0;
    time_t start = time(NULL);
    int sec;
    int lps;

    int read = 1;
    while(read > 0) {
        read = scanf("%s", buffer);
        line_count++;
    };
    sec = (int) time(NULL) - start;
    line_count--;
    cerr << "Saw " << line_count << " lines in " << sec << " seconds." ;
    if (sec > 0) {
        lps = line_count / sec;
        cerr << "  Crunch speed: " << lps << endl;
    } 
    else
        cerr << endl;
    return 0;
}

J.N. 21 фев. 2012, в 05:03

0

Я не видел этот пост, пока я не сделал свое третье редактирование, но еще раз спасибо за ваше предложение. Странно, но теперь у меня нет двухкратного попадания против python со строкой scanf в edit3 выше. Я пользуюсь 2.7, кстати.
JJC 21 фев. 2012, в 03:32
9

После исправления версии c ++ эта версия stdio значительно медленнее, чем версия c ++ iostreams на моем компьютере. (3 секунды против 1 секунды)
karunski 21 фев. 2012, в 03:39
4

Тоже самое. Синхронизация со stdio была хитростью.
J.N. 21 фев. 2012, в 04:08
1

Fgets еще быстрее; пожалуйста см. правку 5 выше. Благодарю.
JJC 22 фев. 2012, в 11:49

Показать ещё 2 комментария

10

Хорошо, я вижу, что в вашем втором решении вы переключились с cin на scanf, что было первым предложением, которое я собирался сделать вам (cin - sloooooooooooow). Теперь, если вы переключитесь с scanf на fgets, вы увидите еще одно повышение производительности: fgets - это самая быстрая функция С++ для ввода строки.

Кстати, не знал об этой синхронизации, хорошо. Но вы должны попробовать fgets.

José Ernesto Lara Rodríguez 22 фев. 2012, в 03:29

1

За исключением того, что fgets будет неправильным (с точки зрения количества строк и с точки зрения разделения строк по циклам, если вам действительно нужно их использовать) для достаточно больших строк, без дополнительных проверок на неполные строки (и попытка компенсировать это включает в себя выделение излишне больших буферы, где std::getline обрабатывает перераспределение для плавного соответствия с фактическим вводом). Быстро и неправильно легко, но почти всегда стоит использовать «немного медленнее, но правильно», что отключает sync_with_stdio .
ShadowRanger 14 сен. 2018, в 15:04

4

Хорошая почта. Но я хотел бы упомянуть, что проблему переполнения буфера с помощью scanf можно обработать, указав количество символов для чтения (для любого типа данных).

См. параметр ширины, упомянутый в ссылка.

В качестве примера:

    char s[10];
    scanf("%9s",s);    //This will read at most 9 characters from the input.

    int x;
    scanf("%2d",&x);   //This will read a 2 digit number from the input. (just mentioning)

Это может привести к переполнению буфера. Также динамическая ширина не может быть указана, но для преодоления этого можно просто сгенерировать строку формата во время выполнения (хотя это предотвратит проверку scanf для проверки работоспособности при компиляции).

pareshverma91 03 дек. 2017, в 03:57

-3

Когда программа С++ должна была читать строки, она должна была прочитать файл с диска. Когда вы запускаете Python, файл уже кэшируется в памяти. Вероятно, поэтому программа Python оказалась быстрее.

Кроме того, ваша С++-программа всегда будет подсчитывать дополнительную строку, потому что вы не проверяете, удалось ли getline превзойти счет. Ваша проверка eof является ненужной и неправильной (потому что после неудачи вы ошибаетесь).

David Schwartz 03 дек. 2017, в 04:32

Ещё вопросы

Вы запускали свои тесты несколько раз? Возможно, есть проблема с кешем диска.
@VaughnCato Да, и на двух разных машинах.
Попробуйте скопировать тестовый файл во второй отдельный файл, чтобы они кэшировались отдельно.
@JJC: я вижу две возможности (при условии, что вы удалили проблему с кэшированием, предложенную Дэвидом): 1) производительность <iostream> отстой. Не в первый раз это происходит. 2) Python достаточно умен, чтобы не копировать данные в цикле for, потому что вы его не используете. Вы можете повторно протестировать, пытаясь использовать scanf и char[] . В качестве альтернативы вы можете попробовать переписать цикл так, чтобы что-то было сделано со строкой (например, сохранить 5-ю букву и объединить ее в результате).
Еще одна вещь, это своего рода простой тест, который на самом деле не отражает производительность языка N по сравнению с языком M. Python может иметь очень умную оптимизацию для того конкретного случая, который вы не получите при запуске полнофункционального приложения.
@JJC, вы, вероятно, должны использовать time.time() вместо datetime.datetime.now().seconds ; вы получите результаты с плавающей запятой и не сможете делить на ноль при вычислении LPS. Я получаю похожие результаты (Python примерно в 10 раз быстрее) на моей машине.
@JN версия Python все еще намного быстрее, если я собираю символ из каждой строки.
@JN Python определенно недостаточно умен, чтобы избежать копирования данных. Кроме того, файл должен быть прочитан, чтобы увидеть, где находятся новые строки
Насколько большие файлы? Если бы строки не были очень длинными, я бы сомневался, что это может быть проблемой кеширования. т.е. кеш не будет очищен / разбит между запусками
@gnibbler: есть две копии, и вы можете сохранить одну
Я получаю разницу в 3 раза, используя fscanf. Это странно, потому что в какой-то момент Python должен использовать базовый C API.
На самом деле, 2 раза при использовании файла большего размера (точность была слишком низкой с 1 сек).
Возможно ли, что виртуальная машина Python выполняет какое-то умное буферизованное чтение stdin при передаче в него файла, чтобы не приходилось выходить в кэш диска при каждом чтении одной строки?
Проблема в синхронизации с stdio - см. Мой ответ.
@brendanw, да, но также и C и C ++. Реализация C Python почти наверняка полагается на stdio для этого. В современной системе AFAIK задействовано много уровней кеширования.
Поскольку никто, кажется, не упомянул, почему вы получаете дополнительную строку с C ++: не проверяйте cin.eof() !! Поместите вызов getline в оператор if.
wc -l быстрый, потому что читает поток более чем по одной строке за раз (это может быть комбинация fread(stdin)/memchr('\n') ). Результаты Python в том же порядке, например, wc-l.py
@JFSebastian Спасибо за этот фрагмент кода Python! Похоже, что wc использует safe_read, который является просто оболочкой для обычного чтения и читает 16k за раз. Изменив код Python для использования буфера 16 КБ вместо 32 КБ и запустив его на том же компьютере и тестовом файле, сокращение потребовалось 4 секунды (т.е. 25 000 000 LPS) Спасибо!
Похожий вопрос: stackoverflow.com/questions/8310039/…
Хороший пост. Но я просто хотел бы упомянуть, что проблему переполнения буфера с scanf можно решить, указав количество символов для чтения (для любого типа данных). Смотрите параметр ширины, упомянутый в ссылке . В качестве примера: char s [10]; Scanf ( "% 9s", с); // Это будет читать не более 9 символов из ввода. int x; зсапЕ ( "% 2d", & х); // Это будет читать двухзначное число из ввода. (только упоминание) Это может позаботиться о переполнении буфера. Также нельзя указывать динамическую ширину, но для преодоления этого можно просто сгенерировать
Ответ на вопрос «почему мой ввод / вывод медленный?» почти всегда "буферизация".
крошечный, знаменитый вопрос! Если вы хотите получить производительность на скорости wc, вы можете сделать это: не вызывайте построчные функции, а готовьте двоичные блоки и проверяйте их по одному целому за раз, логически маскируя их, используя битовые маски XOR для символ новой строки. (это обычно приводит к меньшему количеству однобайтовых выборок). Кроме того, используйте встроенные функции stdio, чтобы указывать его буфер на тот, который вы выделяете. затем вы можете проверить это напрямую. есть больше вуду, если вы действительно хотите злоупотреблять stdio, так что вы даже не приблизились к достижению лимита, но вы, вероятно, сейчас находитесь на пределе диска, поэтому нет смысла злоупотреблять им
@ std''OrgnlDave Спасибо, эти советы звучат многообещающе! Если вам случится иметь / написать / найти какой-нибудь простой пример кода, реализующий некоторые из них, и опубликовать его как ответ (или, по крайней мере, ссылку), я и будущие читатели этого вопроса были бы очень благодарны за ваше обучение. Ура!
Для полноты, почему бы вам не добавить быструю версию Python и аналогичный код C ++ на диаграмму внизу? Вы также можете подумать о том, чтобы переместить диаграмму наверх, поскольку люди могут не найти ее в довольно длинном посте. Действительно интересное чтение!
В соответствии со stackoverflow.com/questions/21107131/… Вы можете ускорить свой код Python в два раза, просто извлекая его в функцию.
@ThomasAhle, на какую «быструю версию Python» вы ссылаетесь? Спасибо за предложения, я скопирую график наверх.
Кроме того, смотрите мой следующий вопрос о разделении строк в C ++ против Python ... похожая история скорости, где наивный подход медленнее в C ++! Здесь: stackoverflow.com/q/9378500/379037
Это действительно очень познавательно. А также еще раз подчеркивают тот факт, что C ++ является мощным, но только тогда, когда его использование уделяется большое внимание.
На вашем месте я бы посмотрел на функции mmap и memchr. Поскольку память не является проблемой, отобразите весь файл в вашей программе с помощью mmap, а затем обработайте, используя memchr, чтобы выяснить «пределы строки». А также очень полезно сказать ядру, что вы читаете последовательно
Вы также можете исправить цикл C ++. Этот дополнительный тест в цикле может быть дорогостоящим. while (getline(cin, input_line)){line_count++;}
fscanf и scanf не обязательно небезопасны, но их использование безопасно, поскольку вам нужно использовать %#s , где # на 1 меньше размера вашего буфера, а не только %s если вы не хотите рисковать переполнением буфера.
@JJC Пожалуй, самым поучительным здесь является ваш результат, показывающий, насколько быстрее подход низкоуровневых fgets из базовой библиотеки C stdio, чем все, что вы кодировали в C ++. Теоретически возможно превзойти даже эту цифру с помощью крошечной пользовательской программы на C, которая итеративно превращает небуферизованные системные вызовы read в достаточно большой буфер BUFSIZE фиксированной длины или через эквивалентные системные вызовы mmap , а затем просматривает эти подсчеты с помощью новых строк а-ля for (char *cp = buf; *cp; cp++) count += *cp == "\n" , но вам, вероятно, все равно придется настроить BUFSIZE для вашей системы, как это уже сделал stdio.
Вау, это было довольно проницательно! Хотя я знал, что cat не нужен для ввода данных в stdin программ и что перенаправление <shell является предпочтительным, я обычно придерживался cat из-за потока данных слева направо, который прежний метод сохраняет визуально когда я рассуждаю о трубопроводах. Различия в производительности в таких случаях я считаю незначительными. Но я очень ценю, что ты нас обучил, Бела.
Я воздержусь от откровения лично, так как это не касается первоначального вопроса (обратите внимание, что использование кошки постоянно в конкурирующих примерах). Но, опять же, спасибо за интеллектуальную дискуссию о плюсах и минусах * nix.
Перенаправление разбирается из командной строки оболочки на ранней стадии, что позволяет вам выполнить одно из следующих действий, если оно дает более приятный вид потока слева направо: $ < big_file time my_program $ time < big_file my_program Это должно работать в любой оболочке POSIX (т.е. не `csh`, и я не уверен насчет экзотики типа` rc`:)
Опять же, помимо, возможно, неинтересной инкрементальной разницы в производительности из-за одновременного запуска двоичного файла `cat`, вы отказываетесь от возможности тестируемой программы иметь возможность mmap () входного файла. Это может иметь огромное значение в результатах. Это верно, даже если вы сами написали тесты на разных языках, используя только их идиому «строки ввода из файла». Это зависит от подробной работы их различных библиотек ввода / вывода.
Не забывайте, что вы все равно можете выполнять перенаправление слева направо: <file program делает почти то же самое (с упомянутыми предостережениями, упомянутыми JJC), что и cat file | program
Примечание: встроенное time Bash измеряет весь конвейер, а не первую программу. time seq 2 | while read; do sleep 1; done распечаток 2 сек, /usr/bin/time seq 2 | while read; do sleep 1; done отпечатки 0 сек.
@folkol - да, << Обратите внимание, что два конвейера показывают [показывают] больше ЦП [чем] в реальном времени [используя] (Bash) встроенную команду «время»; ... / usr / bin / time ... может указывать только один элемент конвейера, переданный ему в его командной строке. >>»
Вы можете попробовать разные размеры буфера, чтобы получить больше полезной информации. Я подозреваю, что вы увидите быстро убывающую отдачу.
Я был слишком поспешен в своем ответе; установка размера буфера в значение, отличное от значения по умолчанию, не дает заметной разницы.
Я бы также не стал устанавливать буфер размером 1 МБ в стеке. Это может привести к переполнению стека (хотя я думаю, что это хорошее место для обсуждения!)
Matthieu, Mac по умолчанию использует стек процессов 8 МБ. Linux использует 4 МБ на поток по умолчанию, IIRC. 1 МБ - не такая уж большая проблема для программы, которая преобразует ввод с относительно малой глубиной стека. Что еще более важно, std :: cin уничтожит стек, если буфер выйдет из области видимости.
@SEK Размер стека по умолчанию для Windows составляет 1 МБ.
Следует отметить, что влияние pubsetbuf на буфер cin не стандартизировано. Реализация может действительно использовать предоставленный буфер, игнорировать его (который будет унаследованным действием по умолчанию от std :: basic_streambuf) или, возможно, даже делать что-то еще. Смотрите также stackoverflow.com/questions/12481463/…
Чтобы выделить @SEK 'более важно': comment: если буфер находится в стеке, вы не можете позволить функции возвращаться до тех пор, пока файл не будет закрыт или использование буфера не будет прекращено иным образом.
Действительно правильный цикл будет таким: while (getline(cin, input_line)) line_count++;
@JonathanWakely Я знаю, что я довольно поздно, но используйте ++line_count; а не line_count++; ,
@val, если это что-то меняет, у вашего компилятора есть ошибка. Переменная - это long , и компилятор вполне способен сказать, что результат приращения не используется. Если он не генерирует идентичный код для постинкремента и преинкремента, он не работает.
Вы можете получить даже быстрее, чем это с крошечной пользовательской, но совершенно простой C-программой, которая итеративно превращает небуферизованные системные BUFSIZE read в статический буфер длины BUFSIZE или через эквивалентные соответствующие системные BUFSIZE mmap , а затем перебирает этот буфер, считая символы новой строки for (char *cp = buf; *cp; cp++) count += *cp == "\n" . Вы должны будете настроить BUFSIZE для вашей системы, однако, что stdio уже сделало для вас. Но этот цикл for должен компилироваться в потрясающе быстрые инструкции на языке ассемблера для аппаратного обеспечения вашего компьютера.
count_if и лямбда также компилируются в «потрясающе быстро-быстрый ассемблер».
Я не видел этот пост, пока я не сделал свое третье редактирование, но еще раз спасибо за ваше предложение. Странно, но теперь у меня нет двухкратного попадания против python со строкой scanf в edit3 выше. Я пользуюсь 2.7, кстати.
После исправления версии c ++ эта версия stdio значительно медленнее, чем версия c ++ iostreams на моем компьютере. (3 секунды против 1 секунды)
Тоже самое. Синхронизация со stdio была хитростью.
Fgets еще быстрее; пожалуйста см. правку 5 выше. Благодарю.
За исключением того, что fgets будет неправильным (с точки зрения количества строк и с точки зрения разделения строк по циклам, если вам действительно нужно их использовать) для достаточно больших строк, без дополнительных проверок на неполные строки (и попытка компенсировать это включает в себя выделение излишне больших буферы, где std::getline обрабатывает перераспределение для плавного соответствия с фактическим вводом). Быстро и неправильно легко, но почти всегда стоит использовать «немного медленнее, но правильно», что отключает sync_with_stdio .

Vaughn Cato · Accepted Answer · 2012-02-21T03-40-00.000Z

По умолчанию, cin синхронизируется с stdio, что приводит к тому, что он не допускает буферизации ввода. Если вы добавите это в начало своей основной, вы должны увидеть гораздо лучшую производительность:

std::ios_base::sync_with_stdio(false);

Обычно, когда входной поток буферизуется, вместо того, чтобы читать один символ за раз, поток будет считываться в больших кусках. Это уменьшает количество системных вызовов, которые обычно относительно дороги. Однако, поскольку FILE* на основе stdio и iostreams часто имеют отдельные реализации и, следовательно, отдельные буферы, это может привести к проблеме, если оба они используются вместе. Например:

int myvalue1;
cin >> myvalue1;
int myvalue2;
scanf("%d",&myvalue2);

Если больше ввода было прочитано cin, чем было на самом деле, то второе целочисленное значение не было бы доступно для функции scanf, которая имеет свой собственный независимый буфер. Это приведет к неожиданным результатам.

Чтобы избежать этого, по умолчанию потоки синхронизируются с stdio. Один из распространенных способов достижения этого состоит в том, чтобы cin считывать каждый символ по мере необходимости с помощью stdio. К сожалению, это приводит к большим накладным расходам. Для небольшого количества входных данных это не большая проблема, но когда вы читаете миллионы строк, оценка производительности значительна.

К счастью, разработчики библиотеки решили, что вы также можете отключить эту функцию, чтобы получить улучшенную производительность, если вы знали, что делаете, поэтому они предоставили sync_with_stdio.

Это должно быть наверху. Это почти наверняка правильно. Ответ не может заключаться в замене read на вызов fscanf , потому что это просто не делает так много работы, как Python. Python должен выделять память для строки, возможно, несколько раз, так как существующее распределение считается неадекватным - точно так же, как подход C ++ с std::string . Эта задача почти наверняка связана с вводом / выводом, и слишком много FUD обходится вокруг стоимости создания объектов std::string в C ++ или использования <iostream> само по себе.
Да, добавление этой строки сразу над моим исходным циклом while ускорило код, чтобы превзойти даже Python. Я собираюсь опубликовать результаты в качестве окончательного редактирования. Еще раз спасибо!
@ VaughnCato Оказывается, fgets еще быстрее, см. Мой Edit 5. Тем не менее, ваше решение очень полезно, особенно. когда нужно использовать cin и записать в строковый объект, например, в случаях, когда одна строка иногда может быть намного длиннее, чем ожидалось, и когда маршрут fgets -> char buffer [MAXLINE] приведет к усечению. Благодарю.
Как насчет вывода / печати? потому что я чувствую, что счет тоже медленный, это то же самое?
Да, это на самом деле относится также к cout, cerr и clog.
Чтобы сделать cout, cin, cerr и clog быстрее, сделайте это следующим образом std :: ios_base :: sync_with_stdio (false);
Рад, что столкнулся с этим Q & A. Просто помните, что если вы используете решение cin.sync_with_stdio (false), никакая другая часть вашей программы не должна читать из stdin! Отличная статья о поточной синхронизации может быть найдена в drdobbs.com/184401305
Я с удовольствием сожгу один из моих ежедневных голосов за это, и я даже не прибыл сюда на поиски, просто увидел его в списке, возможно, связанном с совершенно произвольным вопросом. Это невероятно полезно для людей, которые делают чувствительный к скорости ввод cin и хотят получить преимущества буферизации. Большое спасибо, Вон. Потрясающий ответ.
Обратите внимание, что sync_with_stdio() является статической функцией-членом, и вызов этой функции для любого объекта потока (например, cin ) включает или отключает синхронизацию для всех стандартных объектов iostream.
@gjpc Неверно; если мое понимание синхронизации правильное, вы все равно можете делать то, что хотите, если это зависит от std::cin.rdbuf() . Вы просто не можете использовать стандартный stdin cstdio.