как читать из большого текстового файла в массив с ++

Question

как читать из большого текстового файла в массив с ++

0

Я пытаюсь прочитать из очень большого текстового файла с двумя столбцами, это веб-граф, что-то вроде этого: (кроме 40 миллионов строк).

1 2

1 3

2 1...

поэтому я хотел прочитать из txt файла в myArray [mysize] [2], и я использовал код:

ifstream file("web-graph.txt");
if(file.is_open())
{
    for(int i = 0; i < mysize; i++)
    {
        file >> myArray[i][0];          
        file >> myArray[i][1];
    }
}

проблема в том, что для чтения такого большого файла требуется много времени. так есть ли другой способ прочитать из файла, который не занимает много времени?

S_M 21 нояб. 2013, в 15:05

Источник

0

На какой операционной системе? С каким компилятором? Как вы скомпилировали свой код (с какими флагами оптимизации)? Рассматривали ли вы использование простого C с <stdio.h> (в некоторых системах это может быть немного быстрее). Ваш код работает намного медленнее, чем, например, утилита wc (count)?
Basile Starynkevitch 21 нояб. 2013, в 13:14
0

Просто предложение: если ваши данные не нуждаются в хранении в непрерывном блоке памяти (например, в пуле памяти), избегайте использования массива и используйте вместо него вектор .
jrd1 21 нояб. 2013, в 13:15
0

@ jrd1 в чем именно разница? И, OP, вам нужно все это в памяти сразу? Каков возможный диапазон этих целых чисел (я полагаю, вы храните их как целые числа)?
Useless 21 нояб. 2013, в 13:16
0

@ jrd1: я не могу понять, почему вы считаете, что использование std::vector будет быстрее, чем простой старый массив ...
Basile Starynkevitch 21 нояб. 2013, в 13:17
0

@ jrd1 что значит "очень смежные"? Либо, как массив или вектор, либо нет, как deque.
doctorlove 21 нояб. 2013, в 13:18
0

@BasileStarynkevitch: я никогда не говорил, что это будет быстрее, чем вектор. ;) Просто использование вектора будет иметь ряд явных преимуществ по сравнению с использованием массива. Но, как отмечено в моем комментарии, это зависит от цели.
jrd1 21 нояб. 2013, в 13:25
1

IMO, вы делаете это самым быстрым способом, вы можете получить небольшое улучшение с помощью scanf() , но это маловероятно ...
Nim 21 нояб. 2013, в 13:27
0

FWIW, на моем рабочем столе Linux, wc для текстового файла размером 6,6 МБ занимает 0,12 секунды (как только файл находится в кеше файловой системы), поэтому я предполагаю, что для файла размером 100 МБ это займет менее 2 секунд. Таким образом, ваша программа должна занять несколько секунд, что не имеет большого значения. Если вы делаете это много раз, рассмотрите возможность использования чего-то более эффективного для решения общей проблемы (возможно, какой-нибудь базы данных, например MariaDB или MongoDB) ... Возможно, стоило бы купить немного больше оперативной памяти.
Basile Starynkevitch 21 нояб. 2013, в 13:31
1

Сколько времени вам действительно понадобится на вашей машине. Я предполагаю, что это должно бежать меньше чем дюжина секунд. Стоит ли ваше собственное время и усилия на разработку (например, полный рабочий день)?
Basile Starynkevitch 21 нояб. 2013, в 13:38

Показать ещё 7 комментариев

Теги:

c++

arrays

file

2 ответа

Ещё вопросы

На какой операционной системе? С каким компилятором? Как вы скомпилировали свой код (с какими флагами оптимизации)? Рассматривали ли вы использование простого C с <stdio.h> (в некоторых системах это может быть немного быстрее). Ваш код работает намного медленнее, чем, например, утилита wc (count)?
Просто предложение: если ваши данные не нуждаются в хранении в непрерывном блоке памяти (например, в пуле памяти), избегайте использования массива и используйте вместо него вектор .
@ jrd1 в чем именно разница? И, OP, вам нужно все это в памяти сразу? Каков возможный диапазон этих целых чисел (я полагаю, вы храните их как целые числа)?
@ jrd1: я не могу понять, почему вы считаете, что использование std::vector будет быстрее, чем простой старый массив ...
@ jrd1 что значит "очень смежные"? Либо, как массив или вектор, либо нет, как deque.
@BasileStarynkevitch: я никогда не говорил, что это будет быстрее, чем вектор. ;) Просто использование вектора будет иметь ряд явных преимуществ по сравнению с использованием массива. Но, как отмечено в моем комментарии, это зависит от цели.
IMO, вы делаете это самым быстрым способом, вы можете получить небольшое улучшение с помощью scanf() , но это маловероятно ...
FWIW, на моем рабочем столе Linux, wc для текстового файла размером 6,6 МБ занимает 0,12 секунды (как только файл находится в кеше файловой системы), поэтому я предполагаю, что для файла размером 100 МБ это займет менее 2 секунд. Таким образом, ваша программа должна занять несколько секунд, что не имеет большого значения. Если вы делаете это много раз, рассмотрите возможность использования чего-то более эффективного для решения общей проблемы (возможно, какой-нибудь базы данных, например MariaDB или MongoDB) ... Возможно, стоило бы купить немного больше оперативной памяти.
Сколько времени вам действительно понадобится на вашей машине. Я предполагаю, что это должно бежать меньше чем дюжина секунд. Стоит ли ваше собственное время и усилия на разработку (например, полный рабочий день)?

David · Answer 1 · 2013-11-21T11-55-00.000Z

Да, вы определенно делаете это медленным (но красивым) способом. У вас есть 2 варианта быстрее:

если (у вас достаточно памяти) { Прочитайте весь файл в памяти и затем проанализируйте файл }

else { Прочитайте большие куски файла за раз в памяти, а затем проанализируйте файл }

В любом случае, загрузка выглядит примерно так...

std::ifstream is(filename);
is.seekg(0, std::ios::end);
auto length = is.tellg();

std::string buffer;

if(length > 0)
{
    buffer.resize(static_cast<std::string::size_type>(length));
    is.seekg(0);
    is.read(&buffer.front(), length);
}

И тогда вы поместите его в строковый поток...

std::stringstream ss(buffer);

и проанализировать его, потенциально точно, как вы делали это раньше...

for(int i = 0; i < mysize; i++)
{
    ss >> myArray[i][0];          
    ss >> myArray[i][1];
}

Но std::ifstream буферизуется, поэтому в любом случае регистр "else" используется по умолчанию.
@JoachimPileborg Это деталь реализации. По своему опыту, по крайней мере в Windows, я могу сказать, что какая бы буферизация в ней ни была, она недостаточно хороша, если вы собираетесь выполнять так много операций чтения. Я уже не раз получал на порядок лучше производительность при явном чтении больших кусков, чем при использовании >>
В этом случае, возможно, вы захотите добавить, что, возможно, было бы лучше, если бы «большие куски» были кратны размеру блока дисков (что может быть трудно получить в Windows, поэтому используйте некоторое «четное» кратное 2 ( вроде 4к, 16к или может даже 1 или 2 мег) должно работать).

doctorlove · Answer 2 · 2013-11-21T10-58-00.000Z

Да, возможно, при условии профилирования, но вам не понравится ответ. Если вы уменьшите размер файла, его можно будет быстрее прочитать. Как? Сохраните его как двоичный, а не текстовый. Помните, что это остановит вас на использовании хороших операторов потоковой передачи высокого уровня. Вместо этого вам придется использовать вещи нижнего уровня, что может дать вам еще больше ускорения.
Возможно, было бы лучше, если бы вы спросили себя, почему вы читаете весь файл в памяти. Опять же, если вы создали двоичный файл, вы можете seek конкретные строки, которые вы используете.
Если вы выполняете расчет в файле, возможно, вы можете обработать его по ходу дела или в кусках.

Ты уверен? Держу пари, что узким местом является дисковый ввод-вывод ....
Конечно нет, но это дает некоторые альтернативы, чтобы попробовать. Мой главный вопрос действительно, почему мы пытаемся прочитать такой большой файл за один раз. Но это вопрос, а не ответ
Но 40Mega строк не так уж велик на современных машинах .... Посмотрите мои экспериментальные тайминги .... (вероятно, дюжина секунд).