7 миллионов файлов для загрузки - какие-нибудь подводные камни?

Question

7 миллионов файлов для загрузки - какие-нибудь подводные камни?

0

Меня попросили нагрузить 7 миллионов CSV файлов в таблицу. Поэтому я написал этот скрипт, который я использовал для подобных запросов

cd /datafiles
for f in $(find /datafiles -type f); do
    echo $f
    mysql -h <myhost> -u <myuser> --password=<myuserpassword <mydb> -e "LOAD DATA LOCAL INFILE '${f}' INTO TABLE <mytable> ignore 1 lines"
done

Я использовал этот скрипт для загрузки до 31 файла, то есть один день в месяц. Не более того.

CSV с разделителями по трубе (6 полей) - это в основном данные кликов. В среднем количество записей в файле составляет около 50 записей, но оно может достигать 7000 и меньше 1.

Размер файлов составляет от 50 до 800 Кбайт. На моем сервере выделено 64 ГБ памяти.

Поскольку DBA отказывается предоставить мне объединить все файлы в один файл слияния (что-то делать с использованием кэша db), у меня нет выбора.

Будут ли я сталкиваться с проблемами памяти? Мой сервер находится в Google Cloud. Каковы возможные проблемы, связанные с этим?

A B 13 апр. 2018, в 00:22

Источник

1

поскольку мы не знаем, насколько велики ваши файлы на самом деле или сколько памяти выделено для этого вашим сервером, сказать немного сложно
ADyson 12 апр. 2018, в 21:49
0

7 миллионов файлов. Ты уверен?
Ed Heal 12 апр. 2018, в 21:49
0

@EdHeal Конечно. У меня была телефонная конференция 30 минут назад.
A B 12 апр. 2018, в 21:51
0

@ADyson Размер файлов составляет от 50 до 800 Кбайт. Мой сервер имеет 64 ГБ.
A B 12 апр. 2018, в 21:52
1

ну, я бы предположил, что он сбросит каждый файл из памяти по завершении загрузки, а затем загрузит следующий, так что в этом смысле отсутствие одного массивного файла может быть преимуществом. Но это только мое предположение, потому что это звучит логично. Если кто-то не знает лучше, может быть, вы можете попробовать с горсткой (зная общий размер заранее) и посмотреть, сколько памяти используется во время обработки. Затем вы можете экстраполировать, сколько вероятно будет использовано, если вы добавите больше файлов в пакет.
ADyson 12 апр. 2018, в 21:56
0

ИМХО, гораздо более вероятная проблема, с которой вы столкнетесь, это просто количество времени, которое может потребоваться. Вы не упомянули, есть ли у вас какие-либо ограничения, с которыми вам нужно работать в этом отношении.
ADyson 12 апр. 2018, в 21:57
0

Если это CSV-файлы с одинаковыми столбцами, просто объедините их в один файл.
Ed Heal 12 апр. 2018, в 21:58
1

@EdHeal вопрос говорит: «Администратор БД отказывается разрешить мне объединять все файлы в один файл слияния»
ADyson 12 апр. 2018, в 22:00
0

Я бы поставил под сомнение это рациональное
Ed Heal 12 апр. 2018, в 22:01
1

@EdHeal По моим инстинктам, что на самом деле звучит разумно, один огромный файл потенциально более проблематичен для использования памяти и кэша, чем множество маленьких. Но, может быть, вы знаете лучше, как внутренности mysql реагируют на подобные вещи? Возможно, он не будет загружать весь файл в память сразу перед обработкой?
ADyson 12 апр. 2018, в 22:01
0

@ADyson ADyson Нет никаких ограничений, чтобы говорить о.
A B 12 апр. 2018, в 22:02
2

Файл 7gb. Он может просто прочитать файл без необходимости начинать останавливать соединение. К тому же для этого не нужен весь файл в памяти. Одна строка за раз. Нет открытия и закрытия файлов все время. Маленькая ОС над головой в этом отделе
Ed Heal 12 апр. 2018, в 22:07

Показать ещё 10 комментариев

Теги:

mysql

1 ответ

Ещё вопросы

поскольку мы не знаем, насколько велики ваши файлы на самом деле или сколько памяти выделено для этого вашим сервером, сказать немного сложно
@EdHeal Конечно. У меня была телефонная конференция 30 минут назад.
@ADyson Размер файлов составляет от 50 до 800 Кбайт. Мой сервер имеет 64 ГБ.
ну, я бы предположил, что он сбросит каждый файл из памяти по завершении загрузки, а затем загрузит следующий, так что в этом смысле отсутствие одного массивного файла может быть преимуществом. Но это только мое предположение, потому что это звучит логично. Если кто-то не знает лучше, может быть, вы можете попробовать с горсткой (зная общий размер заранее) и посмотреть, сколько памяти используется во время обработки. Затем вы можете экстраполировать, сколько вероятно будет использовано, если вы добавите больше файлов в пакет.
ИМХО, гораздо более вероятная проблема, с которой вы столкнетесь, это просто количество времени, которое может потребоваться. Вы не упомянули, есть ли у вас какие-либо ограничения, с которыми вам нужно работать в этом отношении.
Если это CSV-файлы с одинаковыми столбцами, просто объедините их в один файл.
@EdHeal вопрос говорит: «Администратор БД отказывается разрешить мне объединять все файлы в один файл слияния»
Я бы поставил под сомнение это рациональное
@EdHeal По моим инстинктам, что на самом деле звучит разумно, один огромный файл потенциально более проблематичен для использования памяти и кэша, чем множество маленьких. Но, может быть, вы знаете лучше, как внутренности mysql реагируют на подобные вещи? Возможно, он не будет загружать весь файл в память сразу перед обработкой?
@ADyson ADyson Нет никаких ограничений, чтобы говорить о.
Файл 7gb. Он может просто прочитать файл без необходимости начинать останавливать соединение. К тому же для этого не нужен весь файл в памяти. Одна строка за раз. Нет открытия и закрытия файлов все время. Маленькая ОС над головой в этом отделе

Setop · Answer 1 · 2018-04-12T20-10-00.000Z

Когда я закончил, я переместил файл в папку "done". И остановитесь при любой ошибке. Что-то вроде:

#!/bin/bash -e

cd datafiles
mkdir ../done

for f in $(find . -type f); do
    echo $f
    mysql -h <myhost> -u <myuser> --password=<myuserpassword <mydb> -e "LOAD DATA LOCAL INFILE '${f}' INTO TABLE <mytable> ignore 1 lines"
    mv $f ../done/
done

cd ..