Каковы характеристики производительности sqlite с очень большими файлами базы данных?

Question

Каковы характеристики производительности sqlite с очень большими файлами базы данных?

289

Я знаю, что sqlite не очень хорошо работает с чрезвычайно большими файлами базы данных, даже когда они поддерживаются (на сайте sqlite был комментарий, в котором указано, что если вам нужны размеры файлов выше 1 ГБ, вы можете захотеть использовать предприятие rdbms. Не могу найти его больше, может быть связано с более старой версией sqlite).

Однако для моих целей я хотел бы получить представление о том, насколько это плохо, прежде чем я буду рассматривать другие решения.

Я говорю о файлах данных sqlite в диапазоне с несколькими гигабайтами, начиная с 2 ГБ. У кого-нибудь есть опыт? Любые советы/идеи?

Snazzer 24 апр. 2009, в 03:05

Источник

1

Использование потоков (соединение на поток) может помочь только для чтения - stackoverflow.com/a/24029046/743263
malkia 04 июнь 2014, в 04:32
1

Хукинг softwareengineering.stackexchange.com/q/332069/24257 и wiki.mozilla.org/Performance/…
Pacerier 30 янв. 2017, в 12:18
15

Год 2016: у меня есть база данных 5 ГБ, которая работает на SQLite без проблем. Я установил точно такой же набор данных на Postgres. SQLite выполнил сложный запрос за 2,7 мс, Postgres за 2,5 мс. Я остановился на Postgres для облегчения доступа к Regex и улучшения функций индексирования. Но я был впечатлен SQLite и мог бы использовать его также.
Paulb 06 апр. 2017, в 10:57

Показать ещё 1 комментарий

Теги:

database

sqlite

performance

9 ответов

138

Мы используем DBS 50 GB + на нашей платформе. никаких жалоб не работает. Убедитесь, что вы все делаете правильно! Вы используете предопределенные заявления? * SQLITE 3.7.3

Сделки
Предварительно сделанные заявления

Примените эти настройки (сразу после создания БД)

PRAGMA main.page_size = 4096;
PRAGMA main.cache_size=10000;
PRAGMA main.locking_mode=EXCLUSIVE;
PRAGMA main.synchronous=NORMAL;
PRAGMA main.journal_mode=WAL;
PRAGMA main.cache_size=5000;

Надеюсь, это поможет другим, отлично работает здесь.

Alex 30 июнь 2011, в 12:36

20

Недавно протестирован с БД в диапазоне 160 ГБ, также отлично работает.
Snazzer 13 июль 2011, в 21:43
8

Также PRAGMA main.temp_store = MEMORY; ,
Vikrant Chaudhary 23 окт. 2011, в 14:40
39

@ Алекс, почему есть два PRAGMA main.cache_size = 5000 ;?
Jack 01 нояб. 2011, в 16:04
0

@VikrantChaudhary и Alex: Не page_size ли page_size оптимизацию, описанную на sqlite.org/pragma.html#pragma_page_size ?
Alix Axel 07 май 2013, в 23:29
0

@VikrantChaudhary: temp_store = MEMORY должен быть значением по умолчанию в большинстве установок.
Alix Axel 13 май 2013, в 12:55
20

Не просто слепо применять эти оптимизации. В частности синхронный = НОРМАЛЬНЫЙ не является безопасным при сбое. Т.е. сбой процесса в нужное время может повредить вашу базу данных даже при отсутствии сбоев диска. sqlite.org/pragma.html#pragma_synchronous
mpm 17 фев. 2014, в 20:27
20

@ Алекс, не могли бы вы объяснить эти значения и разницу между ними и значениями по умолчанию?
4m1nh4j1 13 июль 2014, в 13:05
4

Сколько таблиц у вас есть в ваших базах данных 50G и 160G @Snazzer и @Alex?
Spade 25 сен. 2014, в 04:56

Показать ещё 6 комментариев

55

Я создал базы данных SQLite размером до 3,5 ГБ без заметных проблем с производительностью. Если я правильно помню, я думаю, что SQLite2 мог иметь некоторые более низкие пределы, но я не думаю, что SQLite3 имеет такие проблемы.

В соответствии с страницами SQLite Limits максимальный размер каждой страницы базы данных составляет 32K. Максимальные страницы в базе данных - 1024 ^ 3. Так по моей математике, которая достигает 32 терабайт как максимальный размер. Я думаю, вы попадете в пределы вашей файловой системы, прежде чем ударить SQLite!

Paul Lefebvre 24 апр. 2009, в 16:24

1

В зависимости от того, какие операции вы выполняете, пытаясь удалить 3000 строк в базе данных sqlite 8G, вам потребуется достаточно времени, чтобы приготовить хороший горшок с французской прессой, смеется
benjaminz 28 июнь 2017, в 15:28

43

Большая часть причин, по которым потребовалось более 48 часов, чтобы сделать ваши вставки, объясняется вашими индексами. Это невероятно быстрее:

1 - Отбросьте все индексы 2 - Сделайте все вставки 3 - Создание индексов снова

user352992 28 май 2010, в 14:48

21

Это хорошо известно ... но для длительного процесса вы не будете периодически отбрасывать свои индексы, чтобы перестраивать их, особенно когда вы будете запрашивать их для выполнения работы. Такой подход используется, хотя, когда sqlite db нужно перестраивать с нуля, индексы создаются после того, как все вставки сделаны.
Snazzer 28 май 2010, в 17:22
24

В аналогичной ситуации @Snazzer мы использовали таблицу «аккумулятор»: один раз в день мы перемещали накопленные строки из таблицы аккумуляторов в основную таблицу в рамках одной транзакции. Там, где это было необходимо, представление позаботилось о представлении обеих таблиц как одной таблицы.
CAFxX 14 окт. 2012, в 07:05
4

Другой вариант - сохранить индексы, но предварительно отсортировать данные в порядке индекса, прежде чем вставлять его.
Steven Kryskalla 19 фев. 2014, в 23:42
0

@StevenKryskalla как это сравнить с отбрасыванием индексов и их воссозданием? Любые ссылки, которые вы знаете о том, что оценили?
mcmillab 06 фев. 2019, в 05:29
0

@mcmillab Это было много лет назад, поэтому я не помню всех деталей или статистических показателей, но, думая интуитивно, вставка N случайно упорядоченных элементов в индекс займет O (NlogN) времени, в то время как вставка N отсортированных элементов займет O (N). Время
Steven Kryskalla 06 фев. 2019, в 19:54

Показать ещё 3 комментария

27

Кроме обычной рекомендации:

Индекс падения для массовой вставки.
Пакетные вставки/обновления в больших транзакциях.
Настройте буферный кеш/отключите журнал /w PRAGMA.
Используйте 64-битную машину (чтобы использовать много кеш-памяти).
[добавлен июль 2014] Используйте общее табличное выражение (CTE) вместо запуска нескольких SQL-запросов! Требуется выпуск SQLite 3.8.3.

Из моего опыта работы с SQLite3 я узнал следующее:

Для максимальной скорости вставки не используйте схему с любым ограничением столбца. ( ~~Изменить таблицу позже по мере необходимости~~ Вы не можете добавлять ограничения с помощью ALTER TABLE).
Оптимизируйте свою схему, чтобы сохранить то, что вам нужно. Иногда это означает разбиение таблиц и/или даже сжатие/преобразование ваших данных перед вставкой в базу данных. Отличным примером является сохранение IP-адресов в виде (длинных) целых чисел.
Одна таблица на файл db - чтобы минимизировать конфликт блокировок. (Используйте ATTACH DATABASE, если вы хотите иметь один объект подключения.
SQLite может хранить разные типы данных в одном столбце (динамическая типизация), использовать это в ваших интересах.

Вопрос/комментарий.; -)

Lester Cheung 17 янв. 2012, в 01:57

1

Какое влияние вы получаете от «одной таблицы на файл БД»? Звучит интересно. Как вы думаете, это будет иметь большое значение, если ваша таблица имеет только 3 таблицы и строится с нуля?
Martin Velez 15 авг. 2012, в 07:25
3

@martin ненавижу это говорить, но ответ - это зависит . Идея состоит в том, чтобы разделить данные до управляемого размера. В моем случае использования я собираю данные с разных хостов и готовлю отчеты по фактам, чтобы этот подход работал хорошо. Разделение по дате / времени, как предлагают другие, должно хорошо работать для данных, которые охватывают длительный период времени, который я себе представляю.
Lester Cheung 06 нояб. 2012, в 08:41
1

@Lester Cheung: Что касается вашего второго # 1: Насколько я понимаю из документации и личного опыта, по сей день SQLite3 не поддерживает добавление ограничений с помощью ALTER TABLE после создания таблицы. Единственный способ добавить или удалить ограничения из существующих строк таблицы - создать новую таблицу с требуемыми характеристиками и скопировать все строки, что, вероятно, будет намного медленнее, чем однократная вставка с ограничениями.
Mumbleskates 20 дек. 2015, в 00:00
2

@Widdershins вы абсолютно правы - ALTER TABLE в SQLite не позволяет добавлять ограничения. Я не знаю, что я курил - обновлю ответ - спасибо.
Lester Cheung 25 янв. 2016, в 14:40
0

Ни одно из этих предложений не имеет ничего общего с использованием огромных файлов базы данных SQLite. Был ли вопрос отредактирован с момента отправки этого ответа?
A. Rager 04 апр. 2016, в 03:46

Показать ещё 3 комментария

8

Я думаю, что основные жалобы на масштабирование sqlite:

Отдельная запись процесса.
Нет зеркального отображения.
Нет репликации.

Unknown 24 апр. 2009, в 01:32

7

У меня есть база данных SQLite объемом 7 ГБ. Для выполнения конкретного запроса с внутренним соединением требуется 2.6 Чтобы ускорить это, я попытался добавить индексы. В зависимости от того, какие индексы я добавил, иногда запрос опускался до 0,1 с, а иногда он увеличивался до 7 с. Я думаю, что проблема в моем случае заключалась в том, что если столбец сильно дублируется, то добавление индекса ухудшает производительность: (

Mike Oxynormas 15 июль 2011, в 08:36

9

Почему столбец с множеством дубликатов может ухудшить производительность (серьезный вопрос)?
Martin Velez 15 авг. 2012, в 07:28
6

труднее проиндексировать столбец с низким количеством элементов: stackoverflow.com/questions/2113181/…
metrix 02 янв. 2014, в 21:32

6

В документации SQLite раньше указывалось, что практический размер файла базы данных составляет несколько десятков ГБ: с. В основном это связано с необходимостью SQLite "распределять битмап грязных страниц" всякий раз, когда вы начали транзакцию. Таким образом, 256 байт ОЗУ были необходимы для каждого МБ в базе данных. Вставка в DB файл объемом 50 ГБ потребует массивного (2 ^ 8) * (2 ^ 10) = 2 ^ 18 = 256 МБ ОЗУ.

Но по последним версиям SQLite это больше не требуется. Подробнее здесь.

16 май 2009, в 20:38

24

Мне очень жаль, что я должен указать на это, но 2^18 на самом деле только 256 К.
Gabriel Schreiber 29 нояб. 2011, в 09:06
7

@GabrielSchreiber, а также тот факт, что 50 ГБ - это не (2 ^ 10) МБ, это всего лишь 1 ГБ. Таким образом, для базы данных объемом 50 ГБ требуется 12,5 МБ памяти: (2 ^ 8) * (2 ^ 10) * 50
elipoultorak 25 авг. 2015, в 13:18

6

У меня возникли проблемы с большими файлами sqlite при использовании команды вакуума.

Я еще не пробовал функцию auto_vacuum. Если вы планируете регулярно обновлять и удалять данные, то это стоит посмотреть.

eodonohoe 30 апр. 2009, в 21:05

Ещё вопросы

Использование потоков (соединение на поток) может помочь только для чтения - stackoverflow.com/a/24029046/743263
Хукинг softwareengineering.stackexchange.com/q/332069/24257 и wiki.mozilla.org/Performance/…
Год 2016: у меня есть база данных 5 ГБ, которая работает на SQLite без проблем. Я установил точно такой же набор данных на Postgres. SQLite выполнил сложный запрос за 2,7 мс, Postgres за 2,5 мс. Я остановился на Postgres для облегчения доступа к Regex и улучшения функций индексирования. Но я был впечатлен SQLite и мог бы использовать его также.
Недавно протестирован с БД в диапазоне 160 ГБ, также отлично работает.
@ Алекс, почему есть два PRAGMA main.cache_size = 5000 ;?
@VikrantChaudhary и Alex: Не page_size ли page_size оптимизацию, описанную на sqlite.org/pragma.html#pragma_page_size ?
@VikrantChaudhary: temp_store = MEMORY должен быть значением по умолчанию в большинстве установок.
Не просто слепо применять эти оптимизации. В частности синхронный = НОРМАЛЬНЫЙ не является безопасным при сбое. Т.е. сбой процесса в нужное время может повредить вашу базу данных даже при отсутствии сбоев диска. sqlite.org/pragma.html#pragma_synchronous
@ Алекс, не могли бы вы объяснить эти значения и разницу между ними и значениями по умолчанию?
Сколько таблиц у вас есть в ваших базах данных 50G и 160G @Snazzer и @Alex?
В зависимости от того, какие операции вы выполняете, пытаясь удалить 3000 строк в базе данных sqlite 8G, вам потребуется достаточно времени, чтобы приготовить хороший горшок с французской прессой, смеется
Это хорошо известно ... но для длительного процесса вы не будете периодически отбрасывать свои индексы, чтобы перестраивать их, особенно когда вы будете запрашивать их для выполнения работы. Такой подход используется, хотя, когда sqlite db нужно перестраивать с нуля, индексы создаются после того, как все вставки сделаны.
В аналогичной ситуации @Snazzer мы использовали таблицу «аккумулятор»: один раз в день мы перемещали накопленные строки из таблицы аккумуляторов в основную таблицу в рамках одной транзакции. Там, где это было необходимо, представление позаботилось о представлении обеих таблиц как одной таблицы.
Другой вариант - сохранить индексы, но предварительно отсортировать данные в порядке индекса, прежде чем вставлять его.
@StevenKryskalla как это сравнить с отбрасыванием индексов и их воссозданием? Любые ссылки, которые вы знаете о том, что оценили?
@mcmillab Это было много лет назад, поэтому я не помню всех деталей или статистических показателей, но, думая интуитивно, вставка N случайно упорядоченных элементов в индекс займет O (NlogN) времени, в то время как вставка N отсортированных элементов займет O (N). Время
Какое влияние вы получаете от «одной таблицы на файл БД»? Звучит интересно. Как вы думаете, это будет иметь большое значение, если ваша таблица имеет только 3 таблицы и строится с нуля?
@martin ненавижу это говорить, но ответ - это зависит . Идея состоит в том, чтобы разделить данные до управляемого размера. В моем случае использования я собираю данные с разных хостов и готовлю отчеты по фактам, чтобы этот подход работал хорошо. Разделение по дате / времени, как предлагают другие, должно хорошо работать для данных, которые охватывают длительный период времени, который я себе представляю.
@Lester Cheung: Что касается вашего второго # 1: Насколько я понимаю из документации и личного опыта, по сей день SQLite3 не поддерживает добавление ограничений с помощью ALTER TABLE после создания таблицы. Единственный способ добавить или удалить ограничения из существующих строк таблицы - создать новую таблицу с требуемыми характеристиками и скопировать все строки, что, вероятно, будет намного медленнее, чем однократная вставка с ограничениями.
@Widdershins вы абсолютно правы - ALTER TABLE в SQLite не позволяет добавлять ограничения. Я не знаю, что я курил - обновлю ответ - спасибо.
Ни одно из этих предложений не имеет ничего общего с использованием огромных файлов базы данных SQLite. Был ли вопрос отредактирован с момента отправки этого ответа?
Почему столбец с множеством дубликатов может ухудшить производительность (серьезный вопрос)?
труднее проиндексировать столбец с низким количеством элементов: stackoverflow.com/questions/2113181/…
Мне очень жаль, что я должен указать на это, но 2^18 на самом деле только 256 К.
@GabrielSchreiber, а также тот факт, что 50 ГБ - это не (2 ^ 10) МБ, это всего лишь 1 ГБ. Таким образом, для базы данных объемом 50 ГБ требуется 12,5 МБ памяти: (2 ^ 8) * (2 ^ 10) * 50

Snazzer · Accepted Answer · 2009-05-01T15-54-00.000Z

Итак, я сделал несколько тестов с sqlite для очень больших файлов и сделал некоторые выводы (по крайней мере для моего конкретного приложения).

Тестирование включает в себя один файл sqlite с одной таблицей или несколькими таблицами. Каждая таблица имела около 8 столбцов, почти все целые числа и 4 индекса.

Идея заключалась в том, чтобы вставить достаточное количество данных, пока файлы sqlite не составят около 50 ГБ.

Отдельная таблица

Я попытался вставить несколько строк в файл sqlite только с одной таблицей. Когда файл был около 7 ГБ (извините, я не могу быть конкретным в отношении количества строк), вставки занимали слишком много времени. Я подсчитал, что мой тест на вставку всех моих данных займет около 24 часов, но он не завершился даже через 48 часов.

Это приводит меня к выводу, что одна, очень большая таблица sqlite будет иметь проблемы со вставками и, возможно, другие операции.

Я думаю, это не удивительно, поскольку таблица становится больше, вставка и обновление всех индексов занимает больше времени.

Несколько таблиц

Затем я попытался разделить данные по времени на несколько таблиц, по одной таблице в день. Данные для исходной 1 таблицы были разделены на ~ 700 таблиц.

У этой установки не было проблем с вставкой, она не занимала больше времени с течением времени, так как новая таблица была создана для каждого дня.

Вакуумные проблемы

Как указано i_like_caffeine, команда VACUUM является проблемой, тем больше файл sqlite. По мере того как будет выполнено больше вложений/удалений, фрагментация файла на диске будет ухудшаться, поэтому целью является периодическое VACUUM для оптимизации файла и восстановления файлового пространства.

Однако, как указано в документации, полная копия базы данных делается для того, чтобы сделать вакуум, потребовав очень много времени для завершения, Итак, чем меньше база данных, тем быстрее завершится эта операция.

Выводы

Для моего конкретного приложения я, вероятно, буду раскалывать данные по нескольким файлам db, по одному в день, чтобы получить максимум от производительности вакуума и скорости вставки/удаления.

Это усложняет запросы, но для меня это целесообразный компромисс, чтобы иметь возможность индексировать это много данных. Дополнительным преимуществом является то, что я могу просто удалить целый файл db, чтобы удалить данные за день (общая операция для моего приложения).

Мне, вероятно, придется контролировать размер таблицы для каждого файла, чтобы увидеть, когда скорость станет проблемой.

Слишком плохо, что не существует дополнительного метода вакуума, кроме автоматического вакуума. Я не могу использовать его, потому что моя цель для вакуума - дефрагментировать файл (файловое пространство не является большим делом), которого автоматический вакуум не делает. Фактически, документация утверждает, что это может сделать фрагментацию еще хуже, поэтому мне приходится прибегать к периодическому полному вакууму в файле.

Очень полезная информация Чистое предположение, но мне интересно, можно ли использовать новый API резервного копирования для ежедневного создания нефрагментированной версии базы данных и избежать необходимости запуска VACUUM.
Мне любопытно, были ли все ваши ВСТАВКИ в транзакции?
Да, вставки выполнялись партиями по 10000 сообщений на транзакцию.
Какую файловую систему вы использовали? Если ext {2,3,4}, что было параметром data =, было ли включено ведение журнала? Помимо шаблонов ввода / вывода, способ сброса sqlite на диск может быть значительным.
Я тестировал в основном на Windows, поэтому не могу комментировать поведение на Linux.
Если у вас все еще есть, можете ли вы опубликовать код / sql, который вы использовали?
К сожалению, код довольно сильно привязан к программному обеспечению, в котором я работаю, поэтому сложно разобраться в этом. Я думаю, что моего описания должно быть достаточно, чтобы повторить его, хотя ... дайте мне знать, если вам нужна дополнительная информация.
Интересно ... Вы пробовали проводить сравнительный анализ с использованием нескольких баз данных (их можно подключить до 62) с 1 таблицей в каждой по сравнению с подходом с несколькими таблицами?
Обычно вставки замедляются, чем больше данных, если в таблице определен индекс.