проектирование базы данных - MySQL: как хранить и разбивать временные ряды

Question

проектирование базы данных - MySQL: как хранить и разбивать временные ряды

0

У меня есть таблица, где храню исторические данные и добавляю запись для элементов, которые я отслеживаю каждые 5 минут. Это пример, используя только 2 элемента:

+----+-------------+
| id |  timestamp  |
+----+-------------+
|  1 |  1533209426 |
|  2 |  1533209426 |
|  1 |  1533209726 |
|  2 |  1533209726 |
|  1 |  1533210026 |
|  2 |  1533210026 |
+----+-------------+

Проблема в том, что я на самом деле отслеживаю 4k элементов, и таблица продолжает увеличиваться, также мне не нужны 5-минутные данные, если я хочу получить последний месяц. Я пытаюсь понять, есть ли способ сохранить записи за 5 минут за последние 24 часа, 1 час записи за последние 7 дней и т.д. Может быть, каждый час я могу получить первые 12 записей из таблицы 5 минут и сохранить средний в 1-й таблице? Но что, если некоторые записи отсутствуют, потому что были ошибки? Это правильный способ решить эту проблему или есть несколько лучших альтернатив?

Yukkete 02 авг. 2018, в 14:03

Источник

0

Взгляните на базы данных временных рядов, такие как influenxdb
fancyPants 02 авг. 2018, в 12:11
0

@fancyPants Я в настоящее время использую AWS RDS
Yukkete 02 авг. 2018, в 12:25
0

Ваша идея хранить средние значения каждые 1 час (и, возможно, каждый день из таблицы за 1 час) кажется разумной, вы могли бы использовать триггеры для реализации этого (а также удалить записи самого старого часа из таблицы за 5 минут).
Nick 02 авг. 2018, в 12:39
0

@Nick Спасибо, не приведет ли установка триггера для вставленных строк к ошибкам, если я перестану отслеживать некоторые элементы (я никогда не использовал триггеры)? Что-то вроде старых записей, которые все еще там, хотя прошло более 24 часов.
Yukkete 02 авг. 2018, в 14:36
0

Да, старые записи останутся, но должна быть возможность кодировать это. Или, возможно, установить работу cron для очистки старых записей. Кроме того, если вы перестанете отслеживать предмет, вам больше не придется беспокоиться о том, что стол станет большим ...
Nick 02 авг. 2018, в 21:01
0

Я видел пару продуктов, которые делают это (мониторинг). Они сохраняют средние значения с меньшей и меньшей степенью детализации с течением времени. Он закодирован в самом приложении, чтобы вычислить средние значения (SELECT AVG ...), удалить данные, сохранить средние значения в таблице.
Nic3500 03 авг. 2018, в 15:34

Показать ещё 4 комментария

Теги:

mysql

database

time-series

database-design

1 ответ

Ещё вопросы

Взгляните на базы данных временных рядов, такие как influenxdb
@fancyPants Я в настоящее время использую AWS RDS
Ваша идея хранить средние значения каждые 1 час (и, возможно, каждый день из таблицы за 1 час) кажется разумной, вы могли бы использовать триггеры для реализации этого (а также удалить записи самого старого часа из таблицы за 5 минут).
@Nick Спасибо, не приведет ли установка триггера для вставленных строк к ошибкам, если я перестану отслеживать некоторые элементы (я никогда не использовал триггеры)? Что-то вроде старых записей, которые все еще там, хотя прошло более 24 часов.
Да, старые записи останутся, но должна быть возможность кодировать это. Или, возможно, установить работу cron для очистки старых записей. Кроме того, если вы перестанете отслеживать предмет, вам больше не придется беспокоиться о том, что стол станет большим ...
Я видел пару продуктов, которые делают это (мониторинг). Они сохраняют средние значения с меньшей и меньшей степенью детализации с течением времени. Он закодирован в самом приложении, чтобы вычислить средние значения (SELECT AVG ...), удалить данные, сохранить средние значения в таблице.

Rick James · Accepted Answer · 2018-08-20T01-45-00.000Z

Ты на правильном пути.

Есть несколько вопросов, которые необходимо решить, как обрабатывать - пропущенные записи, временные метки, перекошенные на 1 секунду (или что-то еще) и т.д.

Предоставляя счет (который всегда должен быть 12), вы можете обнаружить некоторые икоты:

SELECT  FLOOR(timestamp / 3600) AS hr,  -- MEDIUMINT UNSIGNED
        COUNT(*),    -- TINYINT UNSIGNED
        AVG(metric)  -- FLOAT
    FROM tbl
    GROUP BY 1;

Да, каждый час, делайте данные за предыдущий час. Добавьте WHERE timestamp BETWEEN... AND... + 3599 чтобы ограничить диапазон, о котором идет речь. Затем продуть один и тот же набор данных.

В таблице будет PRIMARY KEY(hr).

Если вы не говорите о миллионах строк в таблице, я бы не рекомендовал использовать PARTITION.