Драйвер JDBC MariaDB не выполняет пакетную загрузку обновлений по сравнению с SQL Server

Question

Драйвер JDBC MariaDB не выполняет пакетную загрузку обновлений по сравнению с SQL Server

0

Я сравнивал производительность процедуры вставки/обновления/удаления в своем приложении, которую я переношу с SQL Server на MariaDB.

Java 1.8 на локальной рабочей станции Win10 с i7 2.80GHz CPU + 16GB RAM
JDBC org.mariadb.jdbc: mariadb-java-client: 2.2.4
10.2.12-MariaDB-log Сервер MariaDB на AWS

Эталонный огонь запускает 50 000 вставок, те же обновления и удаляет.

SQL Server через драйвер net.sourceforge.jtds JDBC обрабатывает их всех менее чем за 1 секунду.

MariaDB с драйвером MariaDB-java-client делает вставки быстрее, но обновления (и удаления) намного медленнее на 3,5 секунды.

Схема одинакова в обеих базах данных, и я предполагаю, что, поскольку вставки в MariaDB бывают быстрыми, это, вероятно, исключает проблему индексирования или неверную конфигурацию сервера.

Я попробовал несколько вариантов для строки подключения JDBC, в результате чего это стало самым быстрым:

  ?verifyServerCertificate=true\
  &useSSL=true\
  &requireSSL=true\
  &allowMultiQueries=true\
  &cachePrepStmts=true\
  &cacheResultSetMetadata=true\
  &cacheServerConfiguration=true\
  &elideSetAutoCommits=true\
  &maintainTimeStats=false\
  &prepStmtCacheSize=50000\
  &prepStmtCacheSqlLimit=204800\
  &rewriteBatchedStatements=false\
  &useBatchMultiSend=true\
  &useBatchMultiSendNumber=50000\
  &useBulkStmts=true\
  &useLocalSessionState=true\
  &useLocalTransactionState=true\
  &useServerPrepStmts=true

Производительность в mysql и с mysql-connectorj была хуже во всех случаях, чем mariadb.

Я смотрю на это уже неделю, и я думаю о том, чтобы использовать обходные пути, предложенные в моем предыдущем вопросе. Как увеличить скорость большой серии UPDATE в mySQL и SQL Server?

На всякий случай это может быть неправильная конфигурация сервера, вот что у меня есть для ключевых переменных:

key_buffer_size                16MB
innodb_buffer_pool_size        24GB (mem 30GB)
innodb_log_file_size           134MB
innodb_log_buffer_size         8MB
innodb_flush_log_at_trx_commit 0
max_allowed_packet             16MB

Мои 50 000 записей - это всего лишь небольшое количество данных - около 2 МБ. Но с синтаксисом SQL это, по-видимому, в 10 раз больше, когда он перейдет через соединение JDBC - это правильно?

Здесь SQL и объясняют планы:

Describe 'data'
+---------------+------------------+------+-----+---------------------+-------------------------------+
| Field         | Type             | Null | Key | Default             | Extra                         |
+---------------+------------------+------+-----+---------------------+-------------------------------+
| parentId      | int(10) unsigned | NO   | PRI | NULL                |                               |
| modifiedDate  | date             | NO   | PRI | NULL                |                               |
| valueDate     | date             | NO   | PRI | NULL                |                               |
| value         | float            | NO   |     | NULL                |                               |
| versionstamp  | int(10) unsigned | NO   |     | 1                   |                               |
| createdDate   | datetime         | YES  |     | current_timestamp() |                               |
| last_modified | datetime         | YES  |     | NULL                | on update current_timestamp() |
+---------------+------------------+------+-----+---------------------+-------------------------------+

INSERT INTO 'data' ('value', 'parentId', 'modifiedDate', 'valueDate') VALUES (4853.16314229298,52054,'20-Apr-18','28-Dec-18')

+------+-------------+-------+------+---------------+------+---------+------+------+-------+
| id   | select_type | table | type | possible_keys | key  | key_len | ref  | rows | Extra |
+------+-------------+-------+------+---------------+------+---------+------+------+-------+
|    1 | INSERT      | data  | ALL  | NULL          | NULL | NULL    | NULL | NULL | NULL  |
+------+-------------+-------+------+---------------+------+---------+------+------+-------+



UPDATE 'data' SET 'value' = 4853.16314229298 WHERE 'parentId' = 52054 AND 'modifiedDate' = '20-Apr-18' AND 'valueDate' = '28-Dec-18'

+------+-------------+-------+-------+---------------+---------+---------+------+------+-------------+
| id   | select_type | table | type  | possible_keys | key     | key_len | ref  | rows | Extra       |
+------+-------------+-------+-------+---------------+---------+---------+------+------+-------------+
|    1 | SIMPLE      | data  | range | PRIMARY       | PRIMARY | 10      | NULL |    1 | Using where |
+------+-------------+-------+-------+---------------+---------+---------+------+------+-------------+


DELETE FROM 'data' WHERE 'parentId' = 52054 AND 'modifiedDate' = '20-Apr-18' AND 'valueDate' = '29-Jan-16'

+------+-------------+-------+-------+---------------+---------+---------+------+------+-------------+
| id   | select_type | table | type  | possible_keys | key     | key_len | ref  | rows | Extra       |
+------+-------------+-------+-------+---------------+---------+---------+------+------+-------------+
|    1 | SIMPLE      | data  | range | PRIMARY       | PRIMARY | 10      | NULL |    1 | Using where |
+------+-------------+-------+-------+---------------+---------+---------+------+------+-------------+

[ОБНОВИТЬ]

Использование JDBC - это упрощенная версия, поэтому оправдайте любые вопиющие ошибки:

    final Connection connection = dataSource.getConnection();
    connection.setAutoCommit(false);
    try (PreparedStatement statement = connection.prepareStatement(
                 "UPDATE data SET value = ? " +
                         "WHERE parentId = ? " +
                         "AND modifiedDate = ? " +
                         "AND valueDate = ? ")) {
        // timeSeries is a list of 50,000 data points
        Arrays.stream(timeSeries)
                .forEach(ts -> {
            try {
                statement.setDouble(1, value);
                statement.setLong(2, parentId);
                statement.setDate(3, new java.sql.Date(
                        modifiedDate.getTime()));
                statement.setDate(4, new java.sql.Date(
                        valueDate.getTime()));
                statement.addBatch();
            } catch (SQLException e) {
                throw new RuntimeException(
                        "Bad batch statement handling", e);
            }
        });
        int[] results = statement.executeBatch();
        connection.commit();
    } catch (SQLException e) {
        connection.rollback();
        throw e;
    } finally {
        connection.close();
    }

У меня также есть некоторые данные из general_log, показывающие входящие вызовы JDBC, и это выглядит довольно просто - вызов "подготовить", чтобы настроить оператор, а затем отдельные обновления.

Это меня удивляет - похоже, нет дозирования:

13/06/2018 15:09    service_user_t[service_user_t] @  [9.177.2.31]  75954   298206495   Query   set autocommit=0
13/06/2018 15:09    service_user_t[service_user_t] @  [9.177.2.31]  75954   298206495   Prepare UPDATE 'data' SET 'value' = ? WHERE 'parentId' = ? AND 'modifiedDate' = ? AND 'valueDate' = ?
13/06/2018 15:09    service_user_t[service_user_t] @  [9.177.2.31]  75954   298206495   Execute UPDATE 'data' SET 'value' = ? WHERE 'parentId' = ? AND 'modifiedDate' = ? AND 'valueDate' = ?
13/06/2018 15:09    service_user_t[service_user_t] @  [9.177.2.31]  75954   298206495   Execute UPDATE 'data' SET 'value' = ? WHERE 'parentId' = ? AND 'modifiedDate' = ? AND 'valueDate' = ?
13/06/2018 15:09    service_user_t[service_user_t] @  [9.177.2.31]  75954   298206495   Execute UPDATE 'data' SET 'value' = ? WHERE 'parentId' = ? AND 'modifiedDate' = ? AND 'valueDate' = ?
13/06/2018 15:09    service_user_t[service_user_t] @  [9.177.2.31]  75954   298206495   Execute UPDATE 'data' SET 'value' = ? WHERE 'parentId' = ? AND 'modifiedDate' = ? AND 'valueDate' = ?
13/06/2018 15:09    service_user_t[service_user_t] @  [9.177.2.31]  75954   298206495   Execute UPDATE 'data' SET 'value' = ? WHERE 'parentId' = ? AND 'modifiedDate' = ? AND 'valueDate' = ?
etc
etc

Adam 22 май 2018, в 19:54

Источник

1

Точно, каков твой вопрос? SQL Server отличается от MySQL или MariaDB, поэтому можно ожидать различий в производительности. Маловероятно, что есть волшебное исправление, которое приведёт производительность в соответствие с SQL Server. Итак, что вы хотите достичь с этим вопросом?
Mark Rotteveel 22 май 2018, в 18:13
0

Нет гарантии, что любой из них будет быстрее / медленнее / одинаковым для любой данной операции.
Terry Carmen 22 май 2018, в 20:14
1

От 3 до 5 раз медленнее на одной конкретной операции? Я портирую с SQL Server на MariaDB. Я не могу дать своим клиентам что-то более медленное! @MarkRotteveel вы говорите, что не видите ничего, очевидно, не так?
Adam 23 май 2018, в 08:25
0

И если все случайно выглядит хорошо, нет ли очевидных причин, чтобы это объяснить?
Adam 23 май 2018, в 08:30
1

Пакетирование сложно, и производительность может сильно отличаться между реализациями (например, потому что некоторые не поддерживают реальное пакетирование и имитировать его), производительность самих систем баз данных сильно варьируется (и обычно коммерческие системы баз данных сильно настроены на высокую производительность по сравнению с предложениями с открытым исходным кодом ). Я просто не ожидаю, что кто-нибудь сможет дать вам серебряную пулю за производительность.
Mark Rotteveel 23 май 2018, в 08:50
0

Чтобы быть уверенным, вы используете PrepareStatment (например , "INSERT INTO data ( value , parentId , modifiedDate , valueDate ) VALUES (?,?,?)" И передаем параметры)?
Diego Dupin 23 май 2018, в 16:41
1

Вы используете свой тест на локальном или удаленном сервере? Вы смешиваете обновления и удаления в своей партии или отправляете их как отдельные партии? Используете ли вы один и тот же подготовленный оператор для всех обновлений в пакете, если вы не смешиваете его с удалением?
Vladislav Vaintroub 23 май 2018, в 22:00
0

@Adam Adam - Как вы получили '20-Apr-18' для работы в качестве DATE в MySQL? Пожалуйста, предоставьте SHOW CREATE TABLE ; это более DESCRIBE чем DESCRIBE . Какая версия MySQL?
Rick James 26 май 2018, в 23:56
0

@Adam Адам - Как ты "пакетировал" операции? Разовая транзакция? Одно заявление?
Rick James 26 май 2018, в 23:59
0

@Adam Adam - Бенчмаркинг не простая задача.
Rick James 27 май 2018, в 00:05
0

Я не Адам, но пакет JDBC :) Реализация этого оставлена на усмотрение водителя, и есть много хитростей - конвейерная обработка протоколов, операторы, разделенные точкой с запятой, преобразование многих вставок в multiinsert и специальные расширения MariaDB BULK для протокола.
Vladislav Vaintroub 27 май 2018, в 23:45
0

@RickJames, что SQL от p6spy, так что это просто случайно отформатированное ведение журнала! Я добавил алгоритм Java и некоторые из общего журнала. Плюс я добавил свою платформу и версии программного обеспечения вверху.
Adam 13 июнь 2018, в 16:45
0

@VladislavVaintroub - я измерял multiinsert в нескольких различных ситуациях - обычно это примерно в 10 раз быстрее. Я подозреваю, что другие трюки не такие уж впечатляющие.
Rick James 13 июнь 2018, в 17:06
0

@Adam - «реальные» данные имеют тонкие шаблоны, которые могут влиять на производительность. «Случайные» данные могут быть самыми медленными - например, больше прыгать в индексах.
Rick James 13 июнь 2018, в 17:07
0

Таким образом, из данных в общем журнале, вызовы UPDATE на самом деле не группируются. Поправьте меня, если я ошибаюсь, выглядит довольно убедительно, что драйвер JDBC для SQL Server / JTDS просто выдающийся при выполнении ОБНОВЛЕНИЙ.
Adam 13 июнь 2018, в 17:11

Показать ещё 13 комментариев

Теги:

mysql

sql-server

mariadb

jdbc

1 ответ

Ещё вопросы

Точно, каков твой вопрос? SQL Server отличается от MySQL или MariaDB, поэтому можно ожидать различий в производительности. Маловероятно, что есть волшебное исправление, которое приведёт производительность в соответствие с SQL Server. Итак, что вы хотите достичь с этим вопросом?
Нет гарантии, что любой из них будет быстрее / медленнее / одинаковым для любой данной операции.
От 3 до 5 раз медленнее на одной конкретной операции? Я портирую с SQL Server на MariaDB. Я не могу дать своим клиентам что-то более медленное! @MarkRotteveel вы говорите, что не видите ничего, очевидно, не так?
И если все случайно выглядит хорошо, нет ли очевидных причин, чтобы это объяснить?
Пакетирование сложно, и производительность может сильно отличаться между реализациями (например, потому что некоторые не поддерживают реальное пакетирование и имитировать его), производительность самих систем баз данных сильно варьируется (и обычно коммерческие системы баз данных сильно настроены на высокую производительность по сравнению с предложениями с открытым исходным кодом ). Я просто не ожидаю, что кто-нибудь сможет дать вам серебряную пулю за производительность.
Чтобы быть уверенным, вы используете PrepareStatment (например , "INSERT INTO data ( value , parentId , modifiedDate , valueDate ) VALUES (?,?,?)" И передаем параметры)?
Вы используете свой тест на локальном или удаленном сервере? Вы смешиваете обновления и удаления в своей партии или отправляете их как отдельные партии? Используете ли вы один и тот же подготовленный оператор для всех обновлений в пакете, если вы не смешиваете его с удалением?
@Adam Adam - Как вы получили '20-Apr-18' для работы в качестве DATE в MySQL? Пожалуйста, предоставьте SHOW CREATE TABLE ; это более DESCRIBE чем DESCRIBE . Какая версия MySQL?
@Adam Адам - Как ты "пакетировал" операции? Разовая транзакция? Одно заявление?
@Adam Adam - Бенчмаркинг не простая задача.
Я не Адам, но пакет JDBC :) Реализация этого оставлена на усмотрение водителя, и есть много хитростей - конвейерная обработка протоколов, операторы, разделенные точкой с запятой, преобразование многих вставок в multiinsert и специальные расширения MariaDB BULK для протокола.
@RickJames, что SQL от p6spy, так что это просто случайно отформатированное ведение журнала! Я добавил алгоритм Java и некоторые из общего журнала. Плюс я добавил свою платформу и версии программного обеспечения вверху.
@VladislavVaintroub - я измерял multiinsert в нескольких различных ситуациях - обычно это примерно в 10 раз быстрее. Я подозреваю, что другие трюки не такие уж впечатляющие.
@Adam - «реальные» данные имеют тонкие шаблоны, которые могут влиять на производительность. «Случайные» данные могут быть самыми медленными - например, больше прыгать в индексах.
Таким образом, из данных в общем журнале, вызовы UPDATE на самом деле не группируются. Поправьте меня, если я ошибаюсь, выглядит довольно убедительно, что драйвер JDBC для SQL Server / JTDS просто выдающийся при выполнении ОБНОВЛЕНИЙ.

Vladislav Vaintroub · Answer 1 · 2018-05-23T09-49-00.000Z

0

добавьте инструкции "begin" и "commit" между некоторыми строками в вашей партии. или начать транзакцию перед партией и совершить после. Это будет намного быстрее, чем тысячи отдельных заявлений.

Если вы вставляете только вставки, rewriteBatchStatements = true должен значительно ускорить его, без транзакции. Также вы можете увеличить max_packet_size до 1 ГБ, это сделает больше дозирования, может быть, вся ваша партия будет преобразована в 1 очень большую мульти-вставку.

Vladislav Vaintroub 23 май 2018, в 09:49

0

В первую очередь это одна транзакция. Я настрою max_packet_size. Поскольку rewriteBatchStatements предназначен только для вставок, он не поможет с обновлениями, но есть также useBatchMultiSend , allowMultiQueries и другие, но в документах не упоминается, применимы ли они к обновлениям. Возможно нет. Я только что заметил useCompression который может помочь.
Adam 23 май 2018, в 11:41
1

С JDBC вы не должны вручную запускать и совершать транзакции. Это должно обрабатываться драйвером JDBC (если вам нужно зафиксировать, то вы должны использовать connection.commit() , транзакции будут запускаться автоматически при необходимости).
Mark Rotteveel 23 май 2018, в 12:07
0

Вопрос конкретно о драйверах, совместимых с MySQL, я знаю диалект MySQL и вспоминаю, как был написан драйвер (я внес в него свой вклад), так что я могу ответить на то, что знаю в первую очередь? (не то, что драйверы JDBC должны или не должны делать)
Vladislav Vaintroub 23 май 2018, в 16:10
0

Итак, @Adam, одна транзакция - самая мощная оптимизация. Вам нужно запустить его вне пакета, с манипулированием autocommit, если вы хотите быть совместимым с JDBC, или вы можете просто / COMMIT утверждать где-нибудь в пакете, если вы не используете возвращенные сгенерированные идентификаторы, это должно быть хорошо для всех драйверов MySQL. Вы можете оптимизировать DELETE, если они входят в одну и ту же таблицу, в один оператор. Но вручную: «УДАЛИТЬ ИЗ <таблицы> где <cond1>; УДАЛИТЬ ИЗ таблицы, где <cond2>» эквивалентно УДАЛИТЬ ИЗ таблицы WHERE ((cond1) ИЛИ (cond2)). У драйвера пока нет этой оптимизации.
Vladislav Vaintroub 23 май 2018, в 16:19
0

Сжатие сложно, оно сжато на уровне пакета. Если вы не отправляете большие операторы, а я полагаю, что вы этого не делаете, и получаете ли вы большие результаты (вы тоже не делаете с обновлениями), это не поможет вообще .useBatchMultiSend, allowMultiQueries применяется ко всем операторам, поэтому используй их. Делать аналогичные вещи - useBatchMultiSend выполняет конвейерную передачу протокола (также может делать подготовленные операторы), allowMultiQueries отправляет пакеты в одном запросе, разделенные точкой с запятой
Vladislav Vaintroub 23 май 2018, в 16:28
0

Вы также можете попробовать подготовленные операторы на стороне сервера, useBatchMultiSend и PreparedStatement.addBatch (). Это может немного ускорить, но не слишком сильно, в пределах 20%.
Vladislav Vaintroub 23 май 2018, в 16:36
0

@VladislavVaintroub Я использую PreparedStatement.addBatch() и у меня есть Connection.setAutoCommit(false) потому что операция должна быть атомарной. Вы действительно предлагаете мне отказаться от транзакций для этого? В этом случае мне придется написать алгоритм очистки, чтобы извлечь зафиксированные данные об ошибке.
Adam 23 май 2018, в 16:52
0

Я предлагаю иметь транзакционность. Если у вас уже есть, это правильно и хорошо, это избавляет Innodb от управления транзакциями. Я также заметил, что для даты и времени вы используете нестандартный формат. обычно это что-то вроде «2018-05-23 18.54: 07» или подобное. Я удивлен, что это работает даже :)
Vladislav Vaintroub 23 май 2018, в 16:54
0

На самом деле, мне кажется, что у вас, вероятно, есть оптимальная конфигурация на стороне JDBC с подготовленными на стороне сервера инструкциями, конвейерной обработкой и транзакциями. Остальное должно быть двигателем Innodb. Если вы можете поделиться где-нибудь драйвером бенчмарка, это будет интересно посмотреть, и, возможно, есть какой-то параметр Innodb, который поможет.
Vladislav Vaintroub 23 май 2018, в 17:36
0

50K строк в транзакции могут привести к перегруженности журнала повторов и некоторым замедлить работу. Я бы использовал партии по 1 КБ (если нет необходимости делать все 50 КБ сразу).
Rick James 27 май 2018, в 00:02
0

Нужно для COMMIT ?? В MySQL это зависит от настройки autocommit !
Rick James 27 май 2018, в 00:03
0

@Adam - включите «Общий журнал» в MySQL, чтобы захватить то, через что драйвер посылает. Тогда представьте нам образец (не 50К строк) этого. Тогда мы не можем определить, добавляет ли водитель что-то, чтобы замедлить его.
Rick James 27 май 2018, в 00:08
0

начальное состояние autocommit включено (согласно спецификации JDBC). драйвер установил бы это для сеанса, если это было "выключено" глобально
Vladislav Vaintroub 27 май 2018, в 23:43
0

Несмотря на то, что я сильно усек общий журнал, чтобы опубликовать пример в своем вопросе, единственное, что я оставил, - это выполнение UPDATE.
Adam 13 июнь 2018, в 16:48

Показать ещё 12 комментариев