Не удается сохранить большой массив данных в MySQL

Question

Не удается сохранить большой массив данных в MySQL

0

У меня есть фрейм данных Panda, который содержит итоговые [1127618 строк x 64 столбца] и попытался сохранить в mysql заданную команду ниже.

engine = create_engine('mysql+mysqlconnector://user:[email protected]/joohun_test', echo=False)
df.to_sql(name='tst_dr3_201801', con=engine, if_exists = 'replace', index=False

когда он выполняет эту команду, он берет навсегда и, похоже, никогда не завершает задачу. Поэтому, если я уменьшу размер кадра данных до [10000 строк × 64 столбца], он, наконец, может быть сохранен в базе данных Mysql. Но я столкнулся с различной проблемой в окончательной форме данных, сохраненных в MySQL. Поскольку вы видите столбцы "smaster_uuttype" и "user", между символами добавляется пробел.

MariaDB [joohun_test]> select serialno, uuttype, smaster_uuttype,failingtestname,cpptimeid, user, year, month from tst_dr3_sample limit 10;
+-------------+--------------------+--------------------------------------+-----------------+-----------+------------------+------+-------+
| serialno    | uuttype            | smaster_uuttype                      | failingtestname | cpptimeid | user             | year | month |
+-------------+--------------------+--------------------------------------+-----------------+-----------+------------------+------+-------+
| ABCDEFGH | ABCD-ABC-2500ABCD= | D E F G - H I J - 2 5 0 0 A B C D =  |                 | NULL      | d u n g l e      | 2018 |     1 |

однако, глядя на ту же строку блока данных panda, между символами нет пробела.

    serialno    uuttype  smaster_uuttype    failingtestname cpptimeid   user    year    month
0   ABCDEFGH    ABCD-ABC-2500ABCD=  DEFG-HIJ-2500ABCD=      None    dungle  2018    1

есть две вещи, которые я хотел бы знать.

Я хотел бы знать, есть ли способ сохранить данные в mysql с тем, как строка сохраняется в panda без пробела между символами.
Есть ли способ сохранить большой размерный фрейм в mysql вместо того, чтобы обмениваться файлами данных на небольшие кадры?

Joohun Lee 17 фев. 2018, в 01:47

Источник

0

кажется, существует проблема кодирования, которая вызвала лишние пробелы.
Sphinx 17 фев. 2018, в 00:32
0

На вопрос 2, если ваш фрейм данных имеет миллиарды байт, я не думаю, что это можно сделать быстро. Параметр = chunksize of to_sql может помочь при возникновении проблемы тайм-аута, но не должен быть полезным для эффективного
Sphinx 17 фев. 2018, в 00:39
0

Спасибо за информацию. chunksize поможет, так как в данный момент я не ищу эффективного решения. Кстати, проблема с дополнительным пространством все еще остается проблемой. Я изначально хранил данные в sqlite3. Я проверил исходные данные из базы данных sqlite, и она показывает только первые символы из определенных столбцов. при загрузке этих данных в panda dataframe теперь они отображаются как обычные строки без пробелов между символами. но эта проблема появляется снова, когда он записывает обратно в MySQL. Я пытался удалить пробелы с помощью метода «обновить xxx replace (xxx)», но это не помогло.
Joohun Lee 19 фев. 2018, в 19:56
0

Вы проверяли кодировку? Вы должны вставить данные в MySQL с правильным набором символов, который совпадает с SQLite.
Sphinx 20 фев. 2018, в 06:16
0

Пожалуйста, предоставьте SHOW CREATE TABLE . И SELECT HEX(smaster_uuttype) ... для столбца с ложными пробелами.
Rick James 01 март 2018, в 20:17
0

спасибо за все комментарии. Я исправил эту проблему. Я обнаружил, что в некоторых столбцах были добавлены нежелательные символы. Мне пришлось удалить их из этого символа, чтобы избежать пробелов между символами в новой базе данных.
Joohun Lee 03 март 2018, в 07:54

Показать ещё 4 комментария

Теги:

mysql

pandas

mariadb

1 ответ

Ещё вопросы

кажется, существует проблема кодирования, которая вызвала лишние пробелы.
На вопрос 2, если ваш фрейм данных имеет миллиарды байт, я не думаю, что это можно сделать быстро. Параметр = chunksize of to_sql может помочь при возникновении проблемы тайм-аута, но не должен быть полезным для эффективного
Спасибо за информацию. chunksize поможет, так как в данный момент я не ищу эффективного решения. Кстати, проблема с дополнительным пространством все еще остается проблемой. Я изначально хранил данные в sqlite3. Я проверил исходные данные из базы данных sqlite, и она показывает только первые символы из определенных столбцов. при загрузке этих данных в panda dataframe теперь они отображаются как обычные строки без пробелов между символами. но эта проблема появляется снова, когда он записывает обратно в MySQL. Я пытался удалить пробелы с помощью метода «обновить xxx replace (xxx)», но это не помогло.
Вы проверяли кодировку? Вы должны вставить данные в MySQL с правильным набором символов, который совпадает с SQLite.
Пожалуйста, предоставьте SHOW CREATE TABLE . И SELECT HEX(smaster_uuttype) ... для столбца с ложными пробелами.
спасибо за все комментарии. Я исправил эту проблему. Я обнаружил, что в некоторых столбцах были добавлены нежелательные символы. Мне пришлось удалить их из этого символа, чтобы избежать пробелов между символами в новой базе данных.

sushmit · Answer 1 · 2018-04-25T14-05-00.000Z

Использование df.to_sql() может иметь проблемы. Вы должны использовать собственный способ сделать это. Вот пример https://dev.mysql.com/doc/connector-python/en/connector-python-example-cursor-transaction.html