Sqoop Экспорт HDFS в MySQL завершается неудачно

Question

Sqoop Экспорт HDFS в MySQL завершается неудачно

0

Я не знаю, где я ошибаюсь, но моя команда экспорта Sqoop из HDFS в MySQL не работает каждый раз.

sqoop export --connect "jdbc:mysql://quickstart.cloudera:3306/streaming" 
--username root --password cloudera --table pd_count --update-key id 
--update-mode allowinsert  --export-dir /user/cloudera/input/* -m 1 --batch

В каталоге экспорта есть только 1 папка, и она содержит 3 файла, а именно,

часть-м-00000
часть-м-00001
часть-м-00002

Я обновил последний файл, чтобы узнать о аргументе --update. Но, работа терпит неудачу, независимо от того, сколько перестановок я стараюсь.

Я экспортирую данные в MySQL без инкрементного обновления, и данные успешно экспортируются.
Я импортирую данные в HDFS с "incremental append", это успех.
Но когда я пытаюсь экспортировать данные в MySQL с "ключом обновления" и "режимом обновления", он не переносится и не работает.

Вышеупомянутая команда была последней использованной командой.

Ниже приведен последний журнал ошибок по этой ссылке, пожалуйста, помогите мне.

Заранее спасибо.

Subash 14 дек. 2017, в 08:09

Источник

Теги:

mysql

hadoop

sqoop

1 ответ

Ещё вопросы

Subash · Answer 1 · 2017-12-18T04-46-00.000Z

0

Хорошо.. Я принимал что-то другое. Не могли бы вы попытаться использовать приведенные ниже параметры

Используйте --verbose в экспорте еще раз для расширенных журналов.
Вы можете посмотреть журналы приложений из неудавшегося приложения. Для их запуска выполните следующую команду в качестве пользователя, который запустил yarn logs -applicationId application_1513399439223_0001 > app_logs.txt.
Кажется, вы не добавили --input-fields-terminated-by.

Обновление ответа в соответствии с вашим последним комментарием

Я вижу, что вы убили работу. Это может быть связано с производительностью. Пожалуйста, попробуйте настроить ниже и снова запустите sqoop:

Задайте количество карт на 4 -m 4
Вставьте данные в партии --batch
Используйте свойство sqoop.export.records.per.statement чтобы указать количество записей, которые будут использоваться в каждом объявлении insert sqoop export -Dsqoop.export.records.per.statement=100 --connect
Наконец, укажите, сколько строк будет добавлено для каждой транзакции с свойством sqoop.export.statements.per.transaction. sqoop export -Dsqoop.export.statements.per.transaction=100 --connect

Просьба предоставить журналы пряжи и каков объем данных?

Subash 18 дек. 2017, в 04:46

0

Я использовал "verbose" для создания расширенных журналов. Вот журнал . --input-fields-terminated-by не помог мне.
user8846809 19 дек. 2017, в 06:17
0

После использования всех предложенных вами команд производительность возросла, а время выполнения сократилось до 7 м 19 с. Раньше это занимало более 30 минут. Но, грустная часть - работа снова потерпела неудачу. Объем данных составляет 64 МБ. Мое задание Sqoop использует MapReduce в качестве механизма выполнения, а не YARN. Поэтому я думаю, что не могу предоставить журналы YARN.
user8846809 20 дек. 2017, в 05:53
0

ОК .. Журналы все те же? Можете ли вы проверить журналы отсюда - / var / logs / hadoop- * или / var / logs / mapred- * или localhost: 50030 / jobtracker.jsp, иначе будет трудно знать конкретную причину сбоя. Попробуйте запустить файл с низким объемом памяти (10 МБ или 5 МБ)
Subash 20 дек. 2017, в 10:38
0

Я предполагаю, что проблема связана с размером данных и командой --update-key updateonly. Потому что я создал еще одну таблицу с именем «test», содержащую первые 10 строк «pd_count». Затем я импортировал в HDFS и экспортировал в другую таблицу "test_exp". Затем, используя команду --incremental append, я импортировал еще 6 строк в HDFS. И теперь, когда я экспортирую в MySQL с помощью команды «--update-key updateonly», консоль отображает сообщение «Экспортировано 16 записей», но это не так.
user8846809 21 дек. 2017, в 05:21
0

Когда я использовал команду «-update-mode allowinsert», все 16 записей были экспортированы и добавлены к предыдущим записям. И у меня было 10 повторяющихся строк. И, что касается журналов, нет никакой папки с именем "/ var / log / mapred- ", и есть много папок "/ var / log / hadoop- ", какую из них мне следует проверить? Это hdfs, пряжа, httpfs, кмс, mapreduce,
user8846809 21 дек. 2017, в 05:26
0

Пожалуйста, предоставьте журналы, относящиеся к папке sqoop. Не могли бы вы сослаться на эту ссылку для экспорта небольших данных. acadgild.com/blog/exporting-files-hdfs-mysql-using-sqoop
Subash 21 дек. 2017, в 10:22
0

Я ссылался на предоставленную ссылку. Это именно то, что я сделал. Используя команду «--update-key updateonly», я получаю инструкцию, поскольку все записи экспортируются, но в действительности они обновляются в MySQL. Используя команду --incremental append, вы не только экспортируете оставшуюся часть данных, но и экспортируете записи, которые уже присутствуют в MySQL. А что касается логов, в папке Sqoop нет файла.
user8846809 22 дек. 2017, в 06:12
0

Отлично! Это означает, что экспорт выполняется правильно, но у вас есть дубликаты. Пожалуйста, проверьте схему таблицы, объявили ли вы столбец «id» в качестве первичного ключа в таблице mysql, чтобы произошла ошибка. И я бы посоветовал пройти через основы sqoop here- sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html
Subash 22 дек. 2017, в 07:40
0

Это не первичный ключ. Я намеренно не объявил его первичным ключом, потому что для одного и того же идентификатора будет несколько входов. Как и для того же идентификатора, будет добавлено другое значение счетчика.
user8846809 22 дек. 2017, в 09:46
0

И, извините, в моем предыдущем комментарии была опечатка. Используя команду «--update-key updateonly», я получаю инструкцию, поскольку все записи экспортируются, но в действительности они не обновляются в MySQL.
user8846809 22 дек. 2017, в 09:47
0

Пожалуйста, просмотрите sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_failed_exports и решение переполнения стека stackoverflow.com/questions/39137254/… необходимо упомянуть первичный ключ в соответствии с вашим комментарием к 21_5 декабря: 26
Subash 02 янв. 2018, в 17:50

Показать ещё 9 комментариев