Как загрузить определенный диапазон входных файлов в Pig

Question

Как загрузить определенный диапазон входных файлов в Pig

1

У меня есть набор входных файлов для обработки с помощью Pig со следующей структурой именования:

/user/hdp/input/custom/Fold1/train0.txt
/user/hdp/input/custom/Fold1/train1.txt
/user/hdp/input/custom/Fold1/train2.txt
/user/hdp/input/custom/Fold1/train3.txt
...
/user/hdp/input/custom/Fold1/train9.txt
/user/hdp/input/custom/Fold1/train10.txt
/user/hdp/input/custom/Fold1/train11.txt
/user/hdp/input/custom/Fold1/train12.txt
...

вплоть до учебного файла 99. Я строю сценарий Pig динамически как Java String, который затем отправляю в свой кластер. Я ищу общее решение для загрузки диапазона файлов поезда от 0 до некоторого числа x, где я могу установить этот x в любой java int до 99.

В предыдущей версии моего решения поддерживаемые значения x до 9, я использовал поддержку Pig для globs следующим образом:

pigString += "TRAIN = LOAD 'user/hdp/input/custom/Fold1/train[0-"+x+"].txt' USING PigStorage(' ');";

Этот подход не масштабируется до значений, больших 9, так как с 10 он начинает принимать два символа вместо одного. Одним из возможных решений было бы разделение x на одну цифру и использование этого для построения свиней String.

int tens   = x/10;
int single = x%10;
if(tens>0)
    pigString += "TRAIN = LOAD 'user/hdp/input/custom/Fold1/train[0-"+tens+"][0-+"single"+.txt' USING PigStorage(' ');";
else
    pigString += "TRAIN = LOAD 'user/hdp/input/custom/Fold1/train[0-"+single+"].txt' USING PigStorage(' ');";

Однако эти решения имеют две проблемы.

Когда x> 9 поезда от 0 до 9 не загружаются, потому что glob соответствует номерам 00, 01 и 02 вместо однозначных версий 0, 1 и 2. Я не видел никакой поддержки в шарах Hadoop, однако для сопоставления первого [ CN10] "+ tens +"] часть нуля или одно время (например, с? В регулярных выражениях).
Когда single - любое значение меньше 9, файлы данных также загружаются только до этого значения для всех значений, меньших, чем десятки. Допустим, что x = 24, чем в приведенном выше коде только нагрузка 1 0- 14, но не 15-19. Я ничего не видел в документации Hadoop glob, но чтобы вторая совпадающая цифра зависела от первого совпадающего didit.

Кто-нибудь знает какое-либо общее решение для загрузки моего диапазона файлов данных до любого значения x? Я не знаю, правильно ли я нахожусь на правильном пути, используя glob, поэтому любое другое решение, отличное от glob, также будет очень оценено.

Спасибо заранее!

Niek Tax 01 сен. 2014, в 10:33

Источник

0

Если вы формируете pigString в JAVA, почему бы вам не использовать x.toString () для формирования имени файла, как показано ниже: "/ user / hdp / input / custom / Fold1 / train" + x + ".txt"? Окружите это циклом for, работающим от 0 до x.
Gaurav Phapale 01 сен. 2014, в 08:48
0

Потому что тогда у меня будет x LOAD-операторов, каждый из которых загружает один поезд, в то время как мне нужен 1 LOAD-оператор, который загружает x Train-файлы одновременно.
Niek Tax 01 сен. 2014, в 09:29
0

О, понял. Я думаю, что вы боретесь с созданием регулярных выражений для двузначного числа (в том числе от 0 до 9). Помогает ли это: регулярные выражения.info/numericranges.html ?
Gaurav Phapale 01 сен. 2014, в 09:56
0

Да, этот документ описал точно такую же проблему, с которой я столкнулся, но для случая регулярных выражений. Однако я не уверен, что Pig поддерживает регулярные выражения для случая загрузки файлов (единственное упоминание об использовании регулярных выражений в Pig в случае функций фильтра: chimera.labs.oreilly.com/books/1234000001811/ch05. html # filter ). Простая глобализация поддерживается в Pig, но я не уверен, возможно ли решить эту проблему исключительно с помощью глобализации.
Niek Tax 01 сен. 2014, в 10:29
0

понял. Я не вижу способа создать сложное регулярное выражение, используя глобусы. Кстати, спасибо за написание аккуратного вопроса с примером кода.
Gaurav Phapale 01 сен. 2014, в 10:54
0

Пожалуйста :). Я также сомневаюсь, что есть глобальное решение. Однако я могу себе представить, что я не единственный, кому нужно загружать диапазон пронумерованных файлов с помощью Pig (например, подумать об анализе пронумерованных лог-файлов), поэтому я ожидаю, что в Pig есть что-то, что поддерживает диапазоны загрузки файлов что я в настоящее время скучаю.
Niek Tax 01 сен. 2014, в 11:53
0

Если возможно, сбросьте необходимые файлы в 1 каталоге из вашего Java-кода и позвольте Pig загрузить новый каталог в целом.
Gaurav Phapale 01 сен. 2014, в 12:30
0

К сожалению, перемещение по данным - это не то, что я могу сделать перед каждым прогоном. Файлы поездов имеют размер около 5 ГБ каждый, поэтому это приведет к огромному количеству данных, которые необходимо перемещать.
Niek Tax 01 сен. 2014, в 13:13
0

Не обязательно. Вы можете создавать символические ссылки на эти выбранные файлы и хранить символические ссылки в каталоге; затем прочитайте этот каталог от свиньи.
Gaurav Phapale 01 сен. 2014, в 13:15
0

Я решил подобную проблему совсем недавно. Я использовал Python и mako для создания сценария свиньи. Чтобы получить список файлов, я использовал fs -ls . Поскольку вы получаете код для написания кода, почему бы просто не загрузить все файлы отдельно и не выполнить объединение?
Sheena 02 сен. 2014, в 14:31
0

Пожалуйста, помогите в этом: stackoverflow.com/questions/38706919/…
user2924175 02 авг. 2016, в 20:47

Показать ещё 9 комментариев

Теги:

java

hadoop

glob

apache-pig

1 ответ

Ещё вопросы

Если вы формируете pigString в JAVA, почему бы вам не использовать x.toString () для формирования имени файла, как показано ниже: "/ user / hdp / input / custom / Fold1 / train" + x + ".txt"? Окружите это циклом for, работающим от 0 до x.
Потому что тогда у меня будет x LOAD-операторов, каждый из которых загружает один поезд, в то время как мне нужен 1 LOAD-оператор, который загружает x Train-файлы одновременно.
О, понял. Я думаю, что вы боретесь с созданием регулярных выражений для двузначного числа (в том числе от 0 до 9). Помогает ли это: регулярные выражения.info/numericranges.html ?
Да, этот документ описал точно такую же проблему, с которой я столкнулся, но для случая регулярных выражений. Однако я не уверен, что Pig поддерживает регулярные выражения для случая загрузки файлов (единственное упоминание об использовании регулярных выражений в Pig в случае функций фильтра: chimera.labs.oreilly.com/books/1234000001811/ch05. html # filter ). Простая глобализация поддерживается в Pig, но я не уверен, возможно ли решить эту проблему исключительно с помощью глобализации.
понял. Я не вижу способа создать сложное регулярное выражение, используя глобусы. Кстати, спасибо за написание аккуратного вопроса с примером кода.
Пожалуйста :). Я также сомневаюсь, что есть глобальное решение. Однако я могу себе представить, что я не единственный, кому нужно загружать диапазон пронумерованных файлов с помощью Pig (например, подумать об анализе пронумерованных лог-файлов), поэтому я ожидаю, что в Pig есть что-то, что поддерживает диапазоны загрузки файлов что я в настоящее время скучаю.
Если возможно, сбросьте необходимые файлы в 1 каталоге из вашего Java-кода и позвольте Pig загрузить новый каталог в целом.
К сожалению, перемещение по данным - это не то, что я могу сделать перед каждым прогоном. Файлы поездов имеют размер около 5 ГБ каждый, поэтому это приведет к огромному количеству данных, которые необходимо перемещать.
Не обязательно. Вы можете создавать символические ссылки на эти выбранные файлы и хранить символические ссылки в каталоге; затем прочитайте этот каталог от свиньи.
Я решил подобную проблему совсем недавно. Я использовал Python и mako для создания сценария свиньи. Чтобы получить список файлов, я использовал fs -ls . Поскольку вы получаете код для написания кода, почему бы просто не загрузить все файлы отдельно и не выполнить объединение?
Пожалуйста, помогите в этом: stackoverflow.com/questions/38706919/…

Gaurav Phapale · Accepted Answer · 2014-09-03T02-34-00.000Z

Я посмотрел на Hadoop Глоба подписи, и кажется, что это должно быть легко сделать, чем мы первоначально думали.

Создайте строку, разделенную запятыми, всех номеров, которые вас интересуют, и назовите ее expectedNumber. например expectedNumbers = "0,1,2,3,4,5", а затем использовать его, как показано ниже:

pigString += "TRAIN = LOAD 'user/hdp/input/custom/Fold1/train" + {expectedNumbers} +".txt' USING PigStorage(' ');";

Надеюсь это поможет.