Присоединяйтесь к 2 PairRDD без перемешивания

Question

Присоединяйтесь к 2 PairRDD без перемешивания

1

У меня есть 2 PairRDD: rddA, который имеет огромный размер и rddB, который намного меньше. Мне нужно присоединиться к ним с помощью ключа, чтобы я мог продолжить итерацию по парам элементов этих PairRDD, соответствующих одному и тому же ключу. Метод соединения PairRDD #, кажется, именно то, что мне нужно, но я вижу, что он включает перетасовку, что приводит к написанию огромных объемов данных в HDFS и частым ошибкам вне памяти. Есть ли способ избежать перетасовки?

YuliaSh. 01 март 2015, в 17:37

Источник

Теги:

java

scala

apache-spark

hadoop

1 ответ

Ещё вопросы

G Quintana · Accepted Answer · 2015-03-01T19-11-00.000Z

Чтобы уменьшить перетасовку данных, необходимо размещать их на одних и тех же узлах кластера.

Управление разделением на уровне источника данных и/или с использованием оператора.partition
Если небольшое RDD может поместиться в память всех работников, то использование широковещательной переменной - это более быстрый вариант

Некоторые указатели, которые помогли мне:

Расширенное обучение искры, в частности, вокруг слайда 12
О присоединении к широковещательным картам: расширенные функции искры в частности слайды 9-12

Спасибо за вклад! Я проверю, поможет ли это.
Кстати, разве элементы RDD с одинаковыми ключами не расположены на одном узле кластера по умолчанию?
Для 1 RDD это верно, но для 2 RDD это не так, и это является причиной перетасовки.