У меня есть 2 PairRDD: rddA, который имеет огромный размер и rddB, который намного меньше. Мне нужно присоединиться к ним с помощью ключа, чтобы я мог продолжить итерацию по парам элементов этих PairRDD, соответствующих одному и тому же ключу. Метод соединения PairRDD #, кажется, именно то, что мне нужно, но я вижу, что он включает перетасовку, что приводит к написанию огромных объемов данных в HDFS и частым ошибкам вне памяти. Есть ли способ избежать перетасовки?
Чтобы уменьшить перетасовку данных, необходимо размещать их на одних и тех же узлах кластера.
Некоторые указатели, которые помогли мне: