Заполнение Hadoop Mapper объектами MapOutputBuffer, есть ли лучший способ пропустить плохие ключи?

Question

Заполнение Hadoop Mapper объектами MapOutputBuffer, есть ли лучший способ пропустить плохие ключи?

1

Я работаю над проектом mapreduce, где я не могу заранее гарантировать, что моему картографу всегда будет предоставлена полезная пара ключевых значений. Я попытался окружить соответствующий код с помощью блока catch try

public void map(LongWritable Key, Text values, Context context)
                throws IOException, InterruptedException {

            try {
                    //Attempt process

                    context.write(HKey, HValue);

                }
            } catch (Exception e) {
                //was given invalid value, drop it and move on
                context.nextKeyValue();
                e.printStackTrace();
            }
}

Профилирование данных на большом наборе данных показывает, что MapOutputBuffers занимают большую часть моей памяти, что дает мне возможную ошибку из памяти. Есть ли лучший способ структурирования моего Mapper, поэтому у меня нет этой проблемы? Я бы предпочел не выделять дополнительную память в качестве остановки.

chenab 08 авг. 2014, в 22:35

Источник

Теги:

java

hadoop

mapreduce

1 ответ

Ещё вопросы

Radek Tomšej · Accepted Answer · 2014-08-08T19-18-00.000Z

Я считаю, что трассировка стека стека бесполезна, я использую этот код:

// Define enumeration    
    public static enum LOCAL_COUNTER_MAP {
                INVALID 
            }   


        public void map(LongWritable Key, Text values, Context context)
                            throws IOException, InterruptedException {

                        try {
                                //Attempt process

                                context.write(HKey, HValue);

                            }
                        } catch (Exception e) {
                        // ignore value
                          context.getCounter(LOCAL_COUNTER_MAP.INVALID).increment(1);
                          return;
                        }
            }

В результатах вашей работы вы увидите, сколько у mappers неверной пары значений ключа.

Удачи :)

Трассировка стека печати на самом деле не является проблемой, хотя это действительно хороший способ справиться с этим. Я собираюсь сделать это, чтобы мои файлы журналов не всплыли. В любом случае проблема заключается в том, что даже когда я пропускал неверные значения с помощью оператора return, я сталкивался с ограничением накладных расходов gc.
Итак, проблема в том, что процесс потратил более 98% на сборку мусора и менее 2% кучи восстанавливается. Поэтому попробуйте увеличить размер кучи, посмотрите на этот пост, подумайте, что это может помочь - Ошибка нехватки памяти
Ну, похоже, теперь это работает, это странно, я думал, что установил это в файле hadoop-env. Мне интересно, есть ли другие проблемы с памятью, которые я могу исправить, но этого более чем достаточно. Спасибо.