Несколько входных файлов в одном классе Mapper Hadoop?

Question

Несколько входных файлов в одном классе Mapper Hadoop?

1

Итак, я пытаюсь закодировать алгоритм FP-Tree в MapReduce Paradigm, для создания часто заданного списка элементов у меня есть следующая проблема:

Входные данные :

File1.txt (содержит все транзакции)

123 452 221 12 
45 76 987 
77 76 123 354 

[Each Line contains items Bought in one Transaction]

File2.txt (содержит предметы, которые покупаются в порядке убывания)

12    123

6     221

5     77

4     354

[Count] [Item Id]

Вывод :

output.txt

123 221  
123 77 354 

[2nd transaction is eliminated]

Элементы в соответствии с их подсчетом берутся (спускаются), другие удаляются

Можно ли взять файлы File1.txt и File2.txt в один класс сопоставления? потому что это решит мою проблему

Или есть ли способ выполнить эту операцию по-другому?

Любая помощь приветствуется.

asd 28 март 2015, в 17:46

Источник

Теги:

java

hadoop

mapreduce

multiple-files

2 ответа

Ещё вопросы

221B · Answer 1 · 2015-03-29T01-53-00.000Z

Вы можете читать несколько файлов в одной программе MR. Но каждый файл должен иметь класс сопоставления отдельно. Поскольку оба ваших входных файла различны, логика чтения изменяется для обоих из них. У вас может быть два картографа по одному для каждого, и выход этого должен иметь один и тот же ключ и передаваться на редуктор.

Вы можете обратиться к распределенному кешу.

Sravan K Reddy · Answer 2 · 2015-03-28T15-53-00.000Z

посмотреть в mapreduce распределенный кеш example.may быть полной

http://myhadoopexamples.com/2014/04/16/hadoop-map-side-join-with-distributed-cache-example/

прочитайте файл в методе setup.the выше ссылка даст хорошее руководство.

Карта Hadoop Сократить чтение текстового файла

Распределенный кеш будет полезен только тогда, когда один из файлов имеет небольшой размер, который может поместиться в оперативной памяти.