Ошибка при запуске файла JAR в Hadoop


При запуске файла jar в hadoop я получаю исключение с нулевым указателем. Я не могу понять, в чем проблема.

Следующий мой класс драйвера:

package mapreduce;

import java.io.*;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapred.*;
import org.apache.hadoop.util.*;

public class StockDriver extends Configured implements Tool
      public int run(String[] args) throws Exception
            //creating a JobConf object and assigning a job name for identification purposes
            JobConf conf = new JobConf(getConf(), StockDriver.class);

            //Setting configuration object with the Data Type of output Key and Value

            //Providing the mapper and reducer class names

            File in = new File(args[0]);
            int number_of_companies = in.listFiles().length;
            for(int iter=1;iter<=number_of_companies;iter++)
                Path inp = new Path(args[0]+"/i"+Integer.toString(iter)+".txt");
                Path out = new Path(args[1]+Integer.toString(iter));
                //the HDFS input and output directory to be fetched from the command line
                FileInputFormat.addInputPath(conf, inp);
                FileOutputFormat.setOutputPath(conf, out);
            return 0;

      public static void main(String[] args) throws Exception
            int res = ToolRunner.run(new Configuration(), new StockDriver(),args);

Класс карты:

package mapreduce;

import java.io.IOException;
import gonn.ConstraintTree;

import org.apache.hadoop.io.*;
import org.apache.hadoop.mapred.*;

public class StockMapper extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable>
      //hadoop supported data types
      private static IntWritable send;
      private Text word;

      //map method that performs the tokenizer job and framing the initial key value pairs
      public void map(LongWritable key, Text value, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException
            //taking one line at a time and tokenizing the same
            String line = value.toString();
            String[] words = line.split(" ");
            String out = ConstraintTree.isMain(words[1]);
            word = new Text(out);

            send = new IntWritable(Integer.parseInt(words[0]));
            output.collect(word, send);

Класс редуктора:

package mapreduce;

import java.io.IOException;
import java.util.Iterator;

import org.apache.hadoop.io.*;
import org.apache.hadoop.mapred.*;

public class StockReducer extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable>
      //reduce method accepts the Key Value pairs from mappers, do the aggregation based on keys and produce the final output
      public void reduce(Text key, Iterator<IntWritable> values, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException
            int val = 0;

            while (values.hasNext())
               val += values.next().get();
            output.collect(key, new IntWritable(val));

Трассировки стека:

Exception in thread "main" java.lang.NullPointerException
    at mapreduce.StockDriver.run(StockDriver.java:29)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
    at mapreduce.StockDriver.main(StockDriver.java:44)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:606)
    at org.apache.hadoop.util.RunJar.main(RunJar.java:212)

Когда я попытался запустить файл jar с помощью java -jar myfile.jar args... он работает нормально. Но когда я попытался запустить его на кластере hadoop, используя hadoop jar myfile.jar [MainClass] args... is дает ошибку.

Чтобы уточнить, строка 29 является int number_of_companies = in.listFiles().length;

    Вы запускаете отдельные задания MR для каждого файла в arg [0]?
    @blackSmith Нет, я использую одно и то же задание Mapreduce в цикле для каждого файла.

Причиной проблемы является использование File api для чтения файлов HDFS. Если вы создаете объект File с несуществующим путем, метод listFiles возвращает значение null. Как ваш каталог ввода в HDFS (я предполагаю), он не существует для локальной файловой системы, NPE происходит от:


Для извлечения количества файлов в каталогах HDFS используйте следующее:

FileSystem fs = FileSystem.get(new Configuration());
int number_of_companies = fs.listStatus(new Path(arg[0])).length;

