Расщепление огромного CSV с помощью пользовательского фильтра?

Question

Расщепление огромного CSV с помощью пользовательского фильтра?

1

У меня огромный (> 5 ГБ) CSV файл в формате: имя пользователя, транзакция

Я хочу иметь в качестве отдельного файла CSV для каждого пользователя только с его транзакциями в том же формате. У меня мало идей, но я хочу услышать другие идеи для эффективной (быстрой и эффективной памяти).

Вот что я сделал до сих пор. Первый тест читается/обрабатывается/записывается в одном потоке, второй - со многими потоками. Производительность не так хороша, поэтому я думаю, что я делаю что-то неправильно. Пожалуйста, поправьте меня.

public class BatchFileReader {


private ICsvBeanReader beanReader;
private double total;
private String[] header;
private CellProcessor[] processors;
private DataTransformer<HashMap<String, List<LoginDto>>> processor;
private boolean hasMoreRecords = true;

public BatchFileReader(String file, DataTransformer<HashMap<String, List<LoginDto>>> processor) {
    try {
        this.processor = processor;
        this.beanReader = new CsvBeanReader(new FileReader(file), CsvPreference.STANDARD_PREFERENCE);
        header = CSVUtils.getHeader(beanReader.getHeader(true));
        processors = CSVUtils.getProcessors();
    } catch (IOException e) {
        e.printStackTrace();
    }
}

public void read() {
    try {
        readFile();
    } catch (IOException e) {
        e.printStackTrace();
    } finally {
        if (beanReader != null) {
            try {
                beanReader.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }

    }
}

private void readFile() throws IOException {
    while (hasMoreRecords) {

        long start = System.currentTimeMillis();

        HashMap<String, List<LoginDto>> usersBatch = readBatch();

        long end = System.currentTimeMillis();
        System.out.println("Reading batch for " + ((end - start) / 1000f) + " seconds.");
        total +=((end - start)/ 1000f);
        if (processor != null && !usersBatch.isEmpty()) {
            processor.transform(usersBatch);
        }
    }
    System.out.println("total = " + total);
}

private HashMap<String, List<LoginDto>> readBatch() throws IOException {
    HashMap<String, List<LoginDto>> users = new HashMap<String, List<LoginDto>>();
    int readLoginCount = 0;
    while (readLoginCount < CONFIG.READ_BATCH_SIZE) {
        LoginDto login = beanReader.read(LoginDto.class, header, processors);
        if (login != null) {
            if (!users.containsKey(login.getUsername())) {
                List<LoginDto> logins = new LinkedList<LoginDto>();
                users.put(login.getUsername(), logins);
            }
            users.get(login.getUsername()).add(login);
            readLoginCount++;
        } else {
            hasMoreRecords = false;
            break;
        }
    }   
    return users;
}

}

public class BatchFileWriter {

private final String file;

private final List<T> processedData;

public BatchFileWriter(final String file,  List<T> processedData) {
    this.file = file;
    this.processedData = processedData;
}

public void write() {
    try {
        writeFile(file, processedData);
    } catch (IOException e) {
        e.printStackTrace();
    } finally {
    }
}

private void writeFile(final String file, final List<T> processedData) throws IOException {
    System.out.println("START WRITE " + "  " + file);
    FileWriter writer = new FileWriter(file, true);

    long start = System.currentTimeMillis();

    for (T record : processedData) {
        writer.write(record.toString());
        writer.write("\n");
    }
    writer.flush();
    writer.close();

    long end = System.currentTimeMillis();
    System.out.println("Writing in file " + file + " complete for " + ((end - start) / 1000f) + " seconds.");

}

}

открытый класс LoginsTest {

private static final ExecutorService executor = Executors.newSingleThreadExecutor();
private static final ExecutorService procExec = Executors.newFixedThreadPool(Runtime.getRuntime().availableProcessors() + 1);

@Test
public void testSingleThreadCSVtoCSVSplit() throws InterruptedException, ExecutionException {
    long start = System.currentTimeMillis();

    DataTransformer<HashMap<String, List<LoginDto>>> simpleSplitProcessor =  new DataTransformer<HashMap<String, List<LoginDto>>>() {
        @Override
        public void transform(HashMap<String, List<LoginDto>> data) {
            for (String field : data.keySet()) {
                new BatchFileWriter<LoginDto>(field + ".csv", data.get(field)).write();
            }
        }

    };

    BatchFileReader reader = new BatchFileReader("loadData.csv", simpleSplitProcessor);
    reader.read();
    long end = System.currentTimeMillis();
    System.out.println("TOTAL " + ((end - start)/ 1000f) + " seconds.");
}

@Test
public void testMultiThreadCSVtoCSVSplit() throws InterruptedException, ExecutionException {

    long start = System.currentTimeMillis();
    System.out.println(start);

    final DataTransformer<HashMap<String, List<LoginDto>>> simpleSplitProcessor =  new DataTransformer<HashMap<String, List<LoginDto>>>() {
        @Override
        public void transform(HashMap<String, List<LoginDto>> data) {
            System.out.println("transform");
            processAsync(data);
        }
    };
    final CountDownLatch readLatch = new CountDownLatch(1);
    executor.execute(new Runnable() {
    @Override
    public void run() {
        BatchFileReader reader = new BatchFileReader("loadData.csv", simpleSplitProcessor);
        reader.read();
        System.out.println("read latch count down");
        readLatch.countDown();
    }});
    System.out.println("read latch before await");
    readLatch.await();
    System.out.println("read latch after await");
    procExec.shutdown();
    executor.shutdown();
    long end = System.currentTimeMillis();
    System.out.println("TOTAL " + ((end - start)/ 1000f) + " seconds.");

}


private void processAsync(final HashMap<String, List<LoginDto>> data) {
    procExec.execute(new Runnable() {
        @Override
        public void run() {
            for (String field : data.keySet()) {
                writeASync(field, data.get(field));
            }
        }

    });     
}

private void writeASync(final String field, final List<LoginDto> data) {
    procExec.execute(new Runnable() {
        @Override
        public void run() {

            new BatchFileWriter<LoginDto>(field + ".csv", data).write();    
        }
    });
}

}

user3805588 04 июль 2014, в 16:14

Источник

0

Что вы пробовали и с чем у вас проблемы? Почему бы не прочитать запись файла в файл для каждого пользователя? Чего мне не хватает?
Peter Lawrey 04 июль 2014, в 13:21
0

Кстати, многие машины в наши дни имеют более 5 ГБ и могут загружать все это в память. Вы можете обнаружить, что вам вообще не нужно разбивать его. Почему бы не обработать файл как есть?
Peter Lawrey 04 июль 2014, в 13:22
0

Почему бы не загрузить данные в базу данных, а вместо этого запросить транзакции?
TFischer 04 июль 2014, в 13:25
0

Ну, я читаю содержимое в пакетном режиме, каждый пакет читается построчно и решаю, куда поместить текущую запись. Когда пакет завершен, я начинаю асинхронную запись в соответствующие выходные файлы.
user3805588 04 июль 2014, в 13:33
0

@PeterLawrey Открытие 5 ГБ файла в память звучит как довольно ужасная идея, по крайней мере, в каждом сценарии, который я могу себе представить.
DavidG 04 июль 2014, в 13:38
0

Да, я ищу время и память эффективный способ :)
user3805588 04 июль 2014, в 13:40
0

Есть словарь для связи уникальных имен пользователей с StreamReader . Затем выполните потоковую передачу каждой строки из файла CSV и используйте словарь для записи в правильные файлы.
Leopold Asperger 04 июль 2014, в 15:28
0

@DavidG Это потому, что вы использовали файлы отображения памяти для сбора больших данных раньше (как это делают большинство баз данных) и можете придумать более эффективные способы сделать это или потому, что вам это просто не нравится?
Peter Lawrey 04 июль 2014, в 17:40
0

@user3805588 user3805588 Файл 5 ГБ может быть сопоставлен с памятью примерно за 50 микросекунд, фактическая загрузка займет больше времени, если файл фактически не находится в памяти. Это предполагает, что у вас есть 64-битная JVM, конечно.
Peter Lawrey 04 июль 2014, в 17:41

Показать ещё 7 комментариев

Теги:

java

multithreading

batch-file

file-io

parsing

3 ответа

Ещё вопросы

Что вы пробовали и с чем у вас проблемы? Почему бы не прочитать запись файла в файл для каждого пользователя? Чего мне не хватает?
Кстати, многие машины в наши дни имеют более 5 ГБ и могут загружать все это в память. Вы можете обнаружить, что вам вообще не нужно разбивать его. Почему бы не обработать файл как есть?
Почему бы не загрузить данные в базу данных, а вместо этого запросить транзакции?
Ну, я читаю содержимое в пакетном режиме, каждый пакет читается построчно и решаю, куда поместить текущую запись. Когда пакет завершен, я начинаю асинхронную запись в соответствующие выходные файлы.
@PeterLawrey Открытие 5 ГБ файла в память звучит как довольно ужасная идея, по крайней мере, в каждом сценарии, который я могу себе представить.
Да, я ищу время и память эффективный способ :)
Есть словарь для связи уникальных имен пользователей с StreamReader . Затем выполните потоковую передачу каждой строки из файла CSV и используйте словарь для записи в правильные файлы.
@DavidG Это потому, что вы использовали файлы отображения памяти для сбора больших данных раньше (как это делают большинство баз данных) и можете придумать более эффективные способы сделать это или потому, что вам это просто не нравится?
@user3805588 user3805588 Файл 5 ГБ может быть сопоставлен с памятью примерно за 50 микросекунд, фактическая загрузка займет больше времени, если файл фактически не находится в памяти. Это предполагает, что у вас есть 64-битная JVM, конечно.

user3465651 · Answer 1 · 2014-07-04T12-09-00.000Z

Не было бы лучше использовать команды unix для сортировки, а затем разделить исходный файл?

Что-то вроде: cat txn.csv | sort> txn-sorted.csv

Оттуда получите список уникальных имен пользователей через grep, а затем grep отсортированный файл для каждого имени пользователя

Я должен написать это в Java, поэтому в основном мне нужно найти лучший алгоритм решения. Кроме того, я не уверен, что сортировка будет быстрой и эффективной.
Вам разрешено использовать фреймворки для этого? Это рабочее задание или задание?
Я бы порекомендовал projects.spring.io/spring-batch, который я использовал раньше. Я думаю, что вам нужно будет создать собственный писатель, который будет записывать в отдельный файл на основе имени пользователя, то

matt helliwell · Answer 2 · 2014-07-04T11-57-00.000Z

Если вы уже знаете Camel, я бы написал простой маршрут Camel, чтобы: Читать строку из файла. Разбирать строку. Напишите в правильный выходной файл.

Это очень простой маршрут, но если вы хотите его как можно быстрее, тогда это просто тривиально легко сделать его многопоточным

например, ваш маршрут будет выглядеть примерно так:

from("file:/myfile.csv")
.beanRef("lineParser")
.to("seda:internal-queue");

from("seda:internal-queue")
.concurrentConsumers(5)
.to("fileWriter");

Если вы не знаете Camel, тогда не стоит изучать эту одну задачу. Однако вам, вероятно, понадобится сделать его многопоточным, чтобы получить максимальную производительность. Вам нужно будет поэкспериментировать, где лучше всего поместить поток, поскольку это будет зависеть от того, какие части операции будут самыми медленными.

Многопоточность будет использовать больше памяти, поэтому вам нужно будет сбалансировать эффективность памяти против производительности.

Хорошо, вот что я сделал: 1. запустил поток чтения, который читает пакетами 2. каждый пакет обрабатывается этим потоком в HashMap <String, List <String>, где ключ = имя пользователя, список <String = логины для этого имени пользователя. 3. для каждого ключа я вызываю службу исполнения Java, которая имеет фиксированный размер, а запись в файл выполняется параллельно для всех имен пользователей. 4. когда все записи для текущей партии завершены, новая партия считывается и все повторяется.
Надо сказать, что на обычном ПК производительность не так уж и лучше, благодаря операциям ввода-вывода. Файл объемом 2 ГБ с 1000 тыс. Строк разделяется на 100 секунд в одном потоке, а при многопоточном использовании он равен 60 секундам.
Зависит от того, как вы на это смотрите. 40-секундное улучшение не очень большое, но 40-процентное улучшение звучит довольно хорошо. Вы можете ускорить его, читая вторую партию параллельно, прежде чем первая партия закончит запись. Стоит ли это усилий или нет, зависит от того, насколько быстро вам нужно это сделать.
Мой плохой, его 6 секунд лучше, а не 60 :(. Я явно делаю что-то не так с многопоточностью.

dbaneman · Answer 3 · 2014-07-04T12-14-00.000Z

Я бы открыл/добавил новый выходной файл для каждого пользователя. Если вы хотите свести к минимуму использование памяти и навлечь больше накладных расходов ввода-вывода, вы можете сделать что-то вроде следующего, хотя вы, вероятно, захотите использовать настоящий синтаксический анализатор CSV, например Super CSV (http://supercsv.sourceforge.net/index.html):

Scanner s = new Scanner(new File("/my/dir/users-and-transactions.txt"));
while (s.hasNextLine()) {
    String line = s.nextLine();
    String[] tokens = line.split(",");
    String user = tokens[0];
    String transaction = tokens[1];
    PrintStream out = new PrintStream(new FileOutputStream("/my/dir/" + user, true));
    out.println(transaction);
    out.close();
}
s.close();

Если у вас разумный объем памяти, вы можете создать карту имени пользователя для OutputStream. Каждый раз, когда вы видите пользовательскую строку, вы можете получить существующий OutputStream для этого имени пользователя или создать новый, если он не существует.

Это не очень эффективно, потому что для каждого чтения вы открываете / пишете / закрываете.
Да, это достаточно справедливо. Я думал о минимизации использования памяти. Я отредактировал свой ответ соответственно.