Java: Как быстро извлечь совпадающие строки из большого текстового файла?

Question

Java: Как быстро извлечь совпадающие строки из большого текстового файла?

1

Несмотря на то, что в моей работе есть много предлагаемых решений, я все еще не удовлетворен временем выполнения, которое они требуют в моем специальном случае.

Рассмотрим большой текстовый файл 35G в формате FASTA, например:

>Protein_1 So nice and cute little fella
MTTKKCLQKFHLESLGKLGDSFLKYAISIQLFKSYENHYEGLPSIKKNKIISNAALFKLG 
YARKILRFIRNEPFDLKVGLIPSDNSQAYNFGKEFLMPSVKMCSRVK*
>Protein_2 Fancy incredible description of its function
MADDSKFCFFLVSTFLLLAVVVNVTLAANYVPGDDILLNCGGPDNLPDADGRKWGTDIGS
[…] etc.

Мне нужно извлечь только строки >.

Использование grep '>' proteins.fasta > protein_descriptions.txt для достижения этого занимает всего пару минут.

Но с использованием Java 7 это уже работает более 90 минут:

public static void main(String[] args) throws Exception {
    BufferedReader fastaIn = new BufferedReader(new FileReader(args[0]));
    List<String> l = new ArrayList<String>();
    String str;
    while ((str = fastaIn.readLine()) != null) {
        if (str.startsWith(">")) {
            l.append(str);
        }
    }
    fastaIn.close();
    // …
}

Кто-нибудь имеет представление о том, как ускорить это до производительности grep?

Ваша помощь будет высоко оценена. Ура!

user3139868 22 дек. 2014, в 22:17

Источник

0

Рассматривали ли вы идею простого вызова «grep» как внешнего процесса? Просто прочитайте выходной файл / stdout, и вы получите почти такую же производительность.
Alessandro Da Rugna 22 дек. 2014, в 20:37
0

Я бы попытался реализовать парсер SAX или StAX.
Scadge 22 дек. 2014, в 20:52
0

Уважаемый Алессандро, я подумал об использовании grep в качестве внешнего процесса, но он должен работать и в Windows.
user3139868 22 дек. 2014, в 21:07
0

Привет, Скедж! Вы уверены, что парсер SAX или StAX ускоряет процесс?
user3139868 22 дек. 2014, в 21:07
0

Это может быть вне контекста этого вопроса, но есть ли метод append () в интерфейсе List в JAVA? Я думаю, у вас есть только метод add () для помещения объектов в ArrayList Object. Пожалуйста, поправьте меня, если я ошибаюсь.
aadi53 22 дек. 2014, в 21:57

Показать ещё 3 комментария

Теги:

java

performance

text-files

large-files

fasta

3 ответа

Ещё вопросы

Рассматривали ли вы идею простого вызова «grep» как внешнего процесса? Просто прочитайте выходной файл / stdout, и вы получите почти такую же производительность.
Я бы попытался реализовать парсер SAX или StAX.
Уважаемый Алессандро, я подумал об использовании grep в качестве внешнего процесса, но он должен работать и в Windows.
Привет, Скедж! Вы уверены, что парсер SAX или StAX ускоряет процесс?
Это может быть вне контекста этого вопроса, но есть ли метод append () в интерфейсе List в JAVA? Я думаю, у вас есть только метод add () для помещения объектов в ArrayList Object. Пожалуйста, поправьте меня, если я ошибаюсь.

Jerome Anthony · Answer 1 · 2014-12-22T19-36-00.000Z

Программа biojava.org предоставляет читателю fasta. Для чтения огромных файлов вам нужно будет рассмотреть использование SeekableByteChannell и использование ByteBuffers. В библиотеке biojava используются байтовые буферы.

vadchen · Answer 2 · 2014-12-22T18-33-00.000Z

1

Если вы напишете его в outfile немедленно, вместо того, чтобы накапливать объекты в памяти, это улучшит производительность (и будет больше похоже на то, что вы сделали с grep в любом случае).

...
BufferedWriter fastaOut = new BufferedWriter(new FileWriter(args[1]));
...
while ((str = fastaIn.readLine()) != null) {
        if (str.startsWith(">")) {
            fastaOut.write(str);
            fastaOut.newLine();
        }
    }
...    
fastaOut.close();

vadchen 22 дек. 2014, в 18:33

1

Почему этот ответ был отклонен? Я уверен, что это решение. Если ваш файл имеет размер 35 ГиБ, вам понадобится много памяти для вашего ArrayList . В худшем случае это взорвет вашу физическую память, и ваша ОС начнет обмениваться. И когда это происходит, производительность резко падает. Но даже если ваша память достаточно велика, производительность JVM вполне может упасть, так как она получает все больше и больше работы с управлением памятью и сборкой мусора. Используйте статистику своей ОС, чтобы узнать, сколько памяти и процессора использует ваш процесс.
5gon12eder 22 дек. 2014, в 20:59
0

Я понимаю вашу точку зрения. Мой вариант использования немного сложнее. Я хотел бы сохранить список описаний белков с помощью ObjectOutputStream , чтобы впоследствии можно было загружать его очень быстро. Как мне это сделать?
user3139868 22 дек. 2014, в 21:11
0

Если вы достигнете физического предела размера вашей ОЗУ, вам придется отказаться от идеи хранить все данные в памяти в один момент времени, потому что независимо от того, какой формат вы используете, это будет очень медленным. Может быть, использование базы данных (например, SQLite ) может помочь? Но сначала вы должны пойти и проверить потребление ресурсов вашего процесса, как я предложил.
5gon12eder 22 дек. 2014, в 21:16
0

Если вы знаете размер файла, который вы получили от grep, то вы можете использовать StringBuffer или StringBuilder с умом. В качестве альтернативы используйте метод, упомянутый выше, а затем прочитайте в новом выходном файле.
user2533521 22 дек. 2014, в 21:32

Показать ещё 2 комментария

ControlAltDel · Answer 3 · 2014-12-22T19-01-00.000Z

Возможно, вы могли бы значительно ускорить это, используя несколько потоков. Если файл имеет длину X байтов и у вас есть n потоков, вы начинаете каждый поток с интервалов X/n и читаете X/n байты. Вы хотите синхронизировать свой ArrayList, чтобы убедиться, что ваши результаты добавлены правильно

Это звучит как хорошее решение. Но как мне убедиться, что я разбил файл на куски, которые заканчиваются точно на разрыв строки? Иначе я мог бы пропустить хотя бы часть описания белка, не так ли?
Ваша строка поиска состоит всего из 2 символов ... Вы можете просто начать с X / n - 1 и прочитать X / n + 2 символа; что должно иметь дело с этим делом