Выполнение бинарного поиска по текстовому файлу с использованием Java

Question

Выполнение бинарного поиска по текстовому файлу с использованием Java

1

У меня есть большой текстовый файл около 1 миллиона слов. Я делаю это для Android-телефона, и я просто пытаюсь понять, существует ли слово в текстовом файле. Загрузка чего-либо в память не является вариантом. Память и процессор телефона Android настолько слабы, что чтение этого файла занимает около 20 секунд.

Я изменил этот текстовый файл на слова, чтобы быть на равной ширине. Каждое слово - 50 символов + 1 для новой строки. Тем не менее, я немного запутался в том, как правильно реализовать двоичный поиск, так как я все время путаюсь с тем, сколько байтов я должен добавить для работы seek() для правильной работы.

public static long search(RandomAccessFile file, String target)
            throws IOException {

    file.seek(0);
    String line = file.readLine();

    if(line.equals(target))
        return 1;

    long start = 0;
    long end = file.length();
    long mid = (start + end -50)/2;

    while(start <= end)
    {
        file.seek(mid);
        line = file.readLine();
        if(line.compareTo(target) < 0)
            start = mid + 51;
        else if(line.equalsIgnoreCase(target))
            return 1;
        else
            end = mid - 51;

        mid = (start + end)/2;
    }

    if(start > end)
        return 0;

    return -1;
}

В первый раз, когда я заканчиваю, я вычитаю 50, потому что у самого последнего слова нет новой строки. После нескольких итераций это перестает работать должным образом. Я не могу понять, как правильно выполнить эту работу. Может ли кто-нибудь направить меня на то, что я делаю неправильно?

Johsh Hanks 22 март 2015, в 01:17

Источник

0

Вы пытались использовать Trie?
Jean Logeart 21 март 2015, в 23:29
0

Да, поверьте мне, я исчерпал все возможные решения. Загрузка чего-либо в память не является возможным решением. Чтение только самого файла, даже не сохраняя его, занимает 20 секунд.
Johsh Hanks 21 март 2015, в 23:31
0

1. Сначала добавьте жесткий возврат в конце вашего файла .... 2. Удалите все эти подсчеты и замените их одним простым счетчиком! Вам нужно только изменить file.seek(mid*51) . Это должно решить вашу проблему с синхронизацией строк. Любые оставшиеся проблемы должны быть связаны с вашим двоичным поиском.
usr2564301 21 март 2015, в 23:31
2

Не реализуйте свой собственный бинарный поиск. Оберните файл в AbstractList и используйте Collections.binarySearch() .
Hollis Waite 21 март 2015, в 23:33
0

Я думаю, что вы должны принять во внимание кодировку вашего персонажа. Это Юникод это UTF-8? Потому что количество байтов на символ зависит от кодировки, и вам также необходимо учитывать \n
sockeqwe 21 март 2015, в 23:36
0

Это текст, о котором вы говорите; таким образом, вы не можете точно знать размер файла! Но если вы абсолютно уверены, что все ваши символы будут закодированы в один байт, используйте MappedByteBuffer .
fge 21 март 2015, в 23:40
0

@Jongware Это было правильное решение. В самом первом конце мне пришлось добавить 1 и разделить его на 51, чтобы получить номер последней строки. После этого я удалил все мои ручные подсчеты, кроме сложения и вычитания от 1 до середины. Тогда я просто искал (середина * 51);
Johsh Hanks 21 март 2015, в 23:40
0

Если данные слишком велики для вашей памяти, вы можете использовать базу данных (SQLite).
mike 21 март 2015, в 23:47

Показать ещё 6 комментариев

Теги:

java

file

binary-search

1 ответ

Ещё вопросы

Да, поверьте мне, я исчерпал все возможные решения. Загрузка чего-либо в память не является возможным решением. Чтение только самого файла, даже не сохраняя его, занимает 20 секунд.
1. Сначала добавьте жесткий возврат в конце вашего файла .... 2. Удалите все эти подсчеты и замените их одним простым счетчиком! Вам нужно только изменить file.seek(mid*51) . Это должно решить вашу проблему с синхронизацией строк. Любые оставшиеся проблемы должны быть связаны с вашим двоичным поиском.
Не реализуйте свой собственный бинарный поиск. Оберните файл в AbstractList и используйте Collections.binarySearch() .
Я думаю, что вы должны принять во внимание кодировку вашего персонажа. Это Юникод это UTF-8? Потому что количество байтов на символ зависит от кодировки, и вам также необходимо учитывать \n
Это текст, о котором вы говорите; таким образом, вы не можете точно знать размер файла! Но если вы абсолютно уверены, что все ваши символы будут закодированы в один байт, используйте MappedByteBuffer .
@Jongware Это было правильное решение. В самом первом конце мне пришлось добавить 1 и разделить его на 51, чтобы получить номер последней строки. После этого я удалил все мои ручные подсчеты, кроме сложения и вычитания от 1 до середины. Тогда я просто искал (середина * 51);
Если данные слишком велики для вашей памяти, вы можете использовать базу данных (SQLite).

Hollis Waite · Accepted Answer · 2015-03-22T12-37-00.000Z

Посредством обертки файла в AbstractList вы можете использовать внереализационную реализацию бинарного поиска:

final int size = (int) ((file.length() + LINE_BREAK_LEN) / (WORD_LEN + LINE_BREAK_LEN));
return Collections.binarySearch(
    new AbstractList<String>() {
        public String get(int pIdx) {
            try {
                file.seek((WORD_LEN + LINE_BREAK_LEN) * pIdx);
                return file.readLine();
            } catch (IOException ex) {
                throw new RuntimeException(ex);
            }
        }

        public int size() {return size;}
    },
    target,
    Comparator.comparing(String::toLowerCase)
);

Обратите внимание, что разрывы строк просто усложняют код и могут быть опущены из файла.

Очень хорошая точка на разрыве линии! OP всегда может прочитать символы WORD_LEN и удалить миллион байтов из списка слов.