Поиск набора ключевых слов в большой строке

Question

Поиск набора ключевых слов в большой строке

1

Я должен выполнить поиск в текстовом файле или большой строке, чтобы проверить, содержит ли текст набор ключевых слов (может быть, миллионы). Если он содержит ключевые слова, я должен выделить все ключевые слова, которые были сопоставлены. Какой подход следует принять для этого? Предоставляет ли lucene решение для этого?

pratZ 22 май 2014, в 09:58

Источник

0

Текстовый файл или строка? Это не совсем похоже на то же самое
fge 22 май 2014, в 08:16
0

В любом случае - вы можете использовать Trie или Bloom Filter.
fge 22 май 2014, в 08:17
0

Я имел в виду, что это может быть текстовый файл, в котором мне нужно искать, или текстовое содержимое в виде строки.
pratZ 22 май 2014, в 08:21
0

Хм, проект, над которым я работаю, даст решение ... Вам нужно будет использовать три и вы можете записать позицию.
fge 22 май 2014, в 08:24
0

@fge Я обязательно посмотрю. Благодарю.
pratZ 22 май 2014, в 08:38

Показать ещё 3 комментария

Теги:

java

elasticsearch

solr

lucene

nutch

2 ответа

0

Вы можете использовать lucene ShingleFilter

Вы найдете множество примеров в сети, вот один http://www.massapi.com/class/sh/ShingleFilter.html

Hirak 22 май 2014, в 06:26

0

Я посмотрю в предложенное решение. Благодарю.
pratZ 22 май 2014, в 08:22
0

Мне не нужно создавать связанные токены. Я должен найти отдельные токены и выделить их. Например - я хочу найти «стек, переполнение, обмен» (в реальном случае это будет большой список) в тексте "This stack is empty. Lets exchange places" , затем он должен выделить (или хотя бы найти) stack и exchange в строке.
pratZ 22 май 2014, в 11:22
0

Shingle дает вам токены .... вы можете написать собственную логику о том, как вы хотите использовать токены.
Hirak 22 май 2014, в 14:04
0

@Hirak - Нет, lucene ShingleFilter объединяет токены входного TokenStream в нграммы (в некотором роде). Это просто не актуально здесь.
femtoRgon 22 май 2014, в 21:33

Показать ещё 2 комментария

Ещё вопросы

Текстовый файл или строка? Это не совсем похоже на то же самое
В любом случае - вы можете использовать Trie или Bloom Filter.
Я имел в виду, что это может быть текстовый файл, в котором мне нужно искать, или текстовое содержимое в виде строки.
Хм, проект, над которым я работаю, даст решение ... Вам нужно будет использовать три и вы можете записать позицию.
@fge Я обязательно посмотрю. Благодарю.
Я посмотрю в предложенное решение. Благодарю.
Мне не нужно создавать связанные токены. Я должен найти отдельные токены и выделить их. Например - я хочу найти «стек, переполнение, обмен» (в реальном случае это будет большой список) в тексте "This stack is empty. Lets exchange places" , затем он должен выделить (или хотя бы найти) stack и exchange в строке.
Shingle дает вам токены .... вы можете написать собственную логику о том, как вы хотите использовать токены.
@Hirak - Нет, lucene ShingleFilter объединяет токены входного TokenStream в нграммы (в некотором роде). Это просто не актуально здесь.

John Petrone · Accepted Answer · 2014-05-22T12-31-00.000Z

Вы отметили свой вопрос с помощью Elasticsearch - если вы открыты для использования ES, я думаю, что Percolation с подсветкой может соответствовать тому, что вам нужно. Вы можете зарегистрировать каждое ключевое слово как отдельный запрос с перколятором, а затем запустить каждый документ или строку через него. Он вернет список совпадающих запросов. Вы также можете комбинировать его с подсветкой.

http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/search-percolate.html

http://blog.qbox.io/elasticsesarch-percolator

У меня есть один документ и миллионы ключевых слов.
поэтому создайте 10000 отдельных перколяционных запросов со 100 ключевыми словами в каждом плюс выделение. 10 тыс. Запросов перколяции не являются чрезмерными, просто требуется масштабирование до большего количества узлов ES (оно масштабируется горизонтально, в основном требуется дополнительный процессор).