Какой лучший способ выполнять полнотекстовый поиск в мультимедийных файлах? Я пытаюсь реализовать систему, в которой пользователь мог бы загружать случайные файлы (.doc,.pdf,.jpg,...) и вниз по строке, он мог бы искать их на основе содержимого файла или метаданных.
Я был бы признателен за некоторые идеи о том, как это сделать.
PS - Я начал изучать Луцену и Найча, но я думаю, что они делают больше, чем то, что мне нужно.
Спасибо.
Вы должны взглянуть на Tika (http://lucene.apache.org/tika/), который является набором инструментальных средств для обнаружения и извлечения метаданных и структурированного текста.