Использовать tika с python, runtimeerror: невозможно запустить сервер tika

5

Я пытаюсь использовать пакет tika для разбора файлов. Тика успешно установлена, tika-server-1.18.jar с кодом в cmd Java -jar tika-server-1.18.jar

Мой код в Jupyter:

Import tika 
from tika Import parser
parsed = parser.from_file('')

Тем не менее, я получаю ниже ошибку:

2018-07-25 10: 20: 13,325 [MainThread] [WARNI] Не удалось увидеть сообщение журнала запуска; повторная попытка... 2018-07-25 10: 20: 18,329 [MainThread] [WARNI] Не удалось увидеть сообщение журнала запуска; повторная попытка... 2018-07-25 10: 20: 23,332 [MainThread] [WARNI] Не удалось увидеть сообщение журнала запуска; повторная попытка... 2018-07-25 10: 20: 28,340 [MainThread] [ОШИБКА] Сообщение журнала запуска Tika не получено после 3 попыток. 2018-07-25 10: 20: 28,340 [MainThread] [ERROR] Не удалось получить подтверждение запуска от startServer.

RuntimeError: Невозможно запустить Tika Server.

  • 0
    Любое обновление на этот вопрос? Я получаю то же сообщение об ошибке.
  • 1
    Я отказался от использования TIKA Server, вместо этого я использовал TikaApp для решения проблемы. "tika_client = TikaApp (file_jar = '' (где я сохранил приложение tika). Это работает. Для парсера я, к сожалению, не нашел решения.
Показать ещё 1 комментарий
Теги:
parsing
apache-tika

3 ответа

4

Согласно сайту Apache Tika, для всех новых версий tika-server.jar потребуется Java 8.

24 апреля 2018 года: релиз Apache Tika Выпущен Apache Tika 1.18! Этот выпуск включает исправления ошибок (например, извлечение из сгруппированных фигур в PPT), исправления безопасности и обновления зависимостей. ПОЖАЛУЙСТА, ОБРАТИТЕ ВНИМАНИЕ: Следующие версии потребуют Java 8. Пожалуйста, смотрите файл CHANGES.txt для полного списка изменений в выпуске и посмотрите страницу загрузки для получения дополнительной информации о том, как получить Apache Tika 1.18.

Текущие устаревшие документы для библиотеки Тика Python утверждают, что Java 7 необходима, но теперь Java 8 должна быть установлена. Это связано с тем, что текущая версия tika-server.jar автоматически загружается во время выполнения, если она не найдена в вашем временном файле.

После установки Java 8 мой основной тестовый код запустил сервер и работал без ошибок.

1

Вы не передали аргумент (указанный файл) в своей строке:

parsed = parser.from_file ('')

Дайте ему файл, чтобы пережевывать, например,

parsed = parser.from_file('myfile.txt')

Сервер не запускался и, предположительно, не запускается предупреждение о регистрации журнала - см. Строку 644 в источнике в Github

то другое сообщение об ошибке говорит вам, что он не будет играть...

  • 0
    Мне придется вернуться к этому и попробовать еще раз ... и вернуться
0

Скачать Java. Если у вас уже установлена версия Java, попробуйте обновить ее до последней версии. Версия, которая работает для меня - 1.18.

Ещё вопросы

Сообщество Overcoder
Наверх
Меню