Как перечитать новости на сайте с помощью magazine3k

1

Я пытаюсь создать набор данных для анализа настроений в новостных статьях. Я использую Newspaper3k для очистки статей с веб-сайта. Я очистил несколько веб-сайтов, но не хранил статьи должным образом, и поэтому я не могу их использовать. Когда я снова пытаюсь очистить одни и те же веб-сайты, он просто царапает новые статьи, а не те, которые уже очищены. Есть ли способ для меня очистить статьи, которые я уже скрепил?

Теги:
nlp
sentiment-analysis
python-newspaper

1 ответ

0

По умолчанию газета кэширует все ранее извлеченные статьи и удаляет любую статью, которую она уже извлекла.

Эта функция существует для предотвращения дублирования статей и увеличения скорости извлечения.

Вы можете отказаться от этой функции с memoize_articles параметра memoize_articles.

Например, в вашем случае установите значение False:

newspaper.build('http://cbs.com', memoize_articles=False)

Ещё вопросы

Сообщество Overcoder
Наверх
Меню