Как перечитать новости на сайте с помощью magazine3k

Question

Как перечитать новости на сайте с помощью magazine3k

1

Я пытаюсь создать набор данных для анализа настроений в новостных статьях. Я использую Newspaper3k для очистки статей с веб-сайта. Я очистил несколько веб-сайтов, но не хранил статьи должным образом, и поэтому я не могу их использовать. Когда я снова пытаюсь очистить одни и те же веб-сайты, он просто царапает новые статьи, а не те, которые уже очищены. Есть ли способ для меня очистить статьи, которые я уже скрепил?

Swetha Thomas 15 июнь 2018, в 06:49

Источник

Теги:

python

nlp

sentiment-analysis

python-newspaper

1 ответ

Ещё вопросы

Ami Hollander · Answer 1 · 2018-06-21T18-29-00.000Z

По умолчанию газета кэширует все ранее извлеченные статьи и удаляет любую статью, которую она уже извлекла.

Эта функция существует для предотвращения дублирования статей и увеличения скорости извлечения.

Вы можете отказаться от этой функции с memoize_articles параметра memoize_articles.

Например, в вашем случае установите значение False:

newspaper.build('http://cbs.com', memoize_articles=False)