Я пытаюсь создать набор данных для анализа настроений в новостных статьях. Я использую Newspaper3k для очистки статей с веб-сайта. Я очистил несколько веб-сайтов, но не хранил статьи должным образом, и поэтому я не могу их использовать. Когда я снова пытаюсь очистить одни и те же веб-сайты, он просто царапает новые статьи, а не те, которые уже очищены. Есть ли способ для меня очистить статьи, которые я уже скрепил?
По умолчанию газета кэширует все ранее извлеченные статьи и удаляет любую статью, которую она уже извлекла.
Эта функция существует для предотвращения дублирования статей и увеличения скорости извлечения.
Вы можете отказаться от этой функции с memoize_articles
параметра memoize_articles
.
Например, в вашем случае установите значение False:
newspaper.build('http://cbs.com', memoize_articles=False)