Получение имен файлов, соответствующих расширению, используя BeautifulSoup

1

Я пытаюсь проанализировать HTML-страницу с помощью BeautifulSoup, в которой есть текстовые файлы, заканчивающиеся расширением .txt. Я хочу проанализировать HTML и получить строку, которая заканчивается на .txt.

Все такие строки находятся в теге <a href>, и вот несколько примеров:

<a href = "foo.txt">

<a href = "bar.txt">

Как получить foo.txt и bar.txt.

Я сделал это:

>>> links = soup.findAll('a')

Но я не могу найти, как извлечь полную строку... Любые предложения?

Теги:
beautifulsoup

1 ответ

5
Лучший ответ

BeautifulSoup принимает регулярные выражения как форму параметра find() и findAll() Это должно работать:

links = soup.findAll(href=re.compile("\.txt$"))
  • 0
    Я думаю, что это должно быть: soup.findAll('a' , href=...
  • 0
    Хм. В чем разница (если есть) между тем, что предложили vartec и mouad.
Показать ещё 6 комментариев

Ещё вопросы

Сообщество Overcoder
Наверх
Меню