Я пытаюсь проанализировать HTML-страницу с помощью BeautifulSoup
, в которой есть текстовые файлы, заканчивающиеся расширением .txt
. Я хочу проанализировать HTML и получить строку, которая заканчивается на .txt
.
Все такие строки находятся в теге <a href>
, и вот несколько примеров:
<a href = "foo.txt">
<a href = "bar.txt">
Как получить foo.txt
и bar.txt
.
Я сделал это:
>>> links = soup.findAll('a')
Но я не могу найти, как извлечь полную строку... Любые предложения?
BeautifulSoup принимает регулярные выражения как форму параметра find()
и findAll()
Это должно работать:
links = soup.findAll(href=re.compile("\.txt$"))
soup.findAll('a' , href=...