Получение имен файлов, соответствующих расширению, используя BeautifulSoup

Question

Получение имен файлов, соответствующих расширению, используя BeautifulSoup

1

Я пытаюсь проанализировать HTML-страницу с помощью BeautifulSoup, в которой есть текстовые файлы, заканчивающиеся расширением .txt. Я хочу проанализировать HTML и получить строку, которая заканчивается на .txt.

Все такие строки находятся в теге <a href>, и вот несколько примеров:

<a href = "foo.txt">

<a href = "bar.txt">

Как получить foo.txt и bar.txt.

Я сделал это:

>>> links = soup.findAll('a')

Но я не могу найти, как извлечь полную строку... Любые предложения?

user225312 30 май 2011, в 12:00

Источник

Теги:

python

beautifulsoup

1 ответ

Ещё вопросы

vartec · Accepted Answer · 2011-05-30T07-53-00.000Z

5

Лучший ответ

BeautifulSoup принимает регулярные выражения как форму параметра find() и findAll() Это должно работать:

links = soup.findAll(href=re.compile("\.txt$"))

vartec 30 май 2011, в 07:53

0

Я думаю, что это должно быть: soup.findAll('a' , href=...
mouad 30 май 2011, в 10:06
0

Хм. В чем разница (если есть) между тем, что предложили vartec и mouad.
user225312 30 май 2011, в 10:07
0

@AA: Мое предложение на самом деле искать все теги a , имеющие href ="*.txt" Txt href ="*.txt" , решение @vartec проверяет все теги, которые имеют href="*.txt" .
mouad 30 май 2011, в 10:19
0

@A: моя версия в теории поймает любой тег с помощью href attr. Дело в том, что в HTML единственным тегом с href является <a>
vartec 30 май 2011, в 10:21
0

@vartec, @mouad: О, хорошо! Так что это не проблема. Одна вещь, которую я не понимаю, это то, что даже в случае BeautifulSoup мы используем регулярное выражение. Так почему бы не использовать его в первую очередь напрямую?
user225312 30 май 2011, в 10:22
0

@AA: stackoverflow.com/questions/1732348/…
mouad 30 май 2011, в 10:26
0

@A: потому что такое использование Soup, вы только regexp содержимое href . Иметь регулярное выражение для всего документа (без супа) было бы чрезвычайно сложно и не так эффективно
vartec 30 май 2011, в 10:26
0

Ааа хорошо Я понял Благодарю. Я просто попробовал, используя это, и увидел, где я был не прав.
user225312 30 май 2011, в 10:27

Показать ещё 6 комментариев