Текст внутри BR не извлекается с помощью Python Beautifulsoup

Question

Текст внутри BR не извлекается с помощью Python Beautifulsoup

1

Я хотел бы получить все данные внутри div под тегами br. однако это только выборка текста на первом.

<div itemprop="description">

<p>Chars :
</br>- test1 
</br>- test2 
</br>- test3
</p>

</div>

сценарий:

tag = soup.find(itemprop="description").get_text()

выход:

Chars
-test1

Я хочу получить весь текст внутри б

Gian Franco Tan 11 апр. 2019, в 11:24

Источник

2

Проверьте этот вопрос stackoverflow.com/questions/17639031/… BS, как известно, странно взаимодействует с тегами br . Возможны следующие варианты: 1) удалить теги br, такие как str(soup).replace("</br>", "") или использовать другой синтаксический анализатор: soup = BeautifulSoup(page, 'lxml') (второй вариант хорошо сработал для меня)
redFur 11 апр. 2019, в 09:01
0

спасибо, что это решило мою проблему.
Gian Franco Tan 11 апр. 2019, в 09:39

Теги:

python

web-scraping

beautifulsoup

1 ответ

Ещё вопросы

Проверьте этот вопрос stackoverflow.com/questions/17639031/… BS, как известно, странно взаимодействует с тегами br . Возможны следующие варианты: 1) удалить теги br, такие как str(soup).replace("</br>", "") или использовать другой синтаксический анализатор: soup = BeautifulSoup(page, 'lxml') (второй вариант хорошо сработал для меня)
спасибо, что это решило мою проблему.

QHarr · Accepted Answer · 2019-04-11T10-31-00.000Z

У меня не было проблем с lxml и выберите

from bs4 import BeautifulSoup as bs
html = '''
<div itemprop="description">

<p>Chars :
</br>- test1 
</br>- test2 
</br>- test3
</p>

</div>
'''
soup = bs(html, 'lxml')
data = [item.text.strip().replace('\n',' ') for item in soup.select('div[itemprop=description]')]
print(data)