Очистка HTML-документа с помощью BeautifulSoup и нескольких абзацев

Question

Очистка HTML-документа с помощью BeautifulSoup и нескольких абзацев

0

У меня есть html-документ, который я могу получить с помощью BeautifulSoup и извлечь текст. Но моя проблема заключается в том, что, пытаясь получить тело документа с помощью метода getText(), он объединяет все абзацы и возвращает одну строку. Я пробовал разные способы получить отдельные параграфы, но пока ничего не добился. Формат документа:

<div class="body" style="text-align: justify;padding: 20px;">   <div align="justify"><span style="font-weight: bold; color: rgb(128, 0, 0);"><img style="border: medium none; margin-left: 10px;" alt="" title="" src="/files/7/7/86119_216.jpg" align="right">ABC-</span>Paragraph 1<br><br>Paragraph  2<br><br>Paragraph  3<br><br><span style="font-weight: bold;">Paragraph  4</span><br>Paragraph  5 <span style="font-weight: bold; font-style: italic; text-decoration: underline; color: rgb(128, 0, 0);">Paragraph 6</span>Paragraph <br><br>Paragraph</div> <div class="wrapper"></div> </div>  </div>

то, что я сейчас использую для получения этого документа:

soup = BeautifulSoup( page )
body = soup.find("div", {"class":"body"})

До сих пор все в порядке. Моя проблема заключается в том, как получить абзацы в теле. Есть идеи?

Попытка обработать другой html файл, у меня возникла еще одна проблема для извлечения абзацев. Формат этой новой страницы:

<div class="detailCont">
    <span>News agency:</span>
    <h2>
        Header

    </h2>
        <div>
            <img class="showNewsImg" src="http://images.agency.com/images/position36/2013/9/khrid_hvapyma-910407-as.jpg" />
        </div>

    <div class="lead">
        <span>additional info</span>-
        agency:<br />Paragraph 1
    </div>

    <p>Paragraph 2</p>
    <p>Paragraph 3</p>
    <p>Paragraph 4</p>
    <p>Paragraph 5</p>
    </div>

все данные, которые мне нужны, в этой части. Поэтому я могу получить эту часть, используя следующую команду:

doc = soup.find("div", {"class":"detailCont"})

Который содержит как слух, так и тело. Для получения заголовка я использую следующую команду:

header = doc.h2

но я не знаю, как я могу получить только тело. Есть идеи? рекорды.

amin 29 сен. 2013, в 23:41

Источник

Теги:

html

bash

linux

text

1 ответ

Ещё вопросы

Birei · Accepted Answer · 2013-09-29T18-00-00.000Z

Используйте понимание списка:

[s for s in body.strings if s.strip() != '']

Это дает:

['ABC-',
 'Paragraph 1',
 'Paragraph  2',
 'Paragraph  3',
 'Paragraph  4',
 'Paragraph  5 ',
 'Paragraph 6',
 'Paragraph ',
 'Paragraph']

Спасибо, дорогой Бирей, это сработало. ;-)