Извлечь имена идентификаторов DIV, найденные в определенном, содержащем DIV, используя Python

Question

Извлечь имена идентификаторов DIV, найденные в определенном, содержащем DIV, используя Python

0

Я использую lxml для извлечения данных из страницы с помощью xpath. Все идет нормально. Но у меня есть новая задача:

Я должен извлечь все идентификаторы div в содержащем DIV и передать эти имена идентификаторов в список. Я предполагаю, что могу использовать Beautiful Soup для этого (или, возможно, также lxml). Я просто не уверен, как это сделать:

Например, мне пришлось бы извлечь "маяк" и "чечевицу":

    <div id="live-events">

       <div class ="events" id="beacon"> 
           ....other things...
       </div>

       <div class="events" id ="lentil">
          ....other things...
       </div>

    </div>

Предложения?

Благодарю!

mishap_n 22 окт. 2013, в 21:33

Источник

Теги:

python

html

xpath

web-scraping

python-2.7

1 ответ

Ещё вопросы

Zero Piraeus · Accepted Answer · 2013-10-22T17-12-00.000Z

Это очень просто:

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup("""
...     <div id="live-events">
... 
...        <div class ="events" id="beacon"> 
...            ....other things...
...        </div>
... 
...        <div class="events" id ="lentil">
...           ....other things...
...        </div>
... 
...     </div>
... """)
>>> live_events = soup.find(id="live-events")
>>> ids = [div["id"] for div in live_events.find_all("div")]
>>> ids
[u'beacon', u'lentil']

Спасибо! Работает как шарм, и я узнал что-то новое.
Извините, последнее. Как бы я использовал это с запросами, а не переменную с необработанным HTML? В настоящее время я руководствуюсь этим: docs.python-guide.org/en/latest/scenarios/scrape
Конечно, это очевидно? На странице, на которую вы ссылаетесь, показано, как получить содержимое документа с использованием requests , а в приведенном выше коде показано, как превратить это содержимое в объект BS. Я не вижу, с чем у тебя могут быть проблемы ...
Ох, страхуй это, разобрался. Еще раз спасибо.