данные о ценах на полеты и цены на питоне от skyscanner

Question

данные о ценах на полеты и цены на питоне от skyscanner

1

Я пытаюсь получить данные о цене из следующего URL-адреса. Однако я могу только представить текст от "div до определенного уровня, вот мой код:

from selenium import webdriver
from bs4 import BeautifulSoup

def scrape_flight_prices(URL):

    browser = webdriver.PhantomJS()
    # PARSE THE HTML
    browser.get(URL)
    soup = BeautifulSoup(browser.page_source, "lxml")
    page_divs = soup.findAll("div", attrs={'id':'app-root'}) 
    for p in page_divs:
        print(p)

if __name__ == '__main__':
  URL1="https://www.skyscanner.net/transport/flights/brs/gnb/190216/190223/?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=1&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=home#results"

И вот вывод:

<div id="app-root">
<section class="day-content state-loading state-no-results" id="daysection">
<div class="day-searching">
<div class="hot-spinner medium"></div>
<div class="day-searching-message">Searching</div>
</div>
</section>
</div>

Раздел html, который я хочу очистить, выглядит следующим образом:

https://www.skyscanner.net/transport/flights/brs/gnb/190216/190223/?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=1&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=home#results

Однако, когда я пытаюсь очистить следующий код:

prices = soup.findAll("a", attrs={'target':"_blank", "data-e2e":"itinerary-price", "class":"CTASection__price-2bc7h price"})  
for p in prices:
    print(p)

Он ничего не печатает! Я подозреваю, что js-скрипт запускает что-то для генерации остальной части кода и/или данных? Может ли кто-нибудь помочь мне извлечь данные? В частности, я пытаюсь получить цену, время полета, название авиакомпании и т.д., Но если красивый суп не печатает соответствующий html со страницы, тогда я не уверен, как еще это получить?

Поблагодарили бы всех указателей! Спасибо заранее!

user3062260 27 окт. 2018, в 23:05

Источник

Теги:

javascript

python

selenium-webdriver

beautifulsoup

1 ответ

Ещё вопросы

Andersson · Accepted Answer · 2018-10-27T18-53-00.000Z

1

Лучший ответ

Попробуйте ввести код, чтобы получить цены:

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait as wait
from selenium.webdriver.support import expected_conditions as EC

prices = [price.text for price in wait(browser, 10).until(EC.presence_of_all_elements_located((By.CLASS_NAME, "price")))]
print(prices)

Andersson 27 окт. 2018, в 18:53

0

Спасибо за вашу помощь, я не могу заставить это работать, хотя, 'драйвер' не определен. Я пытался поменять его на «webdriver.PhantomJS ()» и «суп», но ни один из них не сработал. Я не совсем уверен, что я делаю с этим, чтобы быть справедливым?
user3062260 27 окт. 2018, в 21:29
0

@ user3062260, оу ... верно. заменить driver browser
Andersson 27 окт. 2018, в 21:31
1

это вызывает «TimeoutException»
user3062260 27 окт. 2018, в 21:40
0

@ user3062260, вы уверены, что целевая веб-страница открыта вместо проверки личности / робота ?
Andersson 27 окт. 2018, в 21:45
0

Кажется, что я возвращаю 'div'ы, когда я печатаю их в цикле, а не какие-либо теги, которые скрыты немного глубже в html, похоже, это динамический контент на сайте, как цены
user3062260 27 окт. 2018, в 22:16
0

soup.findAll ("div", attrs = {'id': 'app-root'}) [0] .find ("section", attrs = {'id': 'day-section'}) должен возвращать div класса "day-cols clearfix", который содержит данные, но этот div не возвращается
user3062260 27 окт. 2018, в 22:20
0

@ user3062260, я пробовал в Chrome и он отлично работает. Но иногда открывается страница подтверждения Персона / Робот, и, конечно, она не работает
Andersson 28 окт. 2018, в 07:45
0

Я попытался изменить "browser = webdriver.PhantomJS ()" на "browser = webdriver.Chrome ()", но он говорит, что chromedriver должен быть в пути. Это дополнительная библиотека, которую мне нужно установить? Какую версию Python вы используете?
user3062260 28 окт. 2018, в 09:08
0

@ user3062260, просто скачайте последнюю версию Chromedriver и поместите ее в ту же папку, где находится исполняемый файл PhantomJS / Python, или явно укажите путь к chromedriver driver = webdriver.Chrome('/path/to/chromedriver')
Andersson 28 окт. 2018, в 09:14
0

Потрясающие!! Теперь это работает - я просто не осознавал, что вам пришлось явно указать webdriver.Chrome, где находится исполняемый файл! Большое спасибо за вашу помощь! Последний вопрос - он открывает реальный браузер, есть ли способ заставить его работать в фоновом режиме? Я собирался поместить это в петлю и периодически очищать довольно много цен. Разве я не могу в том же браузере отправить петлю URL?
user3062260 28 окт. 2018, в 11:32
0

@ user3062260, вы можете проверить, как использовать Chrome без головы . Также нет необходимости открывать новый экземпляр браузера для получения каждой страницы. Вы можете определить список URL-адресов ( url_list = ['URL1', 'URL2', ...'URLn'] ) и просмотреть его for url in url_list: driver.get(url)
Andersson 28 окт. 2018, в 11:49

Показать ещё 9 комментариев