Извлечение информации из кода тега CSS с BeautifulSoup

Question

Извлечение информации из кода тега CSS с BeautifulSoup

1

Я пытаюсь извлечь некоторую информацию с сайта с помощью библиотеки Python BeautifulSoup. В частности, я хочу извлечь информацию из этого кода ccs:

<span class="g47SY ">68</span>

Использование команды find_all не работает, и я не понимаю ошибки. Вы можете мне помочь?

Это мой код

import requests
from bs4 import BeautifulSoup

url = 'https://www.exemple.com/'
r = requests.get(url)
html_as_string = r.text
soup = BeautifulSoup(html_as_string, 'html.parser')

# print(soup.prettify())

# I want to extract 68 from <span class="g47SY ">68</span>
info = soup.find_all("span", class_="g47SY")
print (info)

Vincenzo Antedoro 28 авг. 2018, в 11:52

Источник

0

Добро пожаловать в Stackoverflow! Для воспроизведения вашей проблемной среды мне может понадобиться URL сайта, который вы пытаетесь очистить. Можете ли вы предоставить это?
SmashGuy 28 авг. 2018, в 09:37
0

ссылка курсив жирный code
Vincenzo Antedoro 28 авг. 2018, в 09:40
0

[span.text for span in info]
heemayl 28 авг. 2018, в 09:56

Показать ещё 1 комментарий

Теги:

python

beautifulsoup

2 ответа

Ещё вопросы

Добро пожаловать в Stackoverflow! Для воспроизведения вашей проблемной среды мне может понадобиться URL сайта, который вы пытаетесь очистить. Можете ли вы предоставить это?

Aankhen · Answer 1 · 2018-08-28T08-49-00.000Z

Ваш код верен с точки зрения поиска элементов на HTML-странице. Проблема заключается в самой странице Instagram. Если вы посмотрите на его источник (а не на панель элементов DevTools Elements), вы увидите, что он почти пуст. Instagram построен полностью с использованием JavaScript-анти-шаблона, но прочно укоренился, поэтому элементы, которые вы ищете, существуют только на клиенте после запуска JavaScript.

Вы можете сделать это, используя Selenium, который в основном открывает сайт в браузере и делает все, что делает обычный браузер. Например:

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# initialization
driver = webdriver.Firefox()
driver.get("https://www.instagram.com/antedoro/")

try:
    # wait up to 10 seconds for the parent of the spans to be present
    element = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CLASS_NAME, "Y8-fY")))
    # locate the spans
    spans = driver.find_elements_by_css_selectors("span.g47SY")
    text_of_spans = [span.text for span in spans]
finally:
    driver.close()

Я согласен с вашим ответом. Но нет ли способа поковыряться на сайте instagram?
Вероятно, безголовый Chrome, но я не использовал его сам.
Неважно, похоже, что это было сделано и через Selenium.
Я знаю, что есть Instagram API, но я только что тестировал библиотеку beautyfulsoap. Это нормально. Спасибо

C14L · Answer 2 · 2018-08-28T08-10-00.000Z

-2

find_all возвращает список, поэтому вам нужно выбрать первый элемент. Затем используйте свойство text. Как это:

# I want to extract 68 from <span class="g47SY ">68</span>
info = soup.find_all("span", class_="g47SY")
print(info[0].text)

(Почему downvote? Я только что протестировал его, работает в bs4)

C14L 28 авг. 2018, в 08:10

1

Ошибка не из-за списка. Он пытается получить данные из Instagram с такими же запросами. Ошибка вызвана тем, что супа нет. Вы должны помочь ему с этим.
SmashGuy 28 авг. 2018, в 10:00
1

Его вопрос состоял в том, как извлечь "68" из HTML <span class="g47SY ">68</span> , и на этот вопрос я ответил. Правильный ответ - плохой стиль.
C14L 28 авг. 2018, в 10:02
0

Я отказался от голосования, потому что исправление, которое вы дали, также приведет к ошибке для него. Каким образом это поддерживает?
SmashGuy 28 авг. 2018, в 10:07
0

@SmashGuy Это не так, я проверил это, прежде чем я ответил. Отвечает на вопрос, заданный ОП. Но ваш выбор состоит в том, чтобы случайно понизить правильные ответы, если вы надеетесь на такое сообщество.
C14L 28 авг. 2018, в 11:22
0

Я извиняюсь, так как предположил, что вы ответили без проверки.
SmashGuy 28 авг. 2018, в 11:28
0

@SmashGuy Разве вы не должны отказаться от своего голоса тогда?
t.m.adam 28 авг. 2018, в 12:43
0

@ tmadam Я не могу, если он не сделает какие-либо изменения в своем ответе.
SmashGuy 28 авг. 2018, в 12:45
0

@SmashGuy Правда? Иногда я не понимаю ТАК ...
t.m.adam 28 авг. 2018, в 12:48
0

@tmadam И я тоже!
SmashGuy 28 авг. 2018, в 13:59
0

@SmashGuy, возможно, вопрос изменился с момента первоначальной публикации, но где говорится в ОП, что он получает информацию из Instagram? Он предоставляет однострочную HTML-код и спрашивает, как получить текст. Кажется, что он ответил.
Zonker.in.Geneva 05 май 2019, в 20:51

Показать ещё 8 комментариев