Когда я запускаю этот код, он возвращает «[]». Как я могу это исправить?

Question

Когда я запускаю этот код, он возвращает «[]». Как я могу это исправить?

1

Мой первый вопрос в stackoverflow. Я новичок в Python, и я хочу запросить любую фотографию Instagram, но мой код возвращается пустым

import requests
from bs4 import BeautifulSoup

url = "https://www.instagram.com/p/BsYt_megGfN/"
r = requests.get(url)
soup = BeautifulSoup(r.content,"html.parser")
data = soup.findAll("div",{"class","Nm9Fw"})
print(data)

Я хочу видеть имена людей, которым нравится фотография, но я не сделал.

murat gulcan 08 янв. 2019, в 22:45

Источник

0

Пустой список означает, что soup.findAll не находит div с этим class в извлеченном html-содержимом.
G. Anderson 08 янв. 2019, в 21:01
0

Html-парсер для beautifulsoup не может разобрать javascript.
tgikal 08 янв. 2019, в 21:03

Теги:

python

python-requests

web-scraping

beautifulsoup

1 ответ

Ещё вопросы

Пустой список означает, что soup.findAll не находит div с этим class в извлеченном html-содержимом.
Html-парсер для beautifulsoup не может разобрать javascript.

Daniel Scott · Answer 1 · 2019-01-08T18-25-00.000Z

3

Прежде всего, для очистки вы должны использовать предварительно скомпилированную библиотеку, такую как Anaconda. Загрузите его здесь: https://www.anaconda.com/download/ и запомните, где находится путь к вашему исполняемому файлу python.

Вы вернулись с пустым списком, потому что Instagram использует Javascript. Requests не может перевести javascript в html для вас, поэтому вам нужно использовать более надежный метод, такой как селен.

Попробуйте что-то вроде этого:

Установить селен

В вашем терминале:

conda install selenium

Скачать Chromedriver

http://chromedriver.chromium.org/downloads

Импортируйте селен в ваш код

import os  
from selenium import webdriver  
from selenium.webdriver.common.keys import Keys  
from selenium.webdriver.chrome.options import Options  
from bs4 import BeautifulSoup

chrome_options = Options()  
chrome_options.add_argument("--headless")  

driver = webdriver.Chrome(executable_path="path-to-chromedriver",chrome_options=chrome_options)  
driver.get("https://www.instagram.com/p/BsYt_megGfN/")

html_source = driver.page_source  
driver.quit()

soup = BeautifulSoup(html_source,"html.parser")
data = soup.findAll("div",{"class","Nm9Fw"})
print(comments) # syntax for printing changes here for Python3

Запустите это с вашей Python-версией Anaconda.

Daniel Scott 08 янв. 2019, в 18:25

1

Nitpick: Есть ли какая-то особая причина, по которой OP должен использовать Anaconda Python? BS и селен могут быть установлены в ванили через pip так же легко, как через conda, насколько мне известно
G. Anderson 08 янв. 2019, в 21:03
0

Я вижу, что op использует python 2.7, а селен проблематичен с 2.7
Daniel Scott 08 янв. 2019, в 21:04
1

@ G.Anderson Вы правы, хотя и относитесь скептически. Из-за отсутствия встроенной поддержки utf-8 для многих функций в Python 2.7 могут возникнуть проблемы с устранением проблем очистки, возникающих в результате неизвестных символов. Поэтому, поскольку op должен использовать другую установку, я решил, что добавленная стабильность Anaconda будет полезна. Возможно, я слишком остро реагирую на Конду?
Daniel Scott 08 янв. 2019, в 21:14
0

Спасибо за ответ, но, как я уже сказал, я новичок в Python. Вы можете легче объяснить? Я не совсем понял. Я скачал anaconda и chromedriver, но что я буду делать после?
murat gulcan 08 янв. 2019, в 21:29
1

@DanielScott, который имеет смысл, я не знал о проблеме utf-8. Я начал на 3.6 и никогда не оглядывался назад. Спасибо за объяснение! Я полагаю, что другим вариантом, если это возможно, будет обновление до vanilla python 3, если anaconda излишне, но это зависит от среды OP.
G. Anderson 08 янв. 2019, в 21:35
0

@ГРАММ. Андерсон полностью согласен :)
Daniel Scott 08 янв. 2019, в 21:42
0

@wizardhopper Написание исчерпывающих уроков занимает очень много времени. Есть ли конкретная часть, которую вы не понимаете в моем решении?
Daniel Scott 08 янв. 2019, в 21:44
0

Я использовал анаконду (Spyder) раньше, это нормально. Но почему я скачал chromedriver и что я буду делать это приложение, это то, где я не понимаю.
murat gulcan 08 янв. 2019, в 21:51
1

Если можно, @wizardhopper, основная версия состоит в том, что сайт использует асинхронные сценарии, чтобы попытаться помешать людям делать именно то, что вы пытаетесь делать с запросами и красивым супом. Selenium - это пакет автоматизации браузера, который имитирует реального пользователя на сайте, а не просто отправляет веб-запросы. В решении, опубликованном выше, откроется новый браузер Chrome, который найдет / щелкнет элементы, чтобы получить ваши данные.
G. Anderson 08 янв. 2019, в 21:52
1

@wizardhopper В фрагменте кода вставьте путь к загруженному хроматографу. Вы загрузили его, так что вы можете запустить очистку в режиме «без головы» (то есть окно браузера не должно появляться).
Daniel Scott 08 янв. 2019, в 21:56
0

Я получаю сообщение об ошибке в этой строке: driver = webdriver.Chrome (executetable_path = "path-to-chromedriver", chrome_options = chrome_options)
murat gulcan 08 янв. 2019, в 22:14
0

В чем ошибка? Пожалуйста, замените любой псевдокод реальным кодом.
Daniel Scott 08 янв. 2019, в 22:15
0

Я не понял, очень длинная ошибка. Глава ошибки: DeprecationWarning: используйте параметры вместо chrome_options
murat gulcan 08 янв. 2019, в 22:20
0

Разместите в вопросе пожалуйста
Daniel Scott 08 янв. 2019, в 22:24

Показать ещё 12 комментариев