Webscraping с запросами, возвращающими родительскую веб-страницу HTML

1

Я пытаюсь очистить некоторые данные с определенного веб-сайта, используя запросы и библиотеки Beautiful Soup. К сожалению, я не получаю HTML для этой страницы, но для родительской страницы https://salesweb.civilview.com. Спасибо за помощь!

import requests
from bs4 import BeautifulSoup

example="https://salesweb.civilview.com/Sales/SaleDetails?PropertyId=473016965"
exampleGet=requests.get(example)
exampleGetText=exampleGet.text
soup = BeautifulSoup(exampleGetText,"lxml")
soup
Теги:
python-requests
web-scraping

1 ответ

-2

Вам необходимо передать файл cookie на запрос:

import requests
from bs4 import BeautifulSoup

cookie = {'ASP.NET_SessionId': 'rk2b0dxast1eyu5jvxezltgh'}

example="https://salesweb.civilview.com/Sales/SaleDetails?PropertyId=473016964"
exampleGet=requests.get(example, cookies=cookie)
exampleGetText=exampleGet.text
soup = BeautifulSoup(exampleGetText,"lxml")
soup.title

<title>Sales Listing Detail</title>

Этот конкретный файл cookie может не работать для вас, поэтому вам нужно вручную перейти к этой странице один раз, затем зайти в инструменты разработчика (веб-инспектор) в своем браузере и найти файл cookie под заголовками на вкладке "Сеть". Мой файл cookie выглядел как "ASP.NET_SessionId = rk2b0dxast1eyu5jvxezltgh".

Файл cookie должен быть действительным и для других страниц свойств.

  • 0
    Благодарю. Я никогда не делал этого раньше, поэтому мне нужно будет прочитать об этом. Большое спасибо! Существует ли общее правило, на котором веб-сайт требует, чтобы вы подавали файлы cookie, чтобы их очистить?
  • 0
    Не то, чтобы я знал. Кто-то с лучшим знанием сетей или веб-разработки может предложить больше понимания. Но по своему опыту я никогда не замечал предсказуемой закономерности. Некоторые требуют их, некоторые нет.
Показать ещё 3 комментария

Ещё вопросы

Сообщество Overcoder
Наверх
Меню