Веб-извещатель об отсутствии на складе в Python с BeautifulSoup

1

Я пытаюсь создать уведомитель, который отправит мне электронное письмо, когда товар отсутствует на складе. До сих пор я сузил, как получить имя и цену. Однако, когда я попытался использовать синюю кнопку "Нет на складе" рядом с "Find in store" в качестве тега, по какой-то причине он извлекает "Добавить в корзину", который появляется только тогда, когда товар находится на складе. Поэтому я попытался использовать текст "OUT OF STOCK" над заголовком, чтобы установить oos_status в True. Он должен отображаться как "Истинный" в соответствии с тем, что конфигурация i7 на веб-странице отсутствует на складе, которая была на момент написания этой статьи, но все же отображается как False, что означает, что она находится в запасе. Усовершенствования были бы весьма полезны. Вот код:

from urllib.request import Request, urlopen
from bs4 import BeautifulSoup as soup 

url = 'https://www.microsoft.com/en-ca/p/huawei-matebook-x-pro- 
laptop/8n4k86d4j006/4X0P?activetab=pivot%3aoverviewtab'

req = Request(url, headers={'User-Agent': 'Mozilla/5.0'})
uClient = urlopen(req)
page_html = uClient.read()
uClient.close()

# html parsing
page_soup = soup(page_html, 'html.parser')

# grabs OOS container
# container_oos = page_soup.findAll("div", {"class": "cli_badge context-buy- 
box-badge"})
container_oos = page_soup.findAll('div', {"class": "cli_badge context-buy- 
box-badge"})

# grabs price container
container_price_disclaimer = page_soup.findAll("div", {'class': "price- 
disclaimer"})

# grabs name container
container_name = page_soup.findAll("div", {"class": "m-product-detail-hero- 
product-placement oneui-override"})

# finds text of name, price and out of stock status
name = container_name[0].findAll('h1', {'id': 'page-title'})[0].text.strip()
price = container_price_disclaimer[0].findAll('span')[0].text.strip()
oos_status = False

# Using 'OUT OF STOCK' text above title to decide whether out of stock
if container_oos[0].find('span', {'id': 'out-of-stock-badge'}) == None:
    oos_status = False
elif container_oos[0].find('span', {'id': 'out-of-stock-badge'}) 
[0].text.strip() == 'OUT OF STOCK':
    oos_status = True
Теги:
web-scraping
web
parsing
beautifulsoup

2 ответа

2
Лучший ответ

Страница загружает свои данные с внешнего сайта через вызовы AJAX. Если вы посмотрите на инспектор сети Firefox/Chrome, вы увидите, куда идут вызовы.

В этом примере вы получите информацию обо всех SKU, найденных на странице:

from bs4 import BeautifulSoup
import requests
import json
from pprint import pprint

url = 'https://www.microsoft.com/en-ca/p/huawei-matebook-x-pro-laptop/8n4k86d4j006/4X0P?activetab=pivot:overviewtab'

headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:61.0) Gecko/20100101 Firefox/61.0'}
soup = BeautifulSoup(requests.get(url, headers=headers).text, 'lxml')
url = soup.select_one('[data-availability-url]')['data-availability-url']

data = []
for data_availability_id, data_inventory_sku_id, data_sku in zip(soup.select('div.context-configuration-buttons [data-availability-id]'), \
                                                                 soup.select('div.context-configuration-buttons [data-inventory-sku-id]'), \
                                                                 soup.select('div#TechSpec [data-sku]')):
    data.append({
        'availabilityId': data_availability_id['data-availability-id'],
        'distributorId': 9000000013,
        'inventorySkuId': data_inventory_sku_id['data-inventory-sku-id'],
        'preorder': False,
        'productId': soup.select_one('[data-product-id]')['data-product-id'],
        'skuId':data_sku['data-sku'],
    })

r = requests.post(url, headers={'Content-Type': 'application/json'}, data=json.dumps(data))
pprint(json.loads(r.text))

Это напечатает:

{'availabilities': [{'Allocations': {},
                     'availabilityId': '8W2321TK7D0Q',
                     'availableLots': {'0001-01-01T00:00:00.0000000Z': {'9000000013': {'deliverByDates': {'0001': '2018-08-09T12:00:00.0000000Z',
                                                                                                          '0004': '2018-08-16T12:00:00.0000000Z'},
                                                                                       'deliveryType': 'Ship',
                                                                                       'hasArbitraryLimitPolicy': 'False',
                                                                                       'inStock': 'False',
                                                                                       'isUnknownDate': 'False',
                                                                                       'onlineOrderAvailable': 'True',
                                                                                       'render': 'True',
                                                                                       'showDateOverride': 'False'}}},
                     'catalogSkuId': 'HB3R',
                     'distributorSkuId': 'QF9-01635',
                     'futureLots': {'2018-08-07T04:00:00.0000000Z': {'9000000013': {'deliverByDates': {'0001': '2018-08-12T12:00:00.0000000Z',
                                                                                                       '0004': '2018-08-19T12:00:00.0000000Z'},
                                                                                    'deliveryType': 'Ship',
                                                                                    'doNotFulfillBeforeDate': 'True',
                                                                                    'hasManuallyConfiguredDeliveryDate': 'False',
                                                                                    'inStock': 'True',
                                                                                    'isProductLaunchFutureLot': 'True',
                                                                                    'isUnknownDate': 'False',
                                                                                    'onlineOrderAvailable': 'True',
                                                                                    'render': 'True',
                                                                                    'showDateOverride': 'False',
                                                                                    'warehouseAllocation': {}}}},
                     'inventoryControlSkuId': 'QF9-01635',
                     'lastWarehouseUpdateTime': '2018-08-04T06:46:49.0000000Z',
                     'productId': '8N4K86D4J006'},
                    {'Allocations': {},
                     'availabilityId': '8WDNCCR153LS',
                     'availableLots': {'0001-01-01T00:00:00.0000000Z': {'9000000013': {'deliverByDates': {'0001': '2018-08-09T12:00:00.0000000Z',
                                                                                                          '0004': '2018-08-16T12:00:00.0000000Z'},
                                                                                       'deliveryType': 'Ship',
                                                                                       'hasArbitraryLimitPolicy': 'False',
                                                                                       'inStock': 'False',
                                                                                       'isUnknownDate': 'False',
                                                                                       'onlineOrderAvailable': 'False',
                                                                                       'render': 'True',
                                                                                       'showDateOverride': 'False'}}},
                     'catalogSkuId': '4X0P',
                     'distributorSkuId': 'QF9-01638',
                     'futureLots': {'2018-08-07T04:00:00.0000000Z': {'9000000013': {'deliverByDates': {'0001': '2018-08-12T12:00:00.0000000Z',
                                                                                                       '0004': '2018-08-19T12:00:00.0000000Z'},
                                                                                    'deliveryType': 'Ship',
                                                                                    'doNotFulfillBeforeDate': 'True',
                                                                                    'hasManuallyConfiguredDeliveryDate': 'False',
                                                                                    'inStock': 'False',
                                                                                    'isProductLaunchFutureLot': 'True',
                                                                                    'isUnknownDate': 'False',
                                                                                    'onlineOrderAvailable': 'False',
                                                                                    'render': 'True',
                                                                                    'showDateOverride': 'False',
                                                                                    'warehouseAllocation': {}}},
                                    '2018-09-04T04:00:00.0000000Z': {'9000000013': {'deliverByDates': {'0001': '2018-09-09T12:00:00.0000000Z',
                                                                                                       '0004': '2018-09-16T12:00:00.0000000Z'},
                                                                                    'deliveryType': 'Ship',
                                                                                    'doNotFulfillBeforeDate': 'True',
                                                                                    'hasManuallyConfiguredDeliveryDate': 'False',
                                                                                    'inStock': 'False',
                                                                                    'isProductLaunchFutureLot': 'False',
                                                                                    'isUnknownDate': 'False',
                                                                                    'onlineOrderAvailable': 'False',
                                                                                    'render': 'True',
                                                                                    'showDateOverride': 'False',
                                                                                    'warehouseAllocation': {}}}},
                     'inventoryControlSkuId': 'QF9-01638',
                     'lastWarehouseUpdateTime': '2018-08-04T06:46:49.0000000Z',
                     'productId': '8N4K86D4J006'}],
 'inStock': 'False'}

Как видите, некоторые SKU (конфигурации) находятся на складе, а некоторые нет. Это зависит от вас, для какой конфигурации вы ищете, на этом URL-адресе есть несколько.

  • 0
    Спасибо. Почему вы установили предзаказ всегда False? И почему он печатает гораздо больше данных, чем было доступно в цикле for? Вы анализировали эту информацию из html веб-страницы или с внешней страницы инвентаризации (потому что я не могу загрузить страницу инвентаризации)?
  • 0
    @yottamamba Я только что посмотрел на инспектора сети Firefox и увидел, что страница всегда отправляет этот параметр в False . Это часть их API, URL-адрес которого находится в теге с параметром data-availability-url . Хотя я не знаю специфики этого API, все только из того, что я видел в Firefox.
Показать ещё 2 комментария
1

Если вы отслеживаете веб-трафик (F11-> Сетевые инструменты в Chrome), вы увидите, что эта информация фактически не находится "внутри" страницы - она загружается с запросом POST во внутреннюю конечную точку inventory: Изображение 174551

Изображение 174551

На приведенных выше снимках отображается запрос POST и ответ соответственно. Поэтому, поскольку эти данные не генерируются из фактического запроса GET на страницу ноутбука, у вас есть два варианта:

  1. Мимируйте запрос POST. Это неэтично, потому что Microsoft настроена таким образом, чтобы минимизировать ненужный трафик. С другой стороны (и это может заработать мне несколько downvotes), я не думаю, что что-то вроде этого повлияет на серверы Microsoft слишком много. Для подражания запросу POST вам потребуется узнать, что отправлено на сервер, и как структурировать этот запрос. Вся эта информация может быть найдена в запросе POST, который я опубликовал, если вы просматриваете его и используете свой noggin.

  2. Используйте selenium (модуль Python, а не часть программного обеспечения). Это использует браузер, поэтому он будет генерировать именно то, что вы видите в браузере, хотя вам придется дать ему второй, чтобы сайт мог сделать этот запрос POST. После этого вы можете использовать BeautifulSoup, как и раньше, чтобы очистить соответствующую информацию. Этот способ будет значительно проще с точки зрения времени, которое потребуется, если вы не знаете, как реплицировать POST-запросы.

Удачи!

  • 1
    Большое спасибо за понимание

Ещё вопросы

Сообщество Overcoder
Наверх
Меню