Невозможно использовать разные прокси для выполнения последующих запросов

Question

Невозможно использовать разные прокси для выполнения последующих запросов

1

Я написал скрипт на python, используя прокси для очистки ссылок разных постов, проходящих через разные страницы веб-страницы. My goal here is to make two subsequesnt requests using different proxies from a list.

Сценарий берет случайные прокси из списка и отправляет запрос make_requests() а затем снова делает другой запрос, выбирая другой прокси из списка, используя недавно заполненные ссылки make_ano_requests().

Наконец, get_title() печатает результат.

Однако, если какой-либо прокси-сервер не работает, он make_requests() из списка любой из двух функций make_requests() или make_ano_requests().

Когда я запускаю сценарий, он, кажется, работает, но где-то внутри его выполнения сценарий застревает и никогда не пытается выполнить задачу. Как я могу выполнить задачу?

Это то, что я написал до сих пор (proxyVault содержит поддельные прокси):

import random
import requests
from random import choice
from bs4 import BeautifulSoup
from urllib.parse import urljoin

base_url = 'https://stackoverflow.com/questions/tagged/web-scraping'
lead_urls = [f'https://stackoverflow.com/questions/tagged/web-scraping?sort='
            f'newest&page={page}&pagesize=50' for page in range(1, 5)]

linkList = []

proxyVault = ['103.110.37.244:36022', '180.254.218.229:8080', '110.74.197.207:50632', '1.20.101.95:49001', '200.10.193.90:8080', '173.164.26.117:3128', '103.228.118.66:43002', '178.128.231.201:3128', '1.2.169.54:55312', '181.52.85.249:31487', '97.64.135.4:8080', '190.96.214.123:53251', '52.144.107.142:31923', '45.5.224.145:52035', '89.218.22.178:8080', '192.241.143.186:80', '113.53.29.218:38310', '36.78.131.182:39243']

def make_requests(url):
    proxy_url = choice(proxyVault)
    proxy = {'https': f'http://{proxy_url}'}
    try:
        res = requests.get(url, proxies=proxy)
        soup = BeautifulSoup(res.text, "lxml")
        linkList.extend([urljoin(base_url, item.get("href")) for item in soup.select(".summary .question-hyperlink")])
    except requests.exceptions.ProxyError:
        if proxy_url in proxyVault:
            proxyVault.remove(proxy_url)
            print(f'kicked out bad proxy by first func: {proxy_url}')
        return make_requests(url)

def make_ano_requests(url):
    proxy_url = choice(proxyVault)
    proxy = {'https': f'http://{proxy_url}'}
    try:
        res = requests.get(url, proxies=proxy)
        get_title(res.text)
    except requests.exceptions.ProxyError:
        if proxy_url in proxyVault:
            proxyVault.remove(proxy_url)
            print(f'kicked out bad proxy by second func: {proxy_url}')
        return make_ano_requests(url)

def get_title(response):
    soup = BeautifulSoup(response, "lxml")
    print(soup.select_one("h1[itemprop='name'] a").text)

if __name__ == '__main__':
    for lead_url in lead_urls:
        make_requests(lead_url)

    for single_link in linkList:
        make_ano_requests(single_link)

robots.txt 11 янв. 2019, в 12:08

Источник

0

Кажется, что код работает, но он действительно медленный со всеми запросами (даже если прокси удалены). Добавим, что прохождение возможно очень медленных прокси создаст впечатление зависания. Попробуйте распечатать разные этапы, чтобы понять, что я имею в виду
SimonF 11 янв. 2019, в 12:45

Теги:

python

python-3.x

web-scraping

proxy

2 ответа

0

Вы можете ускорить процесс фильтрации прокси, используя asyncio и aiohttp. Что-то вроде этого:

import aiohttp
import asyncio
import random
import requests
from random import choice
from bs4 import BeautifulSoup
from urllib.parse import urljoin


base_url = 'https://stackoverflow.com/questions/tagged/web-scraping'
lead_urls = [f'https://stackoverflow.com/questions/tagged/web-scraping?sort=' \
             f'newest&page={page}&pagesize=50' for page in range(1, 5)]
linkList = []

proxyVault = ['103.110.37.244:36022', '180.254.218.229:8080', '110.74.197.207:50632', '1.20.101.95:49001',
              '200.10.193.90:8080', '173.164.26.117:3128', '103.228.118.66:43002', '178.128.231.201:3128',
              '1.2.169.54:55312', '181.52.85.249:31487', '97.64.135.4:8080', '190.96.214.123:53251',
              '52.144.107.142:31923', '45.5.224.145:52035', '89.218.22.178:8080', '192.241.143.186:80',
              '113.53.29.218:38310', '36.78.131.182:39243']

def make_ano_requests(url):
    proxy_url = choice(proxyVault)
    proxy = {'https': f'http://{proxy_url}'}
    try:
        res = requests.get(url, proxies=proxy, timeout=5)
        get_title(res.text)
    except requests.exceptions.ProxyError:
        if proxy_url in proxyVault:
            proxyVault.remove(proxy_url)
            print(f'kicked out bad proxy by second func: {proxy_url}')
        return make_ano_requests(url)


def get_title(response):
    soup = BeautifulSoup(response, "lxml")
    print(soup.select_one("h1[itemprop='name'] a").text)


async def fetch(session, url, proxy_url):
    proxy = f'http://{proxy_url}'

    try:
        async with session.get(url, proxy=proxy) as response:
            return await response.text()
    except aiohttp.client_exceptions.ClientProxyConnectionError:
        print(f'kicked out bad proxy by first func: {proxy_url}')
        proxyVault.remove(proxy_url)


async def make_requests():
    tasks = []
    async with aiohttp.ClientSession() as session:
        for proxy in proxyVault:
            tasks.append(fetch(session, base_url, proxy))

        responses = await asyncio.gather(*tasks)

        print(f'Usefull proxies: {proxyVault}')
        for res in responses:
            if res:
                soup = BeautifulSoup(res.text, "lxml")
                linkList.extend(
                    [urljoin(base_url, item.get("href")) for item in soup.select(".summary .question-hyperlink")])


if __name__ == '__main__':
    loop = asyncio.get_event_loop()
    loop.run_until_complete(make_requests())

    for single_link in linkList:
        make_ano_requests(single_link)

Frans 20 янв. 2019, в 12:31

Ещё вопросы

Кажется, что код работает, но он действительно медленный со всеми запросами (даже если прокси удалены). Добавим, что прохождение возможно очень медленных прокси создаст впечатление зависания. Попробуйте распечатать разные этапы, чтобы понять, что я имею в виду

SimonF · Accepted Answer · 2019-01-11T17-15-00.000Z

Вполне возможно, что ваш requests.get вызывает его "зависание", потому что у них нет тайм-аутов. Как в документации сказано:

Почти весь производственный код должен использовать этот параметр почти во всех запросах. Невыполнение этого требования может привести к зависанию вашей программы на неопределенный срок

Поэтому я предлагаю изменить его на res = requests.get(url, proxies=proxy, timeout=1) чтобы предотвратить его зависание.

Это, однако, действительно sloooooow. Чтобы ускорить его, я бы предложил удалить второй запрос и вместо получения ссылок из запросов 1 получить строки [item.string for item in soup.select(".summary.question-hyperlink")] которые чаще всего не являются такие же, как названия.

Изменить, добавлен код для ловли таймаутов в request.get :

import random
import requests
from random import choice
from bs4 import BeautifulSoup
from urllib.parse import urljoin
import urllib3

base_url = 'https://stackoverflow.com/questions/tagged/web-scraping'
lead_urls = [f'https://stackoverflow.com/questions/tagged/web-scraping?sort='
            f'newest&page={page}&pagesize=50' for page in range(1, 5)]

linkList = []

proxyVault = ['103.110.37.244:36022', '180.254.218.229:8080', '110.74.197.207:50632', '1.20.101.95:49001', '200.10.193.90:8080', '173.164.26.117:3128', '103.228.118.66:43002', '178.128.231.201:3128', '1.2.169.54:55312', '181.52.85.249:31487', '97.64.135.4:8080', '190.96.214.123:53251', '52.144.107.142:31923', '45.5.224.145:52035', '89.218.22.178:8080', '192.241.143.186:80', '113.53.29.218:38310', '36.78.131.182:39243']

def make_requests(url):
    proxy_url = choice(proxyVault)
    proxy = {'https': f'http://{proxy_url}'}
    try:
        res = requests.get(url, proxies=proxy, timeout=1)
        soup = BeautifulSoup(res.text, "lxml")
        linkList.extend([urljoin(base_url, item.get("href")) for item in soup.select(".summary .question-hyperlink")])
    except (requests.exceptions.ProxyError,
            requests.exceptions.Timeout,
            requests.exceptions.ConnectionError,
            urllib3.exceptions.MaxRetryError):
        if proxy_url in proxyVault:
            proxyVault.remove(proxy_url)
            print(f'kicked out bad proxy by first func: {proxy_url}')
        return make_requests(url)

def make_ano_requests(url):
    proxy_url = choice(proxyVault)
    proxy = {'https': f'http://{proxy_url}'}
    try:
        res = requests.get(url, proxies=proxy, timeout=1)
        get_title(res.text)
    except (requests.exceptions.ProxyError,
            requests.exceptions.Timeout,
            requests.exceptions.ConnectionError,
            urllib3.exceptions.MaxRetryError):
        if proxy_url in proxyVault:
            proxyVault.remove(proxy_url)
            print(f'kicked out bad proxy by second func: {proxy_url}')
        return make_ano_requests(url)

def get_title(response):
    soup = BeautifulSoup(response, "lxml")
    print(soup.select_one("h1[itemprop='name'] a").text)

if __name__ == '__main__':
    for lead_url in lead_urls:
        make_requests(lead_url)

    for single_link in linkList:
        make_ano_requests(single_link)

Привет @SimonF, я попытался выполнить твое первое предложение, но дело в том, что скрипт вылетает в течение нескольких секунд без какого-либо результата. Что касается вашего второго подхода, я уже узнал это от вас в моем предыдущем посте. Я просто хотел узнать, как делать последующие запросы, как я пытался выше. Благодарю.
Так в чем причина аварии? Traceback ... Если тайм-аут истекает, вам нужно перехватить его так же, как proxyerror
@ robots.txt Я все еще жду трассировки ... Я почти уверен, что вы просто не ловите новое исключение (тайм-аут)
Я хотел бы принять ваш ответ и назначить вознаграждение, если вы предоставите мне демо-версию того, как timeout=1 должен быть установлен в requests.get(url, proxies=proxy, timeout=1) потому что каждый раз, когда я пытаюсь с этим подходом, я почти мгновенно получить ошибку timeout exception даже если они находятся в блоке try/except . Я только изменил res = requests.get(url, proxies=proxy) на res = requests.get(url, proxies=proxy,timeout=1) в двух функциях моего скрипта выше и запустил этот @SimonF.
@ robots.txt Попробуйте приведенный выше код, я добавил все возможные ошибки времени, которые могут возникнуть, поскольку у меня нет для вас обратной трассировки
Привет @SimonF, я подумал, что доставлю тебе немного хлопот, задав вопрос об определенной логике приведенного выше скрипта. Почему я должен использовать return make_requests(url) вместо только make_requests(url) внутри функции make_requests() ? То же самое касается make_ano_requests() . Был бы очень признателен, если бы я мог получить от вас ясность в этом. Изо всех сил, чтобы понять логику. Спасибо заранее.
@ robots.txt Это считается хорошей практикой, в данном случае это None в любом случае, что по умолчанию в python. Однако учтите, что если вы хотите вернуть заголовок и ссылки вместо использования глобальных переменных и печати, то вам нужно будет только добавить возврат упомянутых вещей, а не возвраты, которые уже есть.
Спасибо за ваш ответ @SimonF. И если я не ошибаюсь, return make_requests(url) работает более или менее рекурсивно, когда скрипт попадает в исключение, верно?
@ robots.txt Правильно, это рекурсивная функция
Привет @SimonF, не прочь посмотреть этот пост , если есть какое-то решение. Благодарю.