Пытаясь скрести, возвращаясь []

Question

Пытаясь скрести, возвращаясь []

1

Я использую Scrapy 1.5.1 с Python 2.7.6. Я пытаюсь очистить имена пользователей со следующей страницы.

Я выполнил следующий код:

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request


class BtctalkspiderSpider(scrapy.Spider):
    name = 'btctalkSpider'
    allowed_domains = ['bitcointalk.org']
    max_uid = 10

    def parse(self, response):
        urls = response.xpath("//a/@href").extract()
        for i in range(self.max_uid):
            # scrapy shell "https://bitcointalk.org/index.php?action=profile;u=1"
            yield Request('https://bitcointalk.org/index.php?action=profile;u=%d' % i, callback=self.parse_application)

    def parse_application(self, response):
        userName = response.xpath('//td[normalize-space(.)="Name:"]/following-sibling::td/text()').extract()


        yield {
            'userName': userName
        }

Однако, пытаясь очистить сайт, я получаю [] назад.

Я проверил свой xpath через оболочку, и все работает.

Любые предложения, что я делаю неправильно?

Anna.Klee 16 окт. 2018, в 21:31

Источник

4

ты скребешь (ломаешь), а не ломаешь (лома).
Antti Haapala 16 окт. 2018, в 19:19
0

@AnttiHaapala Спасибо за ваш ответ! Любое предложение, почему я получаю [] обратно?
Anna.Klee 17 окт. 2018, в 15:52

Теги:

python

scrapy

1 ответ

Ещё вопросы

ты скребешь (ломаешь), а не ломаешь (лома).
@AnttiHaapala Спасибо за ваш ответ! Любое предложение, почему я получаю [] обратно?

Ahmed Saad · Accepted Answer · 2018-10-16T22-13-00.000Z

Некоторые из URL-адресов профилей просто не существуют, поэтому выражение XPath не оценивалось ничем.

например: https://bitcointalk.org/index.php?action=profile;u=2

Но, также, вам нужно указать начальный url для ex: start_urls = ['https://bitcointalk.org'] или просто добавить функцию start_requests.

Вот цитата из документов start_urls относительно start_urls 1...

Вместо внедрения метода start_requests(), который генерирует scrapy. Запросите объекты из URL-адресов, вы можете просто определить атрибут класса start_urls со списком URL-адресов.

Спасибо за ваш ответ! Любое предложение, почему я получаю для profile;u=1 ничего не возвращается?
Вам нужно указать начальный URL start_urls = ['https://bitcointalk.org'] или просто добавить функцию start_requests .