Scrapy возвращает пустой массив из XPath

Question

Scrapy возвращает пустой массив из XPath

1

Я пытаюсь собрать данные о спортсмене с этой веб-страницы: https://www.athletic.net/TrackAndField/Athlete.aspx?AID=7844096#!/L4. Мне удалось собрать имя спортсмена, но мне сложно собрать их школьное имя, используя тот же метод. Я знаю, что название школы содержится как текст внутри ссылки внутри блока, но возвращает только пустой массив.

Вот мой код:

import scrapy

class AthletesSpider(scrapy.Spider):
    name = 'athletes'
    allowed_domains = ['athletic.net']
    start_urls = ['https://www.athletic.net/TrackAndField/Athlete.aspx?AID=7844096#!/L0']

    def parse(self, response):
        yield {
            'athlete_name' : response.xpath("//h2/text()").extract_first(),
            'school_name' : response.xpath("//h1/a/text()").extract_first()
        }

Я что-то пропустил?

kreesh 26 июнь 2018, в 21:57

Источник

Теги:

python

python-3.x

xpath

scrapy

web-crawler

1 ответ

Ещё вопросы

ᴡʜᴀᴄᴋᴀᴍᴀᴅᴏᴏᴅʟᴇ3000 · Answer 1 · 2018-06-26T17-32-00.000Z

2

Добавить запятую в словаре

import scrapy

class AthletesSpider(scrapy.Spider):
    name = 'athletes'
    allowed_domains = ['athletic.net']
    start_urls = ['https://www.athletic.net/TrackAndField/Athlete.aspx?AID=7844096#!/L0']

    def parse(self, response):
        yield {
            'athlete_name' : response.xpath("//h2/text()").extract_first(), <--here
            'school_name' : response.xpath("//h1/a/text()").extract_first()
        }

ᴡʜᴀᴄᴋᴀᴍᴀᴅᴏᴏᴅʟᴇ3000 26 июнь 2018, в 17:32

0

Боже мой, спасибо, что это было глупо. Но вторая строка по-прежнему возвращает пустой массив вместо названия школы - чего-то еще не хватает?
kreesh 26 июнь 2018, в 19:48
1

Одна вещь, которую вы можете попробовать, - это (если у вас есть Chrome) проверить страницу, найти элемент, щелкнуть правой кнопкой мыши и нажать «Копировать xpath». Обычно это то, что я делаю, чтобы легко идентифицировать элементы.
whackamadoodle3000 26 июнь 2018, в 19:51
1

Я получил: //*[@id="anetMain"]/div[3]/team-nav/div/div/team-nav-logo/div/div/h1/a для школьного элемента.
whackamadoodle3000 26 июнь 2018, в 19:54
0

О, это полезный совет! Но я получаю еще одну ошибку "неверный синтаксис" при попытке запустить 'school_name' : response.xpath("//*[@id="anetMain"]/div[3]/team-nav/div/div/team-nav-logo/div/div/h1/a").extract_first()
kreesh 26 июнь 2018, в 20:01
0

Вот почему вы должны поместить его в одинарные кавычки, а не в двойные кавычки :)
whackamadoodle3000 26 июнь 2018, в 20:02
0

'school_name' : response.xpath('//*[@id="anetMain"]/div[3]/team-nav/div/div/team-nav-logo/div/div/h1/a').extract_first()
whackamadoodle3000 26 июнь 2018, в 20:05
0

Извините, если это глупые вопросы, я очень новичок здесь, но замена этой строки по-прежнему возвращает пустой массив.
kreesh 26 июнь 2018, в 20:10
0

Добавьте /text() в xpath
whackamadoodle3000 26 июнь 2018, в 20:12
0

Давайте продолжим эту дискуссию в чате .
kreesh 26 июнь 2018, в 20:19

Показать ещё 7 комментариев