очистка веб-страницы с тегом привязки <a href = “##> с использованием scrapy

Question

очистка веб-страницы с тегом привязки <a href = “##> с использованием scrapy

1

Я соскабливаю manulife

Я хочу перейти на следующую страницу, когда я проверяю "следующий", я получаю:

<span class="pagerlink">
    <a href="#" id="next" title="Go to the next page">Next</a>
</span>

Каким может быть правильный подход?

# -*- coding: utf-8 -*-
import scrapy
import json
from scrapy_splash import SplashRequest

class Manulife(scrapy.Spider):
name = 'manulife'
#allowed_domains = ['https://manulife.taleo.net/careersection/external_global/jobsearch.ftl?lang=en']
start_urls = ['https://manulife.taleo.net/careersection/external_global/jobsearch.ftl?lang=en&location=1038']

def start_requests(self):
    for url in self.start_urls:
        yield SplashRequest(
        url,
        self.parse,
        args={'wait': 5},
        )   




def parse(self, response):
    #yield {
    #   'demo' : response.css('div.absolute > span > a::text').extract()
    #     }
    urls = response.css('div.absolute > span > a::attr(href)').extract() 
    for url in urls:
        url = "https://manulife.taleo.net" + url
        yield SplashRequest(url = url, callback = self.parse_details, args={'wait': 5})
        #self.log("reaced22 : "+ url)

    #hitting next button
    #data = json.loads(response.text)
    #self.log("reached 22 : "+ data)
    #next_page_url = 

    if next_page_url:
       next_page_url = response.urljoin(next_page_url) 
       yield SplashRequest(url = next_page_url, callback = self.parse, args={'wait': 5})


def parse_details(self,response):
    yield {
           'Job post' : response.css('div.contentlinepanel > span.titlepage::text').extract(),
           'Location' : response.xpath("//span[@id = 'requisitionDescriptionInterface.ID1679.row1']/text()").extract(),
           'Organization' : response.xpath("//span[@id = 'requisitionDescriptionInterface.ID1787.row1']/text()").extract(),
           'Date posted' : response.xpath("//span[@id = 'requisitionDescriptionInterface.reqPostingDate.row1']/text()").extract(),
           'Industry': response.xpath("//span[@id = 'requisitionDescriptionInterface.ID1951.row1']/text()").extract()
          }

Как вы можете видеть, код содержит SplashRequest, когда вы нажимаете ссылку следующей страницы.

Я новичок в выскабливании, где-то я обнаружил, что веб-сайт может вернуть ответ как json. Я попробовал, но это дает мне ошибку, что "объект json не может быть декодирован"

Varun Kapil 28 окт. 2017, в 12:05

Источник

0

Я попробовал это, используя scrapy-splash, но безрезультатно.
Varun Kapil 28 окт. 2017, в 09:35
1

Scrapy не может интерпретировать JavaScript, используйте селен для таких вещей.
shotgunner 28 окт. 2017, в 09:41
0

Я использовал scrapy-splash, который используется для обработки запросов javascript. @shotgunner
Varun Kapil 28 окт. 2017, в 09:44
0

Я использовал scrapy-splash ... Покажите ваш код
Andersson 28 окт. 2017, в 12:45
0

Добавил код @Andersson Я новичок в поиске, где-то я обнаружил, что веб-сайт может возвращать ответ как json также. Я попробовал это, но это дает мне ошибку, что "Ни один объект json не может быть декодирован"
Varun Kapil 28 окт. 2017, в 13:00
0

Привет @ogdabou, это дает мне весь якорный тег, который не полезен, потому что это только я "#"
Varun Kapil 28 окт. 2017, в 13:22
0

Какие URL запрашиваются сайтом при нажатии на ссылку «следующая страница»?
Apalala 29 окт. 2017, в 09:54
0

Я не знаю @Apalala, он просто дает мне #, я думаю, что сайт отвечает на запросы JSON
Varun Kapil 29 окт. 2017, в 15:11

Показать ещё 6 комментариев

Теги:

javascript

python

web-scraping

scrapy

scrapy-splash

1 ответ

Ещё вопросы

Я попробовал это, используя scrapy-splash, но безрезультатно.
Scrapy не может интерпретировать JavaScript, используйте селен для таких вещей.
Я использовал scrapy-splash, который используется для обработки запросов javascript. @shotgunner
Я использовал scrapy-splash ... Покажите ваш код
Добавил код @Andersson Я новичок в поиске, где-то я обнаружил, что веб-сайт может возвращать ответ как json также. Я попробовал это, но это дает мне ошибку, что "Ни один объект json не может быть декодирован"
Привет @ogdabou, это дает мне весь якорный тег, который не полезен, потому что это только я "#"
Какие URL запрашиваются сайтом при нажатии на ссылку «следующая страница»?
Я не знаю @Apalala, он просто дает мне #, я думаю, что сайт отвечает на запросы JSON

ogdabou · Answer 1 · 2017-10-28T11-50-00.000Z

Я думаю, используя css selector ".pagerlink a[title='Go to the next page']" как это могло бы работать.

Но ".pagerlink:last-child a" будет лучшим подходом imo. Вам просто нужно получить атрибут href

Это просто дает якорный тег, который содержит «#». Так что это не полезно. : /