DOM Parser захватывает href тега <a> по классу = «Решение»

Question

DOM Parser захватывает href тега <a> по классу = «Решение»

0

Я работаю с парсером DOM, и у меня возникают проблемы. Я в основном пытаюсь захватить href внутри тега, который содержит только идентификатор класса "thumbnail". Я пытаюсь распечатать ссылки на экране и не получаю никаких результатов. Любая помощь приветствуется. Я также включил error_reporting (E_ALL); и все еще ничего.

$html = file_get_contents('http://www.reddit.com/r/funny');
$dom = new DOMDocument();
@$dom->loadHTML($html);
$classId = "thumbnail ";
$div = $html->find('a#'.$classId);
echo $div;

Я также пробовал это, но все же имел тот же результат НИЧЕГО:

include('simple_html_dom.php');
$html = file_get_contents('http://www.reddit.com/r/funny');
$dom = new DOMDocument();
@$dom->loadHTML($html);
// grab all the on the page
$xpath = new DOMXPath($dom);
$hrefs = $xpath->evaluate("/html/body//a");
$ret = $html->find('a[class=thumbnail]');
echo $ret;

Zach Harvey 17 дек. 2013, в 01:51

Источник

2

$html - это строка, а не объект, поэтому вы никогда не сможете использовать $html-> . Вы смешиваете DOMDocument и анализатор Simple HTML DOM.
nickb 17 дек. 2013, в 00:27
0

Я думал, когда я перезагружал его в DOM, это был объект, а не строка? Поправьте меня если я ошибаюсь?
Zach Harvey 17 дек. 2013, в 00:29
0

Не могли бы вы помочь мне, где я ошибся с заявлением? Я новичок, когда дело доходит до DOM, и я пытаюсь понять все его функции.
Zach Harvey 17 дек. 2013, в 00:32
0

@ZachHarvey Причина, по которой первый код не работает, заключается в том, что нет гиперссылок с thumbnail идентификатора. Вместо этого вы ищете thumbnail класса .
silkfire 17 дек. 2013, в 00:33
1

$hrefs выглядит так, как будто он содержит то, что вы хотите, отбросьте этот несуществующий вызов ->find() и, возможно, отбросьте весь этот медленный простой html dom
Wrikken 17 дек. 2013, в 00:33

Показать ещё 3 комментария

Теги:

php

html

dom

parsing

4 ответа

3

Вы были почти там:

<?php
$dom = new DOMDocument();
@$dom->loadHTMLFile('http://www.reddit.com/r/funny');

$xpath = new DOMXPath($dom);
$hrefs = $xpath->evaluate("/html/body//a[contains(concat(' ',normalize-space(@class),' '),' thumbnail ')]");
var_dump($hrefs);

дает:

class DOMNodeList#28 (1) {
  public $length =>
  int(25)
}

25 матчей, я бы назвал это успехом.

Wrikken 16 дек. 2013, в 22:19

1

Можно пропустить одну строку, используя $dom->loadHTMLFile($url)
Phil 17 дек. 2013, в 00:38
1

@Phil: должным образом отмечено. Я собирался сделать «наименьшее количество изменений в исходном коде», но мы можем также внести это туда, я его отредактирую.
Wrikken 17 дек. 2013, в 00:46

0

если вы используете simple_html_dom, почему вы делаете все эти лишние вещи? Он уже обертывает ресурс во всем, что вам нужно - http://simplehtmldom.sourceforge.net/manual.htm

include('simple_html_dom.php');

// set up:
$html = new simple_html_dom();

// load from URL:
$html->load_file('http://www.reddit.com/r/funny');

// find those <a> elements:
$links = $html->find('a[class=thumbnail]');

// done.
echo $links;

Mike 'Pomax' Kamermans 16 дек. 2013, в 23:18

0

Протестировали его и внесли некоторые изменения - это тоже отлично.

<?php
    // load the url and set up an array for the links
    $dom = new DOMDocument();
    @$dom->loadHTMLFile('http://www.reddit.com/r/funny');
    $links = array();

    // loop thru all the A elements found
    foreach($dom->getElementsByTagName('a') as $link) {
        $url = $link->getAttribute('href');
        $class = $link->getAttribute('class');

        // Check if the URL is not empty and if the class contains thumbnail
        if(!empty($url) && strpos($class,'thumbnail') !== false) {
            array_push($links, $url);
        }
    }

    // Print results
    print_r($links);
?>

ArendE 16 дек. 2013, в 22:58

Ещё вопросы

$html - это строка, а не объект, поэтому вы никогда не сможете использовать $html-> . Вы смешиваете DOMDocument и анализатор Simple HTML DOM.
Я думал, когда я перезагружал его в DOM, это был объект, а не строка? Поправьте меня если я ошибаюсь?
Не могли бы вы помочь мне, где я ошибся с заявлением? Я новичок, когда дело доходит до DOM, и я пытаюсь понять все его функции.
@ZachHarvey Причина, по которой первый код не работает, заключается в том, что нет гиперссылок с thumbnail идентификатора. Вместо этого вы ищете thumbnail класса .
$hrefs выглядит так, как будто он содержит то, что вы хотите, отбросьте этот несуществующий вызов ->find() и, возможно, отбросьте весь этот медленный простой html dom
Можно пропустить одну строку, используя $dom->loadHTMLFile($url)
@Phil: должным образом отмечено. Я собирался сделать «наименьшее количество изменений в исходном коде», но мы можем также внести это туда, я его отредактирую.

silkfire · Accepted Answer · 2013-12-16T22-11-00.000Z

1

Лучший ответ

Этот код, вероятно, будет работать:

$html = file_get_contents('http://www.reddit.com/r/funny');
$dom = new DOMDocument();
@$dom->loadHTML($html);

$xpath = new DOMXPath($dom);
$hyperlinks = $xpath->query('//a[@class="thumbnail"]');

foreach($hyperlinks as $hyperlink) {
   echo $hyperlink->getAttribute('href'), '<br>;'
}

silkfire 16 дек. 2013, в 22:11

1

Хм, я всегда использую contains(concat(' ',@class,' '),' thumbnail ') для проверки, есть ли у чего-то класс, но, возможно, также и другие имена классов.
Wrikken 17 дек. 2013, в 00:37
1

ПОБЕДИТЕЛЬ ПОБЕДИТЕЛЬ КУРИНЫЙ УЖИН! Большое вам спасибо!
Zach Harvey 17 дек. 2013, в 00:37
0

Кроме того, это странно, Wrikken. Я не могу сделать конкат по той простой причине, что у сайта, с которого я пытаюсь найти изображения, есть класс, подобный этому class = "thumbnail". Дополнительное пространство в конце все испортило для меня. несколько часов!
Zach Harvey 17 дек. 2013, в 00:38
1

Этот ответ не работает с предоставленным образцом URL. Эти элементы имеют значение атрибута класса "thumbnail " (или "thumbnail loggedin" если вы пользователь Reddit)
Phil 17 дек. 2013, в 00:43
1

@ZachHarvey: не могу сделать конкат? Если это пробел, то эта штука все равно будет работать. Однако, если это «другой вид пробелов» (табуляции, новые строки, ...), это немного более надежно: contains(concat(' ',normalize-space(@class),' '),' thumbnail ')
Wrikken 17 дек. 2013, в 00:51

Показать ещё 3 комментария