Как вы анализируете и обрабатываете HTML / XML в PHP?

Question

Как вы анализируете и обрабатываете HTML / XML в PHP?

1969

Как можно разобрать HTML/XML и извлечь из него информацию?

RobertPitt 26 авг. 2010, в 18:44

Источник

Теги:

php

xml

xml-parsing

parsing

html-parsing

29 ответов

328

Попробуйте Простой HTML DOM Parser

Парсер HTML DOM, написанный на PHP 5+, который позволяет вам легко манипулировать HTML-кодом!
Требовать PHP 5 +.
Поддерживает недействительный HTML.
Найти теги на странице HTML с селекторами, как jQuery.
Извлечь содержимое из HTML в одной строке.
Загрузить

Примеры:

Как получить HTML-элементы:

// Create DOM from URL or file
$html = file_get_html('http://www.example.com/');

// Find all images
foreach($html->find('img') as $element)
       echo $element->src . '<br>';

// Find all links
foreach($html->find('a') as $element)
       echo $element->href . '<br>';

Как изменить элементы HTML:

// Create DOM from string
$html = str_get_html('<div id="hello">Hello</div><div id="world">World</div>');

$html->find('div', 1)->class = 'bar';

$html->find('div[id=hello]', 0)->innertext = 'foo';

echo $html;

Извлечь содержимое из HTML:

// Dump contents (without tags) from HTML
echo file_get_html('http://www.google.com/')->plaintext;

Скребок Slashdot:

// Create DOM from URL
$html = file_get_html('http://slashdot.org/');

// Find all article blocks
foreach($html->find('div.article') as $article) {
    $item['title']     = $article->find('div.title', 0)->plaintext;
    $item['intro']    = $article->find('div.intro', 0)->plaintext;
    $item['details'] = $article->find('div.details', 0)->plaintext;
    $articles[] = $item;
}

print_r($articles);

Naveed 26 авг. 2010, в 17:24

8

Ну, во-первых, есть вещи, которые мне нужно подготовить, такие как плохие DOM, код Invlid, а также js-анализ на ядро DNSBL, это также будет использоваться для поиска вредоносных сайтов / контента, также как я построил свой сайт на основе фреймворка. должны быть чистыми, читаемыми и хорошо структурированными. SimpleDim великолепен, но код немного грязный
RobertPitt 26 авг. 2010, в 17:35
0

как я уже говорил, я много раз использовал простой DOM, и он превосходен, просто искал систему с более чётким кодом, который легко расширяется, OO (P | D) Wise и т. д.
RobertPitt 26 авг. 2010, в 17:42
9

@ Роберт, вы можете также захотеть проверить htmlpurifier.org на предмет безопасности.
Gordon 31 авг. 2010, в 07:40
3

У него есть одно верное замечание: simpleHTMLDOM сложно расширить, если вы не используете шаблон декоратора, который я считаю громоздким. Я содрогнулся, просто внося изменения в базовый класс (ы).
Erik 17 сен. 2010, в 21:46
1

Что я сделал, так это прогнал мой html через tidy перед отправкой в SimpleDOM.
MB34 23 апр. 2012, в 14:14
1

Я использую это в настоящее время, запускаю как часть проекта для обработки нескольких сотен URL. Это становится очень медленным и регулярные таймауты сохраняются. Это отличный скрипт для начинающих, интуитивно простой в освоении, но слишком простой для более продвинутых проектов.
luke_mclachlan 07 апр. 2016, в 14:53
0

Больше не работает
Bsienn 17 фев. 2017, в 16:37

Показать ещё 5 комментариев

226

Просто используйте DOMDocument- > loadHTML() и покончите с этим. libxml HTML-анализ синтаксического анализа довольно хорош и быстр, и, вопреки распространенному мнению, не задыхается от искаженного HTML.

Edward Z. Yang 26 нояб. 2008, в 21:06

19

Правда. И он работает со встроенными в PHP классами XPath и XSLTProcessor, которые отлично подходят для извлечения контента.
Kornel 27 нояб. 2008, в 13:28
8

Для действительно искаженного HTML вы всегда можете запустить его через htmltidy, прежде чем передать его в DOM. Всякий раз, когда мне нужно почистить данные из HTML, я всегда использую DOM или, по крайней мере, simplexml.
Frank Farmer 13 окт. 2009, в 00:41
9

Еще одна вещь, связанная с загрузкой искаженного HTML-кода, заключается в том, что было бы разумно вызывать libxml_use_internal_errors (true) для предотвращения предупреждений, которые прекратят анализ.
Husky 24 май 2010, в 17:51
6

Я использовал DOMDocument для анализа около 1000 HTML-источников (на разных языках, закодированных с различными кодировками) без каких-либо проблем. Вы можете столкнуться с проблемами кодирования с этим, но они не являются непреодолимыми. Вам нужно знать 3 вещи: 1) loadHTML использует набор символов мета-тега для определения кодировки 2) # 2 может привести к неправильному обнаружению кодировки, если html-контент не содержит эту информацию 3) плохие символы UTF-8 могут отключить анализатор. В таких случаях используйте комбинацию mb_detect_encoding () и Simplepie RSS Parser для кодирования / преобразования / удаления плохих символов UTF-8 для обходных путей.
Zero 19 сен. 2010, в 06:58
0

Да, но DOMDocument не поддерживает запросы CSS и XPATH, просто getElementById или getElementsByTagName?
umpirsky 16 нояб. 2010, в 09:22
0

Моя проблема с loadHTML - это дополнительные узлы, которые он вставляет, которые, вероятно, предназначены для «исправления» HTML, но на самом деле не требуются в спецификации DOM. Таким образом, результат вызова loadHTML плохо определен. Было бы намного лучше, если бы подобное происходило на saveHTML.
CurtainDog 03 март 2011, в 05:43
1

DOM действительно поддерживает XPath, взгляните на DOMXPath .
Ryan McCue 30 янв. 2012, в 02:59
0

Я предпочитаю использовать DOMDocument-> loadHTML () в сочетании с компонентом Symfony «CSSSelector», который переводит селекторы CSS в селекторы XPath. Это все еще очень низкий уровень и делает DOM намного проще в использовании для тех, кто имеет большой опыт в программировании внешнего интерфейса (см. Stackoverflow.com/questions/3577641/… для получения дополнительной информации)
John Slegers 03 июль 2014, в 10:07

Показать ещё 6 комментариев

140

Почему вы не должны и когда должны использовать регулярные выражения?

Во-первых, распространенное неправильное выражение: регулярные выражения не предназначены для " синтаксического анализа" HTML. Regexes может, однако, " извлечь" данные. Извлечение - это то, для чего они созданы. Основным недостатком выработки HTML-кода регулярного выражения в правильных инструментариях SGML или базовых XML-парсерах является их синтаксическое усилие и различная надежность.

Считаем, что создание несколько надежного HTML-выражения regex:

<a\s+class="?playbutton\d?[^>]+id="(\d+)".+?    <a\s+class="[\w\s]*title
[\w\s]*"[^>]+href="(http://[^">]+)"[^>]*>([^<>]+)</a>.+?

является менее читаемым, чем простой эквивалент phpQuery или QueryPath:

$div->find(".stationcool a")->attr("title");

Существуют, однако, конкретные варианты использования, в которых они могут помочь.

Многие интерфейсы обхода DOM не показывают HTML-комментарии <!--, которые иногда являются более полезными якорями для извлечения. В частности, псевдо-HTML-вариации <$var> или SGML-остатки легко приручить с регулярными выражениями.
Часто регулярные выражения могут сохранять пост-обработку. Однако HTML-объекты часто требуют ручного ухода.
И, наконец, для чрезвычайно простых задач, таких как extracting < img src= urls, они на самом деле являются вероятным инструментом. Преимущество в скорости по сравнению с синтаксическими анализаторами SGML/XML в основном просто предназначено для этих основных процедур извлечения.

Иногда даже рекомендуется предварительно извлечь фрагмент HTML с помощью регулярных выражений /(.+?)/ и обработать остаток с помощью более простых интерфейсов парсера HTML.

Примечание. У меня действительно есть это приложение, где я использую разбор XML и регулярные выражения в качестве альтернативы. На прошлой неделе разразился синтаксический анализ PyQuery, и регулярное выражение все еще работало. Да, странно, и я не могу объяснить это сам. Но так получилось. Поэтому, пожалуйста, не голосуйте за реальные соображения, потому что это не соответствует регулярному выражению = evil mem. Но пусть тоже не проголосует слишком много. Это просто сидение для этой темы.

mario 06 сен. 2010, в 11:39

19

DOMComment может читать комментарии, поэтому нет причин использовать Regex для этого.
Gordon 06 сен. 2010, в 09:48
4

Ни инструментарий SGML, ни парсеры XML не подходят для анализа реального мира HTML. Для этого подходит только специальный HTML-парсер.
Alohci 06 сен. 2010, в 09:53
12

@Alohci DOM использует libxml, а libxml имеет отдельный модуль парсера HTML, который будет использоваться при загрузке HTML с помощью loadHTML() поэтому он может очень сильно загружать «реальный» (читай неработающий) HTML.
Gordon 06 сен. 2010, в 09:57
1

@ Гордон - спасибо. HTML-парсеры и XML-парсеры все еще разные вещи, даже если они упакованы в одной библиотеке. И они оба отличаются от реализаций DOM.
Alohci 06 сен. 2010, в 10:01
5

Ну, просто комментарий о вашей точке зрения "реального мира". Конечно, есть полезные ситуации для Regex при разборе HTML. И есть также полезные ситуации для использования GOTO. И есть полезные ситуации для переменных-переменных. Таким образом, ни одна конкретная реализация не может полностью использовать его. Но это ОЧЕНЬ сильный предупреждающий знак. И среднестатистический разработчик вряд ли будет достаточно детализирован, чтобы заметить разницу. Так что, как правило, Regex GOTO и Variable-Variables являются злом. Есть не злые способы использования, но это исключения (и редкие при этом) ... (ИМХО)
ircmaxell 07 сен. 2010, в 12:11
11

@mario: На самом деле, HTML может быть «правильно» проанализирован с помощью регулярных выражений, хотя обычно требуется несколько из них, чтобы выполнить честную работу. Это просто королевская боль в общем случае. В конкретных случаях с четко определенным вводом он граничит с тривиальным. Это те случаи, когда люди должны использовать регулярные выражения. Большие старые голодные тяжелые парсеры - действительно то, что вам нужно для общих случаев, хотя обычному пользователю не всегда понятно, где провести эту линию. Какой бы код проще и проще, побеждает.
tchrist 21 нояб. 2010, в 01:38
0

Most XML parsers cannot see HTML document comments Я не уверен, какой анализатор вы используете, но мой анализатор может «читать» комментарии. -1
hek2mgl 02 июль 2014, в 20:48

Показать ещё 5 комментариев

127

phpQuery и QueryPath чрезвычайно аналогично воспроизведению свободного API jQuery. Вот почему они - два из самых простых подходов к правильному анализу HTML в PHP.

Примеры для QueryPath

В основном вы сначала создаете запрашиваемое дерево DOM из строки HTML:

 $qp = qp("<html><body><h1>title</h1>..."); // or give filename or URL

Результирующий объект содержит полное древовидное представление документа HTML. Он может быть пройден с использованием методов DOM. Но общий подход заключается в использовании селекторов CSS, таких как jQuery:

 $qp->find("div.classname")->children()->...;

 foreach ($qp->find("p img") as $img) {
     print qp($img)->attr("src");
 }

В основном вы хотите использовать простые тег #id и .class или DIV для ->find(). Но вы также можете использовать XPath заявления, которые иногда бывают быстрее. Также типичные методы jQuery, такие как ->children() и ->text() и особенно ->attr(), упрощают извлечение правильных фрагментов HTML. (И уже имеют декодированные объекты SGML.)

 $qp->xpath("//div/p[1]");  // get first paragraph in a div

QueryPath также позволяет вводить новые теги в поток (->append), а затем выводить и префикс обновленного документа (->writeHTML). Он может не только анализировать искаженный HTML, но также различные диалекты XML (с пространствами имен) и даже извлекать данные из микроформатов HTML (XFN, vCard).

 $qp->find("a[target=_blank]")->toggleClass("usability-blunder");

.

phpQuery или QueryPath?

Обычно QueryPath лучше подходит для манипулирования документами. В то время как phpQuery также реализует некоторые псевдо-AJAX-методы (только HTTP-запросы), более похожие на jQuery. Говорят, что phpQuery часто быстрее, чем QueryPath (из-за меньшего количества общих функций).

Для получения дополнительной информации о различиях см. это сравнение на машине обратного пути от tagbyte.org. (Исходный источник пропал, поэтому здесь ссылка на интернет-архив. Да, вы все равно можете найти отсутствующие страницы, люди.)

И здесь всеобъемлющее введение QueryPath.

<сильные > Преимущества

Простота и надежность
Простые в использовании альтернативы ->find("a img, a object, div a")
Надлежащее удаление данных (по сравнению с регулярным выражением grepping)

mario 07 сен. 2010, в 14:49

85

Простой HTML DOM - отличный синтаксический анализатор с открытым исходным кодом:

simplehtmldom.sourceforge

Он обрабатывает элементы DOM объектно-ориентированным способом, а новая итерация имеет большой охват для несоответствующего кода. Существуют также такие большие функции, как вы видели в JavaScript, например, функция "Найти", которая вернет все экземпляры элементов этого имени тега.

Я использовал это в ряде инструментов, тестируя его на разных типах веб-страниц, и я думаю, что он отлично работает.

Robert Elwell 15 нояб. 2008, в 23:35

56

Один общий подход, о котором я не упоминал здесь, заключается в том, чтобы запустить HTML через Tidy, который может быть установлен, действительный XHTML. Затем вы можете использовать любую старую библиотеку XML.

Но к вашей конкретной проблеме вы должны взглянуть на этот проект: http://fivefilters.org/content-only/ - это модифицированная версия Readability, который предназначен для извлечения только текстового содержимого (а не верхних и нижних колонтитулов) со страницы.

Eli 01 май 2011, в 02:42

56

Для 1a и 2: я проголосую за новый класс DOMCrawler класса Symfony (DomCrawler). Этот класс позволяет запросы, похожие на CSS Selectors. Взгляните на эту презентацию для реальных примеров: news-of-the-symfony2-world.

Компонент предназначен для автономной работы и может использоваться без Symfony.

Единственным недостатком является то, что он будет работать только с PHP 5.3 или новее.

Timo 06 сен. 2010, в 10:52

0

jquery-подобные css-запросы хорошо известны, потому что есть некоторые вещи, которые отсутствуют в документации по w3c, но присутствуют как дополнительные функции в jquery.
Nikola Petkanski 13 май 2013, в 12:40

53

Обычно это называется скребок экрана. Библиотека, которую я использовал для этого, - Простой HTML-парсер.

Joel Verhagen 26 авг. 2010, в 17:28

8

Не совсем верно ( en.wikipedia.org/wiki/Screen_scraping#Screen_scraping ). Ключ находится в «экране»; в описанном случае экран не задействован. Хотя, по общему признанию, термин перенес очень много недавних злоупотреблений.
Bobby Jack 26 авг. 2010, в 17:24
4

Я не проверяю, контент, который будет проанализирован, будет авторизован поставщиком контента по моему соглашению.
RobertPitt 26 авг. 2010, в 17:30

42

Мы создали немало сканеров для наших нужд. В конце концов, обычно это простые регулярные выражения, которые делают все лучше. Хотя перечисленные выше библиотеки хороши по той причине, что они созданы, если вы знаете, что ищете, регулярные выражения являются более безопасным способом, так как вы можете обрабатывать также недействительные HTML/XHTML структуры, которые потерпят неудачу, если они будут загружены через большинство парсеров.

jancha 04 окт. 2011, в 14:58

37

Я рекомендую PHP простой HTML DOM Parser.

У него действительно есть приятные функции, например:

foreach($html->find('img') as $element)
       echo $element->src . '<br>';

Greg 06 нояб. 2012, в 21:34

34

Это звучит как хорошая задача описания технологии W3C XPath. Легко выразить запросы типа "вернуть все href атрибуты в тегах img, которые вложены в <foo><bar><baz> elements". Не являясь баффом PHP, я не могу сказать вам, в какой форме XPath может быть доступен. Если вы можете вызвать внешнюю программу для обработки HTML файла, вы сможете использовать версию командной строки XPath. Для быстрого ввода см. http://en.wikipedia.org/wiki/XPath.

Jens 14 апр. 2011, в 20:24

29

Сторонние альтернативы SimpleHtmlDom, которые используют DOM вместо String Parsing: phpQuery, Zend_Dom, QueryPath и FluentDom.

danidacar 07 сен. 2010, в 09:14

3

Если вы уже скопировали мои комментарии, по крайней мере, связывайте их должным образом;) Это должно быть: Предлагаемые сторонние альтернативы SimpleHtmlDom, которые фактически используют DOM вместо анализа строк: phpQuery , Zend_Dom , QueryPath и FluentDom .
Gordon 07 сен. 2010, в 18:49
1

Хорошие ответы - отличный источник. stackoverflow.com/questions/3606792/...
danidacar 08 сен. 2010, в 12:46

24

Да, вы можете использовать simple_html_dom для этой цели. Однако я довольно много работал с simple_html_dom, особенно для веб-лома и обнаружил, что он слишком уязвим. Он выполняет основную работу, но я не буду рекомендовать ее в любом случае.

Я никогда не использовал завиток для этой цели, но то, что я узнал, заключается в том, что завиток может сделать работу намного эффективнее и намного более прочен.

Просьба ознакомиться с этой ссылкой: scraping-websites-with-curl

Rafay 05 янв. 2012, в 15:27

2

curl может получить файл, но он не будет анализировать HTML для вас. Это сложная часть.
cHao 21 нояб. 2012, в 18:37

22

QueryPath хорош, но будьте осторожны с причиной отслеживания, если вы не понимаете, что это значит, это может означать, что вы тратите много времени на отладку, пытаясь выяснить, что произошло, и почему код не работает.

Что означает, что каждый вызов в результирующем наборе изменяет набор результатов в объекте, он не связан с цепочкой, как в jquery, где каждая ссылка является новым набором, у вас есть один набор, который является результатом вашего запроса, и каждый вызов функции изменяет этот единственный набор.

чтобы получить jquery-подобное поведение, вам нужно отделить его до того, как вы выполните операцию filter/modify like, что означает, что он будет более точно отражать то, что происходит в jquery.

$results = qp("div p");
$forename = $results->find("input[name='forename']");

$results теперь содержит результирующий набор для input[name='forename'] НЕ исходный запрос "div p", это сильно меня подтолкнуло, я обнаружил, что QueryPath отслеживает фильтры и находит и все, что изменяет ваши результаты и сохраняет их в объект. вам нужно сделать это вместо

$forename = $results->branch()->find("input[name='forname']")

then $results не будет изменен, и вы можете повторно использовать результирующий набор снова и снова, возможно, кто-то, у кого гораздо больше знаний, может немного его очистить, но в основном это похоже на то, что я нашел.

Christopher Thomas 15 апр. 2012, в 13:45

18

Advanced Html Dom - это простая замена HTML DOM который предлагает тот же интерфейс, но он основан на DOM, что означает, что ни одна из связанных проблем с памятью не возникает.

Он также имеет полную поддержку CSS, включая jQuery расширения.

pguardiario 18 дек. 2014, в 05:01

0

Я получил хорошие результаты от Advanced Html Dom, и я думаю, что он должен быть в списке в принятом ответе. Тем не менее, важно знать, что для любого, кто полагается на его «Цель этого проекта - стать заменой на основе DOM для простой библиотеки html dom PHP ... Если вы используете file / str_get_html, то вам не нужно изменить что-нибудь. " archive.is/QtSuj#selection-933.34-933.100 заключается в том, что вам может потребоваться внести изменения в код для устранения некоторых несовместимостей. Я отметил четыре известные мне в проблемах проекта github. github.com/monkeysuffrage/advanced_html_dom/issues
ChrisJJ 16 нояб. 2016, в 20:54

17

Я создал библиотеку с именем PHPPowertools/DOM-Query, которая позволяет обходить HTML5 и XML-документы только как вы делаете с jQuery.

Под капотом он использует symfony/DomCrawler для преобразования селекторов CSS в XPath. Он всегда использует тот же DomDocument, даже при передаче одного объекта другому, чтобы обеспечить достойную производительность.

Пример использования:

namespace PowerTools;

// Get file content
$htmlcode = file_get_contents('https://github.com');

// Define your DOMCrawler based on file string
$H = new DOM_Query($htmlcode);

// Define your DOMCrawler based on an existing DOM_Query instance
$H = new DOM_Query($H->select('body'));

// Passing a string (CSS selector)
$s = $H->select('div.foo');

// Passing an element object (DOM Element)
$s = $H->select($documentBody);

// Passing a DOM Query object
$s = $H->select( $H->select('p + p'));

// Select the body tag
$body = $H->select('body');

// Combine different classes as one selector to get all site blocks
$siteblocks = $body->select('.site-header, .masthead, .site-body, .site-footer');

// Nest your methods just like you would with jQuery
$siteblocks->select('button')->add('span')->addClass('icon icon-printer');

// Use a lambda function to set the text of all site blocks
$siteblocks->text(function( $i, $val) {
    return $i . " - " . $val->attr('class');
});

// Append the following HTML to all site blocks
$siteblocks->append('<div class="site-center"></div>');

// Use a descendant selector to select the site footer
$sitefooter = $body->select('.site-footer > .site-center');

// Set some attributes for the site footer
$sitefooter->attr(array('id' => 'aweeesome', 'data-val' => 'see'));

// Use a lambda function to set the attributes of all site blocks
$siteblocks->attr('data-val', function( $i, $val) {
    return $i . " - " . $val->attr('class') . " - photo by Kelly Clark";
});

// Select the parent of the site footer
$sitefooterparent = $sitefooter->parent();

// Remove the class of all i-tags within the site footer parent
$sitefooterparent->select('i')->removeAttr('class');

// Wrap the site footer within two nex selectors
$sitefooter->wrap('<section><div class="footer-wrapper"></div></section>');

[...]

Поддерживаемые методы:

Переименовано 'select', по понятным причинам
Переименовано 'void', так как 'empty' является зарезервированным словом в PHP

ПРИМЕЧАНИЕ:

Библиотека также включает собственный автозагрузчик с нулевой конфигурацией для совместимых с PSR-0 библиотек. Приведенный пример должен работать из коробки без какой-либо дополнительной настройки. Кроме того, вы можете использовать его с композитором.

John Slegers 09 июль 2015, в 15:40

0

Похоже, правильный инструмент для работы, но не загружается для меня в PHP 5.6.23 в Worpress. Любые дополнительные указания о том, как правильно его включить? Включено с: define ("BASE_PATH", dirname ( FILE )); define ("LIBRARY_PATH", BASE_PATH. DIRECTORY_SEPARATOR. 'lib / vendor'); требуют LIBRARY_PATH. DIRECTORY_SEPARATOR. 'Loader.php'; Loader :: init (массив (LIBRARY_PATH, USER_PATH)); в functions.php
lithiumlab 17 окт. 2016, в 11:30

17

Для HTML5 html5 lib был оставлен уже много лет. Единственная библиотека HTML5, которую я могу найти с недавними записями обновления и обслуживания, - html5-php, который был просто доведен до версии 1.0 чуть более недели назад.

Reid Johnson 08 июль 2013, в 19:12

16

Я написал анализатор XML общего назначения, который может легко обрабатывать файлы GB. Он основан на XMLReader и очень прост в использовании:

$source = new XmlExtractor("path/to/tag", "/path/to/file.xml");
foreach ($source as $tag) {
    echo $tag->field1;
    echo $tag->field2->subfield1;
}

Здесь github repo: XmlExtractor

Paul Warelis 12 май 2013, в 02:13

14

Другой вариант, который вы можете попробовать, - QueryPath. Он вдохновлен jQuery, но на сервере в PHP и используется в Drupal.

Richard Le Poidevin 31 май 2011, в 15:38

14

Вы можете попробовать использовать что-то вроде HTML Tidy, чтобы очистить любой "сломанный" HTML и преобразовать HTML в XHTML, который затем можно разобрать с помощью синтаксический анализатор XML.

CesarB 15 нояб. 2008, в 23:52

11

Symfony framework имеет пакеты, которые могут анализировать HTML, и вы можете использовать стиль CSS для выбора DOM вместо использования XPath.

Tuong Le 29 дек. 2011, в 11:18

11

XML_HTMLSax довольно стабилен - даже если он больше не поддерживается. Другой вариант может заключаться в том, чтобы передать вам HTML через Html Tidy, а затем проанализировать его стандартными инструментами XML.

troelskn 15 нояб. 2008, в 21:40

10

Существует много способов обработки HTML/XML DOM, о которых большинство уже упоминалось. Следовательно, я не буду пытаться перечислить их сам.

Я просто хочу добавить, что лично я предпочитаю использовать расширение DOM и почему:

iit оптимально использует преимущество производительности базового кода C
это OO PHP (и позволяет мне подклассы)
это довольно низкий уровень (что позволяет мне использовать его как не раздутую основу для более продвинутого поведения).
он предоставляет доступ ко всем частям DOM (в отличие, например, SimpleXml, который игнорирует некоторые из менее известных функций XML).
у него есть синтаксис, используемый для обхода DOM, аналогичный синтаксису, используемому в собственном Javascript.

И хотя я пропускаю возможность использования селекторов CSS для DOMDocument, существует довольно простой и удобный способ добавить эту функцию: подклассификация DOMDocument и добавление JS-подобных методов querySelectorAll и querySelector к ваш подкласс.

Для разбора селекторов я рекомендую использовать минималистичный компонент CssSelector из Структура Symfony. Этот компонент просто переводит селектора CSS в селектора XPath, которые затем могут быть отправлены в DOMXpath для получения соответствующего Nodelist.

Затем вы можете использовать этот (еще очень низкий уровень) подкласс в качестве основы для более высокоуровневых классов, предназначенных, например. анализировать очень специфические типы XML или добавлять поведение jQuery.

В приведенном ниже коде приведена моя библиотека DOM-Query и использует описанную вами технику.

Для разбора HTML:

namespace PowerTools;

use \Symfony\Component\CssSelector\CssSelector as CssSelector;

class DOM_Document extends \DOMDocument {
    public function __construct($data = false, $doctype = 'html', $encoding = 'UTF-8', $version = '1.0') {
        parent::__construct($version, $encoding);
        if ($doctype && $doctype === 'html') {
            @$this->loadHTML($data);
        } else {
            @$this->loadXML($data);
        }
    }

    public function querySelectorAll($selector, $contextnode = null) {
        if (isset($this->doctype->name) && $this->doctype->name == 'html') {
            CssSelector::enableHtmlExtension();
        } else {
            CssSelector::disableHtmlExtension();
        }
        $xpath = new \DOMXpath($this);
        return $xpath->query(CssSelector::toXPath($selector, 'descendant::'), $contextnode);
    }

    [...]

    public function loadHTMLFile($filename, $options = 0) {
        $this->loadHTML(file_get_contents($filename), $options);
    }

    public function loadHTML($source, $options = 0) {
        if ($source && $source != '') {
            $data = trim($source);
            $html5 = new HTML5(array('targetDocument' => $this, 'disableHtmlNsInDom' => true));
            $data_start = mb_substr($data, 0, 10);
            if (strpos($data_start, '<!DOCTYPE ') === 0 || strpos($data_start, '<html>') === 0) {
                $html5->loadHTML($data);
            } else {
                @$this->loadHTML('<!DOCTYPE html><html><head><meta charset="' . $encoding . '" /></head><body></body></html>');
                $t = $html5->loadHTMLFragment($data);
                $docbody = $this->getElementsByTagName('body')->item(0);
                while ($t->hasChildNodes()) {
                    $docbody->appendChild($t->firstChild);
                }
            }
        }
    }

    [...]
}

См. также Разбор XML-документов с помощью селекторов CSS создателем Symfony Фабьеном Potencier по его решению создать компонент CssSelector для Symfony и как его использовать.

John Slegers 03 июль 2014, в 10:09

9

С FluidXML вы можете запрашивать и перебирать XML с помощью XPath и Селекторы CSS.

$doc = fluidxml('<html>...</html>');

$title = $doc->query('//head/title')[0]->nodeValue;

$doc->query('//body/p', 'div.active', '#bgId')
        ->each(function($i, $node) {
            // $node is a DOMNode.
            $tag   = $node->nodeName;
            $text  = $node->nodeValue;
            $class = $node->getAttribute('class');
        });

https://github.com/servo-php/fluidxml

Daniele Orlando 11 дек. 2015, в 05:37

7

Существует несколько причин не анализировать HTML по регулярному выражению. Но, если у вас есть полный контроль над тем, какой HTML будет сгенерирован, вы можете сделать это с помощью простого регулярного выражения.

Над ним функция, которая анализирует HTML регулярным выражением. Обратите внимание, что эта функция очень чувствительна и требует, чтобы HTML подчинялся определенным правилам, но он работает очень хорошо во многих сценариях. Если вы хотите простой синтаксический анализатор и не хотите устанавливать библиотеки, сделайте снимок:

function array_combine_($keys, $values) {
    $result = array();
    foreach ($keys as $i => $k) {
        $result[$k][] = $values[$i];
    }
    array_walk($result, create_function('&$v', '$v = (count($v) == 1)? array_pop($v): $v;'));

    return $result;
}

function extract_data($str) {
    return (is_array($str))
        ? array_map('extract_data', $str)
        : ((!preg_match_all('#<([A-Za-z0-9_]*)[^>]*>(.*?)</\1>#s', $str, $matches))
            ? $str
            : array_map(('extract_data'), array_combine_($matches[1], $matches[2])));
}

print_r(extract_data(file_get_contents("http://www.google.com/")));

Daniel Loureiro 05 дек. 2013, в 14:47

6

JSON и массив из XML в трех строках:

$xml = simplexml_load_string($xml_string);
$json = json_encode($xml);
$array = json_decode($json,TRUE);

Ta da!

Antonio Max 15 окт. 2013, в 23:27

2

Я создал библиотеку под названием HTML5DOMDocument, которая свободно доступна в https://github.com/ivopetkov/html5-dom-document-php

Он также поддерживает селектор запросов, который, я думаю, будет очень полезен в вашем случае. Вот пример кода:

$dom = new IvoPetkov\HTML5DOMDocument();
$dom->loadHTML('<!DOCTYPE html><html><body><h1>Hello</h1><div class="content">This is some text</div></body></html>');
echo $dom->querySelector('h1')->innerHTML;

Ivo Petkov 21 дек. 2017, в 09:03

0

Если вы знакомы с селектором jQuery, вы можете использовать ScarletsQuery для PHP

<pre><?php
include "ScarletsQuery.php";

// Load the HTML content and parse it
$html = file_get_contents('https://www.lipsum.com');
$dom = Scarlets\Library\MarkupLanguage::parseText($html);

// Select meta tag on the HTML header
$description = $dom->selector('head meta[name="description"]')[0];

// Get 'content' attribute value from meta tag
print_r($description->attr('content'));

$description = $dom->selector('#Content p');

// Get element array
print_r($description->view);

Эта библиотека обычно занимает менее 1 секунды для обработки автономного html.
Он также принимает недопустимый HTML или отсутствующую цитату в атрибутах тегов.

StefansArya 16 авг. 2018, в 13:33

Ещё вопросы

Ну, во-первых, есть вещи, которые мне нужно подготовить, такие как плохие DOM, код Invlid, а также js-анализ на ядро DNSBL, это также будет использоваться для поиска вредоносных сайтов / контента, также как я построил свой сайт на основе фреймворка. должны быть чистыми, читаемыми и хорошо структурированными. SimpleDim великолепен, но код немного грязный
как я уже говорил, я много раз использовал простой DOM, и он превосходен, просто искал систему с более чётким кодом, который легко расширяется, OO (P | D) Wise и т. д.
@ Роберт, вы можете также захотеть проверить htmlpurifier.org на предмет безопасности.
У него есть одно верное замечание: simpleHTMLDOM сложно расширить, если вы не используете шаблон декоратора, который я считаю громоздким. Я содрогнулся, просто внося изменения в базовый класс (ы).
Что я сделал, так это прогнал мой html через tidy перед отправкой в SimpleDOM.
Я использую это в настоящее время, запускаю как часть проекта для обработки нескольких сотен URL. Это становится очень медленным и регулярные таймауты сохраняются. Это отличный скрипт для начинающих, интуитивно простой в освоении, но слишком простой для более продвинутых проектов.
Правда. И он работает со встроенными в PHP классами XPath и XSLTProcessor, которые отлично подходят для извлечения контента.
Для действительно искаженного HTML вы всегда можете запустить его через htmltidy, прежде чем передать его в DOM. Всякий раз, когда мне нужно почистить данные из HTML, я всегда использую DOM или, по крайней мере, simplexml.
Еще одна вещь, связанная с загрузкой искаженного HTML-кода, заключается в том, что было бы разумно вызывать libxml_use_internal_errors (true) для предотвращения предупреждений, которые прекратят анализ.
Я использовал DOMDocument для анализа около 1000 HTML-источников (на разных языках, закодированных с различными кодировками) без каких-либо проблем. Вы можете столкнуться с проблемами кодирования с этим, но они не являются непреодолимыми. Вам нужно знать 3 вещи: 1) loadHTML использует набор символов мета-тега для определения кодировки 2) # 2 может привести к неправильному обнаружению кодировки, если html-контент не содержит эту информацию 3) плохие символы UTF-8 могут отключить анализатор. В таких случаях используйте комбинацию mb_detect_encoding () и Simplepie RSS Parser для кодирования / преобразования / удаления плохих символов UTF-8 для обходных путей.
Да, но DOMDocument не поддерживает запросы CSS и XPATH, просто getElementById или getElementsByTagName?
Моя проблема с loadHTML - это дополнительные узлы, которые он вставляет, которые, вероятно, предназначены для «исправления» HTML, но на самом деле не требуются в спецификации DOM. Таким образом, результат вызова loadHTML плохо определен. Было бы намного лучше, если бы подобное происходило на saveHTML.
DOM действительно поддерживает XPath, взгляните на DOMXPath .
Я предпочитаю использовать DOMDocument-> loadHTML () в сочетании с компонентом Symfony «CSSSelector», который переводит селекторы CSS в селекторы XPath. Это все еще очень низкий уровень и делает DOM намного проще в использовании для тех, кто имеет большой опыт в программировании внешнего интерфейса (см. Stackoverflow.com/questions/3577641/… для получения дополнительной информации)
DOMComment может читать комментарии, поэтому нет причин использовать Regex для этого.
Ни инструментарий SGML, ни парсеры XML не подходят для анализа реального мира HTML. Для этого подходит только специальный HTML-парсер.
@Alohci DOM использует libxml, а libxml имеет отдельный модуль парсера HTML, который будет использоваться при загрузке HTML с помощью loadHTML() поэтому он может очень сильно загружать «реальный» (читай неработающий) HTML.
@ Гордон - спасибо. HTML-парсеры и XML-парсеры все еще разные вещи, даже если они упакованы в одной библиотеке. И они оба отличаются от реализаций DOM.
Ну, просто комментарий о вашей точке зрения "реального мира". Конечно, есть полезные ситуации для Regex при разборе HTML. И есть также полезные ситуации для использования GOTO. И есть полезные ситуации для переменных-переменных. Таким образом, ни одна конкретная реализация не может полностью использовать его. Но это ОЧЕНЬ сильный предупреждающий знак. И среднестатистический разработчик вряд ли будет достаточно детализирован, чтобы заметить разницу. Так что, как правило, Regex GOTO и Variable-Variables являются злом. Есть не злые способы использования, но это исключения (и редкие при этом) ... (ИМХО)
@mario: На самом деле, HTML может быть «правильно» проанализирован с помощью регулярных выражений, хотя обычно требуется несколько из них, чтобы выполнить честную работу. Это просто королевская боль в общем случае. В конкретных случаях с четко определенным вводом он граничит с тривиальным. Это те случаи, когда люди должны использовать регулярные выражения. Большие старые голодные тяжелые парсеры - действительно то, что вам нужно для общих случаев, хотя обычному пользователю не всегда понятно, где провести эту линию. Какой бы код проще и проще, побеждает.
Most XML parsers cannot see HTML document comments Я не уверен, какой анализатор вы используете, но мой анализатор может «читать» комментарии. -1
jquery-подобные css-запросы хорошо известны, потому что есть некоторые вещи, которые отсутствуют в документации по w3c, но присутствуют как дополнительные функции в jquery.
Не совсем верно ( en.wikipedia.org/wiki/Screen_scraping#Screen_scraping ). Ключ находится в «экране»; в описанном случае экран не задействован. Хотя, по общему признанию, термин перенес очень много недавних злоупотреблений.
Я не проверяю, контент, который будет проанализирован, будет авторизован поставщиком контента по моему соглашению.
Если вы уже скопировали мои комментарии, по крайней мере, связывайте их должным образом;) Это должно быть: Предлагаемые сторонние альтернативы SimpleHtmlDom, которые фактически используют DOM вместо анализа строк: phpQuery , Zend_Dom , QueryPath и FluentDom .
Хорошие ответы - отличный источник. stackoverflow.com/questions/3606792/...
curl может получить файл, но он не будет анализировать HTML для вас. Это сложная часть.
Я получил хорошие результаты от Advanced Html Dom, и я думаю, что он должен быть в списке в принятом ответе. Тем не менее, важно знать, что для любого, кто полагается на его «Цель этого проекта - стать заменой на основе DOM для простой библиотеки html dom PHP ... Если вы используете file / str_get_html, то вам не нужно изменить что-нибудь. " archive.is/QtSuj#selection-933.34-933.100 заключается в том, что вам может потребоваться внести изменения в код для устранения некоторых несовместимостей. Я отметил четыре известные мне в проблемах проекта github. github.com/monkeysuffrage/advanced_html_dom/issues
Похоже, правильный инструмент для работы, но не загружается для меня в PHP 5.6.23 в Worpress. Любые дополнительные указания о том, как правильно его включить? Включено с: define ("BASE_PATH", dirname ( FILE )); define ("LIBRARY_PATH", BASE_PATH. DIRECTORY_SEPARATOR. 'lib / vendor'); требуют LIBRARY_PATH. DIRECTORY_SEPARATOR. 'Loader.php'; Loader :: init (массив (LIBRARY_PATH, USER_PATH)); в functions.php

Gordon · Accepted Answer · 2010-08-26T18-26-00.000Z

Собственные XML-расширения

Я предпочитаю использовать одно из собственных расширений XML, поскольку они поставляются в комплекте с PHP, обычно работают быстрее всех сторонних библиотек и дают мне полный контроль над разметкой.

DOM

Расширение DOM позволяет вам работать с XML-документами через API DOM с PHP 5. Это реализация объектной модели документов W3C Core Level 3, platform- и независимого от языка интерфейса, который позволяет программам и сценариям динамически получать доступ и обновить содержание, структуру и стиль документов.

DOM способен анализировать и изменять (неработающий) HTML реального мира и выполнять запросы XPath. Он основан на libxml.

Требуется некоторое время, чтобы стать продуктивным с DOM, но это время того стоит IMO. Поскольку DOM является независимым от языка интерфейсом, вы найдете реализации на многих языках, поэтому, если вам нужно изменить язык программирования, скорее всего, вы уже знаете, как использовать этот язык DOM API.

Базовый пример использования можно найти в Grabbing атрибуте href элемента A, а общий концептуальный обзор можно найти в DOMDocument на php

Как использовать расширение DOM широко освещалось в StackOverflow, поэтому, если вы решите использовать его, вы можете быть уверены, что большинство проблем, с которыми вы столкнулись, могут быть решены с помощью поиска/просмотра Переполнения стека.

XMLReader

Расширение XMLReader - это синтаксический анализатор XML. Читатель действует как курсор, идущий вперед по потоку документов и останавливающийся на каждом узле в пути.

XMLReader, как и DOM, основан на libxml. Я не знаю, как вызвать модуль HTML Parser, так что скорее всего, использование XMLReader для анализа поврежденного HTML может быть менее надежным, чем использование DOM, где вы можете явно указать ему использовать libxml HTML Parser Module.

Базовый пример использования можно найти при получении всех значений из тегов h1 с использованием php

XML Parser

Это расширение позволяет создавать анализаторы XML, а затем определять обработчики для различных событий XML. Каждый анализатор XML также имеет несколько параметров, которые вы можете настроить.

Библиотека XML Parser также основана на libxml и реализует push-анализатор XML в стиле SAX. Это может быть лучшим выбором для управления памятью, чем DOM или SimpleXML, но с ним будет сложнее работать, чем с парсером, реализованным XMLReader.

SimpleXml

Расширение SimpleXML предоставляет очень простой и легко используемый набор инструментов для преобразования XML в объект, который может обрабатываться с помощью обычных селекторов свойств и итераторов массива.

SimpleXML - это вариант, когда вы знаете, что HTML является верным XHTML. Если вам нужно разобрать битый HTML, даже не рассматривайте SimpleXml, потому что он захлебнется.

Базовый пример использования можно найти в разделе Простая программа для узла CRUD и значения узла файла XML, а в руководстве по PHP есть множество дополнительных примеров.

Сторонние библиотеки (на основе libxml)

Если вы предпочитаете использовать стороннюю библиотеку, я бы предложил использовать библиотеку, которая на самом деле использует DOM/libxml, а не разбор строки.

FluentDom - Репо

FluentDOM предоставляет jQuery-подобный свободный XML-интерфейс для DOMDocument в PHP. Селекторы пишутся в XPath или CSS (используя конвертер CSS в XPath). Текущие версии расширяют DOM, реализуя стандартные интерфейсы, и добавляют функции из DOM Living Standard. FluentDOM может загружать форматы, такие как JSON, CSV, JsonML, RabbitFish и другие. Может быть установлен через Composer.

HtmlPageDom

Wa72\HtmlPageDom '- это библиотека PHP для простого манипулирования HTML-документами. Для обхода дерева DOM требуется DomCrawler из компонентов Symfony2 и расширяет его, добавляя методы для манипулирования деревом DOM HTML-документов.

phpQuery (не обновлялся годами)

phpQuery - это цепочечный API-интерфейс на основе объектной модели документов (DOM), управляемый селектором на стороне сервера, основанный на JavaScript-библиотеке jQuery, написанный на PHP5, и обеспечивающий дополнительный интерфейс командной строки (CLI).

Также смотрите: https://github.com/electrolinux/phpquery

Zend_Dom

Zend_Dom предоставляет инструменты для работы с документами и структурами DOM. В настоящее время мы предлагаем Zend_Dom_Query, который предоставляет унифицированный интерфейс для запросов к документам DOM с использованием селекторов XPath и CSS.

QueryPath

QueryPath - это библиотека PHP для управления XML и HTML. Он предназначен для работы не только с локальными файлами, но и с веб-службами и ресурсами базы данных. Он реализует большую часть интерфейса jQuery (включая селекторы в стиле CSS), но он сильно настроен для использования на стороне сервера. Может быть установлен через Composer.

fDOMDocument

fDOMDocument расширяет стандартную модель DOM для использования исключений во всех случаях ошибок вместо предупреждений или уведомлений PHP. Они также добавляют различные пользовательские методы и ярлыки для удобства и упрощения использования DOM.

сабля /XML

Sabre/xml - это библиотека, которая упаковывает и расширяет классы XMLReader и XMLWriter для создания простой системы отображения "xml to object/array" и шаблона проектирования. Написание и чтение XML является однопроходным, поэтому может быть быстрым и требовать мало памяти для больших XML файлов.

FluidXML

FluidXML - это библиотека PHP для манипулирования XML с помощью лаконичного и свободного API. Он использует XPath и гибкий шаблон программирования, чтобы быть веселым и эффективным.

Сторонний (не на основе libxml)

Преимущество использования DOM/libxml состоит в том, что вы получаете хорошую производительность из коробки, потому что вы основаны на собственном расширении. Однако не все сторонние библиотеки идут по этому пути. Некоторые из них перечислены ниже

PHP Простой HTML DOM Parser

Парсер HTML DOM, написанный на PHP5+, позволяет вам очень просто манипулировать HTML!

Требуется PHP 5+.

Поддерживает неверный HTML.

Находите теги на странице HTML с селекторами, как у jQuery.

Извлечение содержимого из HTML в одну строку.

Я вообще не рекомендую этот парсер. Кодовая база ужасна, а сам парсер довольно медленный и требует много памяти. Не все селекторы jQuery (например, дочерние селекторы) возможны. Любая из библиотек на основе libxml должна легко превзойти это.

PHP Html Parser

PHPHtmlParser - это простой, гибкий html-парсер, который позволяет вам выбирать теги, используя любой селектор CSS, например, jQuery. Цель состоит в том, чтобы помочь в разработке инструментов, которые требуют быстрого и простого способа отказаться от html, независимо от того, является ли он действительным или нет! Этот проект изначально поддерживался sunra/php-simple-html-dom-parser, но поддержка, похоже, прекратилась, так что этот проект - моя адаптация его предыдущей работы.

Опять же, я бы не рекомендовал этот парсер. Это довольно медленно с высокой загрузкой процессора. Также нет функции очистки памяти созданных объектов DOM. Эти проблемы особенно характерны для вложенных циклов. Сама документация неточна и написана с ошибками, без ответов на исправления с 14 апреля 16.

Ganon

Универсальный токенизатор и HTML/XML/RSS DOM Parser
Возможность манипулировать элементами и их атрибутами

Поддерживает недопустимый HTML и UTF8

Может выполнять расширенные CSS3-подобные запросы к элементам (например, jQuery - поддерживаются пространства имен)

HTML beautifier (как HTML Tidy)
Минимизировать CSS и Javascript

Сортировка атрибутов, изменение регистра символов, корректный отступ и т.д.

растяжимый
Разбор документов с использованием обратных вызовов на основе текущего символа/токена

Операции разделены на меньшие функции для легкого переопределения

Быстро и легко

Никогда не использовал это. Не могу сказать, если это хорошо.

HTML 5

Вы можете использовать вышеизложенное для разбора HTML5, но возможны некоторые странности из-за разметки, которую позволяет HTML5. Так что для HTML5 вы хотите рассмотреть возможность использования выделенного парсера, как

html5lib

Реализации Python и PHP HTML-анализатора на основе спецификации WHATWG HTML5 для максимальной совместимости с основными настольными веб-браузерами.

Мы можем увидеть больше выделенных парсеров после завершения HTML5. Существует также блог W3 под названием How-To для разбора html 5, который стоит проверить.

WebServices

Если вам не нравится программировать на PHP, вы также можете использовать веб-сервисы. В общем, я нашел очень мало полезности для них, но это только я и мои варианты использования.

ScraperWiki.

Внешний интерфейс ScraperWiki позволяет извлекать данные в той форме, которую вы хотите использовать в Интернете или в своих собственных приложениях. Вы также можете извлечь информацию о состоянии любого скребка.

Регулярные выражения

Последнее и наименее рекомендуемое, вы можете извлекать данные из HTML с помощью регулярных выражений. В общем, использование регулярных выражений в HTML не рекомендуется.

Большинство фрагментов, которые вы найдете в Интернете для соответствия разметке, являются хрупкими. В большинстве случаев они работают только для очень конкретного фрагмента HTML. Крошечные изменения разметки, такие как добавление пробелов где-либо, добавление или изменение атрибутов в теге, могут привести к сбою RegEx, если он неправильно записан. Вы должны знать, что вы делаете, прежде чем использовать RegEx на HTML.

HTML-парсеры уже знают синтаксические правила HTML. Регулярные выражения должны преподаваться для каждого нового RegEx, который вы пишете. RegEx хороши в некоторых случаях, но это действительно зависит от вашего варианта использования.

Вы можете писать более надежные парсеры, но написание полноценного и надежного пользовательского парсера с регулярными выражениями - пустая трата времени, когда вышеупомянутые библиотеки уже существуют и справляются с этим гораздо лучше.

Также см. Разбор HTML Путь Ктулху

книги

Если вы хотите потратить немного денег, посмотрите на

Руководство по архитектуре PHP для веб-скриптинга с помощью PHP

Я не связан ни с PHP Architect, ни с авторами.

@ Нужно, что зависит от ваших потребностей. Мне не нужны запросы CSS Selector, поэтому я использую DOM исключительно с XPath. phpQuery стремится быть портом jQuery. Zend_Dom легкий. Вы действительно должны проверить их, чтобы увидеть, какой из них вам больше нравится.
с / HTML5 / html / г. Синтаксические конструкции, которые допускает HTML5, в основном уже разрешены любой предыдущей версией HTML.
@ Ms2ger В основном, но не полностью. Как уже указывалось выше, вы можете использовать синтаксические анализаторы на основе libxml, но есть особые случаи, когда они будут задыхаться. Если вам нужна максимальная совместимость, вам лучше использовать специальный парсер. Я предпочитаю сохранить различие.
Ваша точка зрения, что вы не используете PHP Simple HTML DOM Parser, кажется спорным.
По состоянию на 29 марта 2012 г. DOM не поддерживает html5, XMLReader не поддерживает HTML, и последняя фиксация html5lib для PHP произошла в сентябре 2009 г. Что использовать для анализа HTML5, HTML4 и XHTML?
Ответ @Shiplu выше перечисляет все варианты, которые я знаю. DOM может анализировать все, что имеет схему или DTD. HTML5 не (официально).
Просто чтобы добавить некоторый опыт: я использовал некоторые из них и теперь всегда рекомендую ganon, поскольку в большинстве (из моих) случаев он на самом деле намного быстрее, чем даже нативные версии, благодаря тому, как он работает, а также очень хорошо работает с недействительные / поврежденные / неполные документы (с которыми не может справиться ни один из других моих знакомых). Иногда также стоит просто вернуться к написанию своего собственного или использовать регулярные выражения, но это ТОЛЬКО если у вас очень особые и простые требования (например, необходимо поддерживать только 2 тега в фиксированном формате)
@ Джимми, в нем ничего не говорится о cURL, потому что cURL не является инструментом для анализа и обработки HTML / XML. cURL является клиентом для различных сетевых протоколов. Например, вы можете получить сайты с ним. Большинство вышеприведенных библиотек имеют способы прямой загрузки удаленных URL, поэтому вам вообще не нужен cURL, например, в DOM есть loadHTMLFile() .
Что касается сторонних библиотек (на основе libxml), я обнаружил, что: - QueryPath не работает для меня, так как он задыхается от искаженного HTML (даже с использованием htmlqp ()) - к phpQuery немного сложнее. Кроме того - html5lib очень активен часть python, но порт php выглядит не требующим особого обслуживания. Если вы ищете быстрое и грязное решение, я могу порекомендовать github.com/hkk12369/php-html-parser.
@Gordon Я предлагаю добавить компонент Symfony «CSSSelector» для добавления сканирования DOM на основе «селектора CSS» в DOMDocument (как описано в stackoverflow.com/questions/3577641/… ) и компонента «DOMCrawler» Symfony, в зависимости от того, хотите ли вы доступ низкого уровня в DOM или подход более высокого уровня.
Помните? Вы не можете анализировать (X) HTML, используя регулярные выражения ! (Это поразило меня в тот день, когда я прочитал его, теперь я считаю, что упоминание регулярных выражений наряду с HTML - это грех.)
@Nasha Я сознательно исключил печально известную напыщенную речь Zalgo из списка выше, потому что это не слишком полезно само по себе и приводит к некоторому грузовому культу, так как это было написано. Людей связывали этой связью, независимо от того, насколько подходящим было бы регулярное выражение в качестве решения. Для более сбалансированного мнения, пожалуйста , см ссылку я включить вместо этого и идти через комментарии в stackoverflow.com/questions/4245008/...
Класс TagFilter Ultimate Web Scraper Toolkit явно отсутствует в этом списке. Я использовал Simple HTML DOM много лет, потому что это была самая надежная и последовательная вещь, которую я мог найти. TagFilter - это то, что я написал вначале, потому что мне нужно было иметь возможность аккуратно обрабатывать Word HTML, но потом я понял, что у меня есть возможность заменить и простой HTML DOM, и HTMLPurifier чем-то гораздо более гибким, масштабируемым (для обработки HTML-файлов с несколькими МБ без памяти утечки) и намного быстрее. В случае библиотеки 1MB + HTMLPurifier она намного меньше и автономна. Это также поддерживается.