Как получить логотип страницы при разборе?

Question

Как получить логотип страницы при разборе?

0

Я пытаюсь создать общий парсер для сайтов и получить соответствующую информацию. Первое, что я хотел бы сделать, это узнать, что является логотипом сайта.

Обычно логотип будет изображением, которое будет ссылаться на главную страницу и может содержать слово "логотип" в его идентификаторе.

Что было бы хорошей стратегией или стандартами, которые я мог бы применить, чтобы найти то, что является логотипом страницы при ее анализе?

Hommer Smith 08 окт. 2013, в 00:20

Источник

Теги:

html

parsing

1 ответ

Ещё вопросы

user764357 · Answer 1 · 2013-10-07T19-28-00.000Z

На самом деле нет способа сделать этот общий процесс. Нет правил о том, как будет отображаться логотип сайта - поэтому нет единого идентификатора, класса, тега или местоположения, на которое вы можете смотреть. Аналогично, изображения не "связывают" ни с чем, ссылка <a> может содержать <img>, но об этом.

Короче говоря, длинный длинный список лучших догадок, нет никакого способа надежно разобрать произвольную HTML-страницу и получить от нее логотип.