Как получить логотип страницы при разборе?

0

Я пытаюсь создать общий парсер для сайтов и получить соответствующую информацию. Первое, что я хотел бы сделать, это узнать, что является логотипом сайта.

Обычно логотип будет изображением, которое будет ссылаться на главную страницу и может содержать слово "логотип" в его идентификаторе.

Что было бы хорошей стратегией или стандартами, которые я мог бы применить, чтобы найти то, что является логотипом страницы при ее анализе?

Теги:
parsing

1 ответ

2

На самом деле нет способа сделать этот общий процесс. Нет правил о том, как будет отображаться логотип сайта - поэтому нет единого идентификатора, класса, тега или местоположения, на которое вы можете смотреть. Аналогично, изображения не "связывают" ни с чем, ссылка <a> может содержать <img>, но об этом.

Короче говоря, длинный длинный список лучших догадок, нет никакого способа надежно разобрать произвольную HTML-страницу и получить от нее логотип.

Ещё вопросы

Сообщество Overcoder
Наверх
Меню