Я пытаюсь создать общий парсер для сайтов и получить соответствующую информацию. Первое, что я хотел бы сделать, это узнать, что является логотипом сайта.
Обычно логотип будет изображением, которое будет ссылаться на главную страницу и может содержать слово "логотип" в его идентификаторе.
Что было бы хорошей стратегией или стандартами, которые я мог бы применить, чтобы найти то, что является логотипом страницы при ее анализе?
На самом деле нет способа сделать этот общий процесс. Нет правил о том, как будет отображаться логотип сайта - поэтому нет единого идентификатора, класса, тега или местоположения, на которое вы можете смотреть. Аналогично, изображения не "связывают" ни с чем, ссылка <a>
может содержать <img>
, но об этом.
Короче говоря, длинный длинный список лучших догадок, нет никакого способа надежно разобрать произвольную HTML-страницу и получить от нее логотип.