Разбор URL-адресов из HTML-кода C ++

0

Я создаю простой веб-искатель в C++. На данный момент мне удалось получить код HTML из семенного URL-адреса, сохраненного в текстовом или строчном файле.

Как я могу найти и сохранить URL-адреса в HTML файле? Я хочу продолжить сканирование в Интернете?

  • 0
    Разбор HTML в файлах, которые вы читаете. Примечание: это не тривиально.
Теги:
web-crawler
parsing
network-programming

1 ответ

0
Лучший ответ

Чтобы сделать это надежно, вам нужен правильный парсер HTML. Gumbo - это парсер с открытым исходным кодом HTML5, написанный Google, который можно использовать для реализации чего-то подобного.

Ещё вопросы

Сообщество Overcoder
Наверх
Меню