Как удалить дубликаты атрибутов из HTML без использования HTMLAgilityPack?

0

У меня html как

    ...<button type="submit" name="ctl00$ctl16$ctl00$ctl00$searchButton" value=""
 id="ctl00_ctl16_ctl00_ctl00_searchButton" type="submit" class="search-submit" value="Search">...

и необходимо программно удалить дубликаты тегов, например type = "submit". Возможно ли это с использованием libriaries, например, HTMLAgilityPack? Regexp, например.

  • 0
    Является ли это возможным? Ну, C # завершен по Тьюрингу, так что конечно. RegExp, сам по себе, нет. Что не так с HTMLAgilityPack?
  • 0
    Я не могу использовать какую-либо библиотеку для этой задачи. Та часть задачи HTMLParser, которая предназначена для вызова.
Показать ещё 3 комментария
Теги:
tags

1 ответ

0

Предполагая, что вы пытаетесь удалить повторяющиеся атрибуты внутри одного и того же тега, это сложно, потому что вы не можете сделать это без разбора каждого тега. И разбор каждого тега требует разбора всего остального, включая комментарии, текст, цитируемый текст и т.д.

Таким образом, единственный способ, которым вы можете это сделать, не используя библиотеку, - это написать собственный собственный парсер HTML. Поэтому было бы проще использовать HTML Agility Pack или мою собственную HTML-обезьяну.

Ещё вопросы

Сообщество Overcoder
Наверх
Меню