анализ строки таблицы HTML с помощью регулярного выражения

Question

анализ строки таблицы HTML с помощью регулярного выражения

0

я пошел, хотя это сообщение, почему бы не использовать регулярное выражение для HTML. Как часть заданной мне задачи, у меня не было выбора, кроме как использовать регулярное выражение для HTML.

У меня есть HTML-код и по отдельности

 <td class="a-nowrap">

          <span class="a-letter-space"></span><span>13</span>

        </td>

я смог получить 13, используя следующее регулярное выражение:

<td class="a-nowrap">\s*<span class="a-letter-space"></span><span>(\d*)</span>\s*</td>

и аналогично из

<td class="a-nowrap">

          <a class="a-link-normal" title="69% of reviews have 5 stars" href="">5 star</a><span class="a-letter-space"></span>          

        </td>

получил 5 звезд, используя регулярное выражение

<td class="a-nowrap">\s*<a class="a-link-normal" [^>]*>\s*(.*)</a>\s*</td>

Но когда оба HTML-кода объединены,

<table id="histogramTable" class="a-normal a-align-middle a-spacing-base">

  <tr class="a-histogram-row">



        <td class="a-nowrap">

          <a class="a-link-normal" title="69% of reviews have 5 stars" href="">5 star</a><span class="a-letter-space"></span>          

        </td>

        <td class="a-span10">

          <a class="a-link-normal" title="69% of reviews have 5 stars" href=""><div class="a-meter"><div class="a-meter-bar" style="width: 69.1358024691358%;"></div></div></a>

        </td>

        <td class="a-nowrap">

          <span class="a-letter-space"></span><span>13</span>

        </td>

  </tr>
  <td class="a-nowrap">

      <a class="a-link-normal" title="2% of reviews have 1 stars" href="">1 star</a><span class="a-letter-space"></span>          

    </td>

    <td class="a-span10">

      <a class="a-link-normal" title="2% of reviews have 1 stars" href=""><div class="a-meter"><div class="a-meter-bar" style="width: 2.46913580246914%;"></div></div></a>

    </td>

    <td class="a-nowrap">

      <span class="a-letter-space"></span><span>2</span>

    </td>


</table>

как извлечь 5 звезд и 13, используя регулярное выражение?

navyad 08 нояб. 2013, в 12:54

Источник

0

обновил мой ответ новым сокращенным регулярным выражением, которое работает для предоставленного вами измененного ввода.
Tafari 11 нояб. 2013, в 14:58

Теги:

html

regex

1 ответ

Ещё вопросы

обновил мой ответ новым сокращенным регулярным выражением, которое работает для предоставленного вами измененного ввода.

Tafari · Accepted Answer · 2013-11-08T10-38-00.000Z

1

Лучший ответ

Если вы не хотите использовать HTML - парсер, используйте один регулярное выражение, после того, как другой или добавить .* Это между двумя узорами, я модифицировал чуток вашу звезду регулярного выражения, как он не работает должным образом:

Сначала включите dotall флаг (ов), а затем использовать это:

<td class="a-nowrap">\s*<a class="a-link-normal" [^>]*>\s*(\d star).*<td class="a-nowrap">\s*<span class="a-letter-space"></span><span>(\d*)</span>\s*</td>

Вывод:

Группа 1: 5 звезд

Группа 2: 13

РЕДАКТИРОВАТЬ:

Я сделал более короткое регулярное выражение:

REGEX:

>(\d star)<.+?>(\d+?)<

Что используется на pythonregex.com с отредактированным вводом, который вы предоставили, дает:

ВЫВОД:

>>> regex.findall(string)
[(u'5 star', u'13'), (u'1 star', u'2')]

Tafari 08 нояб. 2013, в 10:38

0

используя приведенное выше выражение, оно будет похоже на [('5 star', ''), ('', '13')], но я хочу что-то вроде [('5 star', '13')], '|' или выражение, создающее эту проблему. есть идеи по этому поводу?
navyad 09 нояб. 2013, в 11:34
0

@naveenyadav, что странно, так как я использую предоставленные вами шаблоны, просто добавляю ИЛИ между ними, чтобы шаблон поймал либо ** 5 звезд **, и / или 13 . Работают ли эти шаблоны для вас, когда вы используете их отдельно?
Tafari 09 нояб. 2013, в 11:38
0

@naveenyadav хорошо, так что вы почти получаете то, что вы хотите:) хорошо, так что позвольте мне немного подумать.
Tafari 09 нояб. 2013, в 11:41
0

@naveenyadav хорошо, вы получите этот вывод, так как он соответствует обоим случаям, но у вас есть оба результата, которые вы хотели, так что вы могли бы использовать их, как вы хотели, верно? К сожалению, я не могу проверить, как это регулярное выражение работает должным образом, так как я никогда не использовал регулярное выражение для HTML: (
Tafari 09 нояб. 2013, в 11:52
0

хотя это не дало точного результата. спасибо за помощь.
navyad 09 нояб. 2013, в 12:15
0

@naveenyadav Я помог бы дальше, но я не могу проверить результаты. Я бы посоветовал вам добавить .* Вместо | это может помочь.
Tafari 09 нояб. 2013, в 12:19
0

проверьте здесь pythonregex.com
navyad 09 нояб. 2013, в 12:23
0

@naveenyadav Я изменил свой ответ, на сайте (pythonregex.com), который вы предоставили, он дает следующий вывод: [(u'5 star ', u'13')]. (не забудьте включить точку все флаг)
Tafari 10 нояб. 2013, в 11:08
0

да, я проверил, что это работает, спасибо. Но когда я добавил один <tr> данные в приведенный выше фрагмент HTML. он выбирает значения только из одного <tr>. Я изменил фрагмент HTML.
navyad 11 нояб. 2013, в 11:52
1

Код работает нормально. Я ценю ваши усилия, чтобы выручить меня. Спасибо
navyad 11 нояб. 2013, в 15:18
0

@naveenyadav Добро пожаловать :)
Tafari 11 нояб. 2013, в 15:55

Показать ещё 9 комментариев