Выражение xpath, которое пропускает нежелательную часть возвращаемого текста

Question

Выражение xpath, которое пропускает нежелательную часть возвращаемого текста

0

Предположим, вы использовали htmlTreeParse() для получения этого фрагмента кода XML:

   <div class="right_location">
      <h3>Office Locations</h3>
      <div class="right_location_in">
          <h4>
             <a href="/?t=10&L=234&format=XML&p=5406">Akron Office</a>
          <h4>
          <address>
          <address>
  </div>
  <div class="right_location_in">
         <h4>
            <a href="/?t=10&L=235&format=XML&p=5406">Cleveland Office</a>

После этого существует неизвестное количество офисов, но это выражение возвращает их. Все они добавляют "Office".

xpathSApply(doc, "//div[@class ='right_location']//a", xmlValue, trim = TRUE)
[1] "Akron Office"

Как я могу исключить ненужное "Управление" из каждого? Я думаю, что не могу использовать отрицательный элемент contains() потому что выражение не будет соответствовать. Возможно, у text() есть возможность пропустить указанный текст?

Ответ подстроки-befor() хорош, но мне нужно, чтобы она работала для каждого местоположения, а не только для первого.

lawyeR 26 авг. 2014, в 17:15

Источник

Теги:

html

regex

xpath

parsing

1 ответ

Ещё вопросы

kjhughes · Accepted Answer · 2014-08-26T13-07-00.000Z

Следующий XPath вернет "Акрон" из вашего XML:

substring-before(//div[@class ='right_location']//a[1], ' Office')

Заметки:

Используйте a[1] чтобы выбрать первый из возможных нескольких a.
Используйте substring-before тем, как отключить ' Office'.
Обработка каждого соответствия a обычно выполняется вне самого XPath (в XSLT или Python или на другом языке хостинга, из которого вызывается библиотека XPath для выбора), но если вы используете XPath 2.0, вы можете рассмотреть (a) использование выражения for, (б) используя предложение Mathias Müller о tokenize() с "Office" в качестве разделителя или (c) замените() "Управление" ничем, если хотите просто вернуть "Akron Cleveland" без "Office".

Отлично, потому что я никогда не использовал substring-before (). На самом сайте есть два других города после Акрона. // a поднимает их все, если я опускаю substring-before (), но после них у всех есть "Office". Как я могу извлечь эти города, без "Офис"?
Вы имеете в виду фактический вводимый текст - « Akron Office Another Office Yetanother Office ? Вы можете маркировать строку, используя «Office» в качестве разделителя.
@lawyeR, то ответил XPath , обеспечивает доступ к первому такому ЧЕРЕЗ a [1] построить в качестве примера; второй такой a бы a[2] и так далее. Как правило, вы выполняете итерацию каждого из них в соответствии с требованиями вашего приложения.
@kjhughes: извините, что я неуч, но есть ли что-то вроде // a [1: length (a)]? или каким-либо способом обозначить «вырезать« Office »из всех совпадений? Я выполняю поиск по множеству сайтов и не знаю, как программно выполнить итерацию для увеличения числа в скобках - я не хочу его жестко кодировать».
@lawyeR, у вас все хорошо, но, пожалуйста, уточните, какую именно строку вы хотите, чтобы выражение XPath возвращало, если вы не собираетесь обрабатывать результаты дальше с помощью XSLT, Python и т. д.?
@kjhughes: я отредактировал вопрос, чтобы показать, что мне нужно удалить Office из всех совпадений, а не только из первых. В конце концов все возвращенные совпадения (из множества других сайтов) также будут очищены с помощью R (в основном, с помощью регулярных выражений названий городов), но если я смогу получить очиститель вывода xpath, то даже лучше. Спасибо за ваше время, талант и мысли.