обнаружение нескольких тегов HTML с помощью JavaScript и регулярных выражений

Question

обнаружение нескольких тегов HTML с помощью JavaScript и регулярных выражений

0

Я создаю расширение chrome, которое будет читать текущую страницу и обнаруживать определенные теги html/xml:

Например, если моя текущая страница содержит следующие теги или данные:

some random text here and there

<investmentAccount acctType="individual" uniqueId="1629529524">
<accountName>state bank of america</accountName>
<accountHolder>rahul raina</accountHolder>
<balance balType="totalBalance">
<curAmt curCode="USD">516545.84</curAmt>
</balance>
<asOf localFormat="MMM dd, yyyy">2013-08-31T00:00:00</asOf>
<holdingList>
<holding holdingType="mutualFund" uniqueId="-2044388005">
<description>Active Global Equities</description>
<value curCode="USD">159436.01</value>
</holding>
<holding holdingType="mutualFund" uniqueId="-556870249">
<description>Passive Non-US Equities</description> 
<value curCode="USD">72469.76</value>
</holding>
</holdingList>
<transactionList/>
</investmentAccount>
</site>
some data 123

<site name="McKinsey401k">
<investmentAccount acctType="individual" uniqueId="1629529524">
<accountName>rahuk</accountName>
<accountHolder>rahuk</accountHolder>
<balance balType="totalBalance">
<curAmt curCode="USD">516545.84</curAmt>
</balance>
<asOf localFormat="MMM dd, yyyy">2013-08-31T00:00:00</asOf>
<holdingList>
<holding holdingType="mutualFund" uniqueId="1285447255">
<description>Special Sits. Aggr. Long-Term</description>
<value curCode="USD">101944.69</value>
</holding>
<holding holdingType="mutualFund" uniqueId="1721876694">
<description>Special Situations Moderate $</description>
<value curCode="USD">49444.98</value>
</holding>
</holdingList>
<transactionList/>
</investmentAccount>
</site>

Поэтому мне нужно определить say tag и распечатать текст между начальным и конечным тегом, то есть: "Государственный банк Америки" и "rahukk",

Вот что я сделал до сих пор:

    function countString(document_r,a,b) {
var test = document_r.body; 
var text = typeof test.textContent == 'string'? test.textContent : test.innerText; 
var testRE = text.match(a+"(.*)"+b);
return testRE[1];

}



chrome.extension.sendMessage({
    action: "getSource",
    source: "XML DETAILS>>>>>"+"\nAccount name is: " +countString(document,'<accountName>','</accountName>')
});

Но это только печатает внутренний текст только первого тега, который он встречает на странице, то есть "Государственный банк Америки".

Что делать, если я хочу напечатать только "rahukk", который является внутренним текстом последнего тега на странице или и тем, и другом.

Как распечатать внутренний текст последнего тега, который он встречает на странице, или как он печатает все теги?

Заранее спасибо.

EDIT: документ сам по себе является HTML-страницей, на которой я только что разместил содержимое страницы

ОБНОВЛЕНИЕ: Так что я сделал кое-что здесь и там из приведенных ниже предложений и лучшего, что я мог бы достичь по этому коду:

function countString(document_r) {


var test = document_r.body; 
var text = test.innerText; 

var tag = "accountName";
var regex = "<" + tag + ">(.*?)<\/" + tag + ">";
var regexg = new RegExp(regex,"g");
var testRE = text.match(regexg);
return testRE;
}

chrome.extension.sendMessage({
    action: "getSource",
    source: "XML DETAILS>>>>>"+"\nAccount name is: " +countString(document)
});

Но это дало мне:

XML ДЕТАЛИ >>>>> Программа выхода на пенсию (Пенсионный план с выплатой прибыли (PSRP) и Пенсионный план для денежных выплат (MPPP)), Программа выхода на пенсию (Пенсионный план распределения прибыли (PSRP) и Пенсионный план для денежных выплат (MPPP)), Пенсионный Программа (Пенсионный план распределения прибыли (PSRP) и Пенсионный план денежных выплат (MPPP))

Это опять же потому, что один и тот же XML присутствовал на странице 3 раза, и я хочу, чтобы регулярное выражение соответствовало только последнему XML, и я тоже не хочу, чтобы имена тегов.

Поэтому мой желаемый результат:

XML DETAILS >>>>> Программа выхода на пенсию (Пенсионный план распределения прибыли (PSRP) и Пенсионный план для покупки денег (MPPP))

rahul888 23 окт. 2013, в 09:10

Источник

0

Есть ли конкретная причина, по которой вы не хотите использовать getElementsByTagName ?
Jordan Gray 23 окт. 2013, в 08:01

Теги:

javascript

html

regex

google-chrome-extension

4 ответа

Ещё вопросы

Есть ли конкретная причина, по которой вы не хотите использовать getElementsByTagName ?

Jordan Gray · Answer 1 · 2013-10-23T07-30-00.000Z

Если полная XML-строка действительна, вы можете проанализировать ее в XML-документе, используя метод DOMParser.parseFromString:

var xmlString = '<root>[Valid XML string]</root>';
var parser = new DOMParser();
var doc = parser.parseFromString(xmlString, 'text/xml');

Затем вы можете получить список тегов с указанным именем напрямую:

var found = doc.getElementsByTagName('tagName');

Здесь пример jsFiddle с использованием предоставленного вами XML с двумя небольшими изменениями - мне пришлось добавить root элемент и открывающий тег для первого site.

Джордан, это действительно очень хороший подход, но, как я уже сказал, мой полный документ содержит много других вещей, кроме этого только XML. :(
@ rahul888 Эй, понятно. :( Не могли бы вы опубликовать анонимный пример полного документа?
@ rahul888 (Если XML разделен на определенную часть полного документа, вы можете аккуратно извлечь его в строку.)
это очень большой документ. с большим количеством данных, лучшее, что я могу вам дать: ссылка
@ rahul888 Биты кода XML заключены в определенную структуру HTML, например что-то с общим именем класса? Могут ли они быть?
Код XML всегда начинается с <site name = "XXXXX"> и заканчивается </ site>. Я могу успешно извлечь это имя сайта "XXXXX" со страницы :)
давайте продолжим это обсуждение в чате

fen89 · Answer 2 · 2013-10-23T05-31-00.000Z

Регулярный шаблон <accountName>(.*?)<\/accountName> следующим образом: <accountName>(.*?)<\/accountName>

var tag = "accountName";
var regex = "<" + tag + ">(.*?)<\/" + tag + ">";
var testRE = text.match(regex);

=> testRE содержит все ваши совпадения, в случае тега = accountName он содержит "государственный банк америки" и "рахукк",

ОБНОВИТЬ

Согласно этой странице, чтобы получать все совпадения, вместо первого, вы smust добавляете флаг "g" в шаблон соответствия.

g: Глобальный флаг поиска делает поиск RegExp шаблоном во всей строке, создавая массив всех вхождений, которые он может найти, соответствующий данному шаблону ". найдено здесь

Надеюсь, это поможет вам!

я пытался обновить свой ответ @ rahul888
Я пытался это @ fen89, но он напечатает только один ... !! Для получения дополнительной информации, пожалуйста, посмотрите на комментарии моего выступления с Джордан-Грей ниже. :)
Чтобы получить все совпадения, а не только первое, нужно добавить флаг «g» в шаблон совпадения. Смотрите мой обновленный ответ @ rahul888
привет @ fen89 Спасибо за ответ, но я уже использовал это в своем коде, как вы можете видеть в моем обновленном сообщении .. !! Но я хочу, чтобы совпадение происходило только под определенной строкой на странице.

Arun Aravind · Answer 3 · 2013-10-23T05-05-00.000Z

1

метод совпадения не является глобальным.

var regex = new RegExp(a+"(.*)"+b, "g");
text.match(regex);

Arun Aravind 23 окт. 2013, в 05:05

0

Вы имели в виду: test.innerText ???
rahul888 23 окт. 2013, в 07:20
0

Да ... Вы сопоставляете текстовое содержимое, которое не содержит тегов.
Arun Aravind 23 окт. 2013, в 07:21
0

Вы подходите для тегов правильно?
Arun Aravind 23 окт. 2013, в 07:23
0

Я хочу напечатать внутреннее содержание тегов, которым я хочу соответствовать
rahul888 23 окт. 2013, в 07:24
0

За что у вас есть совпадения с тегами сначала рыть ??
Arun Aravind 23 окт. 2013, в 07:25
0

textContent или innerText сдирают теги и предоставляют вам только контент. Вы не получите соответствие для ваших тегов. Проверьте вашу консоль на предмет document.body.innerText / textContent и document.body.innerHTML.
Arun Aravind 23 окт. 2013, в 07:27
0

arvind мой код делает работу на самом деле. Но он печатает только содержимое самого первого тега на странице. Что делать, если есть несколько одинаковых тегов, и я хочу напечатать последний или все ... ??
rahul888 23 окт. 2013, в 07:33
0

Смотрите мое редактирование. Вам нужно сделать глобальный матч.
Arun Aravind 23 окт. 2013, в 07:55

Показать ещё 6 комментариев

nietonfir · Answer 4 · 2013-10-23T05-29-00.000Z

Вам не нужны регулярные выражения для вашей задачи (кроме того, читайте теги RegEx, которые открывают теги, за исключением тегов XHTML, для которых это не очень хорошая идея!). Вы можете сделать это полностью через javascript:

var tag = "section";
var targets = document.getElementsByTagName(tag);
for (var i = targets.length; i > 0; i--) {
    console.log(targets[i].innerText);
}

Я думаю, что это не работает, потому что на самом деле я работаю не с документом XHTML, а с дампом, который, вероятно, является строкой. Хотя смущен
Нет никаких проблем. Вы можете создать элемент на основе вашей строки и выполнить эту логику там же. И если это не работает, вам все равно не следует делать это с помощью регулярных выражений, а вместо этого использовать парсер XML / HTML.
Я до сих пор не могу сделать большую часть вашего помощника метода :(