Regex для извлечения классов HTML5 из строки селектора CSS

Question

Regex для извлечения классов HTML5 из строки селектора CSS

1

Я читаю файлы CSS с диска как строки.

Моя цель - извлечь классы HTML в паре с определенным атрибутом данных, например:

.foo[data-my-attr]

Атрибут data является достаточно уникальным, так что мне не нужно беспокоиться о пересечении CSS AST. Я могу просто использовать регулярное выражение следующим образом:

(\.\S+)+\[data-my-attr\]

Это уже работает, но \S+, очевидно, плохо подходит для соответствия классу HTML в селекторе. Он будет включать в себя различные комбинаторы, псевдоклассы, псевдоселекторы и т.д.

Я попытался создать версию регулярного выражения с белым списком, например (\w|-)+, но спецификация HTML5 для имен классов очень разрешительна. Это неизбежно, что либо я пропускаю определенные символы, либо включаю неправильные символы.

Какое регулярное выражение можно использовать для извлечения классов HTML5 из строки селектора CSS?

Я использую Node, т.е. JavaScript-код регулярных выражений.

UPD1

Некоторые примеры:

.foo[data-my-attr] - должен соответствовать .foo
.foo>span[data-my-attr] - не должен совпадать
.I_f%⌘ing__HTML5[data-my-attr] - должен соответствовать .I_f%⌘ing__HTML5

Этот вопрос существует, потому что я не могу думать о всех возможных допустимых классах HTML5. Мне нужно регулярное выражение, основанное на удивительно неопределенной спецификации класса HTML5:

3.2.5.7 Атрибут класса

Атрибут, если указан, должен иметь значение, представляющее собой набор разделенных пространством токенов, представляющих различные классы, к которым принадлежит элемент.

Классы, назначенные ему элементом HTML, состоят из всех возвращаемых классов, когда значение атрибута класса разбивается на пробелы. (Дубликаты игнорируются.)

Нет никаких дополнительных ограничений на то, что авторы токенов могут использовать в атрибуте class, но авторам рекомендуется использовать значения, которые описывают характер контента, а не значения, которые описывают желаемую презентацию содержимого.

Очевидно, что класс не должен содержать пробелы и символы типа +>:()[]=~ потому что они являются частью синтаксиса селектора CSS...

lolmaus - Andrey Mikhaylov 25 нояб. 2017, в 13:35

Источник

0

Кто бы ни голосовал, чтобы закрыть вопрос, пожалуйста, объясните в комментариях, что можно исправить, чтобы сделать этот вопрос действительным.
Andrey Mikhaylov - lolmaus 25 нояб. 2017, в 11:45
0

Будет ли это регулярное выражение stackoverflow.com/a/6329126/1156518 дополнено вашим конкретным атрибутом для вас?
Dmitry Druganov 25 нояб. 2017, в 11:55
0

@DmitryDruganov Нет, он действителен для HTML4, но пропустит много HTML5-допустимых классов, таких как #%LV-||_⌘⌥{©♤₩¤☆€~¥} .
Andrey Mikhaylov - lolmaus 25 нояб. 2017, в 12:11
0

В чем проблема? Выберите класс символов, который исключает символы, которые вам не нужны. Из вашего описания: [^#+>:()\[\]=~\s.]
Casimir et Hippolyte 25 нояб. 2017, в 13:14
1

Обратите внимание, что # не может быть в имени класса, так как это селектор для идентификаторов. То же самое и в фигурных скобках.
Casimir et Hippolyte 25 нояб. 2017, в 13:22
1

Вы работаете с неправильной спецификацией. Соответствующая спецификация - это не спецификация HTML5, а спецификация Selectors и, в частности , продукция selectors_group .
Alohci 25 нояб. 2017, в 14:23
0

почему .I_f#%⌘ing__HTML5 совпадать? Он содержит # который является началом селектора id для элемента с идентификатором %⌘ing__HTML5 .
Patrick J. S. 25 нояб. 2017, в 15:24
0

@CasimiretHippolyte Проблема в том, что у меня нет явного списка исключений.
Andrey Mikhaylov - lolmaus 25 нояб. 2017, в 16:05
0

@PatrickJ.S.PatrickJ.S. Хороший улов. Но даже если он не будет совпадать в CSS, I_f#%⌘ing__HTML5 по-прежнему является допустимым классом HTML5 и может быть нацелен, например, на document.getElementsByClassName("I_f#%⌘ing__HTML5") .
Andrey Mikhaylov - lolmaus 25 нояб. 2017, в 16:09

Показать ещё 7 комментариев

Теги:

javascript

node.js

regex

css

html5

2 ответа

Ещё вопросы

Кто бы ни голосовал, чтобы закрыть вопрос, пожалуйста, объясните в комментариях, что можно исправить, чтобы сделать этот вопрос действительным.
Будет ли это регулярное выражение stackoverflow.com/a/6329126/1156518 дополнено вашим конкретным атрибутом для вас?
@DmitryDruganov Нет, он действителен для HTML4, но пропустит много HTML5-допустимых классов, таких как #%LV-||_⌘⌥{©♤₩¤☆€~¥} .
В чем проблема? Выберите класс символов, который исключает символы, которые вам не нужны. Из вашего описания: [^#+>:()\[\]=~\s.]
Обратите внимание, что # не может быть в имени класса, так как это селектор для идентификаторов. То же самое и в фигурных скобках.
Вы работаете с неправильной спецификацией. Соответствующая спецификация - это не спецификация HTML5, а спецификация Selectors и, в частности , продукция selectors_group .
почему .I_f#%⌘ing__HTML5 совпадать? Он содержит # который является началом селектора id для элемента с идентификатором %⌘ing__HTML5 .
@CasimiretHippolyte Проблема в том, что у меня нет явного списка исключений.
@PatrickJ.S.PatrickJ.S. Хороший улов. Но даже если он не будет совпадать в CSS, I_f#%⌘ing__HTML5 по-прежнему является допустимым классом HTML5 и может быть нацелен, например, на document.getElementsByClassName("I_f#%⌘ing__HTML5") .

Fez Vrasta · Answer 1 · 2017-11-25T13-51-00.000Z

Вы не должны использовать регулярное выражение.

Более твердая альтернатива - PostCSS (и его синтаксический анализатор). С его помощью вы получите полное AST (абстрактное синтаксическое дерево) всей таблицы стилей, с помощью которой вы сможете легко извлечь часть, которую ищете.

const postcss = require('postcss');
const Tokenizer = require('css-selector-tokenizer');

let output = [];

const postcssAttributes = postcss.plugin('postcss-attributes', function() {
  return function(css) {
    css.walkRules(function(rule) {
      rule.selectors.map(selector => {
        const tokenized = Tokenizer.parse(selector);
        if (
          tokenized.nodes.some(({ nodes }) =>
            nodes.some(
              node =>
                node.type === 'attribute' && node.content === 'data-my-attr'
            )
          )
        ) {
          output.push(selector);
        }
      });
    });
  };
});

const css = '
    .foo[data-my-attr] {
        color: red;
    }
    .foo[something] {
        color: red;
    }
';

postcss([postcssAttributes])
  .process(css)
  .then(result => console.log(output));

// logs: [ '.foo[data-my-attr]' ]

Это будет записывать все соответствующие селекторы.

Спасибо за ваш пример. Я подумывал об использовании CSS AST и решил отказаться от него по двум причинам: 1. Это увеличит время сборки. 2. Это не решает проблему извлечения классов HTML из составных селекторов, которые по-прежнему требуют регулярных выражений.
Мой пример поддерживает составные селекторы

lolmaus - Andrey Mikhaylov · Answer 2 · 2017-11-25T14-08-00.000Z

0

Регулярное выражение для соответствия классу HTML5 в селекторной строке:

/\.-?(?:[_a-z]|[\240-\377]|(?:(:?\\[0-9a-f]{1,6}(\r\n|[ \t\r\n\f])?)|\\[^\r\n\f0-9a-f]))(?:[_a-z0-9-]|[\240-\377]|(?:(:?\\[0-9a-f]{1,6}(\r\n|[ \t\r\n\f])?)|\\[^\r\n\f0-9a-f]))*/

Кредит: @KOBA789

спасибо to Alohci для указания в правильном направлении.

lolmaus - Andrey Mikhaylov 25 нояб. 2017, в 14:08

0

В самом деле? Как насчет #notaclass:after { content:".notaclasstoo { whatever you want"; }
Casimir et Hippolyte 25 нояб. 2017, в 16:12
0

@CasimiretHippolyte Ваш пример не является допустимым селектором.
Andrey Mikhaylov - lolmaus 25 нояб. 2017, в 16:23
0

Что недействительно?
Casimir et Hippolyte 25 нояб. 2017, в 16:44
0

Ваш пример кода является правилом CSS, вопрос о селекторе CSS.
Andrey Mikhaylov - lolmaus 25 нояб. 2017, в 20:08
0

Да, это правило CSS, но как вы можете быть уверены, что извлекли селектор CSS, даже с шаблоном, который описывает все возможные селекторы или тот, который вы хотите, из строки, содержащей части в кавычках? Внутри указанных частей у вас также может быть что-то, что соответствует вашему шаблону и не является селектором.
Casimir et Hippolyte 25 нояб. 2017, в 20:58
0

Это действительная проблема. Их даже не нужно заключать в кавычки, например: .foo:not(.bar) . К счастью, мой вариант использования не страдает от сбора несуществующих классов. Важной частью является не пропустить ни одного из существующих.
Andrey Mikhaylov - lolmaus 26 нояб. 2017, в 07:44

Показать ещё 4 комментария