разобрать строку поиска по фразам и ключевым словам

Question

разобрать строку поиска по фразам и ключевым словам

7

Мне нужно проанализировать строку поиска для ключевых слов и фраз в php, например

строка 1: value of "measured response" detect goal "method valuation" study

даст: value,of,measured reponse,detect,goal,method valuation,study

Мне также нужно, чтобы он работал, если строка имеет:

нет фраз, заключенных в кавычки,
любое количество фраз заключено в кавычки с любым количеством ключевых слов вне кавычек,
только фразы в кавычках,
ключевые слова, разделенные пробелами.

Я склоняюсь к использованию preg_match с шаблоном '/(\".*\")/', чтобы получить фразы в массив, а затем удалить фразы из строки, а затем, наконец, обработать ключевые слова в массиве. я просто не могу собрать все вместе!

Я также думаю о замене пробелов вне кавычек запятыми. затем взорвите их в массив. если это лучший вариант, как мне это сделать с помощью preg_replace?

Есть ли лучший способ сделать это? Помогите! большое спасибо всем

Ana Ban 30 окт. 2011, в 06:32

Источник

Теги:

php

string

regex

parsing

3 ответа

2

$s = 'value of "measured response" detect goal "method valuation" study';
preg_match_all('~(?|"([^"]+)"|(\S+))~', $s, $matches);
print_r($matches[1]);

выход:

Array
(
    [0] => value
    [1] => of
    [2] => measured response
    [3] => detect
    [4] => goal
    [5] => method valuation
    [6] => study
)

Трюк здесь заключается в использовании группы ветвей reset: (?|...|...). Это точно так же, как чередование, содержащееся в группе без захвата - (?:...|...) - за исключением того, что внутри каждой ветки номера группы захвата начинаются с одного и того же номера. (Для получения дополнительной информации см. документы PCRE и выполните поиск DUPLICATE SUBPATTERN NUMBERS.)

Таким образом, интересующий нас текст всегда захватывает группу # 1. Вы можете получить содержимое группы # 1 для всех совпадений с помощью $matches[1]. (Предположим, что установлен флаг PREG_PATTERN_ORDER, я не указал его как @FailedDev, потому что он по умолчанию. Подробнее см. Документы PHP. )

Alan Moore 30 окт. 2011, в 06:23

0

Не могли бы вы опубликовать тест Perl, где работает это регулярное выражение? Или это поддерживается только в php? Мне бы хотелось, чтобы это работало, но я не могу заставить его работать с моим инструментом.
FailedDev 30 окт. 2011, в 06:17
0

Удивительно, Алан, снова узнал что-то новое. тем не менее, что делать, если я хочу игнорировать общие слова из тех, которые не заключены в кавычки? как 'Array ([1] => Array ([1] => of))'? скажем, у меня есть массив запрещенных слов, таких как array ('at','the','and','of','in') , как мне включить это в подход? большое спасибо!
Ana Ban 30 окт. 2011, в 06:20
0

Я попробовал это, Алан, но это разделяет слова в кавычках тоже .. хм ..
Ana Ban 30 окт. 2011, в 06:26
0

Ана Пан, у меня работает: демо . Что касается фильтрации общих слов, это было бы намного легче сделать потом. @FailedDev, в Perl группа сброса ветвей поддерживается только в v5.10 и новее. Попробуйте добавить use v5.10; Прагма.
Alan Moore 30 окт. 2011, в 06:37
0

aaiiyt, работаю над этим .. спасибо @AlanMoore D
Ana Ban 30 окт. 2011, в 06:43

Показать ещё 3 комментария

1

Нет необходимости использовать регулярное выражение, встроенная функция str_getcsv может использоваться для взорвания строки с любыми разделителями, оболочками и escape-символами.

Действительно, это так же просто.

// where $string is the string to parse
$array = str_getcsv($string, ' ', '"');

Fraser 08 июнь 2015, в 01:27

Ещё вопросы

Не могли бы вы опубликовать тест Perl, где работает это регулярное выражение? Или это поддерживается только в php? Мне бы хотелось, чтобы это работало, но я не могу заставить его работать с моим инструментом.
Удивительно, Алан, снова узнал что-то новое. тем не менее, что делать, если я хочу игнорировать общие слова из тех, которые не заключены в кавычки? как 'Array ([1] => Array ([1] => of))'? скажем, у меня есть массив запрещенных слов, таких как array ('at','the','and','of','in') , как мне включить это в подход? большое спасибо!
Я попробовал это, Алан, но это разделяет слова в кавычках тоже .. хм ..
Ана Пан, у меня работает: демо . Что касается фильтрации общих слов, это было бы намного легче сделать потом. @FailedDev, в Perl группа сброса ветвей поддерживается только в v5.10 и новее. Попробуйте добавить use v5.10; Прагма.
aaiiyt, работаю над этим .. спасибо @AlanMoore D

FailedDev · Accepted Answer · 2011-10-30T05-37-00.000Z

10

Лучший ответ

preg_match_all('/(?<!")\b\w+\b|(?<=")\b[^"]+/', $subject, $result, PREG_PATTERN_ORDER);
for ($i = 0; $i < count($result[0]); $i++) {
    # Matched text = $result[0][$i];
}

Это даст результаты, которые вы ищете.

Объяснение:

# (?<!")\b\w+\b|(?<=")\b[^"]+
# 
# Match either the regular expression below (attempting the next alternative only if this one fails) «(?<!")\b\w+\b»
#    Assert that it is impossible to match the regex below with the match ending at this position (negative lookbehind) «(?<!")»
#       Match the character """ literally «"»
#    Assert position at a word boundary «\b»
#    Match a single character that is a "word character" (letters, digits, etc.) «\w+»
#       Between one and unlimited times, as many times as possible, giving back as needed (greedy) «+»
#    Assert position at a word boundary «\b»
# Or match regular expression number 2 below (the entire match attempt fails if this one fails to match) «(?<=")\b[^"]+»
#    Assert that the regex below can be matched, with the match ending at this position (positive lookbehind) «(?<=")»
#       Match the character """ literally «"»
#    Assert position at a word boundary «\b»
#    Match any character that is NOT a """ «[^"]+»
#       Between one and unlimited times, as many times as possible, giving back as needed (greedy) «+»

FailedDev 30 окт. 2011, в 05:37

0

Вау. будет работать над этим сейчас, defs даст вам знать как можно скорее, как только я получу это работает.
Ana Ban 30 окт. 2011, в 05:32
0

Эпический Скажи, что! спасибо @FailedDev
Ana Ban 30 окт. 2011, в 06:11
0

@AnaBan рад помочь :)
FailedDev 30 окт. 2011, в 06:13
0

продолжение: что, если я хочу игнорировать общие слова из тех, которые не заключены в кавычки? как of ? скажем, у меня есть массив запрещенных слов, таких как array ('at','the','and','of','in') , как мне включить это в подход? еще раз спасибо!
Ana Ban 30 окт. 2011, в 06:24
0

Вау, я часто использую регулярные выражения, но такого рода вещи отделяют мужчин (@FailedDev) от мальчиков (@davidethell).
davidethell 30 окт. 2011, в 06:31
0

@davidethell: dittooooowww .. LOL
Ana Ban 30 окт. 2011, в 06:42
0

Одна вещь, @FailedDev, как мне изменить шаблон регулярных выражений, чтобы сохранить hyphen перед ключевым словом или фразой? Например, если строка является value of "measured response" -detect goal -"method valuation" study , соответствующим выходным value,of,measured reponse,-detect,goal,-method valuation,study будет value,of,measured reponse,-detect,goal,-method valuation,study ?
Ana Ban 30 окт. 2011, в 08:27
0

я пытался вставить -? и \-? до \w но это все портит ..: /
Ana Ban 30 окт. 2011, в 08:44
0

@AnaBan Привет, только что проснулся :) Я скоро отредактирую ответ.
FailedDev 30 окт. 2011, в 11:26
0

Сожалею. Но я не думаю, что вы можете сделать то, что вы просите в одном регулярном выражении. Вы хотите сопоставить что-то, затем игнорировать что-то и затем продолжить сопоставление - все в одном результате. Для меня это звучит скорее как замена.
FailedDev 30 окт. 2011, в 12:15
0

спасибо @FailedDev да, отличная идея, я уже реализовал замену. Теперь, чтобы уточнить мой последний комментарий: я также хочу включить термины, перед которыми стоит hyphen , например, если в строке указано value of "measured response" -detect goal -"method valuation" study , соответствующим выходным value,of,measured reponse,-detect,goal,-method valuation,study будет value,of,measured reponse,-detect,goal,-method valuation,study . я пытался вставить -? и \-? до \w но я до сих пор не могу заставить его работать ..: D
Ana Ban 31 окт. 2011, в 06:18
0

привет снова, @FailedDev, это уже заставило меня захватить -detect : /(?<!")(-|\b)\w+\b|(?<=")\b[^"]+/ . это правильно Теперь, если бы я мог только правильно -method valuation помогите ..
Ana Ban 01 нояб. 2011, в 01:03
0

@AnaBan Как я уже сказал, вы будете думать больше, чем просто регулярное выражение, чтобы сделать это. Вы должны разделить регулярное выражение на пробелы (не внутри ""), а затем применить регулярное выражение замены, чтобы делать то, что вы хотите, для каждой строки отдельно.
FailedDev 01 нояб. 2011, в 01:06
0

оооо ... кк, работаю над этим. последний вопрос, моя модификация права? я не ломаю что-то, вставляя (-|\b) вместо \b в первом шаблоне (?<!")\b\w+\b так, чтобы это было (?<!")(-|\b)\w+\b ?
Ana Ban 01 нояб. 2011, в 01:29
0

@AnaBan AnnaBan Я бы предположил, что нет.
FailedDev 01 нояб. 2011, в 01:31
0

suweet. Большое спасибо, ты молодец!
Ana Ban 01 нояб. 2011, в 01:39

Показать ещё 14 комментариев