Регулярное выражение для поиска Gadaffi

Question

Регулярное выражение для поиска Gadaffi

369

Я пытаюсь найти слово Гадаффи. Какое лучшее регулярное выражение для поиска?

Моя лучшая попытка:

\b[KG]h?add?af?fi$\b

Но я все еще, кажется, не хватает некоторых журналов. Любые предложения?

Обновление: здесь я нашел довольно обширный список: http://blogs.abcnews.com/theworldnewser/2009/09/how-many-different-ways-can-you-spell-gaddafi.html

Ответ ниже соответствует всем 30 вариантам:

Gadaffi
Gadafi
Gadafy
Gaddafi
Gaddafy
Gaddhafi
Gadhafi
Gathafi
Ghadaffi
Ghadafi
Ghaddafi
Ghaddafy
Gheddafi
Kadaffi
Kadafi
Kaddafi
Kadhafi
Kazzafi
Khadaffy
Khadafy
Khaddafi
Qadafi
Qaddafi
Qadhafi
Qadhdhafi
Qadthafi
Qathafi
Quathafi
Qudhafi
Kad'afi

SiggyF 19 март 2011, в 21:43

Источник

2

Откуда ты знаешь, что тебе не хватает некоторых журналов?
heldt 19 март 2011, в 22:15
8

Какие из них вам не хватает? И где вы ищете, есть ли веб-поиск с помощью регулярных выражений?
Czechnology 19 март 2011, в 22:15
1

Каждый раз, когда я читаю новый журнал, я нахожу новое написание. Например, NY Times использует Каддафи.
SiggyF 19 март 2011, в 22:19
43

Всегда публикуются новые журналы, поэтому, если они будут продолжать писать о Gadaffi, вы будете стремиться к .+ Быть единственным действительным регулярным выражением.
marcog 19 март 2011, в 22:22
30

Я обнаружил, что эта картина помогает с различными написаниями: upload.wikimedia.org/math/6/1/f/…
KLee1 19 март 2011, в 22:54
24

Как обычно, Lisp реализовал это первым - foldr.org/~michaelw/projects/regex/regexp-test-suite.lisp (прокрутите примерно на полпути вниз)
Daniel S. Sterling 21 март 2011, в 20:10
0

Сложность перевода (таким образом, причина столь большого количества вариаций) является следствием того факта, что название является прямой транслитерацией с арабского языка.
CRice 24 март 2011, в 05:41
0

@ Вчера я не знаком с арабским языком, но почему так много транслитераций на один язык (английский)?
Czechnology 25 март 2011, в 21:50
0

Попробуйте те же самые методы для поиска слонов. Просто найдите Гадаффи в Африке. Опытным программистам понадобится Gadaffi, похожий на другого, а математики больше не будут популярны в Африке. Использование регулярного выражения звучит как худшая из всех идей, потому что, знаете, теперь у вас есть две проблемы. SCNR
Meinersbur 26 март 2011, в 16:49
1

Gheddafi также принимается выражением ниже $ echo Gheddafi | pcregrep --color "\b(Kh?|Gh?|Qu?)[aeu](d['dt]?|t|zz|dhd)h?aff?[iy]\b"
SiggyF 06 апр. 2011, в 13:41
0

Вы можете не верить мне, но я независимо друг от друга просто подумал об этом сегодня и подумал, что это будет аккуратный вопрос регулярного выражения. Тогда я обнаружил, что ты победил меня несколько месяцев назад. Следующим шагом будет машинное обучение, которое объединяет все возможные варианты написания до наиболее компактного регулярного выражения (не уверен, должно ли оно исключать ложные альтернативы).
smci 13 авг. 2011, в 01:39
2

Хорошо, что нет такого правила, как «число d и f должно быть одинаковым», поэтому мы можем обойтись без написания контекстно-свободной грамматики :)
user111095 23 авг. 2011, в 20:24
2

Учитывая, что мир обычно разбит на страны, вам нужно будет рекурсивно искать каждую страну или, по крайней мере, иметь цикл в выражении для поиска в каждой подгруппе. Я не думаю, что регулярные выражения - это верный способ найти Каддаффи. Не похоже, что он прячется в HTML-документе.
ssube 23 авг. 2011, в 22:36
1

@peachykeen он очень Wiley лисицы, он может скрываться в любом месте!
glenatron 23 авг. 2011, в 22:54
7

@Daniel Sterling: на самом деле, тест Khadafy является частью GNU grep testsuite с момента первоначальной фиксации в RCS (вт. 3 ноября 21:38:52 1998 +0000), и, вероятно, даже старше этого!
Paolo Bonzini 24 авг. 2011, в 08:38
0

Я бы не только попробовал регулярные выражения, но и расстояние Левенштейна
Sjuul Janssen 24 авг. 2011, в 12:54
0

sporcle.com/games/SporcleEXP/Gadaffi
Moe 24 авг. 2011, в 13:12
1

Рекс производит случайные члены набора результатов с заданным регулярным выражением. Вот пример для вашего примера: rise4fun.com/Rex/ELh
miku 01 авг. 2012, в 23:40
0

Если вы нашли список в Интернете, вам даже не нужно регулярное выражение! Просто скопируйте и вставьте список и, используя некоторую обработку строк, превратите его в список. Используйте язык программирования, чтобы увидеть, есть ли слова в статье в списке.
user3917838 25 сен. 2015, в 15:33
0

Познакомьтесь с точностью и вспомните. Какой из них важнее, определит, является ли регулярное или явное перечисление более подходящим. en.wikipedia.org/wiki/Precision_and_recall
Trenton 30 март 2016, в 05:31

Показать ещё 18 комментариев

Теги:

regex

search

14 ответов

256

Easy... (Qadaffi|Khadafy|Qadafi|... )... он самодокументирован, поддерживается и предполагает, что ваш механизм regexp фактически компилирует регулярные выражения (а не интерпретирует их), он будет скомпилирован с тем же DFA, что более запутанное решение было бы.

Написание компактных регулярных выражений подобно использованию коротких имен переменных для ускорения работы программы. Это помогает, только если ваш компилятор мертв мозгом.

Chris Pacejo 21 март 2011, в 20:05

23

Отличный ответ! Люди используют регулярные выражения гораздо чаще, чем заботятся о том, как они на самом деле работают.
Thomas Ahle 28 март 2011, в 14:29
3

Мне также очень нравится простота этого решения, но я удивлен, что это скомпилируется в тот же DFA. У вас есть ссылка, которая говорит об этом? Интуитивно кажется, что это может быть менее эффективно, чем ранее созданное регулярное выражение или ответ ниже, который предлагает использовать модуль Perl Regexp :: Assemble в том же списке имен or'd.
Rian Sanderson 25 авг. 2011, в 00:08
6

-1 Смысл регулярного выражения состоит в том, чтобы сократить то, что часто может быть - как это в данном случае - очень длинный список альтернатив относительно короткой формуле. Результат может часто выполняться быстрее, чем выполнение неоптимизированного исчерпывающего поиска.
martineau 25 авг. 2011, в 15:50
7

Вы правы, что цель регулярных выражений состоит в том, чтобы предоставить компактное, четкое представление для большого набора значений. Но основная концепция состоит в том, чтобы представить регулярное выражение и сказать «все, что соответствует этому, хорошо». То есть предполагается, что у вас есть свобода включать что-либо систематическое. Здесь мы имеем противоположную ситуацию: варианты написания (и варианты, которые никогда не появляются) являются едва ли не этой стороной «совершенно случайного». Сложные попытки «компактности» получают очень низкие баллы за «чистоту»!
jackr 20 окт. 2011, в 23:14
0

Основные вкусы регулярных выражений не соответствуют DFA.
Qtax 18 май 2013, в 13:31
1

Также посмотрите алгоритм Aho-Corasick, который оптимален для одновременного поиска строк: en.wikipedia.org/wiki/…
Thomas Ahle 12 июнь 2014, в 16:07
0

Есть ли способ узнать, что из этого делает двигатель?
phk 09 окт. 2016, в 11:48

Показать ещё 5 комментариев

43

Интересно отметить из вашего списка потенциальных написаний, что только 3 значения Soundex для содержащегося списка (если вы игнорируете выброс "Kazzafi" )

G310, K310, Q310

Теперь есть ложные срабатывания ( "Godby" также является G310), но, комбинируя также ограниченные метафоны, вы можете их устранить.

<?
$soundexMatch = array('G310','K310','Q310');
$metaphoneMatch = array('KTF','KTHF','FTF','KHTF','K0F');

$text = "This is a big glob of text about Mr. Gaddafi. Even using compound-Khadafy terms in here, then we might find Mr Qudhafi to be matched fairly well. For example even with apostrophes sprinkled randomly like in Kad'afi, you won't find false positives matched like godfrey, or godby, or even kabbadi";

$wordArray = preg_split('/[\s,.;-]+/',$text);
foreach ($wordArray as $item){
    $rate = in_array(soundex($item),$soundexMatch) + in_array(metaphone($item),$metaphoneMatch);
    if ($rate > 1){
        $matches[] = $item;
    }
}
$pattern = implode("|",$matches);
$text = preg_replace("/($pattern)/","<b>$1</b>",$text);
echo $text;
?>

Несколько настроек, и давайте скажем, какую-то кириллическую транслитерацию, и у вас будет довольно надежное решение.

tomwalsham 21 март 2011, в 17:44

2

Обратите внимание, что soundex специализируется на английском языке, существуют другие фонетические алгоритмы для других языков с другими правилами произношения.
Incognito 21 март 2011, в 18:01
8

Хотя это правда, мы находимся в странной ситуации здесь. Основной запрос был «Я пытаюсь найти слово Gadaffi», но я чувствую, что регулярное выражение было красной сельдью. Не существует сборника правил транслитерации на арабский и латинский языки, и поэтому обращение к регулярному выражению из списка не будет полностью отвечать первоначальному запросу.
tomwalsham 21 март 2011, в 18:19
2

Я чувствую, что система нечеткого соответствия лучше подходит, но собственный алгоритм кажется излишним. Использование комбинации soundex-metaphone, кажется, работает так же хорошо, как и решение регулярных выражений, позволяя создавать дополнительные непредвиденные варианты написания, в то же время просто используя стандартные алгоритмы.
tomwalsham 21 март 2011, в 18:26
0

Использование metaphone2 и metaphone3 приводит к лучшим результатам (т. Е. Почти все в metaphone2 - это KDF, а metaphone1 - не совсем). Однако Metaphone3 стоит около 40 долларов.
Incognito 21 март 2011, в 18:32

Показать ещё 2 комментария

27

Использование модуля CPAN Regexp:: Assemble:

#!/usr/bin/env perl

use Regexp::Assemble;

my $ra = Regexp::Assemble->new;
$ra->add($_) for qw(Gadaffi Gadafi Gadafy Gaddafi Gaddafy
                    Gaddhafi Gadhafi Gathafi Ghadaffi Ghadafi
                    Ghaddafi Ghaddafy Gheddafi Kadaffi Kadafi
                    Kaddafi Kadhafi Kazzafi Khadaffy Khadafy
                    Khaddafi Qadafi Qaddafi Qadhafi Qadhdhafi
                    Qadthafi Qathafi Quathafi Qudhafi Kad'afi);
say $ra->re;

Это приводит к следующему регулярному выражению:

(?-xism:(?:G(?:a(?:d(?:d(?:af[iy]|hafi)|af(?:f?i|y)|hafi)|thafi)|h(?:ad(?:daf[iy]|af?fi)|eddafi))|K(?:a(?:d(?:['dh]a|af?)|zza)fi|had(?:af?fy|dafi))|Q(?:a(?:d(?:(?:(?:hd)?|t)h|d)?|th)|u(?:at|d)h)afi))

Prakash K 23 авг. 2011, в 20:47

23

Думаю, ты слишком усложняешь ситуацию. Правильное регулярное выражение так же просто, как:

\u0627\u0644\u0642\u0630\u0627\u0641\u064a

Он соответствует конкатенации семи арабских кодов Unicode, которые образуют слово القذافي (т.е. Gadaffi).

Staffan Nöteberg 21 март 2011, в 22:46

3

Далее просто отправьте nytimes.com через Google Translate, и Боб станет вашим дядей.
Robert Rossney 24 авг. 2011, в 06:33

19

Если вы хотите избежать соответствия тем, которые никто не использовал (т.е. избегать стремления к "+" ), ваш лучший подход заключался бы в том, чтобы создать регулярное выражение, которое содержит все альтернативы (например, Qadafi | Kadafi |...)) затем скомпилируйте это в DFA, а затем преобразуйте DFA обратно в регулярное выражение. Предполагая умеренно разумную реализацию, которая даст вам "сжатое" регулярное выражение, гарантирующее, что не будет содержать неожиданных вариантов.

andrew cooke 21 март 2011, в 14:33

2

Я знаю, что это возможно там, но как бы вы это сделали на практике (используя, например, какой-то общий динамический язык)
Rory 21 март 2011, в 15:55
3

Я понимаю теорию, стоящую за этим, но, как и @Rory, мне также интересно узнать, как бы вы на самом деле сделали это на практике.
dancavallaro 21 март 2011, в 16:54
0

да, я думал об этом, чтобы дать лучший ответ, но сейчас я немного занят. у меня есть некоторый (некрасивый и плохо документированный) код на code.google.com/p/lepl/source/browse/src/lepl/regexp/core.py, который создает dfa из регулярного выражения (фактически, анализатор находится в другом классе , но тяжелая работа есть, вы идете regexp -> nfa -> dfa). перейти от dfa к регулярному выражению легко (я думаю?).
andrew cooke 22 март 2011, в 00:29
0

на самом деле, документация там лучше, чем я помню: o) основная идея состоит в том, что вы описываете регулярное выражение в терминах классов в верхней части файла. тогда его можно довольно легко перевести на nfa (на самом деле nfa - это просто набор переходов, говорящих «если вы получите это письмо, то вы можете перейти сюда или сюда ...», это довольно легко понять). тогда dfa - это своего рода «расширенная» версия того, где вы избегаете возврата; это сделано NfaToDfa (и это сложная часть). тогда dfa может быть сам по себе регулярным выражением, которое записывается как очень сложные наборы символов (?!)
andrew cooke 22 март 2011, в 00:41

Показать ещё 2 комментария

10

Если у вас есть конкретный список из всех 30 возможностей, просто соедините их все вместе с кучей "ors". Тогда вы можете быть уверены, что он соответствует только тем вещам, которые вы указали, и не более того. Вероятно, ваш движок RE сможет оптимизировать его, и, конечно же, с 30 вариантами, даже если это еще не так. Пытаться возиться с ручным превращением его в "умный" RE, не может оказаться лучше и может ухудшиться.

Jeremy Bowers 21 март 2011, в 17:19

9

(G|Gh|K|Kh|Q|Qh|Q|Qu)(a|au|e|u)(dh|zz|th|d|dd)(dh|th|a|ha|)(\x27|)(a|)(ff|f)(i|y)

Конечно, не самая оптимизированная версия, разбитая на слоги, чтобы максимизировать совпадения, пытаясь убедиться, что мы не получаем ложных срабатываний.

Sneaky 21 март 2011, в 17:34

6

Хорошо, поскольку вы соответствуете маленьким словам, почему бы вам не попробовать поисковую систему подобия с Levenshtein расстояние? Вы можете разрешить не более k вставок или удалений. Таким образом, вы можете изменить функцию расстояния на другие вещи, которые лучше работают для вашей конкретной проблемы. В библиотеке simMetrics имеется множество функций.

Arnoldo Muller 22 март 2011, в 10:43

4

Возможной альтернативой является онлайн-инструмент для генерации регулярных выражений из примеров http://regex.inginf.units.it. Дайте ему шанс!

mimmuz 14 нояб. 2013, в 17:20

1

Я знаю, что это старый вопрос, но...

Ни одно из этих двух регулярных выражений не является самым красивым, но они оптимизированы и оба соответствуют ALL вариантам исходного сообщения.

"Маленькая красавица" # 1

(?:G(?:a(?:d(?:d(?:af[iy]|hafi)|af(?:f?i|y)|hafi)|thafi)|h(?:ad(?:daf[iy]|af?fi)|eddafi))|K(?:a(?:d(?:['dh]a|af?)|zza)fi|had(?:af?fy|dafi))|Q(?:a(?:d(?:(?:(?:hd)?|t)h|d)?|th)|u(?:at|d)h)afi)

"Маленькая красавица" # 2

(?:(?:Gh|[GK])adaff|(?:(?:Gh|[GKQ])ad|(?:Ghe|(?:[GK]h|[GKQ])a)dd|(?:Gadd|(?:[GKQ]a|Q(?:adh|u))d|(?:Qad|(?:Qu|[GQ])a)t)h|Ka(?:zz|d'))af)i|(?:Khadaff|(?:(?:Kh|G)ad|Gh?add)af)y

Отдых в мире, Муаммар.

zx81 18 июнь 2014, в 08:00

1

Почему бы не сделать смешанный подход? Что-то между списком всех возможностей и сложным Regex, который слишком много соответствует.

Regex - это сопоставление с образцом, и я не вижу шаблон для всех вариантов в списке. Пытаясь сделать это, также найдутся такие вещи, как "Газзафи" или "Куддхаффи", которые, скорее всего, не используются и, безусловно, не входят в список.

Но я могу видеть шаблоны для некоторых вариантов, и поэтому я закончил с этим:

\b(?:Gheddafi|Gathafi|Kazzafi|Kad'afi|Qadhdhafi|Qadthafi|Qudhafi|Qu?athafi|[KG]h?add?h?aff?[iy]|Qad[dh]?afi)\b

В начале я перечисляю те, где я не вижу шаблон, а затем некоторые варианты, где есть шаблоны.

См. здесь www.rubular.com

stema 04 май 2011, в 12:33

0

Ваши \b включены только в первый и последний варианты.
Christopher Creutzig 24 авг. 2011, в 06:13
0

@ Кристофер Кройциг, конечно, вы правы, исправлено.
stema 24 авг. 2011, в 17:27

0

Что еще начинается с Q, G или K, имеет d, z или t в середине и заканчивается "fi" для людей на самом деле для поиска?

/\b[GQK].+[dzt].+fi\b/i

Готово.

>>> print re.search(a, "Gadasadasfiasdas") != None
False
>>> print re.search(a, "Gadasadasfi") != None
True
>>> print re.search(a, "Qa'dafi") != None
True

Интересно, что меня забирают. Может ли кто-нибудь оставить некоторые ложные срабатывания в комментариях?

Hank 24 авг. 2011, в 02:19

2

Из крекинг словаря , который я случайно уже сидели: kartografi kryptografi Gaddafi Qaddafi gadafi gaddafi katastloofi katastorfi katastrofi khadaffi kadafi kardiyografi gaskromatografi kardiografi kinematografi kromatografi krystallografi kulturgeografi gandolfi grizzaffi gadhafi kadaffi kaddafi khaddafi qaddafi qadhafi quedaffi gordonsCHsKFI . Однако некоторые из них не являются ложными срабатываниями.
BMDan 27 авг. 2011, в 22:01
2

И дополнения к этому списку, которые заканчиваются на [iy] вместо просто i : gelatinify gentrify ghostlify giddify gladify goutify gratify "Gyula Dessewffy" katasrofy katastrofy khadafy quantify quasi-deify quizzify
BMDan 27 авг. 2011, в 22:04

0

Просто добавление: вы должны добавить "Геддафи" в качестве альтернативного написания. Таким образом, RE должен быть

\b[KG]h?[ae]dd?af?fi$\b

Vito De Tullio 21 март 2011, в 16:20

Ещё вопросы

Откуда ты знаешь, что тебе не хватает некоторых журналов?
Какие из них вам не хватает? И где вы ищете, есть ли веб-поиск с помощью регулярных выражений?
Каждый раз, когда я читаю новый журнал, я нахожу новое написание. Например, NY Times использует Каддафи.
Всегда публикуются новые журналы, поэтому, если они будут продолжать писать о Gadaffi, вы будете стремиться к .+ Быть единственным действительным регулярным выражением.
Я обнаружил, что эта картина помогает с различными написаниями: upload.wikimedia.org/math/6/1/f/…
Как обычно, Lisp реализовал это первым - foldr.org/~michaelw/projects/regex/regexp-test-suite.lisp (прокрутите примерно на полпути вниз)
Сложность перевода (таким образом, причина столь большого количества вариаций) является следствием того факта, что название является прямой транслитерацией с арабского языка.
@ Вчера я не знаком с арабским языком, но почему так много транслитераций на один язык (английский)?
Попробуйте те же самые методы для поиска слонов. Просто найдите Гадаффи в Африке. Опытным программистам понадобится Gadaffi, похожий на другого, а математики больше не будут популярны в Африке. Использование регулярного выражения звучит как худшая из всех идей, потому что, знаете, теперь у вас есть две проблемы. SCNR
Gheddafi также принимается выражением ниже $ echo Gheddafi | pcregrep --color "\b(Kh?|Gh?|Qu?)[aeu](d['dt]?|t|zz|dhd)h?aff?[iy]\b"
Вы можете не верить мне, но я независимо друг от друга просто подумал об этом сегодня и подумал, что это будет аккуратный вопрос регулярного выражения. Тогда я обнаружил, что ты победил меня несколько месяцев назад. Следующим шагом будет машинное обучение, которое объединяет все возможные варианты написания до наиболее компактного регулярного выражения (не уверен, должно ли оно исключать ложные альтернативы).
Хорошо, что нет такого правила, как «число d и f должно быть одинаковым», поэтому мы можем обойтись без написания контекстно-свободной грамматики :)
Учитывая, что мир обычно разбит на страны, вам нужно будет рекурсивно искать каждую страну или, по крайней мере, иметь цикл в выражении для поиска в каждой подгруппе. Я не думаю, что регулярные выражения - это верный способ найти Каддаффи. Не похоже, что он прячется в HTML-документе.
@peachykeen он очень Wiley лисицы, он может скрываться в любом месте!
@Daniel Sterling: на самом деле, тест Khadafy является частью GNU grep testsuite с момента первоначальной фиксации в RCS (вт. 3 ноября 21:38:52 1998 +0000), и, вероятно, даже старше этого!
Я бы не только попробовал регулярные выражения, но и расстояние Левенштейна
Рекс производит случайные члены набора результатов с заданным регулярным выражением. Вот пример для вашего примера: rise4fun.com/Rex/ELh
Если вы нашли список в Интернете, вам даже не нужно регулярное выражение! Просто скопируйте и вставьте список и, используя некоторую обработку строк, превратите его в список. Используйте язык программирования, чтобы увидеть, есть ли слова в статье в списке.
Познакомьтесь с точностью и вспомните. Какой из них важнее, определит, является ли регулярное или явное перечисление более подходящим. en.wikipedia.org/wiki/Precision_and_recall
Отличный ответ! Люди используют регулярные выражения гораздо чаще, чем заботятся о том, как они на самом деле работают.
Мне также очень нравится простота этого решения, но я удивлен, что это скомпилируется в тот же DFA. У вас есть ссылка, которая говорит об этом? Интуитивно кажется, что это может быть менее эффективно, чем ранее созданное регулярное выражение или ответ ниже, который предлагает использовать модуль Perl Regexp :: Assemble в том же списке имен or'd.
-1 Смысл регулярного выражения состоит в том, чтобы сократить то, что часто может быть - как это в данном случае - очень длинный список альтернатив относительно короткой формуле. Результат может часто выполняться быстрее, чем выполнение неоптимизированного исчерпывающего поиска.
Вы правы, что цель регулярных выражений состоит в том, чтобы предоставить компактное, четкое представление для большого набора значений. Но основная концепция состоит в том, чтобы представить регулярное выражение и сказать «все, что соответствует этому, хорошо». То есть предполагается, что у вас есть свобода включать что-либо систематическое. Здесь мы имеем противоположную ситуацию: варианты написания (и варианты, которые никогда не появляются) являются едва ли не этой стороной «совершенно случайного». Сложные попытки «компактности» получают очень низкие баллы за «чистоту»!
Основные вкусы регулярных выражений не соответствуют DFA.
Также посмотрите алгоритм Aho-Corasick, который оптимален для одновременного поиска строк: en.wikipedia.org/wiki/…
Есть ли способ узнать, что из этого делает двигатель?
Обратите внимание, что soundex специализируется на английском языке, существуют другие фонетические алгоритмы для других языков с другими правилами произношения.
Хотя это правда, мы находимся в странной ситуации здесь. Основной запрос был «Я пытаюсь найти слово Gadaffi», но я чувствую, что регулярное выражение было красной сельдью. Не существует сборника правил транслитерации на арабский и латинский языки, и поэтому обращение к регулярному выражению из списка не будет полностью отвечать первоначальному запросу.
Я чувствую, что система нечеткого соответствия лучше подходит, но собственный алгоритм кажется излишним. Использование комбинации soundex-metaphone, кажется, работает так же хорошо, как и решение регулярных выражений, позволяя создавать дополнительные непредвиденные варианты написания, в то же время просто используя стандартные алгоритмы.
Использование metaphone2 и metaphone3 приводит к лучшим результатам (т. Е. Почти все в metaphone2 - это KDF, а metaphone1 - не совсем). Однако Metaphone3 стоит около 40 долларов.
Далее просто отправьте nytimes.com через Google Translate, и Боб станет вашим дядей.
Я знаю, что это возможно там, но как бы вы это сделали на практике (используя, например, какой-то общий динамический язык)
Я понимаю теорию, стоящую за этим, но, как и @Rory, мне также интересно узнать, как бы вы на самом деле сделали это на практике.
да, я думал об этом, чтобы дать лучший ответ, но сейчас я немного занят. у меня есть некоторый (некрасивый и плохо документированный) код на code.google.com/p/lepl/source/browse/src/lepl/regexp/core.py, который создает dfa из регулярного выражения (фактически, анализатор находится в другом классе , но тяжелая работа есть, вы идете regexp -> nfa -> dfa). перейти от dfa к регулярному выражению легко (я думаю?).
на самом деле, документация там лучше, чем я помню: o) основная идея состоит в том, что вы описываете регулярное выражение в терминах классов в верхней части файла. тогда его можно довольно легко перевести на nfa (на самом деле nfa - это просто набор переходов, говорящих «если вы получите это письмо, то вы можете перейти сюда или сюда ...», это довольно легко понять). тогда dfa - это своего рода «расширенная» версия того, где вы избегаете возврата; это сделано NfaToDfa (и это сложная часть). тогда dfa может быть сам по себе регулярным выражением, которое записывается как очень сложные наборы символов (?!)
Ваши \b включены только в первый и последний варианты.
@ Кристофер Кройциг, конечно, вы правы, исправлено.
Из крекинг словаря , который я случайно уже сидели: kartografi kryptografi Gaddafi Qaddafi gadafi gaddafi katastloofi katastorfi katastrofi khadaffi kadafi kardiyografi gaskromatografi kardiografi kinematografi kromatografi krystallografi kulturgeografi gandolfi grizzaffi gadhafi kadaffi kaddafi khaddafi qaddafi qadhafi quedaffi gordonsCHsKFI . Однако некоторые из них не являются ложными срабатываниями.
И дополнения к этому списку, которые заканчиваются на [iy] вместо просто i : gelatinify gentrify ghostlify giddify gladify goutify gratify "Gyula Dessewffy" katasrofy katastrofy khadafy quantify quasi-deify quizzify

Czechnology · Accepted Answer · 2011-03-20T00-00-00.000Z

\b[KGQ]h?add?h?af?fi\b

Арабская транскрипция (Wiki говорит) "Qaḏḏāfī", поэтому, возможно, добавление Q. И один H ( "Каддафи", как упоминается в статье (см. ниже)).

Btw, почему существует $ в конце регулярного выражения?

Btw, хорошая статья по теме:

Каддафи, Кадафи или Каддафи? Почему имя ливийских лидеров написано так много разных способов?

ИЗМЕНИТЬ

Чтобы соответствовать всем именам в статье, о которой вы упоминали позже, это должно совпадать со всеми. Надеюсь, что это не будет соответствовать многим другим вещам: D

\b(Kh?|Gh?|Qu?)[aeu](d['dt]?|t|zz|dhd)h?aff?[iy]\b

$ Неправильный, я сначала сопоставил конец строки, забыл удалить его.
@DiggyF, нет, я просто подумал, что если в Qaḏḏāfī транскрипции написано Qaḏḏāfī , то регулярное выражение должно также проверять наличие Qaddafi . Если вы хотите поискать и арабскую транскрипцию, просто поищите ее - я не думаю, что есть больше вариантов арабской транскрипции, только для английской транскрипции.
@DiggyF, я отредактировал более длинное регулярное выражение, которое соответствует всем именам в статье, которую вы опубликовали (кроме двух с ? Вместо букв). Хотя это может быть излишним.
Да, я проверил это, это получил их всех. Я добавлю список 30 вариантов также к вопросу. Спасибо большое.
Это также соответствует «Quuzzafi» и куче других ложных срабатываний, хотя я полагаю, что при поиске в новостях и т. Д. Это не будет иметь большого значения.
@Czechnology - возможно, вы могли бы добавить эту диаграмму: debuggex.com/r/V69MyxmjYKi5YxX7