Игнорирование акцентированных букв при сравнении строк

Question

Игнорирование акцентированных букв при сравнении строк

110

Мне нужно сравнить 2 строки в С# и обрабатывать акцентированные буквы так же, как буквы без акцента. Например:

string s1 = "hello";
string s2 = "héllo";

s1.Equals(s2, StringComparison.InvariantCultureIgnoreCase);
s1.Equals(s2, StringComparison.OrdinalIgnoreCase);

Эти две строки должны быть одинаковыми (что касается моего приложения), но оба этих утверждения оцениваются как false. Есть ли способ в С# для этого?

Jon Tackabury 11 дек. 2008, в 17:32

Источник

Теги:

c#

string

localization

6 ответов

110

Если вам не нужно преобразовать строку, и вы просто хотите проверить равенство, вы можете использовать

string s1 = "hello";
string s2 = "héllo";

if (String.Compare(s1, s2, CultureInfo.CurrentCulture, CompareOptions.IgnoreNonSpace) == 0)
{
    // both strings are equal
}

или если вы хотите, чтобы сравнение было нечувствительным к регистру, а также

string s1 = "HEllO";
string s2 = "héLLo";

if (String.Compare(s1, s2, CultureInfo.CurrentCulture, CompareOptions.IgnoreNonSpace | CompareOptions.IgnoreCase) == 0)
{
    // both strings are equal
}

knightpfhor 11 окт. 2011, в 04:22

0

Если кому-то еще интересно узнать об этой опции IgnoreNonSpace, вы можете прочитать это обсуждение. pcreview.co.uk/forums/accent-insensitive-t3924592.html TLDR; все нормально :)
Jim W 06 март 2014, в 04:25
0

на msdn: «Стандарт Unicode определяет комбинирующие символы как символы, которые объединяются с базовыми символами для создания нового символа. Непроходные комбинирующие символы сами по себе не занимают промежуточного положения при визуализации».
Avlin 24 апр. 2014, в 09:15
0

Хорошо, этот метод не удалось для этих 2 строк: tarafli / TARAFLİ, однако SQL-сервер говорит, что равно, как предполагается,
MonsterMMORPG 12 янв. 2015, в 15:38
2

Это связано с тем, что обычно SQL Server не учитывает регистр, но по умолчанию сравнения в .Net чувствительны к регистру. Я обновил ответ, чтобы показать, как сделать этот регистр нечувствительным.
knightpfhor 13 янв. 2015, в 20:25

Показать ещё 2 комментария

6

Следующий метод CompareIgnoreAccents(...) работает с вашими данными примера. Вот статья, в которой я получил свою справочную информацию: http://www.codeproject.com/KB/cs/EncodingAccents.aspx

private static bool CompareIgnoreAccents(string s1, string s2)
{
    return string.Compare(
        RemoveAccents(s1), RemoveAccents(s2), StringComparison.InvariantCultureIgnoreCase) == 0;
}

private static string RemoveAccents(string s)
{
    Encoding destEncoding = Encoding.GetEncoding("iso-8859-8");

    return destEncoding.GetString(
        Encoding.Convert(Encoding.UTF8, destEncoding, Encoding.UTF8.GetBytes(s)));
}

Я думаю, что метод расширения будет лучше:

public static string RemoveAccents(this string s)
{
    Encoding destEncoding = Encoding.GetEncoding("iso-8859-8");

    return destEncoding.GetString(
        Encoding.Convert(Encoding.UTF8, destEncoding, Encoding.UTF8.GetBytes(s)));
}

Тогда использование будет следующим:

if(string.Compare(s1.RemoveAccents(), s2.RemoveAccents(), true) == 0) {
   ...

Ryan Cook 11 дек. 2008, в 17:02

1

это делает акцентированное письмо к '?'
onmyway133 07 нояб. 2012, в 04:51
4

Это разрушительное сравнение, где, например, А и Е будут рассматриваться как равные. Вы теряете любые символы выше 0xFF, и нет никакой гарантии, что строки равны - игнорируя-акценты.
Abel 07 май 2013, в 15:18
0

Вы также теряете такие вещи, как ñ. Не решение, если вы спросите меня.
Ignacio Soler Garcia 02 фев. 2016, в 08:45

Показать ещё 1 комментарий

0

Более простой способ удаления акцентов:

    Dim source As String = "áéíóúç"
    Dim result As String

    Dim bytes As Byte() = Encoding.GetEncoding("Cyrillic").GetBytes(source)
    result = Encoding.ASCII.GetString(bytes)

Newton Carlos Dantas 01 сен. 2014, в 13:29

0

Мне нужно было сделать что-то подобное, но с помощью метода StartsWith. Вот простое решение, полученное из @Serge - appTranslator.

Вот метод расширения:

    public static bool StartsWith(this string str, string value, CultureInfo culture, CompareOptions options)
    {
        if (str.Length >= value.Length)
            return string.Compare(str.Substring(0, value.Length), value, culture, options) == 0;
        else
            return false;            
    }

И для одного лайнера freaks;)

    public static bool StartsWith(this string str, string value, CultureInfo culture, CompareOptions options)
    {
        return str.Length >= value.Length && string.Compare(str.Substring(0, value.Length), value, culture, options) == 0;
    }

Акцентирующие нечувствительные и нечувствительные к случаю случаи, которые можно назвать такими

value.ToString().StartsWith(str, CultureInfo.InvariantCulture, CompareOptions.IgnoreNonSpace | CompareOptions.IgnoreCase)

Guish 19 дек. 2013, в 16:32

-2

попробуйте эту перегрузку по методу String.Compare.

Метод String.Compare(String, String, Boolean, CultureInfo)

Он производит значение int, основанное на операциях сравнения, включая cultureinfo. в примере на странице сравнивается "Изменить" в en-US и en-CZ. CH в en-CZ - это единственная "буква".

пример из ссылки

using System;
using System.Globalization;

class Sample {
    public static void Main() {
    String str1 = "change";
    String str2 = "dollar";
    String relation = null;

    relation = symbol( String.Compare(str1, str2, false, new CultureInfo("en-US")) );
    Console.WriteLine("For en-US: {0} {1} {2}", str1, relation, str2);

    relation = symbol( String.Compare(str1, str2, false, new CultureInfo("cs-CZ")) );
    Console.WriteLine("For cs-CZ: {0} {1} {2}", str1, relation, str2);
    }

    private static String symbol(int r) {
    String s = "=";
    if      (r < 0) s = "<";
    else if (r > 0) s = ">";
    return s;
    }
}
/*
This example produces the following results.
For en-US: change < dollar
For cs-CZ: change > dollar
*/

поэтому для акцентированных языков вам нужно будет получить культуру, а затем проверить строки на основе этого.

http://msdn.microsoft.com/en-us/library/hyxc48dt.aspx

littlegeek 11 дек. 2008, в 17:11

0

Это лучший подход, чем прямое сравнение строк, но он по-прежнему рассматривает основную букву и ее акцентированную версию по- разному . Поэтому он не отвечает на оригинальный вопрос, который хотел, чтобы акценты были проигнорированы.
C.B. 15 май 2013, в 14:43

Ещё вопросы

Если кому-то еще интересно узнать об этой опции IgnoreNonSpace, вы можете прочитать это обсуждение. pcreview.co.uk/forums/accent-insensitive-t3924592.html TLDR; все нормально :)
на msdn: «Стандарт Unicode определяет комбинирующие символы как символы, которые объединяются с базовыми символами для создания нового символа. Непроходные комбинирующие символы сами по себе не занимают промежуточного положения при визуализации».
Хорошо, этот метод не удалось для этих 2 строк: tarafli / TARAFLİ, однако SQL-сервер говорит, что равно, как предполагается,
Это связано с тем, что обычно SQL Server не учитывает регистр, но по умолчанию сравнения в .Net чувствительны к регистру. Я обновил ответ, чтобы показать, как сделать этот регистр нечувствительным.
это делает акцентированное письмо к '?'
Это разрушительное сравнение, где, например, А и Е будут рассматриваться как равные. Вы теряете любые символы выше 0xFF, и нет никакой гарантии, что строки равны - игнорируя-акценты.
Вы также теряете такие вещи, как ñ. Не решение, если вы спросите меня.
Это лучший подход, чем прямое сравнение строк, но он по-прежнему рассматривает основную букву и ее акцентированную версию по- разному . Поэтому он не отвечает на оригинальный вопрос, который хотел, чтобы акценты были проигнорированы.

Serge Wautier · Accepted Answer · 2008-12-15T17-00-00.000Z

EDIT 2012-01-20: О, мальчик! Решение было намного проще и было в рамках почти навсегда. Как указано knightpfhor:

string.Compare(s1, s2, CultureInfo.CurrentCulture, CompareOptions.IgnoreNonSpace);

Здесь функция, которая переводит диакритические символы из строки:

static string RemoveDiacritics(string text)
{
  string formD = text.Normalize(NormalizationForm.FormD);
  StringBuilder sb = new StringBuilder();

  foreach (char ch in formD)
  {
    UnicodeCategory uc = CharUnicodeInfo.GetUnicodeCategory(ch);
    if (uc != UnicodeCategory.NonSpacingMark)
    {
      sb.Append(ch);
    }
  }

  return sb.ToString().Normalize(NormalizationForm.FormC);
}

Подробнее в блоге MichKap (RIP...).

Принцип состоит в том, что он превращается 'é' в 2 последовательных символа 'e', острый. Затем он повторяется через символы и пропускает диакритические знаки.

"héllo" становится "he <sharp> llo", который, в свою очередь, становится "привет".

Debug.Assert("hello"==RemoveDiacritics("héllo"));

Примечание. Здесь более компактная версия .NET4 + с той же функцией:

static string RemoveDiacritics(string text)
{
  return string.Concat( 
      text.Normalize(NormalizationForm.FormD)
      .Where(ch => CharUnicodeInfo.GetUnicodeCategory(ch)!=
                                    UnicodeCategory.NonSpacingMark)
    ).Normalize(NormalizationForm.FormC);
}

Как это сделать в ядре .net, так как в нем нет string.Normalize ?
Спасибо за это, хотелось бы, чтобы я проголосовал не раз! Однако он не обрабатывает все акцентированные буквы, например, ð, ħ и ø не преобразуются в o, h и o соответственно. Есть ли способ справиться с этим, а?
@AvrohomYisroel «ð» - это «латинская строчная буква Eth», которая представляет собой отдельную букву, а не «o-with-accent» или «d-with-accent». Другими являются "латинская строчная буква H с ударом" и "латинская строчная буква O с ударом", которые также можно рассматривать как отдельные буквы