Нечувствительный к регистру строковый класс в Python

Question

Нечувствительный к регистру строковый класс в Python

1

Мне нужно выполнить сравнения строк без учета регистра в python в наборах и словарных клавишах. Теперь для создания наборов и подклассов dict, которые нечувствительны к регистру, оказывается удивительно сложным (см.: Нечувствительный к регистру словарь для идей, обратите внимание, что все они используют ниже - эй там даже отклоненный PEP, хотя его объем немного шире). Поэтому я пошел с созданием нечувствительного к регистру строкового класса (используя этот ответ by @AlexMartelli):

class CIstr(unicode):
    """Case insensitive with respect to hashes and comparisons string class"""

    #--Hash/Compare
    def __hash__(self):
        return hash(self.lower())
    def __eq__(self, other):
        if isinstance(other, basestring):
            return self.lower() == other.lower()
        return NotImplemented
    def __ne__(self, other): return not (self == other)
    def __lt__(self, other):
        if isinstance(other, basestring):
            return self.lower() < other.lower()
        return NotImplemented
    def __ge__(self, other): return not (self < other)
    def __gt__(self, other):
        if isinstance(other, basestring):
            return self.lower() > other.lower()
        return NotImplemented
    def __le__(self, other): return not (self > other)

Я полностью понимаю, что lower не очень-то достаточно, чтобы охватить все случаи сравнения строк в юникоде, но я рефакторинг существующего кода, который использовал много clunkier-класс для сравнения строк (память и скорость), которые в любом случае использовали lower() - поэтому я могу изменить это на более позднем этапе - плюс я на python 2 (как видно на unicode). Мои вопросы:

Я получил операторы правильно?
- этот класс достаточно для моих целей, учитывая, что я позабочусь о создании ключей в dicts и наборе элементов как экземпляры CIstr - мои цели - проверка равенства, сдерживания, установки различий и аналогичных операций в нечувствительном к регистру путь. Или я что-то упускаю?
Стоит ли кэшировать строчную версию строки (как видно, например, в этом древнем рецепте python: Нечувствительные к регистру строки). Этот comment предполагает, что нет - плюс я хочу построить как можно быстрее и размер как можно меньше, но люди, похоже, включают это.

Советы по совместимости с Python 3 оценены!

Маленькая демонстрация:

d = {CIstr('A'): 1, CIstr('B'): 2}
print 'a' in d # True
s = set(d)
print {'a'} - s # set([])

Mr_and_Mrs_D 30 март 2017, в 18:11

Источник

1

Вы уверены, что вам нужен класс? Почему бы вам просто не передать функцию сравнения при необходимости? Или хранить вещи lower Эд?
Karoly Horvath 30 март 2017, в 15:34
0

@Karoly Мне нужны исходные строки - передача функции comp приведет к меньшему количеству поддерживаемого кода
Mr_and_Mrs_D 30 март 2017, в 15:35
0

Я бы беспокоился о том, чтобы экземпляры CIstr утверждали, что они равны нормальным строкам, которые не равны им и имеют другой хеш.
khelwood 30 март 2017, в 15:36
0

@khelwood: какой-нибудь пример, который приведет к нарушению поведения?
Mr_and_Mrs_D 30 март 2017, в 15:39
0

@Mr_and_Mrs_D: Я не уверен, что вы делаете, но создание функций-обёрток для поиска, вероятно, решает проблему с ремонтопригодностью, но это только мое предположение.
Karoly Horvath 30 март 2017, в 15:39
0

@Mr_and_Mrs_D Ну учитывая словарь вы определили в вашем крошечном демо, я бы не ожидал d['A'] , чтобы работать (с капиталом 'A' имеет другой хэш от CIstr('A') ), но , возможно , это не требование для вас.
khelwood 30 март 2017, в 15:50
0

@khelwood: Контракт заключается в том, что эти дикты будут иметь только экземпляры CIstr в качестве ключей - в идеале, механизм должен быть внутри dict, но это оказывается сложно, как видно из ссылок
Mr_and_Mrs_D 30 март 2017, в 15:52
0

Но в вашей демоверсии вы используете 'a' чтобы искать вещи в вашем наборе. Это не сработает, если вы попытаетесь использовать 'A' . Также 'A' in d.keys() будет true, но 'A' in d будет false. По сути, вы создали тип, который нарушает обычный контракт всех хешей, утверждая, что он равен объектам с разными хешами.
khelwood 30 март 2017, в 15:53
0

@khelwood: допустимые точки - то, что делает существующий код, точно имеет наборы (dicts) строчных букв (ключей) для сравнения друг с другом. Тем не менее остается вопрос - есть ли способ получить это право?
Mr_and_Mrs_D 30 март 2017, в 16:03
0

Вы можете объединить этот ответ с ответами о создании специализированных диктов, и иметь диктовку, которая преобразует любой возможный ключ в CIstr прежде чем пытаться его найти. Тогда все ваши преобразования CIstr могут быть скрыты внутри класса словаря.
khelwood 30 март 2017, в 16:07
0

@khelwood: этот код подходит для ответа: P Обратите внимание, что даже конструктор такого диктата трудно понять правильно
Mr_and_Mrs_D 30 март 2017, в 16:08

Показать ещё 9 комментариев

Теги:

python

string

python-2.7

case-insensitive

2 ответа

1

В основном код выглядит нормально. Я бы устранил сокращение в __ge__, __le__ и __ne__ и расширил их, чтобы напрямую вызвать lower().

Кратковременное выражение похоже на то, что сделано в `functools.total_ordering(), но оно просто замедляет работу кода и затрудняет тестирование межтиповых сравнений, которые сложны, чтобы получить право, когда методы взаимозависимы.

Raymond Hettinger 30 март 2017, в 14:26

1

К сожалению, в его нынешнем виде это ведет к неправильному поведению ( 'A' in d.keys() против 'A' in d ) - так принято @khelwood ответ - мне пришлось пойти дальше и написать обертку-обертку: stackoverflow.com/a/43457369 / 281545 . Комментарии более чем приветствуются :)
Mr_and_Mrs_D 17 апр. 2017, в 18:39

Ещё вопросы

Вы уверены, что вам нужен класс? Почему бы вам просто не передать функцию сравнения при необходимости? Или хранить вещи lower Эд?
@Karoly Мне нужны исходные строки - передача функции comp приведет к меньшему количеству поддерживаемого кода
Я бы беспокоился о том, чтобы экземпляры CIstr утверждали, что они равны нормальным строкам, которые не равны им и имеют другой хеш.
@khelwood: какой-нибудь пример, который приведет к нарушению поведения?
@Mr_and_Mrs_D: Я не уверен, что вы делаете, но создание функций-обёрток для поиска, вероятно, решает проблему с ремонтопригодностью, но это только мое предположение.
@Mr_and_Mrs_D Ну учитывая словарь вы определили в вашем крошечном демо, я бы не ожидал d['A'] , чтобы работать (с капиталом 'A' имеет другой хэш от CIstr('A') ), но , возможно , это не требование для вас.
@khelwood: Контракт заключается в том, что эти дикты будут иметь только экземпляры CIstr в качестве ключей - в идеале, механизм должен быть внутри dict, но это оказывается сложно, как видно из ссылок
Но в вашей демоверсии вы используете 'a' чтобы искать вещи в вашем наборе. Это не сработает, если вы попытаетесь использовать 'A' . Также 'A' in d.keys() будет true, но 'A' in d будет false. По сути, вы создали тип, который нарушает обычный контракт всех хешей, утверждая, что он равен объектам с разными хешами.
@khelwood: допустимые точки - то, что делает существующий код, точно имеет наборы (dicts) строчных букв (ключей) для сравнения друг с другом. Тем не менее остается вопрос - есть ли способ получить это право?
Вы можете объединить этот ответ с ответами о создании специализированных диктов, и иметь диктовку, которая преобразует любой возможный ключ в CIstr прежде чем пытаться его найти. Тогда все ваши преобразования CIstr могут быть скрыты внутри класса словаря.
@khelwood: этот код подходит для ответа: P Обратите внимание, что даже конструктор такого диктата трудно понять правильно
К сожалению, в его нынешнем виде это ведет к неправильному поведению ( 'A' in d.keys() против 'A' in d ) - так принято @khelwood ответ - мне пришлось пойти дальше и написать обертку-обертку: stackoverflow.com/a/43457369 / 281545 . Комментарии более чем приветствуются :)

khelwood · Accepted Answer · 2017-03-30T13-32-00.000Z

В вашей демонстрации вы используете 'a', чтобы выглядеть в своем наборе. Это не сработает, если вы попытаетесь использовать 'a', потому что 'a' имеет другой хеш. Также 'A' in d.keys() будет true, но 'A' in d будет ложным. Вы по существу создали тип, который нарушает нормальный контракт всех хэшей, утверждая, что он равен объектам с разными хэшами.

Вы могли бы объединить этот ответ с ответами о создании специализированных диктов и иметь dict, который преобразует любой возможный ключ в CIstr, прежде чем пытаться его найти. Затем все ваши преобразования CIstr могут быть скрыты внутри класса словаря.

например.

class CaseInsensitiveDict(dict):
    def __setitem__(self, key, value):
        super(CaseInsensitiveDict, self).__setitem__(convert_to_cistr(key), value)
    def __getitem__(self, key):
        return super(CaseInsensitiveDict, self).__getitem__(convert_to_cistr(key))
    # __init__, __contains__ etc.

(На основе qaru.site/questions/42092/...)

Это то, что я изначально думал - но есть много сложностей в создании такого класса пуленепробиваемым способом - так что даже конструктор будет хитрым - что даст CaseInsensitiveDict({'A': 1}) ?
Я предполагаю, что вам придется перебирать элементы в данном файле и преобразовывать каждый ключ в нужную форму. Если вы хотите что-то отличное от этого, вам решать, каковы ваши требования.
Также подумайте, что такой диктат должен позаботиться о различении строковых и нестроковых ключей
Я пошел за упаковкой dict - пожалуйста, посмотрите на stackoverflow.com/a/43457369/281545 :)