Поиск дубликатов и их удаление

Question

Поиск дубликатов и их удаление

1

иногда у меня есть строка, подобная этой

string = "Hett, Agva,"

и иногда у меня будут дубликаты.

string = "Hett, Agva, Delf, Agva, Hett,"

как я могу проверить, есть ли у моей строки дубликаты, а затем, если она удаляет их?

ОБНОВИТЬ.

Поэтому во второй строке мне нужно удалить Agva и Hett, потому что в строке есть 2x из них

Chaban33 29 авг. 2018, в 11:46

Источник

1

',' также дубликат? Как вы определяете дубликаты?
Ev. Kounis 29 авг. 2018, в 09:44
0

если есть 2x Agva, мне нужно удалить один
Chaban33 29 авг. 2018, в 09:46
0

Нужно ли поддерживать порядок после удаления дубликатов?
jpp 29 авг. 2018, в 09:48
0

так что 'Hett' который появляется дважды, не беспокоит вас. Вы должны немного поработать над своим определением. Если это просто 'Agva' вы можете переписать строку.
Ev. Kounis 29 авг. 2018, в 09:49
0

ОП хочет, чтобы все дубликаты были удалены, будь то Hett Agva или blah
Sheldore 29 авг. 2018, в 09:52
0

Возможные дубликаты Как я могу удалить повторяющиеся слова в строке с Python?
Ankur Sinha 29 авг. 2018, в 10:09

Показать ещё 4 комментария

Теги:

python

python-2.7

5 ответов

1

Если порядок слов id важен, вы можете составить список слов в строке, а затем перебрать список, чтобы создать новый список уникальных слов.

string = "Hett, Agva, Delf, Agva, Hett,"
words_list = string.split()

unique_words = []
[unique_words.append(w) for w in words_list if w not in unique_words]
new_string = ' '.join(unique_words)
print (new_String)

Выход:

'Hett, Agva, Delf,'

haccks 29 авг. 2018, в 08:39

0

Как только вы составите список только слов без запятой, просто выполните set(list_name) . Например x = ['a', 'b', 'a'] и set(x) дают {'a', 'b'} . Это может быть в дальнейшем преобразовано в список
Sheldore 29 авг. 2018, в 09:48
0

@ Базингаа Нет, потому что тогда вы потеряете заказ. Моя логика необходима.
Joe Iddon 29 авг. 2018, в 09:53
0

@Bazingaa; ОП не указал, хочет ли он удалить ','. Так что я оставил все как есть.
haccks 29 авг. 2018, в 09:55
0

Хотя это не так эффективно, как использование набора, см. Мой ответ.
Joe Iddon 29 авг. 2018, в 09:59
0

@JoeIddon: Ну, если ОП не указывает, что порядок должен поддерживаться, мы не знаем.
Sheldore 29 авг. 2018, в 10:00
0

@ Базингаа, наверное.
Joe Iddon 29 авг. 2018, в 10:00

Показать ещё 4 комментария

1

Вы можете использовать toolz.unique или, что то же самое, unique_everseen рецепт в документах itertools или эквивалентно явное решение @JoeIddon.

Здесь решение с использованием сторонних toolz:

x = "Hett, Agva, Delf, Agva, Hett,"

from toolz import unique

res = ', '.join(filter(None, unique(x.replace(' ', '').split(','))))

print(res)

'Hett, Agva, Delf'

Я удалил пробел и использовал filter для очистки трейлинга , который может не потребоваться.

jpp 29 авг. 2018, в 08:37

1

если вы получите строку только в этом формате, вы можете сделать следующее:

import numpy as np

string_words=string.split(',')
uniq_words=np.unique(string_words)

string=""
for word in uniq_words:
    string+=word+", "
string=string[:-1]

что делает этот код, так это то, что он разбивает слова на список, находит уникальные элементы и затем объединяет их в строку, как раньше

Imtinan Azhar 29 авг. 2018, в 07:12

0

Это выглядит немного уродливо,

', '.join(set(filter(None, [i.strip() for i in string.split(',')])))

но делает работу;)

Надеюсь, поможет!! Пожалуйста, не стесняйтесь спрашивать, не ясно ли что-то :)

Nimeshka Srimal 29 авг. 2018, в 09:37

Ещё вопросы

',' также дубликат? Как вы определяете дубликаты?
если есть 2x Agva, мне нужно удалить один
Нужно ли поддерживать порядок после удаления дубликатов?
так что 'Hett' который появляется дважды, не беспокоит вас. Вы должны немного поработать над своим определением. Если это просто 'Agva' вы можете переписать строку.
ОП хочет, чтобы все дубликаты были удалены, будь то Hett Agva или blah
Возможные дубликаты Как я могу удалить повторяющиеся слова в строке с Python?
Как только вы составите список только слов без запятой, просто выполните set(list_name) . Например x = ['a', 'b', 'a'] и set(x) дают {'a', 'b'} . Это может быть в дальнейшем преобразовано в список
@ Базингаа Нет, потому что тогда вы потеряете заказ. Моя логика необходима.
@Bazingaa; ОП не указал, хочет ли он удалить ','. Так что я оставил все как есть.
Хотя это не так эффективно, как использование набора, см. Мой ответ.
@JoeIddon: Ну, если ОП не указывает, что порядок должен поддерживаться, мы не знаем.

Joe Iddon · Accepted Answer · 2018-08-29T08-09-00.000Z

Итерации над частями (словами) и добавление каждой части в набор замеченных частей и список частей, если он еще не находится в этом наборе. В заключение. восстановите строку:

seen = set()
parts = []
for part in string.split(','):
    if part.strip() not in seen:
        seen.add(part.strip())
        parts.append(part)

no_dups = ','.join(parts)

(обратите внимание, что мне пришлось добавить некоторые вызовы в .strip() поскольку в начале некоторых слов, которые этот метод удаляет, есть пробелы)

который дает:

'Hett, Agva, Delf,'

Зачем использовать набор?

Чтобы запросить, является ли элемент in наборе, это O(1) средний случай - поскольку они хранятся хешем, который делает постоянным время поиска. С другой стороны, поиск в списке - это O(n) поскольку Python должен перебирать список до тех пор, пока элемент не будет найден. Это означает, что для этой задачи гораздо эффективнее использовать set поскольку для каждого нового слова вы можете мгновенно проверить, видели ли вы раньше, тогда как вам нужно будет перебирать list видимых элементов, иначе для большого списка требуется намного больше времени.

О, и просто проверить, есть ли дубликаты, спросите, совпадает ли длина списка расщепления с набором этого списка (который удаляет дубликаты, но теряет порядок).

Т.е.

def has_dups(string):
    parts = string.split(',')
    return len(parts) != len(set(parts))

которая работает так, как ожидалось:

>>> has_dups('Hett, Agva,')
False
>>> has_dups('Hett, Agva, Delf, Agva, Hett,')
True

но Хетт, также является дубликатом,
@ Chaban33 Мой плохой, нужно лишить ведущих мест ... Теперь это работает :)
Спасибо за удивительное объяснение