Эффективное удаление дубликатов из CSV в Python

Question

Эффективное удаление дубликатов из CSV в Python

1

Я пытаюсь эффективно удалить повторяющиеся строки из относительно больших (несколько сотен МБ) файлов CSV, которые не упорядочены каким-либо значимым образом. Хотя у меня есть техника для этого, это очень грубая сила, и я уверен, что есть моё элегантное и более эффективное средство.

TimothyAWiseman 28 июль 2011, в 20:54

Источник

1

Вы пробовали какой-либо код?
Dogbert 28 июль 2011, в 18:22
7

Если порядок не важен, я бы просто использовал хороший старый sort file | uniq и продолжить мою жизнь
Jacob 28 июль 2011, в 18:23
3

@cularis: не будет ли sort -u file делать то же самое?
Mattias Nilsson 28 июль 2011, в 18:27
1

@ Маттиас круто! Я не знал, что сортировка имеет уникальный флаг.
Jacob 28 июль 2011, в 18:31
0

Если есть строка заголовка, вы можете использовать sed чтобы игнорировать ее. sed 1d file | sort -u
tgray 28 июль 2011, в 18:49

Показать ещё 3 комментария

Теги:

python

csv

performance

2 ответа

1

Следующее предполагает, что строки, которые вы получаете из CSV, заканчиваются списками списков. Затем вы должны решить, на какой основе вы дедуплицируете (т.е. Какой столбец). В приведенном ниже примере это первый столбец (x[0])

def dedup(seq):
""" De-duplicate a list based on the first member of the sublist
"""
seen = set()
seen_add = seen.add
return [x for x in seq if
    x[0] not in seen
    and not seen_add(x[0])]

urschrei 28 июль 2011, в 17:28

0

Спасибо, но это было связано с уникальностью всей строки (по сути, только полная строка скомпрометировала ключ), и я искал уникальность всей строки. Ваша техника отлично подойдет для определенных ситуаций, но эти файлы были слишком большими, чтобы сделать это без проблем с памятью на недостаточно мощной машине, которую я использую.
TimothyAWiseman 19 авг. 2011, в 21:02

Ещё вопросы

Если порядок не важен, я бы просто использовал хороший старый sort file | uniq и продолжить мою жизнь
@cularis: не будет ли sort -u file делать то же самое?
@ Маттиас круто! Я не знал, что сортировка имеет уникальный флаг.
Если есть строка заголовка, вы можете использовать sed чтобы игнорировать ее. sed 1d file | sort -u
Спасибо, но это было связано с уникальностью всей строки (по сути, только полная строка скомпрометировала ключ), и я искал уникальность всей строки. Ваша техника отлично подойдет для определенных ситуаций, но эти файлы были слишком большими, чтобы сделать это без проблем с памятью на недостаточно мощной машине, которую я использую.

Mattias Nilsson · Accepted Answer · 2011-07-28T16-37-00.000Z

Чтобы удалить дубликаты, вам нужно будет иметь какую-то память, которая говорит вам, если вы видели линию раньше. Либо, вспоминая строки, либо, возможно, их контрольную сумму (что почти безопасно...) Любое решение вроде этого, вероятно, будет иметь "грубую силу".

Если бы вы могли сортировать строки перед их обработкой, задача была бы довольно простой, так как дубликаты были бы рядом друг с другом.

Спасибо, я фактически свалил его в varchars в SQL Server и заставил SQL возвращать уникальные строки. Это была грубая сила, но она работала хорошо.