Удалить все дубликаты строк, кроме одного в MySQL? [Дубликат]

Question

Удалить все дубликаты строк, кроме одного в MySQL? [Дубликат]

328

Возможный дубликат:
Удалить повторяющиеся строки в MySQL

Как удалить все повторяющиеся данные из таблицы MySQL?

Например, со следующими данными:

SELECT * FROM names;

+----+--------+
| id | name   |
+----+--------+
| 1  | google |
| 2  | yahoo  |
| 3  | msn    |
| 4  | google |
| 5  | google |
| 6  | yahoo  |
+----+--------+

Я бы использовал SELECT DISTINCT name FROM names;, если это был запрос SELECT. Как мне сделать это с помощью DELETE, чтобы удалить только дубликаты и сохранить только одну запись?

Highway of Life 13 янв. 2011, в 20:42

Источник

37

Дубликат stackoverflow.com/questions/3311903/… и stackoverflow.com/questions/2867530/… (как ни странно).
dkarp 13 янв. 2011, в 21:03
22

Это не совсем повторяющийся вопрос, так как здесь требуется, чтобы команда DELETE выполнила то же действие, что и команда ALTER, добавляющая уникальный индекс, для автоматического удаления MySQL дублирующихся строк. В этом случае мы выбираем, как именно мы хотим удалить дубликаты.
Highway of Life 08 янв. 2013, в 22:37
0

Таким образом, вопрос о дубликатах имеет дубликаты? Хмм
Hamman Samuel 21 сен. 2017, в 03:24

Показать ещё 1 комментарий

Теги:

mysql

sql

duplicate-removal

2 ответа

149

Если вы хотите сохранить строку с самым низким значением id:

DELETE FROM NAMES
 WHERE id NOT IN (SELECT * 
                    FROM (SELECT MIN(n.id)
                            FROM NAMES n
                        GROUP BY n.name) x)

Если вы хотите, чтобы значение id было самым высоким:

DELETE FROM NAMES
 WHERE id NOT IN (SELECT * 
                    FROM (SELECT MAX(n.id)
                            FROM NAMES n
                        GROUP BY n.name) x)

Подзапрос в подзапросе необходим для MySQL, или вы получите ошибку 1093.

OMG Ponies 13 янв. 2011, в 22:54

6

Что делает «х»?
GDmac 15 фев. 2014, в 10:29
6

@GDmac служит псевдонимом для внутреннего запроса. Если не указан, будет выдана ошибка.
rpozarickij 13 март 2014, в 10:08
3

Это гораздо лучшее решение. Тот, что Маса-255 не работает. Для чего нужен х?
wbinky 20 июнь 2014, в 11:15
4

@wbinky это псевдоним для внутреннего запроса. Если не указан, будет выдана ошибка.
mraaroncruz 15 сен. 2014, в 10:33
36

Но что за х? (просто шучу)
Matt O'Brien 25 май 2015, в 05:03
8

Кажется, этот sql удалить уникальные строки тоже. на самом деле все строки
mst 14 июль 2015, в 11:28
0

Что делать, если у меня есть тот же идентификатор
Asmita 17 нояб. 2015, в 06:01
2

Это лучшее решение, чем у masa-255, если у вас большие данные. Благодарю.
namal 04 дек. 2015, в 13:59
0

На самом деле это так же, как использовать временную таблицу
onebraveman 14 апр. 2016, в 13:40
0

@GDmac: Псевдоним необходим для каждой производной таблицы. Здесь x служит псевдонимом для таблицы, полученной из пользовательского запроса.
Suraj Kumar 15 сен. 2016, в 08:23
1

@Asmita вы можете использовать DELETE FROM NAMES WHERE id NOT IN (SELECT * FROM (SELECT MAX(n.id) FROM NAMES n GROUP BY n.id) x) ИД НЕ ВХОДИТ DELETE FROM NAMES WHERE id NOT IN (SELECT * FROM (SELECT MAX(n.id) FROM NAMES n GROUP BY n.id) x)
Mostafa 03 дек. 2016, в 06:12
1

Выполнено очень долго
MisterPi 06 дек. 2016, в 06:34
0

@ MattO'Brien "купить почему мужские модели?"
Kosta Kontos 30 март 2017, в 07:07
1

Это один из немногих, который на самом деле работает
DropHit 26 сен. 2017, в 02:38
2

x можно записать как AS x или AS temp или AS `temp` чтобы было более понятно, что это случайное имя псевдонима для таблицы, сгенерированной внешним выбором. MySQL не позволит вам использовать одну и ту же таблицу как для действия (DELETE, UPDATE), так и для условия, поэтому перенос условия в другой SELECT позволяет создать временную таблицу и получить псевдоним.
Slam 08 окт. 2017, в 16:40
1

Я хотел бы поднять больше и больше спасибо, сэр
Saad Suri 15 окт. 2017, в 05:22
3

Это заняло всего 8 секунд для таблицы с 500K записей. Благодарю.
vthallam 18 янв. 2018, в 16:11
2

Это было очень быстро по сравнению с принятым ответом!
xssChauhan 09 май 2018, в 07:17

Показать ещё 16 комментариев

Ещё вопросы

Дубликат stackoverflow.com/questions/3311903/… и stackoverflow.com/questions/2867530/… (как ни странно).
Это не совсем повторяющийся вопрос, так как здесь требуется, чтобы команда DELETE выполнила то же действие, что и команда ALTER, добавляющая уникальный индекс, для автоматического удаления MySQL дублирующихся строк. В этом случае мы выбираем, как именно мы хотим удалить дубликаты.
Таким образом, вопрос о дубликатах имеет дубликаты? Хмм
@GDmac служит псевдонимом для внутреннего запроса. Если не указан, будет выдана ошибка.
Это гораздо лучшее решение. Тот, что Маса-255 не работает. Для чего нужен х?
@wbinky это псевдоним для внутреннего запроса. Если не указан, будет выдана ошибка.
Кажется, этот sql удалить уникальные строки тоже. на самом деле все строки
Что делать, если у меня есть тот же идентификатор
Это лучшее решение, чем у masa-255, если у вас большие данные. Благодарю.
На самом деле это так же, как использовать временную таблицу
@GDmac: Псевдоним необходим для каждой производной таблицы. Здесь x служит псевдонимом для таблицы, полученной из пользовательского запроса.
@Asmita вы можете использовать DELETE FROM NAMES WHERE id NOT IN (SELECT * FROM (SELECT MAX(n.id) FROM NAMES n GROUP BY n.id) x) ИД НЕ ВХОДИТ DELETE FROM NAMES WHERE id NOT IN (SELECT * FROM (SELECT MAX(n.id) FROM NAMES n GROUP BY n.id) x)
@ MattO'Brien "купить почему мужские модели?"
Это один из немногих, который на самом деле работает
x можно записать как AS x или AS temp или AS `temp` чтобы было более понятно, что это случайное имя псевдонима для таблицы, сгенерированной внешним выбором. MySQL не позволит вам использовать одну и ту же таблицу как для действия (DELETE, UPDATE), так и для условия, поэтому перенос условия в другой SELECT позволяет создать временную таблицу и получить псевдоним.
Я хотел бы поднять больше и больше спасибо, сэр
Это заняло всего 8 секунд для таблицы с 500K записей. Благодарю.
Это было очень быстро по сравнению с принятым ответом!

martin.masa · Accepted Answer · 2011-02-16T12-38-00.000Z

717

Лучший ответ

NB - вам нужно сделать это сначала на тестовой копии таблицы!

Когда я это сделал, я обнаружил, что, если я не включил AND n1.id <> n2.id, он удалил каждую строку в таблице.

1) Если вы хотите сохранить строку с наименьшим значением id:

DELETE n1 FROM names n1, names n2 WHERE n1.id > n2.id AND n1.name = n2.name

2) Если вы хотите сохранить строку с наивысшим значением id:

DELETE n1 FROM names n1, names n2 WHERE n1.id < n2.id AND n1.name = n2.name

Я использовал этот метод в MySQL 5.1

Не уверен в других версиях.

Обновление: поскольку пользователи Google для удаления дубликатов заканчиваются здесь
Хотя вопрос OP о DELETE, пожалуйста, имейте в виду, что использование INSERT и DISTINCT происходит намного быстрее. Для базы данных с 8 миллионами строк запрос ниже занимает 13 минут, а при использовании DELETE прошло более 2 часов, но не завершилось.

INSERT INTO tempTableName(cellId,attributeId,entityRowId,value)
    SELECT DISTINCT cellId,attributeId,entityRowId,value
    FROM tableName;

martin.masa 16 фев. 2011, в 12:38

77

Отличное решение. Это сработало отлично. Но у меня есть одно предложение: мы должны поменять условия. Вместо [WHERE n1.id> n2.id AND n1.name = n2.name] мы должны написать [WHERE n1.name = n2.name AND n1.id> n2.id], это улучшит производительность, если у нас так много данные.
user307635 31 авг. 2012, в 13:42
11

К вашему сведению: это игнорирует строки, где столбец "имя" является нулевым.
a coder 12 сен. 2012, в 14:49
3

sqlfiddle.com/#!2/e5df9 для примера схемы. Может потребоваться загрузка в вашем экземпляре MySQL. Затем выполните: SELECT * FROM deldup; УДАЛИТЬ n1 ИЗ deldup n1, deldup n2 ГДЕ n1.or_id <n2.or_id AND n1.order_id = n2.order_id AND n1.txt_value = n2.txt_value AND n1.date_of_revision = n2.date_of_revision AND n1.status = n2.status; SELECT * FROM deldup;
a coder 12 сен. 2012, в 14:58
1

@ user307635 Я думаю, что оптимизатор MySQL будет обрабатывать правильный порядок?
Peterdk 26 май 2013, в 22:02
0

Когда я пытаюсь заменить DELETE на SELECT я получаю unknown column n1 in field list ? Это работает только с DELETE ? (MySQL 5.5)
Peterdk 26 май 2013, в 22:14
0

@Peterdk DELETE принимает имя таблицы (требуется, если вы указываете более одной таблицы), SELECT принимает имена столбцов или пытается "SELECT * ...".
toddkaufmann 19 сен. 2013, в 22:21
4

NB в этом ответе - ОЧЕНЬ ВАЖНЫЕ дети. Но это отлично от MySQL. Обратите внимание, что для таблиц, которые могут иметь дубликаты, повторяющиеся более одного раза, вам также понадобится предложение GROUP BY n1.id.
usumoio 19 окт. 2013, в 00:00
6

Мне нравится это решение, но есть ли у вас предложения по его оптимизации на больших столах?
Argus9 01 нояб. 2013, в 17:34
0

Так как это работает с большими таблицами? У меня 400к + рядов. Это работает на sqlfiddle, указанном выше, хотя.
kapitanluffy 15 нояб. 2013, в 18:14
0

Быть осторожен! Знак MySQL = не чувствителен к регистру. Это удалит Test Name как оно будет соответствовать test name .
Dean Rather 04 фев. 2014, в 05:04
0

что представляет собой n1? это столбец?
mmr 18 март 2014, в 08:42
0

@mmr n1 - псевдоним таблицы (... ОТ имен n1)
martin.masa 19 март 2014, в 08:41
0

Спасибо! Это прекрасно работает, когда ALTER IGNORE TABLE table ADD UNIQUE INDEX index1(table.column_name) не работает
Dylan Pierce 08 авг. 2014, в 17:33
0

как-то это не сработало, для меня он удалил все значения, которые имели дубликаты. Приведенный ниже запрос работал нормально.
Srihari Karanth 09 авг. 2014, в 09:02
2

Чувак, с таким "nb", как этот, ты должен поставить это ДО всего остального!
Stormsson 05 март 2015, в 16:52
0

Что может произойти, если n1.id и n2.id также могут быть дублированы?
CMCDragonkai 06 июль 2015, в 15:51
3

Это заняло 171 секунду на 10000 записей таблицы с 450 дубликатов. Ответ от OMG Ponies занял 4 секунды.
David Gleba 06 июль 2015, в 19:42
0

Без сомнения, это самое элегантное и отличное решение ... сэкономило мое время :)
Zaffar Saffee 24 авг. 2015, в 21:28
0

и я запускаю его каждые несколько дней ... намереваясь написать небольшой сценарий, чтобы сделать это через cron .. спасибо миллион за это простое решение ... если бы я мог более одного варианта upvote
Zaffar Saffee 09 март 2016, в 18:54
0

Этот запрос не работает на версии MySQL: 5.5.47-0ubuntu0.14.04.1
RN Kushwaha 06 апр. 2016, в 10:32
0

на MySQL 5.7 (Centos), и это, кажется, не работает должным образом
vknyvz 14 дек. 2016, в 22:08
0

Решение DISTINCT отличное, но будьте осторожны. Если бы у вас было только два столбца, идентификатор и имя, вы могли бы сжать строки по именам, но что, если бы у вас были другие поля с расходящимися значениями (которые вы могли бы допустить, потеряв один или несколько дубликатов)? В этом случае DISTINCT не будет работать из-за дополнительного поля. В этом случае используйте INSERT INTO tmp SELECT .. GROUP BY.. ТАКЖЕ , будьте осторожны с вашей последовательностью переименования и ссылками на внешний ключ innoDB !! И убедитесь, что вы не потеряете индексы. Все хорошие вещи, чтобы проверить.
Oliver Williams 26 май 2017, в 03:38
0

О, и в моем методе выше, используйте MIN (id), если вы хотите выбрать первое, MAX (id), если вы хотите выбрать это последнее.
Oliver Williams 16 июнь 2017, в 17:12
0

Спасибо за это!
bdalina 16 окт. 2017, в 08:09
0

Спасибо. С 150k записей это заняло 3 секунды!
Konstantin Gerasimov 04 нояб. 2017, в 23:07
1

Если кому-то это интересно, здесь ( stackoverflow.com/questions/3311903/… ) я объясняю, как использовать временную таблицу для надежного и быстрого удаления дубликатов MySQL (с примерами для разных вариантов использования).
César Revert-Gomar 20 нояб. 2017, в 16:39
0

Большой! Но есть ли более быстрое решение? например для таблицы с 2 миллионами записей.
muaaz 21 апр. 2018, в 18:51
0

Это не должен быть выбран ответ. У меня в таблице очень короткие данные с 100 000 строк, и ваш запрос отключил мой сервер из-за ошибки mysql слишком много соединений. Я ждал 10 минут, чтобы увидеть результаты, но это не так. В итоге я остановил запрос и перезапустил мой сервер MySQL, чтобы вернуть мой сервер.
user198989 09 май 2018, в 22:38
0

@ user198989 - согласился; Ответ OMG Ponies по своей сути быстрее на больших столах. Особенно верно, если есть несколько дубликатов каждой записи.
ToolmakerSteve 08 март 2019, в 14:56

Показать ещё 27 комментариев