SQL выбирает только столбцы с максимальным значением в столбце [дубликаты]

Question

SQL выбирает только столбцы с максимальным значением в столбце [дубликаты]

839

У меня есть эта таблица для документов (упрощенная версия здесь):

+------+-------+--------------------------------------+
| id   | rev   | content                              |
+------+-------+--------------------------------------+
| 1    | 1     | ...                                  |
| 2    | 1     | ...                                  |
| 1    | 2     | ...                                  |
| 1    | 3     | ...                                  |
+------+-------+--------------------------------------+

Как выбрать одну строку на один идентификатор и только наибольший оборот?
С приведенными выше данными результат должен содержать две строки: [1, 3, ...] и [2, 1, ..]. Я использую MySQL.

В настоящее время я использую проверки в цикле while для обнаружения и перезаписи старых revs из набора результатов. Но является ли это единственным методом достижения результата? Разве нет решения SQL?

Обновление
Как показывают ответы, есть SQL-решение, а здесь демо-версия sqlfiddle.

Обновление 2
Я заметил, что после добавления вышеуказанного sqlfiddle скорость, с которой встал вопрос, превзошла скорость ответов. Это не было намерением! Скрипка основана на ответах, особенно на принятом ответе.

Majid Fouladpour 12 окт. 2011, в 19:42

Источник

1

Вам нужно соответствующее поле content для строки?
Mark Byers 12 окт. 2011, в 19:45
0

Да, и это не составило бы проблем, я вырезал много столбцов, которые я бы добавил обратно.
Majid Fouladpour 12 окт. 2011, в 19:48
1

@MarkByers Я отредактировал свой ответ в соответствии с потребностями ОП. Поскольку я занимался этим, я решил написать более исчерпывающий ответ по теме « Наибольший показатель для каждой группы» .
Adrian Carneiro 12 окт. 2011, в 20:57
0

Это общая проблема с наибольшим числом групп , которая имеет хорошо протестированные и оптимизированные решения . Я предпочитаю решение левого соединения Билла Карвина ( оригинальный пост ). Обратите внимание, что кучу решений этой распространенной проблемы можно найти в одном из самых официальных источников, руководстве по MySQL ! См. Примеры общих запросов :: Строки, удерживающие групповой максимум определенного столбца .
TMS 28 апр. 2014, в 11:50
2

дубликат получения последней записи в каждой группе
TMS 08 июль 2014, в 18:39
0

для меня SELECT DISTINCT ON .... ORDER BY "UserId", "Deals".position; работал лучше
Muhammad Umer 07 март 2018, в 01:35

Показать ещё 4 комментария

Теги:

mysql

sql

aggregate-functions

greatest-n-per-group

30 ответов

181

Мое предпочтение заключается в том, чтобы использовать как можно меньше кода...

Вы можете сделать это, используя IN попробуйте следующее:

SELECT * 
FROM t1 WHERE (id,rev) IN 
( SELECT id, MAX(rev)
  FROM t1
  GROUP BY id
)

на мой взгляд, он менее сложный... легче читать и поддерживать.

Kevin Burton 12 окт. 2011, в 20:43

23

Любопытно - в каком движке базы данных мы можем использовать этот тип предложения WHERE? Это не поддерживается в SQL Server.
Kash 17 нояб. 2011, в 17:04
18

oracle & mysql (не уверен насчет других баз данных извините)
Kevin Burton 17 нояб. 2011, в 18:03
20

Работает и на PostgreSQL.
lcguida 15 янв. 2014, в 17:43
10

Подтвердили работу в DB2
coderatchet 29 янв. 2014, в 02:32
11

Не работает с SQLite.
Marcel Pfeiffer 26 окт. 2014, в 20:32
1

и предоставленный ответ действителен ANSI \ ISO SQL !!!
Kevin Burton 27 окт. 2014, в 16:52
1

Круто, спасибо. Работал в SQLDeveloper (Oracle)
Arthur Collé 04 апр. 2015, в 02:54
1

Помните, что если вы используете Mysql и этот запрос возвращает что-то вроде SELECT list is not in GROUP BY clause and contains nonaggregated column 'db.t1.id' which is not functionally dependent on columns in GROUP BY clause; this is incompatible with sql_mode=only_full_group_by вам необходимо отключить режим ONLY_FULL_GROUP_BY sql (например: SET sql_mode = '' )
Adriel Santos 27 апр. 2016, в 12:04
0

В MySQL эта конструкция работает плохо: WHERE (a,b) IN ( SELECT ... ) по двум причинам - (a,b) и IN(SELECT .
Rick James 01 апр. 2017, в 22:04
2

Обновление: Percona 5.6.22 оптимизирует это разумным образом - Order (N), где N - количество строк в таблице. MySQL 5.5.43 делает ужасную работу - Order (N * N). MariaDB 10.0.28 делает превосходную работу - без сканирования таблицы!
Rick James 17 май 2017, в 01:09
0

Как насчет добавления дополнительного: GROUP BY id в конце запроса? Это, кажется, предотвращает несколько записей на один идентификатор. Это безопасный подход?
Oriol 18 май 2017, в 00:59
2

Работает на спарк sql тоже. :)
Hassaan Salik 01 дек. 2017, в 22:25
1

К сожалению, это не работает в Presto :(
Tal Galili 26 апр. 2018, в 08:16
0

Работает также с Mongodb
Mike_Jr 17 авг. 2018, в 14:58

Показать ещё 12 комментариев

54

Еще одно решение - использовать коррелированный подзапрос:

select yt.id, yt.rev, yt.contents
    from YourTable yt
    where rev = 
        (select max(rev) from YourTable st where yt.id=st.id)

Наличие индекса (id, rev) делает подзапрос почти как простой поиск...

Ниже приведены сравнения с решениями в ответе @AdrianCarneiro (subquery, leftjoin), основанные на измерениях MySQL с таблицей InnoDB размером ~ 1 миллион записей, размер группы: 1-3.

В то время как для полного сканирования таблицы подзапросы/левые/коррелированные тайминги относятся друг к другу как 6/8/9, когда дело доходит до прямого поиска или партии (id in (1,2,3)), подзапрос выполняется намного медленнее, чем остальные (из-за повторной передачи подзапрос). Однако я не мог отличать ледяные и коррелированные решения в скорости.

Наконец, поскольку leftjoin создает n * (n + 1)/2, объединяется в группы, его производительность может сильно зависеть от размера групп...

Vajk Hermecz 23 янв. 2014, в 16:09

0

Пока это единственный, который работал так, как мне было нужно, спасибо (нужно совпадать по имени, а не по идентификатору)
Doomed Mind 02 фев. 2017, в 15:27
2

Я не думаю, что это работает, если rev не уникален.
Pita 05 июнь 2017, в 21:13
0

@ Пита нет. это работает, даже если rev не уникален
Pradeep Kumar Prabaharan 29 сен. 2017, в 16:44
0

Хороший момент для упоминания индекса, необходимого для простого поиска (очевидно, больше нельзя добавить 1 в комментариях)
Jared Becksfort 13 нояб. 2017, в 18:10
0

However I couldnt differentiate between leftjoin and correlated solutions in speed. - то же самое для меня для Sql Server
nahab 15 фев. 2018, в 13:48
0

Я не понимаю, почему это не решение. Если ничего другого, это единственный читаемый.
entonio 05 дек. 2018, в 19:34

Показать ещё 4 комментария

34

Я не могу ручаться за производительность, но вот трюк, вдохновленный ограничениями Microsoft Excel. Он имеет некоторые хорошие функции.

GOOD STUFF

Он должен принудительно вернуть только одну "максимальную запись", даже если есть галстук (иногда полезный)
Он не требует соединения

ПОДХОД

Это немного уродливо и требует, чтобы вы знали что-то о диапазоне допустимых значений столбца rev. Предположим, что мы знаем, что столбец rev - это число от 0,00 до 999, включая десятичные числа, но что только две цифры справа от десятичной точки (например, 34.17 будет действительным значением).

Суть в том, что вы создаете единый синтетический столбец путем конкатенации/упаковки первичного поля сравнения вместе с данными, которые вы хотите. Таким образом, вы можете заставить агрегированную функцию SQL MAX() возвращать все данные (поскольку она была упакована в один столбец). Затем вам нужно распаковать данные.

Вот как он выглядит с приведенным выше примером, написанным на SQL

SELECT id, 
       CAST(SUBSTRING(max(packed_col) FROM 2 FOR 6) AS float) as max_rev,
       SUBSTRING(max(packed_col) FROM 11) AS content_for_max_rev 
FROM  (SELECT id, 
       CAST(1000 + rev + .001 as CHAR) || '---' || CAST(content AS char) AS packed_col
       FROM yourtable
      ) 
GROUP BY id

Упаковка начинается с того, что для того, чтобы столбец rev был числом известных символов, независимо от значения rev, чтобы, например,

3.2 становится 1003.201
57 становится 1057.001
923.88 становится 1923.881

Если вы это сделаете правильно, сравнение строк двух чисел должно давать то же самое "max", что и числовое сравнение двух чисел, и легко преобразовать обратно к исходному номеру с помощью функции подстроки (которая доступна в одной форме или другой почти везде).

David Foster 30 июнь 2013, в 06:24

0

Отличное решение, оно работает намного быстрее, чем соединение и другие предлагаемые решения.
danial 29 сен. 2014, в 22:10

31

Я смущен, что ни один из ответов не предложил решение функции SQL-окна:

SELECT a.id, a.rev, a.contents
  FROM (SELECT id, rev, contents,
               ROW_NUMBER() OVER (PARTITION BY id ORDER BY rev DESC) rank
          FROM YourTable) a
 WHERE a.rank = 1

Добавлен в стандарт SQL Стандарт ANSI/ISO SQL: 2003 и более поздние версии с ANSI/ISO Standard SQL: 2008, теперь доступны функции окна (или окна) со всеми основными поставщиками. Существует больше типов ранговых функций, доступных для решения проблемы связи: RANK, DENSE_RANK, PERSENT_RANK.

topchef 09 авг. 2016, в 15:52

0

Я думаю, что это менее интуитивно и потенциально менее понятно - но это может определенно работать / быть решением.
mmcrae 10 янв. 2017, в 16:52
4

интуиция - хитрая вещь. Я нахожу его более интуитивным, чем другие ответы, поскольку он строит явную структуру данных, которая отвечает на вопрос. Но, опять же, интуиция - это другая сторона предвзятости ...
topchef 10 янв. 2017, в 18:22
8

Это может работать в MariaDB 10.2 и MySQL 8.0.2, но не раньше.
Rick James 01 апр. 2017, в 22:01
2

Наконец, я начал задаваться вопросом, почему этого не было здесь. Это гораздо более «интуитивно понятно», чем подавляющее большинство ответов «старой шляпы» на этой странице, и гораздо эффективнее почти во всех случаях, так как требует только одного прохода данных. Большинство баз данных теперь поддерживают эти стандартные оконные функции (MySQL запаздывает, но будет начиная с v8).
Used_By_Already 11 дек. 2017, в 00:42
1

Я понятия не имел, что эта функция существует. Этим вечером глубоко копались в куче руководств. Это имеет гораздо больше смысла, чем левые (только с точки зрения отсутствия фрустрации).
Andrew Philips 19 окт. 2018, в 04:42
0

Я рекомендую не использовать его в Bigquery; Предложение ORDER BY означает, что все данные должны быть обработаны на одном узле, что приводит к «Превышению ресурсов» для больших таблиц.
Marcin Bilski 28 март 2019, в 09:59

Показать ещё 4 комментария

20

Я думаю, что это самое простое решение:

SELECT *
FROM
    (SELECT *
    FROM Employee
    ORDER BY Salary DESC)
AS employeesub
GROUP BY employeesub.Salary;

SELECT *: вернуть все поля.
FROM Employee: найденная таблица.
(SELECT *...) подзапрос: вернуть всех людей, отсортированных по зарплате.
GROUP BY employeesub.Salary:: Принудительно, чтобы возвращаемый результат отображал верхнюю сортировку, Заработная строка каждого сотрудника.

Если вам нужна только одна строка, это еще проще:

SELECT *
FROM Employee
ORDER BY Employee.Salary DESC
LIMIT 1

Я также считаю, что проще всего сломать, понять и изменить в других целях:

ORDER BY Employee.Salary DESC: закажите результаты по зарплате с наивысшими зарплатами.
LIMIT 1: возвращает только один результат.

Понимание этого подхода, решение любой из этих подобных проблем становится тривиальным: получить сотрудника с наименьшей зарплатой (изменить DESC на ASC), получить топ-десять сотрудников (изменить LIMIT 1 до LIMIT 10), отсортировать с помощью другого поля ( измените ЗАКАЗАТЬ от Employee.Salary к ORDER BY Employee.Commission) и т.д.

HoldOffHunger 14 сен. 2016, в 01:11

1

Это не отвечает на вопрос. Вопрос заключается в том, как получить данные для одной строки (как было задано, «одна строка на идентификатор») в групповом запросе, где значение x - это максимум в каждой группе строк. Например, таблица заказов клиентов с несколькими заказами на клиента, где вы хотите получить самый большой заказ для каждого клиента. Ваш запрос вполне может вернуть более одной строки для каждого клиента (если, например, два самых больших заказа были размещены одним и тем же клиентом).
Aaron J Spetner 02 окт. 2017, в 06:39
0

"одна строка на ID" <- продолжайте читать, пожалуйста, и вы увидите "и только самое большое". Это логически эквивалентно только величайшему.
HoldOffHunger 02 окт. 2017, в 12:17
0

Да, но там написано "а". Это означает, что требования ОБА по одной строке на ИД И только самые большие. Использование этого ответа не удовлетворит первое требование. Кроме того, этот вопрос подразумевает необходимость извлечения одной записи для ВСЕХ идентификаторов. Этот ответ требует знания количества идентификаторов заранее (для настройки LIMIT), что потребует дополнительного кода. Цель вопроса сформулирована специально как поиск решения только для SQL. Наконец, даже если вы знаете количество уникальных идентификаторов, если есть многократное вхождение значения MAX, предложение LIMIT будет неверным.
Aaron J Spetner 03 окт. 2017, в 07:12
1

У меня не было точно такой же ситуации, как в оригинальном посте, но это самое простое для понимания и простое и эффективное решение, с которым я столкнулся до сих пор для своей проблемы. Я поражен тем, как все гики и уроды пытаются обогнать друг друга, хвастаясь сложными / странными запросами.
sba 05 окт. 2017, в 14:58
0

@ Аарон Дж. Спетнер: Я обновил решение, которое напрямую отвечает потребностям ОП.
HoldOffHunger 27 нояб. 2017, в 16:08
1

Это хакерское решение, полностью отключенное в более поздних версиях MySQL, не будет работать на серверах с ONLY_FULL_GROUP_BY включенным в конфигурации сервера ... sqlfiddle.com/#!9/215cd/4
Raymond Nijland 18 июнь 2018, в 15:55
0

@Raymond Nijland: Вы можете заставить его работать, изменив "*" на поля, которые вы действительно хотите. То, что выше, является лишь доказательством концепции. Я изменил запрос для работы с вашим режимом mysql: sqlfiddle.com/#!9/215cd/6
HoldOffHunger 18 июнь 2018, в 18:16
0

@HoldOffHunger Ваш последний запрос на скрипку эквивалентен SELECT DISTINCT rev FROM Table1; - sqlfiddle.com/#!9/215cd/9
Paul Spiegel 07 фев. 2019, в 08:52

Показать ещё 6 комментариев

15

Что-то вроде этого?

SELECT yourtable.id, rev, content
FROM yourtable
INNER JOIN (
    SELECT id, max(rev) as maxrev FROM yourtable
    WHERE yourtable
    GROUP BY id
) AS child ON (yourtable.id = child.id) AND (yourtable.rev = maxrev)

Marc B 12 окт. 2011, в 21:36

0

Те, кто не присоединился, не стали бы это сокращать?
Majid Fouladpour 12 окт. 2011, в 19:51
1

Если они работают, то они тоже в порядке.
Marc B 12 окт. 2011, в 19:54
10

Что делает WHERE yourtable ?
Brian McCutchon 03 июнь 2016, в 05:19
0

Это кажется самым быстрым (с правильными индексами).
Salman A 13 фев. 2019, в 12:27

Показать ещё 2 комментария

6

Поскольку это самый популярный вопрос в отношении этой проблемы, я снова отправлю еще один ответ на этот вопрос:

Похоже, что есть более простой способ сделать это (но только в MySQL):

select *
from (select * from mytable order by id, rev desc ) x
group by id

Пожалуйста, кредитный ответ пользователя Bohemian в этот вопрос за предоставление такого краткого и элегантного ответа на эту проблему.

EDIT: хотя это решение работает для многих людей, оно может быть нестабильным в долгосрочной перспективе, поскольку MySQL не гарантирует, что оператор GROUP BY вернет значимые значения для столбцов, не входящих в список GROUP BY. Поэтому используйте это решение на свой страх и риск

Yura 03 июль 2014, в 14:35

7

За исключением того, что это неправильно, поскольку нет никакой гарантии, что порядок внутреннего запроса что-либо значит, и не всегда гарантируется, что GROUP BY будет занимать первую встреченную строку. По крайней мере, в MySQL, и я бы предположил, все остальные. На самом деле я предполагал, что MySQL просто проигнорирует весь ORDER BY. Любая будущая версия или изменение конфигурации могут нарушить этот запрос.
Jannes 10 окт. 2014, в 10:14
0

@Jannes это интересное замечание :) Я приветствую вас ответить на мой вопрос, предоставив доказательства: stackoverflow.com/questions/26301877/…
Yura 10 окт. 2014, в 14:41
1

@Jannes относительно GROUP BY не гарантированно займет первую встреченную строку - вы совершенно правы - обнаружил эту проблему bugs.mysql.com/bug.php?id=71942, которая просит предоставить такие гарантии. Обновлю мой ответ сейчас
Yura 10 окт. 2014, в 14:59
0

Я думаю, я помню, откуда я получил ORDER BY, от которого отказываются: MySQL делает это с UNION, если вы ORDER BY для внутренних запросов, это просто игнорируется: dev.mysql.com/doc/refman/5.0/en/union.html говорит " Если ORDER BY появляется без LIMIT в SELECT, он оптимизируется, потому что он все равно не будет иметь никакого эффекта ». Я не видел такого утверждения для рассматриваемого запроса здесь, но я не понимаю, почему он не мог этого сделать.
Jannes 11 окт. 2014, в 19:09

Показать ещё 2 комментария

4

Третье решение, о котором я почти никогда не упоминал, имеет специфику MySQL и выглядит следующим образом:

SELECT id, MAX(rev) AS rev
 , 0+SUBSTRING_INDEX(GROUP_CONCAT(numeric_content ORDER BY rev DESC), ',', 1) AS numeric_content
FROM t1
GROUP BY id

Да, это выглядит ужасно (преобразование в строку и обратно и т.д.), но по моему опыту это обычно быстрее, чем другие решения. Возможно, это только для моих случаев использования, но я использовал его на таблицах с миллионами записей и множеством уникальных идентификаторов. Может быть, потому, что MySQL довольно плохо оптимизирует другие решения (по крайней мере, в 5,0 дней, когда я придумал это решение).

Важно то, что GROUP_CONCAT имеет максимальную длину для строки, которую он может создать. Вероятно, вы хотите повысить этот предел, установив переменную group_concat_max_len. И имейте в виду, что это будет ограничение на масштабирование, если у вас есть большое количество строк.

В любом случае вышеупомянутое не работает напрямую, если ваше поле содержимого уже является текстом. В этом случае вы, вероятно, захотите использовать другой разделитель, например, \0. Вы также быстрее столкнетесь с префиксом group_concat_max_len.

Jannes 10 окт. 2014, в 12:54

4

Мне нравится использовать решение на основе NOT EXIST для этой проблемы:

SELECT id, rev
FROM YourTable t
WHERE NOT EXISTS (
   SELECT * FROM YourTable t WHERE t.id = id AND rev > t.rev
)

Bulat 05 сен. 2014, в 23:40

1

да, не существует, как это обычно было предпочтительным способом, а не левым соединением. В старых версиях SQL-сервера это было быстрее, хотя я думаю, что теперь это не имеет значения. Я обычно делаю SELECT 1 вместо SELECT *, опять же, потому что в предыдущих версиях это было быстрее.
EGP 08 окт. 2014, в 12:38

3

Если у вас много полей в инструкции select, и вы хотите получить последнее значение для всех этих полей с помощью оптимизированного кода:

select * from
(select * from table_name
order by id,rev desc) temp
group by id

seahawk 04 сен. 2015, в 06:24

0

Это работает нормально для небольших таблиц, но занимает 6 проходов по всему набору данных, поэтому не быстро для больших таблиц.
Rick James 17 май 2017, в 00:48
0

Этот запрос мне был нужен, потому что были задействованы и другие столбцы.
Mike Viens 01 июнь 2018, в 19:07

2

Я бы использовал это:

select t.*
from test as t
join
   (select max(rev) as rev
    from test
    group by id) as o
on o.rev = t.rev

Подзапрос SELECT не слишком эффективен, но в разделе JOIN кажется полезным. Я не эксперт в оптимизации запросов, но я пробовал в MySQL, PostgreSQL, FireBird и работает очень хорошо.

Вы можете использовать эту схему в нескольких соединениях и с предложением WHERE. Это мой рабочий пример (решение идентично вашей проблеме с таблицей "твердое" ):

select *
from platnosci as p
join firmy as f
on p.id_rel_firmy = f.id_rel
join (select max(id_obj) as id_obj
      from firmy
      group by id_rel) as o
on o.id_obj = f.id_obj and p.od > '2014-03-01'

Его спрашивают на таблицах с подростками таких записей, и он занимает менее 0,01 секунды на действительно не слишком сильной машине.

Я бы не использовал предложение IN (как упоминается выше). IN предоставляется для использования с короткими списками констант, а не как фильтр запросов, построенный на подзапросе. Это связано с тем, что подзапрос в IN выполняется для каждой отсканированной записи, которая может сделать запрос очень медленным.

Marek Wysmułek 04 март 2015, в 19:21

0

Я думаю, что использование этого подзапроса в качестве CTE может по крайней мере улучшить производительность
mmcrae 10 янв. 2017, в 18:52
0

Привет! Для меня это выглядит так, как будто ваш первый запрос нуждается ... and o.id = t.id в конце (и для этого подзапрос должен возвращать id ). Не так ли?
Dmitry Grekov 10 авг. 2018, в 11:37

2

Как насчет этого:

select all_fields.*  
from  (select id, MAX(rev) from yourtable group by id) as max_recs  
left outer join yourtable as all_fields  
on max_recs.id = all_fields.id

inor 14 июль 2013, в 16:40

1

Здесь другое решение для получения записей только с полем, которое имеет максимальное значение для этого поля. Это работает для SQL400, на котором я работаю. В этом примере записи с максимальным значением в поле FIELD5 будут получены следующим оператором SQL.

SELECT A.KEYFIELD1, A.KEYFIELD2, A.FIELD3, A.FIELD4, A.FIELD5
  FROM MYFILE A
 WHERE RRN(A) IN
   (SELECT RRN(B) 
      FROM MYFILE B
     WHERE B.KEYFIELD1 = A.KEYFIELD1 AND B.KEYFIELD2 = A.KEYFIELD2
     ORDER BY B.FIELD5 DESC
     FETCH FIRST ROW ONLY)

Cesar 17 окт. 2017, в 01:14

1

SELECT * ОТ сотрудника где Employee.Salary in (выберите max (зарплата) из группы Employee Employe_id) ORDER BY Employee.Salary

guru008 30 июль 2017, в 20:04

1

Ни один из этих ответов не работал у меня.

Это то, что сработало для меня.

with score as (select max(score_up) from history)
select history.* from score, history where history.score_up = score.max

qaisjp 13 июль 2017, в 19:55

1

вот еще одно решение, которое поможет кому-то

Select a.id , a.rev, a.content from Table1 a
inner join 
(SELECT id, max(rev) rev FROM Table1 GROUP BY id) x on x.id =a.id and x.rev =a.rev

Abdul Samad 20 июнь 2017, в 10:43

1

Многие, если не все, другие ответы здесь подходят для небольших наборов данных. Для масштабирования требуется больше внимания. См. здесь.

В нем обсуждается несколько более быстрых способов сделать groupwise max и top-N для каждой группы.

Rick James 01 апр. 2017, в 22:42

1

Отсортировано поле rev в обратном порядке, а затем сгруппировано по id, которое дало первую строку каждой группы, которая является самой высокой величиной rev.

SELECT * FROM (SELECT * FROM table1 ORDER BY id, rev DESC) X GROUP BY X.id;

Протестировано в http://sqlfiddle.com/ со следующими данными

CREATE TABLE table1
    (`id` int, `rev` int, `content` varchar(11));

INSERT INTO table1
    (`id`, `rev`, `content`)
VALUES
    (1, 1, 'One-One'),
    (1, 2, 'One-Two'),
    (2, 1, 'Two-One'),
    (2, 2, 'Two-Two'),
    (3, 2, 'Three-Two'),
    (3, 1, 'Three-One'),
    (3, 3, 'Three-Three')
;

Это дало следующий результат в MySql 5.5 и 5.6

id  rev content
1   2   One-Two
2   2   Two-Two
3   3   Three-Two

blokeish 11 дек. 2015, в 03:49

0

Эта техника раньше работала, но больше не работала. См. Mariadb.com/kb/en/mariadb/…
Rick James 01 апр. 2017, в 22:02
1

Исходный тег вопроса - «mysql», и я очень четко заявил, что мое решение было протестировано с Mysql 5.5 и 5.6 на sqlfiddle.com. Я предоставил все шаги, чтобы самостоятельно проверить решение. Я не сделал никаких ложных утверждений, что мое решение работает с Mariadb. Mariadb - это не Mysql, это просто замена Mysql, принадлежащая двум разным компаниям. Ваш комментарий поможет всем, кто пытается реализовать его в Mariadb, но мой пост ни в коем случае не заслуживает отрицательного голосования, поскольку он четко отвечает на заданный вопрос.
blokeish 03 апр. 2017, в 00:34
1

Да, это работает в старых версиях. И я использовал эту технику в прошлом, только чтобы сгореть, когда она перестала работать. Также MySQL (в 5.7?) Также будет игнорировать ORDER BY в подзапросе. Поскольку многие люди прочтут ваш ответ, я стараюсь держаться подальше от техники, которая сломает их будущее. (И я не дал вам -1 голос.)
Rick James 03 апр. 2017, в 02:38
1

Тесты ничего не доказывают. ORDER BY в подзапросе не имеет никакого гарантированного эффекта, кроме как для LIMIT в том же подзапросе. Даже если порядок будет сохранен, GROUP BY не сохранит его. Даже если это было сохранено, нестандартная GROUP BY, полагающаяся на отключенный ONLY_FULL_GROUP_BY, указана для возврата некоторой строки в группе для не сгруппированного столбца, но не обязательно для первого. Так что ваш запрос не правильный.
philipxy 22 сен. 2018, в 11:50

Показать ещё 2 комментария

1

Если кто-то ищет Linq verson, это, похоже, работает для меня:

public static IQueryable<BlockVersion> LatestVersionsPerBlock(this IQueryable<BlockVersion> blockVersions)
{
    var max_version_per_id = blockVersions.GroupBy(v => v.BlockId)
        .Select( v => new { BlockId = v.Key, MaxVersion = v.Max(x => x.Version) } );    

    return blockVersions.Where( v => max_version_per_id.Any(x => x.BlockId == v.BlockId && x.MaxVersion == v.Version) );
}

Dirk Boer 17 сен. 2015, в 13:44

1

Мне нравится делать это путем ранжирования записей в каком-то столбце. В этом случае значения ранга rev сгруппированы по id. Те, у кого выше rev, будут иметь более низкий рейтинг. Таким образом, наивысший rev будет иметь рейтинг 1.

select id, rev, content
from
 (select
    @rowNum := if(@prevValue = id, @rowNum+1, 1) as row_num,
    id, rev, content,
    @prevValue := id
  from
   (select id, rev, content from YOURTABLE order by id asc, rev desc) TEMP,
   (select @rowNum := 1 from DUAL) X,
   (select @prevValue := -1 from DUAL) Y) TEMP
where row_num = 1;

Не уверен, что введение переменных делает все это медленнее. Но, по крайней мере, я не дважды запрашиваю YOURTABLE.

user5124980 16 июль 2015, в 18:56

0

Только попробовал подход в MySQL. Oracle имеет аналогичную функцию для ранжирования записей. Идея тоже должна работать.
user5124980 16 июль 2015, в 18:54
1

Чтение и запись переменной в операторе выбора не определено в MySQL, хотя отдельные версии дают ответ, который вы можете ожидать для определенного синтаксиса, включающего выражения регистра.
philipxy 22 сен. 2018, в 10:57

1

Вот хороший способ сделать это

Используйте следующий код:

with temp as  ( 
select count(field1) as summ , field1
from table_name
group by field1 )
select * from temp where summ = (select max(summ) from temp)

shay 07 янв. 2015, в 12:37

1

НЕ mySQL, но для других людей, которые находят этот вопрос и используют SQL, другим способом решения проблемы greatest-n-per-group является использование Cross Apply в MS SQL

WITH DocIds AS (SELECT DISTINCT id FROM docs)

SELECT d2.id, d2.rev, d2.content
FROM DocIds d1
CROSS APPLY (
  SELECT Top 1 * FROM docs d
  WHERE d.id = d1.id
  ORDER BY rev DESC
) d2

Вот пример в SqlFiddle

KyleMit 30 май 2014, в 15:13

0

очень медленный по сравнению с другими методами - группировка, окна, не существует
nahab 15 фев. 2018, в 13:40

1

Это решение делает только один выбор из YourTable, поэтому он быстрее. Он работает только для MySQL и SQLite (для SQLite удаляет DESC) в соответствии с тестом на sqlfiddle.com. Возможно, он может быть настроен для работы на других языках, с которыми я не знаком.

SELECT *
FROM ( SELECT *
       FROM ( SELECT 1 as id, 1 as rev, 'content1' as content
              UNION
              SELECT 2, 1, 'content2'
              UNION
              SELECT 1, 2, 'content3'
              UNION
              SELECT 1, 3, 'content4'
            ) as YourTable
       ORDER BY id, rev DESC
   ) as YourTable
GROUP BY id

plavozont 29 янв. 2014, в 09:14

0

Это не похоже на работу для общего случая. И это не работает вообще в PostgreSQL, возвращая: ERROR: column "your table.reb" must appear in the GROUP BY clause or be used in an aggregate function LINE 1: SELECT *
ma11hew28 13 март 2014, в 16:26
0

Извините, я не уточнил первый раз, на каком языке это работает.
plavozont 17 март 2014, в 05:11

0

Другой способ выполнения задания - использовать аналитическую функцию MAX() в предложении OVER PARTITION

SELECT t.*
  FROM
    (
    SELECT id
          ,rev
          ,contents
          ,MAX(rev) OVER (PARTITION BY id) as max_rev
      FROM YourTable
    ) t
  WHERE t.rev = t.max_rev

Другое решение OVER PARTITION, уже зарегистрированное в этом сообщении,

SELECT t.*
  FROM
    (
    SELECT id
          ,rev
          ,contents
          ,ROW_NUMBER() OVER (PARTITION BY id ORDER BY rev DESC) rank
      FROM YourTable
    ) t
  WHERE t.rank = 1

Этот 2 SELECT хорошо работает на Oracle 10g.

schlebe 20 фев. 2018, в 10:11

0

Я использовал ниже, чтобы решить свою проблему. Сначала я создал временную таблицу и вставил максимальное значение rev на уникальный идентификатор.

CREATE TABLE #temp1
(
    id varchar(20)
    , rev int
)
INSERT INTO #temp1
SELECT a.id, MAX(a.rev) as rev
FROM 
    (
        SELECT id, content, SUM(rev) as rev
        FROM YourTable
        GROUP BY id, content
    ) as a 
GROUP BY a.id
ORDER BY a.id

Затем я присоединил эти максимальные значения (# temp1) ко всем возможным комбинациям id/content. Делая это, я, естественно, отфильтровываю не максимальные комбинации id/content, и оставляю их только с максимальными значениями rev для каждого.

SELECT a.id, a.rev, content
FROM #temp1 as a
LEFT JOIN
    (
        SELECT id, content, SUM(rev) as rev
        FROM YourTable
        GROUP BY id, content
    ) as b on a.id = b.id and a.rev = b.rev
GROUP BY a.id, a.rev, b.content
ORDER BY a.id

Richard Ball 05 янв. 2018, в 12:25

-1

select * from yourtable
group by id
having rev=max(rev);

Terry 11 июль 2013, в 14:45

-2

SELECT id, MAX(rev)
FROM yourTable
GROUP BY id

Это работает в Oracle Sql

SevincQurbanova 03 март 2018, в 23:22

-3

Это работает для меня в sqlite3:

SELECT *, MAX(rev) FROM t1 GROUP BY id

С *, вы получаете дублированный столбец rev, но это не так много проблемы.

Fredrik Eldh 08 янв. 2015, в 17:43

-3

SELECT * FROM t1 ORDER BY rev DESC LIMIT 1;

Tricky 18 июнь 2013, в 08:40

Ещё вопросы

Вам нужно соответствующее поле content для строки?
Да, и это не составило бы проблем, я вырезал много столбцов, которые я бы добавил обратно.
@MarkByers Я отредактировал свой ответ в соответствии с потребностями ОП. Поскольку я занимался этим, я решил написать более исчерпывающий ответ по теме « Наибольший показатель для каждой группы» .
Это общая проблема с наибольшим числом групп , которая имеет хорошо протестированные и оптимизированные решения . Я предпочитаю решение левого соединения Билла Карвина ( оригинальный пост ). Обратите внимание, что кучу решений этой распространенной проблемы можно найти в одном из самых официальных источников, руководстве по MySQL ! См. Примеры общих запросов :: Строки, удерживающие групповой максимум определенного столбца .
дубликат получения последней записи в каждой группе
для меня SELECT DISTINCT ON .... ORDER BY "UserId", "Deals".position; работал лучше
Любопытно - в каком движке базы данных мы можем использовать этот тип предложения WHERE? Это не поддерживается в SQL Server.
oracle & mysql (не уверен насчет других баз данных извините)
и предоставленный ответ действителен ANSI \ ISO SQL !!!
Круто, спасибо. Работал в SQLDeveloper (Oracle)
Помните, что если вы используете Mysql и этот запрос возвращает что-то вроде SELECT list is not in GROUP BY clause and contains nonaggregated column 'db.t1.id' which is not functionally dependent on columns in GROUP BY clause; this is incompatible with sql_mode=only_full_group_by вам необходимо отключить режим ONLY_FULL_GROUP_BY sql (например: SET sql_mode = '' )
В MySQL эта конструкция работает плохо: WHERE (a,b) IN ( SELECT ... ) по двум причинам - (a,b) и IN(SELECT .
Обновление: Percona 5.6.22 оптимизирует это разумным образом - Order (N), где N - количество строк в таблице. MySQL 5.5.43 делает ужасную работу - Order (N * N). MariaDB 10.0.28 делает превосходную работу - без сканирования таблицы!
Как насчет добавления дополнительного: GROUP BY id в конце запроса? Это, кажется, предотвращает несколько записей на один идентификатор. Это безопасный подход?
К сожалению, это не работает в Presto :(
Пока это единственный, который работал так, как мне было нужно, спасибо (нужно совпадать по имени, а не по идентификатору)
Я не думаю, что это работает, если rev не уникален.
@ Пита нет. это работает, даже если rev не уникален
Хороший момент для упоминания индекса, необходимого для простого поиска (очевидно, больше нельзя добавить 1 в комментариях)
However I couldnt differentiate between leftjoin and correlated solutions in speed. - то же самое для меня для Sql Server
Я не понимаю, почему это не решение. Если ничего другого, это единственный читаемый.
Отличное решение, оно работает намного быстрее, чем соединение и другие предлагаемые решения.
Я думаю, что это менее интуитивно и потенциально менее понятно - но это может определенно работать / быть решением.
интуиция - хитрая вещь. Я нахожу его более интуитивным, чем другие ответы, поскольку он строит явную структуру данных, которая отвечает на вопрос. Но, опять же, интуиция - это другая сторона предвзятости ...
Это может работать в MariaDB 10.2 и MySQL 8.0.2, но не раньше.
Наконец, я начал задаваться вопросом, почему этого не было здесь. Это гораздо более «интуитивно понятно», чем подавляющее большинство ответов «старой шляпы» на этой странице, и гораздо эффективнее почти во всех случаях, так как требует только одного прохода данных. Большинство баз данных теперь поддерживают эти стандартные оконные функции (MySQL запаздывает, но будет начиная с v8).
Я понятия не имел, что эта функция существует. Этим вечером глубоко копались в куче руководств. Это имеет гораздо больше смысла, чем левые (только с точки зрения отсутствия фрустрации).
Я рекомендую не использовать его в Bigquery; Предложение ORDER BY означает, что все данные должны быть обработаны на одном узле, что приводит к «Превышению ресурсов» для больших таблиц.
Это не отвечает на вопрос. Вопрос заключается в том, как получить данные для одной строки (как было задано, «одна строка на идентификатор») в групповом запросе, где значение x - это максимум в каждой группе строк. Например, таблица заказов клиентов с несколькими заказами на клиента, где вы хотите получить самый большой заказ для каждого клиента. Ваш запрос вполне может вернуть более одной строки для каждого клиента (если, например, два самых больших заказа были размещены одним и тем же клиентом).
"одна строка на ID" <- продолжайте читать, пожалуйста, и вы увидите "и только самое большое". Это логически эквивалентно только величайшему.
Да, но там написано "а". Это означает, что требования ОБА по одной строке на ИД И только самые большие. Использование этого ответа не удовлетворит первое требование. Кроме того, этот вопрос подразумевает необходимость извлечения одной записи для ВСЕХ идентификаторов. Этот ответ требует знания количества идентификаторов заранее (для настройки LIMIT), что потребует дополнительного кода. Цель вопроса сформулирована специально как поиск решения только для SQL. Наконец, даже если вы знаете количество уникальных идентификаторов, если есть многократное вхождение значения MAX, предложение LIMIT будет неверным.
У меня не было точно такой же ситуации, как в оригинальном посте, но это самое простое для понимания и простое и эффективное решение, с которым я столкнулся до сих пор для своей проблемы. Я поражен тем, как все гики и уроды пытаются обогнать друг друга, хвастаясь сложными / странными запросами.
@ Аарон Дж. Спетнер: Я обновил решение, которое напрямую отвечает потребностям ОП.
Это хакерское решение, полностью отключенное в более поздних версиях MySQL, не будет работать на серверах с ONLY_FULL_GROUP_BY включенным в конфигурации сервера ... sqlfiddle.com/#!9/215cd/4
@Raymond Nijland: Вы можете заставить его работать, изменив "*" на поля, которые вы действительно хотите. То, что выше, является лишь доказательством концепции. Я изменил запрос для работы с вашим режимом mysql: sqlfiddle.com/#!9/215cd/6
@HoldOffHunger Ваш последний запрос на скрипку эквивалентен SELECT DISTINCT rev FROM Table1; - sqlfiddle.com/#!9/215cd/9
Те, кто не присоединился, не стали бы это сокращать?
Если они работают, то они тоже в порядке.
Это кажется самым быстрым (с правильными индексами).
За исключением того, что это неправильно, поскольку нет никакой гарантии, что порядок внутреннего запроса что-либо значит, и не всегда гарантируется, что GROUP BY будет занимать первую встреченную строку. По крайней мере, в MySQL, и я бы предположил, все остальные. На самом деле я предполагал, что MySQL просто проигнорирует весь ORDER BY. Любая будущая версия или изменение конфигурации могут нарушить этот запрос.
@Jannes это интересное замечание :) Я приветствую вас ответить на мой вопрос, предоставив доказательства: stackoverflow.com/questions/26301877/…
@Jannes относительно GROUP BY не гарантированно займет первую встреченную строку - вы совершенно правы - обнаружил эту проблему bugs.mysql.com/bug.php?id=71942, которая просит предоставить такие гарантии. Обновлю мой ответ сейчас
Я думаю, я помню, откуда я получил ORDER BY, от которого отказываются: MySQL делает это с UNION, если вы ORDER BY для внутренних запросов, это просто игнорируется: dev.mysql.com/doc/refman/5.0/en/union.html говорит " Если ORDER BY появляется без LIMIT в SELECT, он оптимизируется, потому что он все равно не будет иметь никакого эффекта ». Я не видел такого утверждения для рассматриваемого запроса здесь, но я не понимаю, почему он не мог этого сделать.
да, не существует, как это обычно было предпочтительным способом, а не левым соединением. В старых версиях SQL-сервера это было быстрее, хотя я думаю, что теперь это не имеет значения. Я обычно делаю SELECT 1 вместо SELECT *, опять же, потому что в предыдущих версиях это было быстрее.
Это работает нормально для небольших таблиц, но занимает 6 проходов по всему набору данных, поэтому не быстро для больших таблиц.
Этот запрос мне был нужен, потому что были задействованы и другие столбцы.
Я думаю, что использование этого подзапроса в качестве CTE может по крайней мере улучшить производительность
Привет! Для меня это выглядит так, как будто ваш первый запрос нуждается ... and o.id = t.id в конце (и для этого подзапрос должен возвращать id ). Не так ли?
Эта техника раньше работала, но больше не работала. См. Mariadb.com/kb/en/mariadb/…
Исходный тег вопроса - «mysql», и я очень четко заявил, что мое решение было протестировано с Mysql 5.5 и 5.6 на sqlfiddle.com. Я предоставил все шаги, чтобы самостоятельно проверить решение. Я не сделал никаких ложных утверждений, что мое решение работает с Mariadb. Mariadb - это не Mysql, это просто замена Mysql, принадлежащая двум разным компаниям. Ваш комментарий поможет всем, кто пытается реализовать его в Mariadb, но мой пост ни в коем случае не заслуживает отрицательного голосования, поскольку он четко отвечает на заданный вопрос.
Да, это работает в старых версиях. И я использовал эту технику в прошлом, только чтобы сгореть, когда она перестала работать. Также MySQL (в 5.7?) Также будет игнорировать ORDER BY в подзапросе. Поскольку многие люди прочтут ваш ответ, я стараюсь держаться подальше от техники, которая сломает их будущее. (И я не дал вам -1 голос.)
Тесты ничего не доказывают. ORDER BY в подзапросе не имеет никакого гарантированного эффекта, кроме как для LIMIT в том же подзапросе. Даже если порядок будет сохранен, GROUP BY не сохранит его. Даже если это было сохранено, нестандартная GROUP BY, полагающаяся на отключенный ONLY_FULL_GROUP_BY, указана для возврата некоторой строки в группе для не сгруппированного столбца, но не обязательно для первого. Так что ваш запрос не правильный.
Только попробовал подход в MySQL. Oracle имеет аналогичную функцию для ранжирования записей. Идея тоже должна работать.
Чтение и запись переменной в операторе выбора не определено в MySQL, хотя отдельные версии дают ответ, который вы можете ожидать для определенного синтаксиса, включающего выражения регистра.
очень медленный по сравнению с другими методами - группировка, окна, не существует
Это не похоже на работу для общего случая. И это не работает вообще в PostgreSQL, возвращая: ERROR: column "your table.reb" must appear in the GROUP BY clause or be used in an aggregate function LINE 1: SELECT *
Извините, я не уточнил первый раз, на каком языке это работает.

Adrian Carneiro · Accepted Answer · 2011-10-12T20-44-00.000Z

1409

Лучший ответ

На первый взгляд...

Все, что вам нужно, это предложение GROUP BY с функцией агрегации MAX:

SELECT id, MAX(rev)
FROM YourTable
GROUP BY id

Это так просто, не так ли?

Я просто заметил, что вам нужен столбец content.

Это очень распространенный вопрос в SQL: найдите все данные для строки с некоторым максимальным значением в столбце для каждого идентификатора группы. Я много слышал о своей карьере. Фактически, это был один из вопросов, которые я ответил в своем текущем техническом интервью.

На самом деле настолько распространено, что сообщество StackOverflow создало один тег, чтобы справиться с такими вопросами: greatest-n-per-group.

В принципе, у вас есть два подхода к решению этой проблемы:

Соединение с простым `group-identifier, max-value-in-group` Подзапросом

В этом подходе вы сначала найдете group-identifier, max-value-in-group (уже разрешенный выше) в подзапросе. Затем вы присоединяете свою таблицу к подзапросу с равенством как на group-identifier, так и на max-value-in-group:

SELECT a.id, a.rev, a.contents
FROM YourTable a
INNER JOIN (
    SELECT id, MAX(rev) rev
    FROM YourTable
    GROUP BY id
) b ON a.id = b.id AND a.rev = b.rev

Левое соединение с помощью себя, настройка условий соединения и фильтров

В этом подходе вы оставили соединение с самим собой. Равенство, конечно же, идет в group-identifier. Затем два умных перемещения:

Второе условие объединения имеет левое боковое значение меньше правого значения
Когда вы выполните шаг 1, строки (ы), которые на самом деле имеют максимальное значение, будут иметь NULL в правой части (это a LEFT JOIN, помните?). Затем мы фильтруем объединенный результат, показывая только строки, где правая сторона NULL.

Итак, вы закончите:

SELECT a.*
FROM YourTable a
LEFT OUTER JOIN YourTable b
    ON a.id = b.id AND a.rev < b.rev
WHERE b.id IS NULL;

Заключение

Оба подхода приносят точный результат.

Если у вас есть две строки с max-value-in-group для group-identifier, обе строки будут в результате в обоих подходах.

Оба подхода совместимы с SQL ANSI, поэтому они будут работать с вашей любимой РСУБД, независимо от ее "вкуса".

Оба подхода также совместимы с производительностью, однако ваш пробег может варьироваться (РСУБД, структура БД, индексы и т.д.). Поэтому, когда вы выбираете один подход по сравнению с другим, ориентир. И убедитесь, что вы выбрали тот, который имеет для вас большой смысл.

Adrian Carneiro 12 окт. 2011, в 20:44

1

Первая версия была намного проще, разве не получилось бы получить результат, добавив больше столбцов? Я также должен обслуживать where : select id, max(rev), content, etc., etc., from the_table where proj_id = $pid group by id
Majid Fouladpour 12 окт. 2011, в 19:56
8

Я знаю, что MySQL позволяет вам добавлять неагрегированные поля в запрос «сгруппированы по», но я нахожу это бессмысленным. Попробуйте запустить этот select id, max(rev), rev from YourTable group by id и вы поймете, что я имею в виду. Не торопитесь и попытайтесь понять это
Adrian Carneiro 12 окт. 2011, в 20:05
0

следите за тем, чтобы в подпункте не было никаких других имен столбцов, поскольку они не будут теми из строки max. MySQL позволит вам это, хотя другие db-ы, как оракул, даст вам исключение. Для большей части агрегатной функции это не имеет смысла, хотя для максимальной функции это может показаться логичным. Так что будьте осторожны, чтобы не споткнуться об этом;) Ура!
despot 18 окт. 2012, в 08:03
1

Во-первых, спасибо за отличный ответ. Что-то добавить, убедитесь, что вы присоединились к тому, что вы бы сгруппировали по максимуму или минимуму. Обычно вы присоединяетесь только по идентификатору, но если вы группировали по имени и возрасту, то ваше объединение будет с именем = имя и возраст = возраст. Мне потребовалось несколько минут, чтобы понять, что это была моя проблема.
Jason McCarrell 12 дек. 2012, в 16:31
3

@JasonMcCarrell Я рад, что этот ответ помог вам! Я понял вашу точку зрения, поэтому я назвал его group_identifier , который может быть одним или несколькими столбцами. В вашем случае group_identifier - это сочетание имени и возраста
Adrian Carneiro 12 дек. 2012, в 16:50
0

и как мне это сделать, если у меня нет уникального идентификатора поля в строке?
Totty.js 27 март 2013, в 15:21
0

Тотти .. вы не можете .. все таблицы базы данных требуют первичного ключа, если вы хотите выполнять интеллектуальные запросы к ним
whiteatom 06 апр. 2013, в 13:41
0

Ваше второе решение - действительно интересный подход. На моем наборе данных для выполнения требуется 4 минуты, а для подзапроса - 0,23 секунды. Есть ли какие-либо индексы, которые вы могли бы предложить, которые могли бы помочь в этом?
whiteatom 06 апр. 2013, в 13:52
0

@whiteatom Absolutely: индексирует id и rev (корректируйте имена соответственно). Это может быть случай, когда индекс по обоим также должен быть полезным
Adrian Carneiro 07 апр. 2013, в 11:28
1

Хм не игра в кости. Прошло 6 минут, прежде чем руки. Я добавил индекс в id и rev по отдельности, и это заняло 4 минуты .. вместе это занимает 3:53, а оба - 3:52. Интересно, что эти два метода разные. Интересно, при каких обстоятельствах поиск строки, в которой нет ничего большего, происходит быстрее?
whiteatom 07 апр. 2013, в 15:42
0

@ Белое смешно, это должно было быть сделано. Вы пытались создать индекс DESC для Rev? Возможно, вам следует опубликовать свою структуру данных и предполагаемую загрузку данных в новом вопросе. пожалуйста, дайте мне знать
Adrian Carneiro 08 апр. 2013, в 13:16
0

Где ноль иногда медленно. Несмотря на это, я нахожу 2-е решение интересным и умным. Отличный ответ!
Lonnie Best 08 июнь 2013, в 10:08
6

Как мне заставить его возвращать только одну строку на группу? Разве эти ответы не возвращают каждую строку в каждой группе, которая имеет значение сравнения, равное максимальному значению? Например, предположим, что в наборе данных OP есть вторая строка с id = 1, rev = 3. Разве он не вернет обе строки с id = 1, rev = 3?
Michael Lang 24 июнь 2013, в 22:42
0

@MichaelLang Вы говорите о связях. Это решение не делает разрыв связи: «Если у вас есть две строки с максимальным значением в группе для идентификатора группы, обе строки будут в результате в обоих подходах». Это по замыслу, так как это решение является универсальным. Вы несете ответственность за использование прерывателя связей, то есть вам нужно решить, что вы собираетесь использовать в качестве прерывателя связей, когда два максимальных значения равны (возможно, другое поле?). Затем вы можете настроить второй подход, чтобы принять это во внимание.
Adrian Carneiro 25 июнь 2013, в 18:28
0

Мне просто интересно, является ли запрос, который я ввел в своем ответе ниже, менее эффективным или не эквивалентен запросам, введенным в этом ответе, и если да, то почему?
inor 14 июль 2013, в 16:12
0

@AdrianCarneiro, значит, вы говорите, что с первой версией невозможно разорвать связь?
Robert Christ 23 янв. 2014, в 13:58
0

Стоит отметить, что если вы используете код для случайных поисков (например, в качестве основы для представления), решение на основе подзапросов будет мучительно медленным (так как подзапрос выполняется для каждого поиска), в то время как решение левого соединения играет хорошо ... Также было бы коррелированное решение проблемы на основе подзапроса (которое позволяет избежать проблем левого соединения с большими размерами группы). Смотри мой ответ. Не стесняйтесь добавлять его в свой ответ ...
Vajk Hermecz 23 янв. 2014, в 14:18
2

@RobertChrist для произвольного разрыва связей с первой версией, просто добавьте DISTINCT ON (yt.id) после начального SELECT . Это сделало мой запрос вдвое длиннее. Так что я не разрываю связи, так как в моем случае связи практически невозможны.
ma11hew28 14 март 2014, в 00:29
2

Почему первое решение будет работать? Не будет запускаться max функция для каждой группы, состоящей из одной строки вместо всех строк в целом.
Gherman 18 сен. 2014, в 08:24
2

Я ценю это второе решение, потому что Doctrine DQL не будет поддерживать подзапросы в операторах JOIN (как и первое решение), так что это очень полезный обходной путь!
Chadwick Meyer 20 нояб. 2014, в 22:38
0

@German Я изо всех сил пытаюсь понять запрос самостоятельно, но я верю, что предложение GROUP BY заставляет возвращать все строки вместо одной.
Nate 19 дек. 2014, в 01:02
0

Используя MariaDB здесь. Не уверен, почему использование HAVING не дает правильных результатов. то есть SELECT a, b, max(b) as max_b FROM table GROUP BY a HAVING b=max_b . Запрос работает, но некоторые строки просто отсутствуют
Mikhail 12 апр. 2016, в 05:44
0

@ adrian-carneiro: Большое спасибо за ваш ответ, но за ваше первое решение, которое, как мне кажется, должно быть SELECT id, MAX(rev), rev , я получаю: «Столбец rev» должен быть в списке GROUP BY ». Не хватает моей базы данных (не mysql), это не стандартный sql, или что-то еще происходит? Спасибо!
rjcarr 28 июнь 2016, в 19:27
1

Второй подход не работает для меня. он показывает тот же результат, как если бы я просто запустить простой выбор из моей таблицы
Akmal Salikhov 04 фев. 2017, в 14:18
1

Что такого проблемного в добавлении содержимого столбца? почему это не работает?
TheLogicGuy 22 март 2017, в 09:43
0

Я использовал оба этих решения в прошлом, и для небольших наборов данных они работают нормально - однако - они плохо масштабируются. Даже с индексированием и т. Д. Гораздо лучше просто разбить запрос на два небольших шага и заполнить временную таблицу.
photocode 25 нояб. 2017, в 03:58
0

Спасибо!! Я придерживался подхода внутреннего соединения, и он работает нормально.
Mahesh Yadav 15 фев. 2018, в 05:26
0

@AdrianCarneiro Я не понимаю, почему существует равенство в 2 столбцах, а не только в 1, т. Е. По идентификатору для метода внутреннего соединения. Не сработает ли этот метод, если вы присоединитесь только к ID ИЛИ rev, а не к обоим? Может кто-нибудь объяснить, пожалуйста?
Hello.World 20 июль 2018, в 15:19
0

Кто-нибудь знает, как улучшить этот запрос (особенно интересует первый подход), чтобы вернуть 1 строку для каждой сущности, даже если у нас есть несколько одинаковых максимумов. Т.е. наибольшая-1-на-группу-когда-N-наибольшая-существует. Я подозреваю, что дистанция может помочь, но, кажется, очень медленно
Baurzhan 08 авг. 2018, в 08:25
0

Существует третья альтернатива (без JOIN), о которой я раньше не упоминал: объедините rev и id , выберите MAX() а затем извлеките id . Подробности ниже .
zovio 24 сен. 2018, в 12:42
0

Я пробовал оба SQL-запроса к таблицам в 3M строках, и первый (1) запрос намного быстрее, чем второй (2). «Гораздо больше» означает, что я не дождался окончания второго запроса. (1) SELECT a.* FROM history a JOIN (SELECT productId, MAX(updatedAt) AS updatedAt FROM history WHERE updatedAt BETWEEN '2018-12-11 00:00:00' AND '2018-12-11 23:59:58' GROUP BY productId ) AS b ON a.productId = b.productId AND a.updatedAt = b.updatedAt (2) SELECT a.* history a LEFT OUTER JOIN history b ON a.productId = b.productId AND a.updatedAt < b.updatedAt WHERE b.id IS NULL AND a.updatedAt BETWEEN '...' AND '...'
Serhii Popov 11 дек. 2018, в 20:55
0

ПРИМЕЧАНИЕ для невнимательных читателей (к которым я принадлежу): несмотря на то, что вы ищете MAX rev утверждение должно быть a.rev < b.rev (на первый взгляд это выглядит так, как будто вы ищете минимальную версию) ) потому что позже вы добавите WHERE b.rev IS NULL что придает всей команде следующее значение: «Нет значения rev больше, чем a.rev »
Lu55 17 дек. 2018, в 22:47
1

С точки зрения производительности, второй подход - это даже не 50% от первого (насколько это касается mysql).
Salman A 13 фев. 2019, в 12:29

Показать ещё 31 комментарий

SQL выбирает только столбцы с максимальным значением в столбце [дубликаты]

30 ответов

На первый взгляд...

Это так просто, не так ли?

Соединение с простым group-identifier, max-value-in-group Подзапросом

Левое соединение с помощью себя, настройка условий соединения и фильтров

Заключение

Вот пример в SqlFiddle

Ещё вопросы

Соединение с простым `group-identifier, max-value-in-group` Подзапросом