Сгруппированный LIMIT в PostgreSQL: показать первые N строк для каждой группы?

Question

Сгруппированный LIMIT в PostgreSQL: показать первые N строк для каждой группы?

119

Мне нужно взять первые N строк для каждой группы, упорядоченных по пользовательскому столбцу.

Учитывая следующую таблицу:

db=# SELECT * FROM xxx;
 id | section_id | name
----+------------+------
  1 |          1 | A
  2 |          1 | B
  3 |          1 | C
  4 |          1 | D
  5 |          2 | E
  6 |          2 | F
  7 |          3 | G
  8 |          2 | H
(8 rows)

Мне нужны первые 2 строки (упорядоченные по name) для каждого section_id, то есть результат, похожий на:

 id | section_id | name
----+------------+------
  1 |          1 | A
  2 |          1 | B
  5 |          2 | E
  6 |          2 | F
  7 |          3 | G
(5 rows)

Я использую PostgreSQL 8.3.5.

Kouber Saparev 14 июль 2009, в 10:44

Источник

Теги:

sql

postgresql

5 ответов

13

Так как v9.3 вы можете выполнить боковое соединение

select distinct t_outer.section_id, t_top.id, t_top.name from t t_outer
join lateral (
    select * from t t_inner
    where t_inner.section_id = t_outer.section_id
    order by t_inner.name
    limit 2
) t_top on true
order by t_outer.section_id;

может быть быстрее, но, конечно же, вы должны проверить производительность специально на своих данных и использовать случай.

poshest 16 июнь 2016, в 15:57

0

Я не очень работаю. Я получаю точно такой же вывод, когда выполняю запрос остальных пользователей, исключая часть бокового соединения, то есть беря только первую и последнюю строки вашего запроса и выполняя их. Эти два следующих возвращают мне один и тот же набор результатов: select distinct a.customer_name, a.order_date from sales a join lateral ( select * from sales b where b.customer_name = a.customer_name order by order_date desc limit 3 ) c on true order by a.customer_name; и select distinct customer_name, order_date from sales order by customer_name;
NurShomik 19 окт. 2016, в 18:37
0

О, моя ошибка Это сработало, мне пришлось использовать c.order_date вместо a.order_date.
NurShomik 19 окт. 2016, в 18:53
1

Очень загадочное решение IMO, особенно с такими именами, но хорошее.
villasv 08 май 2017, в 21:18
0

Это решение с LATERAL JOIN может быть значительно быстрее, чем указанное выше с оконной функцией (в некоторых случаях), если у вас есть индекс по столбцу t_inner.name
Artur Rashitov 07 авг. 2017, в 15:42
0

Запрос легче понять, если он не содержит самосоединения. В этом случае distinct не требуется. Пример показан в размещенной ссылке.
gillesB 04 дек. 2018, в 10:41

Показать ещё 3 комментария

11

Здесь другое решение (PostgreSQL <= 8.3).

SELECT
  *
FROM
  xxx a
WHERE (
  SELECT
    COUNT(*)
  FROM
    xxx
  WHERE
    section_id = a.section_id
  AND
    name <= a.name
) <= 2

Kouber Saparev 17 июль 2009, в 15:41

2

        -- ranking without WINDOW functions
-- EXPLAIN ANALYZE
WITH rnk AS (
        SELECT x1.id
        , COUNT(x2.id) AS rnk
        FROM xxx x1
        LEFT JOIN xxx x2 ON x1.section_id = x2.section_id AND x2.name <= x1.name
        GROUP BY x1.id
        )
SELECT this.*
FROM xxx this
JOIN rnk ON rnk.id = this.id
WHERE rnk.rnk <=2
ORDER BY this.section_id, rnk.rnk
        ;

        -- The same without using a CTE
-- EXPLAIN ANALYZE
SELECT this.*
FROM xxx this
JOIN ( SELECT x1.id
        , COUNT(x2.id) AS rnk
        FROM xxx x1
        LEFT JOIN xxx x2 ON x1.section_id = x2.section_id AND x2.name <= x1.name
        GROUP BY x1.id
        ) rnk
ON rnk.id = this.id
WHERE rnk.rnk <=2
ORDER BY this.section_id, rnk.rnk
        ;

wildplasser 07 дек. 2012, в 21:12

0

CTE и оконные функции были представлены в одной и той же версии, поэтому я не вижу преимущества первого решения.
a_horse_with_no_name 07 дек. 2012, в 20:56
0

Посту три года. Кроме того, все еще могут быть реализации, в которых их нет (подтолкни, скажи больше). Это также можно считать упражнением в старомодном построении запросов. (хотя CTE не очень старомодны)
wildplasser 07 дек. 2012, в 21:00
0

Запись помечена как «postgresql», а версия PostgreSQL, в которой представлены CTE, также представила функции управления окнами. Отсюда мой комментарий (я видел, что он такой старый - и у PG 8.3 не было ни того, ни другого)
a_horse_with_no_name 07 дек. 2012, в 21:01
0

В посте упоминается 8.3.5, и я считаю, что они были введены в 8.4. Кроме того: также полезно знать об альтернативных сценариях, ИМХО.
wildplasser 07 дек. 2012, в 21:03
0

Это именно то, что я имею в виду: в 8.3 не было ни CTE, ни оконных функций. Таким образом, первое решение не будет работать на 8.3
a_horse_with_no_name 07 дек. 2012, в 21:05
0

Я знаю, но пост также помечен как «SQL», что подразумевает «любое сочетание функций», так что это просто добавляет другие способы выполнить ту же задачу. (Признаюсь, я часто использую CTE для построения запросов, главным образом потому, что синтаксис понятен человеческому глазу)
wildplasser 07 дек. 2012, в 21:09

Показать ещё 4 комментария

2

SELECT  x.*
FROM    (
        SELECT  section_id,
                COALESCE
                (
                (
                SELECT  xi
                FROM    xxx xi
                WHERE   xi.section_id = xo.section_id
                ORDER BY
                        name, id
                OFFSET 1 LIMIT 1
                ),
                (
                SELECT  xi
                FROM    xxx xi
                WHERE   xi.section_id = xo.section_id
                ORDER BY 
                        name DESC, id DESC
                LIMIT 1
                )
                ) AS mlast
        FROM    (
                SELECT  DISTINCT section_id
                FROM    xxx
                ) xo
        ) xoo
JOIN    xxx x
ON      x.section_id = xoo.section_id
        AND (x.name, x.id) <= ((mlast).name, (mlast).id)

Quassnoi 14 июль 2009, в 10:51

0

Я получаю: ОШИБКА: синтаксическая ошибка в или около "JOIN"
Kouber Saparev 14 июль 2009, в 12:16
0

@ Kouber: см. Сообщение об обновлении
Quassnoi 14 июль 2009, в 12:29
0

Запрос очень близок к тому, который мне нужен, за исключением того, что он не показывает разделы с менее чем 2 строками, то есть строка с ID = 7 не возвращается. В противном случае мне нравится ваш подход.
Kouber Saparev 14 июль 2009, в 15:29
0

@ Kouber: см. Сообщение об обновлении
Quassnoi 14 июль 2009, в 15:35
0

Спасибо, я только что пришел к тому же решению с COALESCE, но вы были быстрее. :-)
Kouber Saparev 14 июль 2009, в 15:41
0

На самом деле последний подпункт JOIN можно упростить до: ... AND x.id <= (mlast) .id, поскольку идентификатор уже выбран в соответствии с полем имени, нет?
Kouber Saparev 14 июль 2009, в 15:47
0

@ Кубер: в вашем примере name и id отсортированы в том же порядке, поэтому вы его не увидите. Сделайте имена в обратном порядке, и вы увидите, что эти запросы дают разные результаты.
Quassnoi 14 июль 2009, в 16:12
0

Вы правы, это не может быть упрощено таким образом.
Kouber Saparev 15 июль 2009, в 13:01

Показать ещё 6 комментариев

Ещё вопросы

Я не очень работаю. Я получаю точно такой же вывод, когда выполняю запрос остальных пользователей, исключая часть бокового соединения, то есть беря только первую и последнюю строки вашего запроса и выполняя их. Эти два следующих возвращают мне один и тот же набор результатов: select distinct a.customer_name, a.order_date from sales a join lateral ( select * from sales b where b.customer_name = a.customer_name order by order_date desc limit 3 ) c on true order by a.customer_name; и select distinct customer_name, order_date from sales order by customer_name;
О, моя ошибка Это сработало, мне пришлось использовать c.order_date вместо a.order_date.
Очень загадочное решение IMO, особенно с такими именами, но хорошее.
Это решение с LATERAL JOIN может быть значительно быстрее, чем указанное выше с оконной функцией (в некоторых случаях), если у вас есть индекс по столбцу t_inner.name
Запрос легче понять, если он не содержит самосоединения. В этом случае distinct не требуется. Пример показан в размещенной ссылке.
CTE и оконные функции были представлены в одной и той же версии, поэтому я не вижу преимущества первого решения.
Посту три года. Кроме того, все еще могут быть реализации, в которых их нет (подтолкни, скажи больше). Это также можно считать упражнением в старомодном построении запросов. (хотя CTE не очень старомодны)
Запись помечена как «postgresql», а версия PostgreSQL, в которой представлены CTE, также представила функции управления окнами. Отсюда мой комментарий (я видел, что он такой старый - и у PG 8.3 не было ни того, ни другого)
В посте упоминается 8.3.5, и я считаю, что они были введены в 8.4. Кроме того: также полезно знать об альтернативных сценариях, ИМХО.
Это именно то, что я имею в виду: в 8.3 не было ни CTE, ни оконных функций. Таким образом, первое решение не будет работать на 8.3
Я знаю, но пост также помечен как «SQL», что подразумевает «любое сочетание функций», так что это просто добавляет другие способы выполнить ту же задачу. (Признаюсь, я часто использую CTE для построения запросов, главным образом потому, что синтаксис понятен человеческому глазу)
Я получаю: ОШИБКА: синтаксическая ошибка в или около "JOIN"
@ Kouber: см. Сообщение об обновлении
Запрос очень близок к тому, который мне нужен, за исключением того, что он не показывает разделы с менее чем 2 строками, то есть строка с ID = 7 не возвращается. В противном случае мне нравится ваш подход.
@ Kouber: см. Сообщение об обновлении
Спасибо, я только что пришел к тому же решению с COALESCE, но вы были быстрее. :-)
На самом деле последний подпункт JOIN можно упростить до: ... AND x.id <= (mlast) .id, поскольку идентификатор уже выбран в соответствии с полем имени, нет?
@ Кубер: в вашем примере name и id отсортированы в том же порядке, поэтому вы его не увидите. Сделайте имена в обратном порядке, и вы увидите, что эти запросы дают разные результаты.
Вы правы, это не может быть упрощено таким образом.

Dave · Accepted Answer · 2011-05-19T20-41-00.000Z

Новое решение (PostgreSQL 8.4)

SELECT
  * 
FROM (
  SELECT
    ROW_NUMBER() OVER (PARTITION BY section_id ORDER BY name) AS r,
    t.*
  FROM
    xxx t) x
WHERE
  x.r <= 2;

Это работает и с PostgreSQL 8.4 (оконные функции начинаются с 8.4).
Слишком хорошо, чтобы использовать его пример :)
Это, безусловно, правильный ответ - Разум взорван
Учебник ответ, чтобы сделать сгруппированный лимит
Потрясающие! Работает без нареканий. Мне любопытно, есть ли способ сделать это с group by ?