PostgreSQL DISTINCT ON с разными ORDER BY

Question

PostgreSQL DISTINCT ON с разными ORDER BY

123

Я хочу запустить этот запрос:

SELECT DISTINCT ON (address_id) purchases.address_id, purchases.*
FROM purchases
WHERE purchases.product_id = 1
ORDER BY purchases.purchased_at DESC

Но я получаю эту ошибку:

PG:: Ошибка: ошибки ERROR: SELECT DISTINCT ON должны соответствовать начальным выражениям ORDER BY

Добавление address_id в качестве первого выражения ORDER BY заставляет замолчать ошибку, но я действительно не хочу добавлять сортировку по address_id. Можно ли обойтись без упорядочения с помощью address_id?

sl_bug 20 март 2012, в 20:08

Источник

0

Ваше положение о заказе куплено_ не по адресу_адрес. Можете ли вы прояснить свой вопрос.
Teja 20 март 2012, в 22:01
0

мой заказ имеет покупку, потому что я хочу его, но postgres также запрашивает адрес (см. сообщение об ошибке).
sl_bug 20 март 2012, в 22:03
1

Полностью ответили здесь - stackoverflow.com/questions/9796078/… Благодаря stackoverflow.com/users/268273/mosty-mostacho
sl_bug 21 дек. 2012, в 23:40

Показать ещё 1 комментарий

Теги:

sql

postgresql

sql-order-by

distinct-on

6 ответов

49

Вы можете заказать по адресу address_id в подзапросе, а затем упорядочить по своему желанию во внешнем запросе.

SELECT * FROM 
    (SELECT DISTINCT ON (address_id) purchases.address_id, purchases.* 
    FROM "purchases" 
    WHERE "purchases"."product_id" = 1 ORDER BY address_id DESC ) 
ORDER BY purchased_at DESC

hkf 20 март 2012, в 22:58

2

Но это будет медленнее, чем один запрос, не так ли?
sl_bug 20 март 2012, в 22:05
2

Очень незначительно да. Хотя, поскольку у вас есть покупки. * В исходном select , я не думаю, что это рабочий код?
hkf 20 март 2012, в 22:06
7

Я бы добавил, что для более новых версий postgres вам нужно создать псевдоним подзапроса. Например: SELECT * FROM (ВЫБЕРИТЕ DISTINCT ON (address_id) purchase.address_id, покупок. * FROM "покупает" ГДЕ "покупает". "Product_id" = 1 ORDER BY address_id DESC) КАК tmp ORDER BY tmp.purchased_at DESC
aembke 17 июнь 2014, в 20:38
0

Это вернет address_id дважды (без необходимости). У многих клиентов возникают проблемы с повторяющимися именами столбцов. ORDER BY address_id DESC бессмысленно и вводит в заблуждение. Ничего полезного в этом запросе нет. Результатом является произвольный выбор из каждого набора строк с одним и тем же address_id , а не строки с последним purchased_at . Неоднозначный вопрос не требовал этого явно, но это почти наверняка намерение ОП. Короче говоря: не используйте этот запрос . Я разместил альтернативы с объяснением.
Erwin Brandstetter 17 июль 2017, в 15:22

Показать ещё 2 комментария

21

A подзапрос может решить эту проблему:

SELECT *
FROM  (
    SELECT DISTINCT ON (address_id) *
    FROM   purchases
    WHERE  product_id = 1
    ) p
ORDER  BY purchased_at DESC;

Ведущие выражения в ORDER BY должны согласовываться с столбцами в DISTINCT ON, поэтому вы не можете упорядочивать разные столбцы в одном и том же SELECT.

Используйте только дополнительный ORDER BY в подзапросе, если вы хотите выбрать определенную строку из каждого набора:

SELECT *
FROM  (
    SELECT DISTINCT ON (address_id) *
    FROM   purchases
    WHERE  product_id = 1
    ORDER  BY address_id, purchased_at DESC  -- get "latest" row per address_id
    ) p
ORDER  BY purchased_at DESC;

Если purchased_at может быть NULL, рассмотрим DESC NULLS LAST.
Связанный, с большим количеством объяснений:

Erwin Brandstetter 21 март 2012, в 00:11

0

Вы не можете использовать DISTINCT ON без соответствующего ORDER BY . Первый запрос требует ORDER BY address_id внутри подзапроса.
Aristotle Pagaltzis 12 июль 2017, в 18:46
3

@AristotlePagaltzis: Но вы можете . Откуда вы это взяли, это неправильно. Вы можете использовать DISTINCT ON без ORDER BY в том же запросе. В этом случае вы получаете произвольную строку от каждого набора пиров, определенных предложением DISTINCT ON . Попробуйте или перейдите по ссылкам выше для получения подробной информации и ссылок на руководство. ORDER BY в том же запросе (тот же SELECT ) просто не может не согласиться с DISTINCT ON . Я тоже это объяснил.
Erwin Brandstetter 13 июль 2017, в 00:08
0

Да, ты прав. Я не замечал, что в документах есть примечание «непредсказуемо, если не используется ORDER BY », потому что для меня нет смысла в том, что эта функция реализована так, чтобы иметь возможность работать с непоследовательными наборами значений… но не позволит вам использовать это с явным порядком. Раздражает.
Aristotle Pagaltzis 13 июль 2017, в 06:31
0

@AristotlePagaltzis: Это потому, что внутренне Postgres использует один из (как минимум) двух разных алгоритмов: либо перебирает отсортированный список, либо работает со значениями хеш-функций - в зависимости от того, что обещает быть быстрее. В последнем случае результат не сортируется по выражениям DISTINCT ON (пока).
Erwin Brandstetter 13 июль 2017, в 15:15

Показать ещё 2 комментария

10

Функция окна может решить, что за один проход:

SELECT DISTINCT ON (address_id) 
   LAST_VALUE(purchases.address_id) OVER wnd AS address_id
FROM "purchases"
WHERE "purchases"."product_id" = 1
WINDOW wnd AS (
   PARTITION BY address_id ORDER BY purchases.purchased_at DESC
   ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING)

savenkov 18 июль 2013, в 07:31

5

Было бы хорошо, если бы кто-то объяснил запрос.
Gajus 29 апр. 2017, в 10:18
0

@Gajus: краткое объяснение: это не работает, только возвращает отличный address_id . Принцип может работать, хотя. Связанные примеры: stackoverflow.com/a/22064571/939860 или stackoverflow.com/a/11533808/939860 . Но есть более короткие и / или более быстрые запросы для решения проблемы.
Erwin Brandstetter 17 июль 2017, в 15:56

1

Для всех, кто использует Flask-SQLAlchemy, это сработало для меня

from app import db
from app.models import Purchases
from sqlalchemy.orm import aliased
from sqlalchemy import desc

stmt = Purchases.query.distinct(Purchases.address_id).subquery('purchases')
alias = aliased(Purchases, stmt)
distinct = db.session.query(alias)
distinct.order_by(desc(alias.purchased_at))

reubano 25 апр. 2017, в 14:26

2

Да, или даже проще, я смог использовать: query.distinct(foo).from_self().order(bar)
Laurent Meyer 04 янв. 2018, в 14:46
0

@LaurentMeyer ты имеешь в виду Purchases.query ?
reubano 08 янв. 2018, в 13:24
0

Да, я имел в виду покупки. Запрос
Laurent Meyer 08 янв. 2018, в 14:14

Показать ещё 1 комментарий

-3

Вы также можете сделать это, используя предложение group by

   SELECT purchases.address_id, purchases.* FROM "purchases"
    WHERE "purchases"."product_id" = 1 GROUP BY address_id,
purchases.purchased_at ORDER purchases.purchased_at DESC

vaishali 23 май 2017, в 04:43

0

Это неправильно (если purchases не имеет только две колонки address_id и purchased_at ). Из-за GROUP BY вам нужно будет использовать статистическую функцию, чтобы получить значение каждого столбца, не используемого для группировки, поэтому все значения будут поступать из разных строк группы, если вы не пройдете некрасивую и неэффективную гимнастику. Это можно исправить только с помощью оконных функций, а не GROUP BY .
Aristotle Pagaltzis 12 июль 2017, в 18:10

Ещё вопросы

Ваше положение о заказе куплено_ не по адресу_адрес. Можете ли вы прояснить свой вопрос.
мой заказ имеет покупку, потому что я хочу его, но postgres также запрашивает адрес (см. сообщение об ошибке).
Полностью ответили здесь - stackoverflow.com/questions/9796078/… Благодаря stackoverflow.com/users/268273/mosty-mostacho
Но это будет медленнее, чем один запрос, не так ли?
Очень незначительно да. Хотя, поскольку у вас есть покупки. * В исходном select , я не думаю, что это рабочий код?
Я бы добавил, что для более новых версий postgres вам нужно создать псевдоним подзапроса. Например: SELECT * FROM (ВЫБЕРИТЕ DISTINCT ON (address_id) purchase.address_id, покупок. * FROM "покупает" ГДЕ "покупает". "Product_id" = 1 ORDER BY address_id DESC) КАК tmp ORDER BY tmp.purchased_at DESC
Это вернет address_id дважды (без необходимости). У многих клиентов возникают проблемы с повторяющимися именами столбцов. ORDER BY address_id DESC бессмысленно и вводит в заблуждение. Ничего полезного в этом запросе нет. Результатом является произвольный выбор из каждого набора строк с одним и тем же address_id , а не строки с последним purchased_at . Неоднозначный вопрос не требовал этого явно, но это почти наверняка намерение ОП. Короче говоря: не используйте этот запрос . Я разместил альтернативы с объяснением.
Вы не можете использовать DISTINCT ON без соответствующего ORDER BY . Первый запрос требует ORDER BY address_id внутри подзапроса.
@AristotlePagaltzis: Но вы можете . Откуда вы это взяли, это неправильно. Вы можете использовать DISTINCT ON без ORDER BY в том же запросе. В этом случае вы получаете произвольную строку от каждого набора пиров, определенных предложением DISTINCT ON . Попробуйте или перейдите по ссылкам выше для получения подробной информации и ссылок на руководство. ORDER BY в том же запросе (тот же SELECT ) просто не может не согласиться с DISTINCT ON . Я тоже это объяснил.
Да, ты прав. Я не замечал, что в документах есть примечание «непредсказуемо, если не используется ORDER BY », потому что для меня нет смысла в том, что эта функция реализована так, чтобы иметь возможность работать с непоследовательными наборами значений… но не позволит вам использовать это с явным порядком. Раздражает.
@AristotlePagaltzis: Это потому, что внутренне Postgres использует один из (как минимум) двух разных алгоритмов: либо перебирает отсортированный список, либо работает со значениями хеш-функций - в зависимости от того, что обещает быть быстрее. В последнем случае результат не сортируется по выражениям DISTINCT ON (пока).
Было бы хорошо, если бы кто-то объяснил запрос.
@Gajus: краткое объяснение: это не работает, только возвращает отличный address_id . Принцип может работать, хотя. Связанные примеры: stackoverflow.com/a/22064571/939860 или stackoverflow.com/a/11533808/939860 . Но есть более короткие и / или более быстрые запросы для решения проблемы.
Да, или даже проще, я смог использовать: query.distinct(foo).from_self().order(bar)
@LaurentMeyer ты имеешь в виду Purchases.query ?
Это неправильно (если purchases не имеет только две колонки address_id и purchased_at ). Из-за GROUP BY вам нужно будет использовать статистическую функцию, чтобы получить значение каждого столбца, не используемого для группировки, поэтому все значения будут поступать из разных строк группы, если вы не пройдете некрасивую и неэффективную гимнастику. Это можно исправить только с помощью оконных функций, а не GROUP BY .

Mosty Mostacho · Accepted Answer · 2012-03-20T22-28-00.000Z

Документация гласит:

DISTINCT ON (выражение [,...]) сохраняет только первую строку каждого набора строк, где данные выражения оцениваются равными. [...] Обратите внимание, что "первая строка" каждого набора непредсказуема, если ORDER BY не используется, чтобы гарантировать, что первая строка появится первой. [...] Выражение DISTINCT ON должно соответствовать крайнему левому выражению ORDER BY.

Официальная документация

Итак, вам нужно добавить address_id в порядок.

В качестве альтернативы, если вы ищете полную строку, содержащую самый последний приобретенный продукт для каждого address_id, и этот результат отсортирован по purchased_at, тогда вы пытаетесь решить самую большую проблему N на группу, которая может быть решаются следующими подходами:

Общее решение, которое должно работать в большинстве СУБД:

SELECT t1.* FROM purchases t1
JOIN (
    SELECT address_id, max(purchased_at) max_purchased_at
    FROM purchases
    WHERE product_id = 1
    GROUP BY address_id
) t2
ON t1.address_id = t2.address_id AND t1.purchased_at = t2.max_purchased_at
ORDER BY t1.purchased_at DESC

Более ориентированное на PostgreSQL решение на основе ответа @hkf:

SELECT * FROM (
  SELECT DISTINCT ON (address_id) *
  FROM purchases 
  WHERE product_id = 1
  ORDER BY address_id, purchased_at DESC
) t
ORDER BY purchased_at DESC

Проблема уточнена, расширена и решена здесь: Выбор строк, упорядоченных некоторым столбцом и отличающихся друг от друга

Это работает, но дает неправильный порядок. Вот почему я хочу избавиться от address_id в предложении заказа
Документация ясна: вы не можете, потому что выбранная строка будет непредсказуемой
Но может быть есть другой способ выбора последних покупок по разным адресам?
Вы должны сделать заказ по адресу address_id, но это работает, если вы заказываете по purchases.purchased_at DESC потому что для каждого адреса он получает самую последнюю покупку.
Если вам нужно сделать заказ с помощью buyases.purchased_at, вы можете добавить купленный_at к вашим условиям DISTINCT: SELECT DISTINCT ON (purchases.purchased_at, address_id) . Однако две записи с одним и тем же address_id, но с разными значениями приобрела в результате будут получены дубликаты в возвращенном наборе. Убедитесь, что вы осведомлены о данных, которые запрашиваете.
Суть вопроса ясна. Не нужно выбирать семантику. Печально, что принятый и получивший наибольшее количество голосов ответ не поможет вам решить проблему.
Этот запрос, хотя и принятый, не приводит к желаемому упорядочению в результате (с помощью ORDER BY purchases.purchased_at DESC ).
Ваше исправление не основано на ответе hkf , который является неправильным и вводящим в заблуждение. Это точная копия того, что я опубликовал 5 лет назад.
@ErwinBrandstetter Я основал это на ответе hkf. Проблема в том, что ваш ответ совпадает с ответом hkf (за исключением, конечно, порядка). Что касается порядка, вы предложили мне использовать улучшение для ORDER BY в своем комментарии выше, поэтому я улучшил ответ с вашим собственным отзывом. Я не уверен, что с этим. В любом случае, не стесняйтесь редактировать мой ответ по своему усмотрению
@MostyMostacho: Это не то же самое, и это не просто порядок. В этом-то и дело.