Как эффективно фильтровать повторяющиеся значения s и d из таблицы пар (s, d), сохраняя только самые маленькие пары (s, d)

Question

Как эффективно фильтровать повторяющиеся значения s и d из таблицы пар (s, d), сохраняя только самые маленькие пары (s, d)

0

Вот мой тестовый пример

CREATE TABLE matches AS
        SELECT 1 s, 2 d
  UNION SELECT 1, 3 -- (1,2) preferred
  UNION SELECT 2, 2 -- (1,2) preferred
  UNION SELECT 2, 3
  UNION SELECT 3, 3 -- (2,3) preferred
  UNION SELECT 3, 4;

Я хочу отфильтровать эту таблицу и сохранить каждое значение s или d только один раз, задавая приоритеты наименьшим (s, d) парам. Результат должен быть (1,2),(2,3),(3,4). Как это сделать эффективно?

Я попробовал запрос ниже, но он работает только в том случае, если значения d, связанные с разными значениями s, не перекрываются

SELECT * FROM (
   SELECT
     *,
     row_number() OVER (PARTITION BY s ORDER BY d) rs,
     row_number() OVER (PARTITION BY d ORDER BY s) rd
    FROM matches
   ) t
WHERE rd = rs;

Любая помощь будет очень высоко ценится.

klarezz 19 сен. 2018, в 14:01

Источник

2

Вы используете MySQL или MS SQL Server?
jarlh 19 сен. 2018, в 11:35
0

Пожалуйста, не используйте теги, которые не относятся к вашему вопросу. Я удалил теги базы данных, так как неясно, какой из них вы на самом деле используете. Пожалуйста, добавьте тег только той базы данных, которую вы фактически используете
John Conde 19 сен. 2018, в 11:36
0

логика ожидаемых результатов не ясна, кажется, что она основана на самом низком D для данного S, но результаты включают (2,3) вместо (2,2)
Andrew 19 сен. 2018, в 11:38
0

Почему (1,2) предпочтительнее (2,2)?
Nick 19 сен. 2018, в 11:39
0

спасибо за комментарии, я обновил вопрос соответственно.
klarezz 19 сен. 2018, в 11:50
0

@ Андрей, (1,2) является взаимоисключающим с (2,2), потому что они имеют одинаковое d = 2. (1,2) является предпочтительным, потому что (1,2) <(2,2)
klarezz 19 сен. 2018, в 11:50
0

@JohnConde это нормально, чтобы дублировать вопрос и использовать другие теги? потому что было бы интересно узнать, как это можно сделать в разных СУБД?
klarezz 19 сен. 2018, в 12:12

Показать ещё 5 комментариев

Теги:

mysql

sql

join

1 ответ

Ещё вопросы

Пожалуйста, не используйте теги, которые не относятся к вашему вопросу. Я удалил теги базы данных, так как неясно, какой из них вы на самом деле используете. Пожалуйста, добавьте тег только той базы данных, которую вы фактически используете
логика ожидаемых результатов не ясна, кажется, что она основана на самом низком D для данного S, но результаты включают (2,3) вместо (2,2)
спасибо за комментарии, я обновил вопрос соответственно.
@ Андрей, (1,2) является взаимоисключающим с (2,2), потому что они имеют одинаковое d = 2. (1,2) является предпочтительным, потому что (1,2) <(2,2)
@JohnConde это нормально, чтобы дублировать вопрос и использовать другие теги? потому что было бы интересно узнать, как это можно сделать в разных СУБД?

Nick · Answer 1 · 2018-09-19T09-32-00.000Z

0

Если я правильно интерпретирую ваши намерения, вы можете сделать это, скопировав таблицу в новую (возможно временную) таблицу с индексами UNIQUE на s и d и используя INSERT IGNORE для копирования данных:

CREATE TABLE matches AS
        SELECT 1 s, 2 d
  UNION SELECT 1, 3 -- (1,2) preferred
  UNION SELECT 2, 2 -- (1,2) preferred
  UNION SELECT 2, 3
  UNION SELECT 3, 3
  UNION SELECT 3, 4;

CREATE TABLE matches2 (s INT, d INT);
ALTER TABLE matches2 ADD UNIQUE KEY (s), ADD UNIQUE KEY(d);

INSERT IGNORE INTO matches2 
SELECT * FROM matches ORDER BY s, d;

SELECT * FROM matches2

Выход:

Nick 19 сен. 2018, в 09:32

0

спасибо за ответ, да, используя временную таблицу, тогда вставка является возможным решением, это метод, который я использую сейчас (с левыми соединениями вместо индексов), но он кажется очень неэффективным.
klarezz 19 сен. 2018, в 11:53
0

Я думаю, что индекс, вероятно, более эффективен, чем левое соединение, но было бы интересно посмотреть статистику. Трудность с вашей проблемой заключается в том, что если (например) (1,3) не выбить (1,2), то выбьет (2,3), но потому что (1,3) выбило out, (2,3) попадает в вывод. Так что вам действительно нужно иметь где-то состояние, на которое вы можете посмотреть, и временная таблица - хороший способ получить это. Другой альтернативой, вероятно, является хранимая процедура.
Nick 19 сен. 2018, в 12:16
0

Ваш метод кажется лучше, чем мой, потому что мне приходится многократно вставлять хранимую процедуру при использовании левых соединений. И да, сложность состоит в том, чтобы отслеживать принятые значения, мне интересно, если бы оконные функции не позволили бы это более эффективно
klarezz 19 сен. 2018, в 12:22
0

Возможно, вы правы насчет оконных функций. Я не уверен, что они могут поддерживать достаточно состояния, хотя. Мне, конечно, будет интересно посмотреть, если кто-то придумает решение, используя их.
Nick 19 сен. 2018, в 12:35
0

@ klarezz Мне любопытно, ты когда-нибудь придумывал лучший способ сделать это?
Nick 29 сен. 2018, в 05:50
0

Нет, я все еще использую временную таблицу. Я буду держать вас в курсе, если найду лучший способ.
klarezz 29 сен. 2018, в 10:01

Показать ещё 4 комментария