Вставить, при повторном обновлении в PostgreSQL?

Question

Вставить, при повторном обновлении в PostgreSQL?

522

Несколько месяцев назад я узнал из ответа на Stack Overflow, как выполнить несколько обновлений сразу в MySQL, используя следующий синтаксис:

INSERT INTO table (id, field, field2) VALUES (1, A, X), (2, B, Y), (3, C, Z)
ON DUPLICATE KEY UPDATE field=VALUES(Col1), field2=VALUES(Col2);

Теперь я перешел на PostgreSQL и, видимо, это неверно. Он ссылается на все правильные таблицы, поэтому я предполагаю, что это вопрос с использованием разных ключевых слов, но я не уверен, где это описано в документации PostgreSQL.

Чтобы уточнить, я хочу вставить несколько вещей, и если они уже существуют для их обновления.

Teifion 10 июль 2009, в 11:16

Источник

37

Любой, кто найдет этот вопрос, должен прочесть статью Депеша «Почему так сложно расстроиться ?» , Это объясняет проблему и возможные решения очень хорошо.
Craig Ringer 14 окт. 2012, в 01:22
7

UPSERT будет добавлен в Postgres 9.5: wiki.postgresql.org/wiki/…
tommed 15 июнь 2015, в 12:53
3

@tommed - это было сделано: stackoverflow.com/a/34639631/4418
warren 06 янв. 2016, в 17:59

Показать ещё 1 комментарий

Теги:

upsert

sql

postgresql

sql-merge

16 ответов

385

Предупреждение: это небезопасно, если выполняется с нескольких сеансов одновременно (см. ниже).

Другим умным способом выполнить "UPSERT" в postgresql является выполнение двух последовательных операторов UPDATE/INSERT, каждая из которых предназначена для достижения успеха или не имеет никакого эффекта.

UPDATE table SET field='C', field2='Z' WHERE id=3;
INSERT INTO table (id, field, field2)
       SELECT 3, 'C', 'Z'
       WHERE NOT EXISTS (SELECT 1 FROM table WHERE id=3);

UPDATE будет успешным, если строка с "id = 3" уже существует, в противном случае она не имеет эффекта.

INSERT будет успешным, только если строка с "id = 3" еще не существует.

Вы можете объединить эти два в одну строку и запустить их как с одним оператором SQL, выполняемым из вашего приложения. Рекомендуется использовать их вместе в одной транзакции.

Это работает очень хорошо, когда выполняется изолированно или в заблокированной таблице, но зависит от условий гонки, которые означают, что он все равно может не работать с дублирующейся ключевой ошибкой, если строка вставлена одновременно или может завершиться без строки, вставленной, когда строка удаляется одновременно. Операция SERIALIZABLE на PostgreSQL 9.1 или выше будет надежно справляться с ней за счет очень высокой скорости сбоя сериализации, то есть вам придется многократно повторить попытку. См. почему это так сложно, в котором более подробно обсуждается этот случай.

Этот подход также подвергается потерям обновлений в read committed изоляции, если приложение не проверяет затронутые подсчеты строк и не проверяет, повлияло ли на строку insert или update на строку.

bovine 29 июнь 2011, в 22:43

0

Вопрос, INSERT терпит неудачу, если запись существует? или он вставляет пустую запись? Будет ли это работать, если я не использую идентификатор (pk) и просто другое уникальное поле?
Phill Pafford 12 окт. 2011, в 14:19
5

Краткий ответ: если запись существует, INSERT ничего не делает. Длинный ответ: SELECT в INSERT вернет столько результатов, сколько совпадений в предложении where. Это самое большее один (если номер один не в результате суб-выбора), иначе ноль. Таким образом, INSERT добавит одну или ноль строк.
Peter Becker 15 окт. 2011, в 10:34
3

часть «где» может быть упрощена с помощью «существует»: ... where not exists (select 1 from table where id = 3);
Endy Tjahjono 21 окт. 2011, в 06:46
0

Очень хороший ответ, спасибо!
Franz 03 нояб. 2011, в 14:32
1

это должен быть правильный ответ ... с некоторыми незначительными изменениями он может быть использован для массового обновления ... Хм ... Интересно, можно ли использовать временную таблицу ...
baash05 01 март 2012, в 00:03
0

все еще отличный ответ, но @a_horse_with_no_name немного расширил его ..
baash05 01 март 2012, в 05:04
0

Я слышал, что этот синтаксис INSERT поддерживается только в Postgres версии 9.1 или выше. Кто-нибудь может это подтвердить?
keaplogik 27 фев. 2013, в 18:49
1

@keaplogik, это ограничение 9.1 касается записываемых CTE (общих табличных выражений), которые описаны в другом из ответов. Синтаксис, использованный в этом ответе, очень простой и давно поддерживается.
bovine 06 март 2013, в 19:58
7

Предупреждение: это может привести к потере обновлений в изолированной фиксации read committed если только ваше приложение не проверит, чтобы убедиться, что insert или update имеют ненулевое число строк. См. Dba.stackexchange.com/q/78510/7788
Craig Ringer 07 окт. 2014, в 07:16
0

Спасибо, это должно отливать меня до Postgres 9.5! craigkerstiens.com/2015/05/08/upsert-lands-in-postgres-9.5
Carl 10 июнь 2015, в 14:49
0

У меня нет такого глубокого понимания Postgres ... Нет ли возможности блокировки или чего-то такого, что могло бы гарантировать, что сервер выполняет эти две команды последовательно?
sudo 19 июнь 2015, в 18:40
0

Это не сработает, если я даже не знаю, что это за id, однако это обычные случаи, так как многие люди полагаются на идентификатор автоинкремента.
Alston 29 апр. 2017, в 09:18

Показать ещё 10 комментариев

227

С PostgreSQL 9.1 это может быть достигнуто с использованием стандартного выражения CTE ():

WITH new_values (id, field1, field2) as (
  values 
     (1, 'A', 'X'),
     (2, 'B', 'Y'),
     (3, 'C', 'Z')

),
upsert as
( 
    update mytable m 
        set field1 = nv.field1,
            field2 = nv.field2
    FROM new_values nv
    WHERE m.id = nv.id
    RETURNING m.*
)
INSERT INTO mytable (id, field1, field2)
SELECT id, field1, field2
FROM new_values
WHERE NOT EXISTS (SELECT 1 
                  FROM upsert up 
                  WHERE up.id = new_values.id)

Смотрите эти записи в блоге:

Обратите внимание, что это решение не предотвращает уникальное нарушение ключа, но оно не уязвимо для потерянных обновлений.
См. продолжение Craig Ringer на dba.stackexchange.com

a_horse_with_no_name 02 янв. 2012, в 15:25

0

Это лучше, чем хранимая процедура?
François Beausoleil 21 фев. 2012, в 15:11
1

@ FrançoisBeausoleil: вероятность возникновения гонки намного меньше, чем при использовании метода «попробуй / обработай исключение»
a_horse_with_no_name 21 фев. 2012, в 15:32
2

@a_horse_with_no_name Как именно вы имеете в виду, что шанс в условиях гонки намного меньше? Когда я выполняю этот запрос одновременно с одними и теми же записями, я получаю сообщение об ошибке «значение ключа-дубликата нарушает уникальное ограничение» 100% раз, пока запрос не обнаружит, что запись была вставлена. Это полный пример?
Jeroen van Dijk 26 март 2012, в 09:39
4

@a_horse_with_no_name Похоже, ваше решение работает в параллельных ситуациях, когда вы переносите оператор upsert со следующей блокировкой: BEGIN WORK; LOCK TABLE mytable в эксклюзивном режиме SHARE ROW; <УПРАВЛЕНИЕ ЗДЕСЬ>; КОМИТЕТНАЯ РАБОТА;
Jeroen van Dijk 26 март 2012, в 11:15
2

@JeroenvanDijk: спасибо. Что я имел в виду под «гораздо меньшим», так это то, что если несколько транзакций для этого (и зафиксировать изменение!), Промежуток времени между обновлением и вставкой будет меньше, поскольку все это всего лишь один оператор. Вы всегда можете сгенерировать нарушение pk с помощью двух независимых операторов INSERT. Если вы заблокируете всю таблицу, вы фактически сериализуете весь доступ к ней (чего вы могли бы достичь и с помощью сериализуемого уровня изоляции).
a_horse_with_no_name 26 март 2012, в 11:28
0

@a_horse_with_no_name Я не очень разбираюсь в Postgres, поэтому я не уверен, что является более оптимальным для одновременных ситуаций, но я считаю, что я прочитал в списке рассылки PS, что блокировки необходимы и, вероятно, будут наиболее эффективными. Я пробовал несколько блокировок, и кажется, что эта блокировка отлично работает даже с несколькими параллельными потоками, пытающимися вставить одни и те же данные. Сериализуемый уровень изоляции, о котором вы говорите, кажется менее детализированным способом достижения этого ( postgresql.org/docs/8.4/static/transaction-iso.html ), я прав?
Jeroen van Dijk 28 март 2012, в 08:16
0

Обратите внимание, что PostgreSQL не хочет m. префикс в части SET оператора UPDATE. Мы должны update mytable m set field1 = nv.field1, field2 = nv.field2
Ludovic Kuty 09 июль 2012, в 10:54
0

Это не будет работать, если у вас есть дубликаты id в new_values (очень возможно, если id является внешним ключом), поскольку шаг вставки не отслеживает все вставленные значения.
David Murdoch 31 июль 2012, в 18:38
0

@DavidMurdoch: хорошо, предполагается, что столбец id является первичным ключом. В противном случае регулярное обновление также не будет работать.
a_horse_with_no_name 31 июль 2012, в 19:29
0

Я не понимаю, как обычное обновление не будет работать только потому, что вы не указали первичный ключ? Или я полностью упустил вашу мысль?
David Murdoch 31 июль 2012, в 23:56
0

@DavidMurdoch: регулярное обновление / вставка (как, например, сделано в примерах из руководства) не будет «работать» так же, как мое утверждение «не будет работать». Если id не PK, он обновит слишком много строк.
a_horse_with_no_name 01 авг. 2012, в 06:37
1

Понял, вы все равно можете иметь fk уникальным (или иметь уникальное ограничение для нескольких столбцов, которые вы обновляете / вставляете). Мой основной комментарий был адресован прохожим в будущем, у которых, возможно, возникнет та же проблема, что и у меня. Спасибо за это и +1.
David Murdoch 01 авг. 2012, в 17:13
1

Можно ли заставить это решение возвращать поле из строки независимо от того, было ли оно обновлено или вставлено?
agnsaft 28 дек. 2012, в 14:59
12

Это решение может быть утеряно при обновлении транзакции вставки; нет никакой проверки, чтобы убедиться, что UPDATE затронуло любые строки.
Craig Ringer 24 июнь 2013, в 03:47
0

Привет лошадь ... я следую за очень длинным путем крошек относительно этой проблемы. Но я думал, что насчет проверки BEFORE INSERT TRIGGER каждая строка будет слишком дорогой?
Juan Carlos Oropeza 07 июль 2016, в 21:51

Показать ещё 13 комментариев

102

В PostgreSQL 9.5 и новее вы можете использовать INSERT ... ON CONFLICT UPDATE.

Смотрите документацию.

MySQL INSERT ... ON DUPLICATE KEY UPDATE можно напрямую перефразировать до ON CONFLICT UPDATE. Синтаксис SQL-стандарта не является, они оба расширения для конкретной базы данных. Есть веские причины, по которым MERGE не использовался для этого, новый синтаксис не был создан просто для удовольствия. (Синтаксис MySQL также имеет проблемы, которые означают, что он не был принят напрямую).

например. данная настройка:

CREATE TABLE tablename (a integer primary key, b integer, c integer);
INSERT INTO tablename (a, b, c) values (1, 2, 3);

запрос MySQL:

INSERT INTO tablename (a,b,c) VALUES (1,2,3)
  ON DUPLICATE KEY UPDATE c=c+1;

становится:

INSERT INTO tablename (a, b, c) values (1, 2, 10)
ON CONFLICT (a) DO UPDATE SET c = tablename.c + 1;

Отличия:

Вы должны указать имя столбца (или уникальное имя ограничения), которое будет использоваться для проверки уникальности. Что ON CONFLICT (columnname) DO
Необходимо использовать ключевое слово SET, как если бы это был обычный оператор UPDATE

У него есть и некоторые интересные функции:

У вас может быть предложение WHERE на UPDATE (позволяющее эффективно превратить ON CONFLICT UPDATE в ON CONFLICT IGNORE для определенных значений)
Предлагаемые значения для вставки доступны в виде переменной строки EXCLUDED, которая имеет ту же структуру, что и целевая таблица. Вы можете получить исходные значения в таблице, используя имя таблицы. Таким образом, в этом случае EXCLUDED.c будет 10 (потому что то, что мы пытались вставить) и "table".c будет 3, потому что это текущее значение в таблице. Вы можете использовать один или оба в выражениях SET и WHERE.

Для фона на upsert см. Как запустить UPSERT (MERGE, INSERT... ON DUPLICATE UPDATE) в PostgreSQL?

Craig Ringer 08 май 2015, в 09:46

0

Я посмотрел на решение PostgreSQL 9.5, как вы описали выше, потому что я испытывал пробелы в поле автоинкремента в то время, когда в MySQL было ON DUPLICATE KEY UPDATE . Я скачал Postgres 9.5 и внедрил ваш код, но, как ни странно, та же проблема возникает в Postgres: поле последовательного ключа первичного ключа не является последовательным (между вставками и обновлениями есть промежутки). Есть идеи, что здесь происходит? Это нормально? Есть идеи, как избежать такого поведения? Спасибо.
W.M. 07 авг. 2016, в 10:47
0

@WM Это в значительной степени присуще операции upsert. Вы должны оценить функцию, которая генерирует последовательность, прежде чем пытаться вставить. Поскольку такие последовательности предназначены для одновременной работы, они освобождаются от обычной семантики транзакции, но даже если они не были генерацией, она не вызывается в субтранзакции и откатывается, она завершается нормально и фиксируется с остальной частью операции. Так что это может произойти даже с «последовательными» реализациями последовательностей. Единственный способ, которым БД может этого избежать, - отложить оценку генерации последовательности до проверки ключа.
Craig Ringer 08 авг. 2016, в 01:15
1

@WM, которая создаст свои собственные проблемы. По сути, вы застряли. Но если вы полагаетесь на то, что serial / auto_increment не содержит пробелов, у вас уже есть ошибки. Вы можете иметь пропуски последовательности из-за откатов, включая временные ошибки - перезагрузки под нагрузкой, ошибки клиента во время транзакции, сбои и т. Д. Вы никогда не должны полагаться на то, что SERIAL / SEQUENCE или AUTO_INCREMENT не имеют пропусков. Если вам нужны последовательности без промежутков, они более сложны; вам обычно нужно использовать таблицу счетчиков. Google скажет вам больше. Но имейте в виду, что последовательности без пробелов предотвращают параллелизм всех вставок.
Craig Ringer 08 авг. 2016, в 01:17
0

@WM Если вам абсолютно необходимы последовательности без пропусков и upsert, вы можете использовать подход upsert на основе функций, описанный в руководстве, наряду с реализацией последовательностей без пропусков, которая использует таблицу счетчиков. Поскольку BEGIN ... EXCEPTION ... выполняется в субтранзакции, которая откатывается при ошибке, приращение INSERT будет отменено приращения последовательности.
Craig Ringer 08 авг. 2016, в 01:18
0

Большое спасибо @Craig Ringer, это было довольно информативно. Я понял, что могу просто отказаться от наличия этого первичного ключа с автоматическим приращением. Я сделал составной первичный из 3 полей, и для моей конкретной текущей потребности, действительно, нет необходимости в поле автоинкремента без пропусков. Еще раз спасибо, предоставленная вами информация сэкономит мне время в будущем, пытаясь предотвратить естественное и здоровое поведение БД. Теперь я понимаю это лучше.
W.M. 08 авг. 2016, в 15:58
0

@WM Почему пробелы в последовательном столбце, используемом в качестве первичного ключа, являются проблемой? Они все еще уникальны, и они все еще восходят, просто не гарантированно последовательные. Почему так важно безщеточно? Первичный ключ с 3 столбцами может быть в порядке в зависимости от обстоятельств, но если эти 3 столбца имеют широкие типы данных и у вас много некластеризованных индексов, то вы создаете много накладных расходов в своей системе.
Davos 06 нояб. 2017, в 04:53
0

@ Давос Они обычно не, но такие вещи, как контрольные номера могут иметь деловые требования
Craig Ringer 06 нояб. 2017, в 10:33

Показать ещё 5 комментариев

16

Я искал то же самое, когда я пришел сюда, но отсутствие общей функции "upsert" немного меня беспокоило, поэтому я подумал, что вы можете просто передать обновление и вставить sql в качестве аргументов в эту функцию из руководства

который будет выглядеть следующим образом:

CREATE FUNCTION upsert (sql_update TEXT, sql_insert TEXT)
    RETURNS VOID
    LANGUAGE plpgsql
AS $$
BEGIN
    LOOP
        -- first try to update
        EXECUTE sql_update;
        -- check if the row is found
        IF FOUND THEN
            RETURN;
        END IF;
        -- not found so insert the row
        BEGIN
            EXECUTE sql_insert;
            RETURN;
            EXCEPTION WHEN unique_violation THEN
                -- do nothing and loop
        END;
    END LOOP;
END;
$$;

и, возможно, для того, чтобы сделать то, что вы изначально хотели сделать, пакетный "upsert", вы могли бы использовать Tcl для разделения sql_update и зацикливания отдельных обновлений, удар преформации будет очень небольшим, см. http://archives.postgresql.org/pgsql-performance/2006-04/msg00557.php

самая высокая стоимость выполнения запроса из вашего кода, на стороне базы данных стоимость выполнения намного меньше

Paul Scheltema 16 сен. 2010, в 16:47

3

Вам все еще нужно выполнить это в цикле повтора, и он склонен к гонкам с одновременным DELETE если вы не заблокируете таблицу или не находитесь в SERIALIZABLE изоляции транзакции на PostgreSQL 9.1 или более SERIALIZABLE .
Craig Ringer 22 май 2013, в 10:00

12

Для этого нет простой команды.

Самый правильный подход - использовать функцию, такую как функция docs.

Другое решение (хотя это и не так безопасно) - обновлять с возвратом, проверять, какие строки были обновлениями, и вставить остальные из них

Что-то по строкам:

update table
set column = x.column
from (values (1,'aa'),(2,'bb'),(3,'cc')) as x (id, column)
where table.id = x.id
returning id;

Предполагалось, что id: 2 был возвращен:

insert into table (id, column) values (1, 'aa'), (3, 'cc');

Конечно, он рано или поздно выручит (в параллельной среде), так как здесь есть явное состояние гонки, но обычно это будет работать.

Здесь более длинная и более полная статья по теме.

user80168 10 июль 2009, в 12:33

1

При использовании этой опции обязательно убедитесь, что идентификатор возвращается, даже если обновление ничего не делает. Я видел запросы по оптимизации баз данных типа «Обновить таблицу foo set bar = 4, где bar = 4».
thelem 20 янв. 2012, в 14:58

8

Лично я установил "правило", прилагаемое к инструкции insert. Скажем, у вас была таблица "dns", в которой каждый раз записывались клики DNS для каждого клиента:

CREATE TABLE dns (
    "time" timestamp without time zone NOT NULL,
    customer_id integer NOT NULL,
    hits integer
);

Вы хотели иметь возможность повторно вставлять строки с обновленными значениями или создавать их, если они еще не существовали. Ключ к customer_id и времени. Что-то вроде этого:

CREATE RULE replace_dns AS 
    ON INSERT TO dns 
    WHERE (EXISTS (SELECT 1 FROM dns WHERE ((dns."time" = new."time") 
            AND (dns.customer_id = new.customer_id)))) 
    DO INSTEAD UPDATE dns 
        SET hits = new.hits 
        WHERE ((dns."time" = new."time") AND (dns.customer_id = new.customer_id));

Обновление. Это может потерпеть неудачу, если происходят одновременные вставки, поскольку он будет генерировать уникальные исключения исключения. Тем не менее, транзакция без прерывания будет продолжаться и преуспеть, и вам просто нужно повторить завершенную транзакцию.

Однако, если количество вложений происходит постоянно, вы захотите установить блокировку таблицы вокруг операторов вставки: блокировка SHARE ROW EXCLUSIVE предотвратит любые операции, которые могут вставлять, удалять или обновлять строки в вашей целевой таблице. Тем не менее, обновления, которые не обновляют уникальный ключ, безопасны, поэтому, если вы не выполняете никаких действий, используйте вместо этого консультативные блокировки.

Кроме того, команда COPY не использует ПРАВИЛА, поэтому, если вы вставляете ее с COPY, вам нужно использовать триггеры вместо этого.

Ch'marr 10 май 2012, в 23:19

7

Я настраиваю функцию "upsert" выше, если вы хотите ВСТАВИТЬ И ЗАМЕНИТЬ:

`

 CREATE OR REPLACE FUNCTION upsert(sql_insert text, sql_update text)

 RETURNS void AS
 $BODY$
 BEGIN
    -- first try to insert and after to update. Note : insert has pk and update not...

    EXECUTE sql_insert;
    RETURN;
    EXCEPTION WHEN unique_violation THEN
    EXECUTE sql_update; 
    IF FOUND THEN 
        RETURN; 
    END IF;
 END;
 $BODY$
 LANGUAGE plpgsql VOLATILE
 COST 100;
 ALTER FUNCTION upsert(text, text)
 OWNER TO postgres;`

И после выполнения выполните следующее:

SELECT upsert($$INSERT INTO ...$$,$$UPDATE... $$)

Важно поместить двойную долларовую запятую, чтобы избежать ошибок компилятора

проверить скорость...

Felipe FMMobile 21 сен. 2011, в 22:01

5

Похоже на наиболее понравившийся ответ, но работает немного быстрее:

WITH upsert AS (UPDATE spider_count SET tally=1 WHERE date='today' RETURNING *)
INSERT INTO spider_count (spider, tally) SELECT 'Googlebot', 1 WHERE NOT EXISTS (SELECT * FROM upsert)

(источник: http://www.the-art-of-web.com/sql/upsert/)

alexkovelsky 29 июль 2014, в 16:10

3

Это не удастся, если запускаться одновременно в двух сеансах, потому что ни одно обновление не увидит существующую строку, поэтому оба обновления попадут в ноль строк, поэтому оба запроса будут выполнять вставку.
Craig Ringer 08 май 2015, в 07:55

5

У меня такая же проблема для управления настройками учетной записи, как и пары значений имени. Критерии проектирования заключаются в том, что разные клиенты могут иметь разные настройки.

Мое решение, аналогичное JWP, - это массовое удаление и замена, генерирование записи объединения в вашем приложении.

Это довольно пуленепробиваемая, независимая от платформы, и поскольку на клиента не более 20 настроек, это всего лишь 3 довольно низкого уровня загрузки db-вызовов - возможно, самый быстрый метод.

Альтернатива обновления отдельных строк - проверка исключений, а затем вставка - или некоторая комбинация отвратительного кода, медленная и часто ломающаяся, потому что (как упоминалось выше) обработка нестандартных SQL-обработок, изменяющихся с db на db, или даже выпуск для выпуска.

 #This is pseudo-code - within the application:
 BEGIN TRANSACTION - get transaction lock
 SELECT all current name value pairs where id = $id into a hash record
 create a merge record from the current and update record
  (set intersection where shared keys in new win, and empty values in new are deleted).
 DELETE all name value pairs where id = $id
 COPY/INSERT merged records 
 END TRANSACTION

benno 21 окт. 2011, в 07:46

0

Добро пожаловать в ТАК. Хорошее введение! :-)
Don Question 08 нояб. 2012, в 23:36
1

Это больше похоже на REPLACE INTO чем INSERT INTO ... ON DUPLICATE KEY UPDATE , что может вызвать проблемы при использовании триггеров. В конечном итоге вы будете запускать удаление и вставлять триггеры / правила, а не обновлять их.
cHao 15 май 2014, в 16:48

4

Я использую эту функцию merge

CREATE OR REPLACE FUNCTION merge_tabla(key INT, data TEXT)
  RETURNS void AS
$BODY$
BEGIN
    IF EXISTS(SELECT a FROM tabla WHERE a = key)
        THEN
            UPDATE tabla SET b = data WHERE a = key;
        RETURN;
    ELSE
        INSERT INTO tabla(a,b) VALUES (key, data);
        RETURN;
    END IF;
END;
$BODY$
LANGUAGE plpgsql

Mise 03 дек. 2014, в 20:53

1

Более эффективно сначала выполнить update а затем проверить количество обновленных строк. (См ответ Ахмада)
a_horse_with_no_name 09 янв. 2015, в 10:47

4

UPDATE вернет количество измененных строк. Если вы используете JDBC (Java), вы можете проверить это значение на 0 и, если никакие строки не были затронуты, вместо этого запустите INSERT. Если вы используете какой-либо другой язык программирования, возможно, количество модифицированных строк может быть получено, проверьте документацию.

Это может быть не так элегантно, но у вас гораздо более простой SQL, который более тривиально использовать из вызывающего кода. Иными словами, если вы пишете десять строк script в PL/PSQL, вы, вероятно, должны иметь unit test того или иного вида только для него.

h22 02 сен. 2014, в 08:34

4

CREATE OR REPLACE FUNCTION save_user(_id integer, _name character varying)
  RETURNS boolean AS
$BODY$
BEGIN
    UPDATE users SET name = _name WHERE id = _id;
    IF FOUND THEN
        RETURN true;
    END IF;
    BEGIN
        INSERT INTO users (id, name) VALUES (_id, _name);
    EXCEPTION WHEN OTHERS THEN
            UPDATE users SET name = _name WHERE id = _id;
        END;
    RETURN TRUE;
END;

$BODY$
  LANGUAGE plpgsql VOLATILE STRICT

Ahmad 29 дек. 2012, в 11:51

3

Изменить: Это не работает должным образом. В отличие от принятого ответа, это приводит к уникальным нарушениям ключа, когда два процесса неоднократно вызывают upsert_foo одновременно.

Эврика! Я вычислил способ сделать это в одном запросе: используйте UPDATE ... RETURNING, чтобы проверить, были ли затронуты любые строки:

CREATE TABLE foo (k INT PRIMARY KEY, v TEXT);

CREATE FUNCTION update_foo(k INT, v TEXT)
RETURNS SETOF INT AS $$
    UPDATE foo SET v = $2 WHERE k = $1 RETURNING $1
$$ LANGUAGE sql;

CREATE FUNCTION upsert_foo(k INT, v TEXT)
RETURNS VOID AS $$
    INSERT INTO foo
        SELECT $1, $2
        WHERE NOT EXISTS (SELECT update_foo($1, $2))
$$ LANGUAGE sql;

UPDATE должен выполняться отдельной процедурой, поскольку, к сожалению, это синтаксическая ошибка:

... WHERE NOT EXISTS (UPDATE ...)

Теперь он работает по желанию:

SELECT upsert_foo(1, 'hi');
SELECT upsert_foo(1, 'bye');
SELECT upsert_foo(3, 'hi');
SELECT upsert_foo(3, 'bye');

Joey Adams 02 янв. 2012, в 15:10

1

Вы можете объединить их в одно утверждение, если используете записываемый CTE. Но, как и большинство решений, опубликованных здесь, это неверное решение и оно не будет выполнено при наличии одновременных обновлений.
Craig Ringer 08 май 2015, в 07:54

3

Для слияния небольших множеств использование вышеуказанной функции в порядке. Однако, если вы объединяете большие объемы данных, я бы предложил посмотреть http://mbk.projects.postgresql.org

Текущая лучшая практика, о которой я знаю, это:

КОПИРОВАТЬ новые/обновленные данные в таблицу temp (обязательно, или вы можете сделать INSERT, если стоимость в порядке)
Приобретение блокировки [необязательно] (рекомендуется использовать блокировки таблиц, IMO)
Merge. (забавная часть)

jwp 11 июль 2009, в 00:52

3

Согласно документации PostgreSQL инструкции INSERT, обработка события ON DUPLICATE KEY не поддерживается. Эта часть синтаксиса является проприетарным расширением MySQL.

Christian Hang-Hicks 10 июль 2009, в 13:46

0

@Lucian MERGE также действительно больше работы OLAP; см. stackoverflow.com/q/17267417/398670 для объяснения. Он не определяет семантику параллелизма, и большинство людей, которые используют его для upsert, просто создают ошибки.
Craig Ringer 08 май 2015, в 07:56

Ещё вопросы

Любой, кто найдет этот вопрос, должен прочесть статью Депеша «Почему так сложно расстроиться ?» , Это объясняет проблему и возможные решения очень хорошо.
UPSERT будет добавлен в Postgres 9.5: wiki.postgresql.org/wiki/…
@tommed - это было сделано: stackoverflow.com/a/34639631/4418
Вопрос, INSERT терпит неудачу, если запись существует? или он вставляет пустую запись? Будет ли это работать, если я не использую идентификатор (pk) и просто другое уникальное поле?
Краткий ответ: если запись существует, INSERT ничего не делает. Длинный ответ: SELECT в INSERT вернет столько результатов, сколько совпадений в предложении where. Это самое большее один (если номер один не в результате суб-выбора), иначе ноль. Таким образом, INSERT добавит одну или ноль строк.
часть «где» может быть упрощена с помощью «существует»: ... where not exists (select 1 from table where id = 3);
это должен быть правильный ответ ... с некоторыми незначительными изменениями он может быть использован для массового обновления ... Хм ... Интересно, можно ли использовать временную таблицу ...
все еще отличный ответ, но @a_horse_with_no_name немного расширил его ..
Я слышал, что этот синтаксис INSERT поддерживается только в Postgres версии 9.1 или выше. Кто-нибудь может это подтвердить?
@keaplogik, это ограничение 9.1 касается записываемых CTE (общих табличных выражений), которые описаны в другом из ответов. Синтаксис, использованный в этом ответе, очень простой и давно поддерживается.
Предупреждение: это может привести к потере обновлений в изолированной фиксации read committed если только ваше приложение не проверит, чтобы убедиться, что insert или update имеют ненулевое число строк. См. Dba.stackexchange.com/q/78510/7788
Спасибо, это должно отливать меня до Postgres 9.5! craigkerstiens.com/2015/05/08/upsert-lands-in-postgres-9.5
У меня нет такого глубокого понимания Postgres ... Нет ли возможности блокировки или чего-то такого, что могло бы гарантировать, что сервер выполняет эти две команды последовательно?
Это не сработает, если я даже не знаю, что это за id, однако это обычные случаи, так как многие люди полагаются на идентификатор автоинкремента.
Это лучше, чем хранимая процедура?
@ FrançoisBeausoleil: вероятность возникновения гонки намного меньше, чем при использовании метода «попробуй / обработай исключение»
@a_horse_with_no_name Как именно вы имеете в виду, что шанс в условиях гонки намного меньше? Когда я выполняю этот запрос одновременно с одними и теми же записями, я получаю сообщение об ошибке «значение ключа-дубликата нарушает уникальное ограничение» 100% раз, пока запрос не обнаружит, что запись была вставлена. Это полный пример?
@a_horse_with_no_name Похоже, ваше решение работает в параллельных ситуациях, когда вы переносите оператор upsert со следующей блокировкой: BEGIN WORK; LOCK TABLE mytable в эксклюзивном режиме SHARE ROW; <УПРАВЛЕНИЕ ЗДЕСЬ>; КОМИТЕТНАЯ РАБОТА;
@JeroenvanDijk: спасибо. Что я имел в виду под «гораздо меньшим», так это то, что если несколько транзакций для этого (и зафиксировать изменение!), Промежуток времени между обновлением и вставкой будет меньше, поскольку все это всего лишь один оператор. Вы всегда можете сгенерировать нарушение pk с помощью двух независимых операторов INSERT. Если вы заблокируете всю таблицу, вы фактически сериализуете весь доступ к ней (чего вы могли бы достичь и с помощью сериализуемого уровня изоляции).
@a_horse_with_no_name Я не очень разбираюсь в Postgres, поэтому я не уверен, что является более оптимальным для одновременных ситуаций, но я считаю, что я прочитал в списке рассылки PS, что блокировки необходимы и, вероятно, будут наиболее эффективными. Я пробовал несколько блокировок, и кажется, что эта блокировка отлично работает даже с несколькими параллельными потоками, пытающимися вставить одни и те же данные. Сериализуемый уровень изоляции, о котором вы говорите, кажется менее детализированным способом достижения этого ( postgresql.org/docs/8.4/static/transaction-iso.html ), я прав?
Обратите внимание, что PostgreSQL не хочет m. префикс в части SET оператора UPDATE. Мы должны update mytable m set field1 = nv.field1, field2 = nv.field2
Это не будет работать, если у вас есть дубликаты id в new_values (очень возможно, если id является внешним ключом), поскольку шаг вставки не отслеживает все вставленные значения.
@DavidMurdoch: хорошо, предполагается, что столбец id является первичным ключом. В противном случае регулярное обновление также не будет работать.
Я не понимаю, как обычное обновление не будет работать только потому, что вы не указали первичный ключ? Или я полностью упустил вашу мысль?
@DavidMurdoch: регулярное обновление / вставка (как, например, сделано в примерах из руководства) не будет «работать» так же, как мое утверждение «не будет работать». Если id не PK, он обновит слишком много строк.
Понял, вы все равно можете иметь fk уникальным (или иметь уникальное ограничение для нескольких столбцов, которые вы обновляете / вставляете). Мой основной комментарий был адресован прохожим в будущем, у которых, возможно, возникнет та же проблема, что и у меня. Спасибо за это и +1.
Можно ли заставить это решение возвращать поле из строки независимо от того, было ли оно обновлено или вставлено?
Это решение может быть утеряно при обновлении транзакции вставки; нет никакой проверки, чтобы убедиться, что UPDATE затронуло любые строки.
Привет лошадь ... я следую за очень длинным путем крошек относительно этой проблемы. Но я думал, что насчет проверки BEFORE INSERT TRIGGER каждая строка будет слишком дорогой?
Я посмотрел на решение PostgreSQL 9.5, как вы описали выше, потому что я испытывал пробелы в поле автоинкремента в то время, когда в MySQL было ON DUPLICATE KEY UPDATE . Я скачал Postgres 9.5 и внедрил ваш код, но, как ни странно, та же проблема возникает в Postgres: поле последовательного ключа первичного ключа не является последовательным (между вставками и обновлениями есть промежутки). Есть идеи, что здесь происходит? Это нормально? Есть идеи, как избежать такого поведения? Спасибо.
@WM Это в значительной степени присуще операции upsert. Вы должны оценить функцию, которая генерирует последовательность, прежде чем пытаться вставить. Поскольку такие последовательности предназначены для одновременной работы, они освобождаются от обычной семантики транзакции, но даже если они не были генерацией, она не вызывается в субтранзакции и откатывается, она завершается нормально и фиксируется с остальной частью операции. Так что это может произойти даже с «последовательными» реализациями последовательностей. Единственный способ, которым БД может этого избежать, - отложить оценку генерации последовательности до проверки ключа.
@WM, которая создаст свои собственные проблемы. По сути, вы застряли. Но если вы полагаетесь на то, что serial / auto_increment не содержит пробелов, у вас уже есть ошибки. Вы можете иметь пропуски последовательности из-за откатов, включая временные ошибки - перезагрузки под нагрузкой, ошибки клиента во время транзакции, сбои и т. Д. Вы никогда не должны полагаться на то, что SERIAL / SEQUENCE или AUTO_INCREMENT не имеют пропусков. Если вам нужны последовательности без промежутков, они более сложны; вам обычно нужно использовать таблицу счетчиков. Google скажет вам больше. Но имейте в виду, что последовательности без пробелов предотвращают параллелизм всех вставок.
@WM Если вам абсолютно необходимы последовательности без пропусков и upsert, вы можете использовать подход upsert на основе функций, описанный в руководстве, наряду с реализацией последовательностей без пропусков, которая использует таблицу счетчиков. Поскольку BEGIN ... EXCEPTION ... выполняется в субтранзакции, которая откатывается при ошибке, приращение INSERT будет отменено приращения последовательности.
Большое спасибо @Craig Ringer, это было довольно информативно. Я понял, что могу просто отказаться от наличия этого первичного ключа с автоматическим приращением. Я сделал составной первичный из 3 полей, и для моей конкретной текущей потребности, действительно, нет необходимости в поле автоинкремента без пропусков. Еще раз спасибо, предоставленная вами информация сэкономит мне время в будущем, пытаясь предотвратить естественное и здоровое поведение БД. Теперь я понимаю это лучше.
@WM Почему пробелы в последовательном столбце, используемом в качестве первичного ключа, являются проблемой? Они все еще уникальны, и они все еще восходят, просто не гарантированно последовательные. Почему так важно безщеточно? Первичный ключ с 3 столбцами может быть в порядке в зависимости от обстоятельств, но если эти 3 столбца имеют широкие типы данных и у вас много некластеризованных индексов, то вы создаете много накладных расходов в своей системе.
@ Давос Они обычно не, но такие вещи, как контрольные номера могут иметь деловые требования
Вам все еще нужно выполнить это в цикле повтора, и он склонен к гонкам с одновременным DELETE если вы не заблокируете таблицу или не находитесь в SERIALIZABLE изоляции транзакции на PostgreSQL 9.1 или более SERIALIZABLE .
При использовании этой опции обязательно убедитесь, что идентификатор возвращается, даже если обновление ничего не делает. Я видел запросы по оптимизации баз данных типа «Обновить таблицу foo set bar = 4, где bar = 4».
Это не удастся, если запускаться одновременно в двух сеансах, потому что ни одно обновление не увидит существующую строку, поэтому оба обновления попадут в ноль строк, поэтому оба запроса будут выполнять вставку.
Добро пожаловать в ТАК. Хорошее введение! :-)
Это больше похоже на REPLACE INTO чем INSERT INTO ... ON DUPLICATE KEY UPDATE , что может вызвать проблемы при использовании триггеров. В конечном итоге вы будете запускать удаление и вставлять триггеры / правила, а не обновлять их.
Более эффективно сначала выполнить update а затем проверить количество обновленных строк. (См ответ Ахмада)
Вы можете объединить их в одно утверждение, если используете записываемый CTE. Но, как и большинство решений, опубликованных здесь, это неверное решение и оно не будет выполнено при наличии одновременных обновлений.
@Lucian MERGE также действительно больше работы OLAP; см. stackoverflow.com/q/17267417/398670 для объяснения. Он не определяет семантику параллелизма, и большинство людей, которые используют его для upsert, просто создают ошибки.

Stephen Denne · Accepted Answer · 2009-07-10T14-12-00.000Z

PostgreSQL, поскольку версия 9.5 имеет синтаксис UPSERT, с ON CONFLICT. со следующим синтаксисом (похожим на MySQL)

INSERT INTO the_table (id, column_1, column_2) 
VALUES (1, 'A', 'X'), (2, 'B', 'Y'), (3, 'C', 'Z')
ON CONFLICT (id) DO UPDATE 
  SET column_1 = excluded.column_1, 
      column_2 = excluded.column_2;

Поиск архивов почтовых групп postgresql для "upsert" приводит к выводу примера того, что вы, возможно, захотите сделать, в руководстве:

Пример 38-2. Исключения с UPDATE/INSERT

В этом примере используется обработка исключений для выполнения UPDATE или INSERT:

CREATE TABLE db (a INT PRIMARY KEY, b TEXT);

CREATE FUNCTION merge_db(key INT, data TEXT) RETURNS VOID AS
$$
BEGIN
    LOOP
        -- first try to update the key
        -- note that "a" must be unique
        UPDATE db SET b = data WHERE a = key;
        IF found THEN
            RETURN;
        END IF;
        -- not there, so try to insert the key
        -- if someone else inserts the same key concurrently,
        -- we could get a unique-key failure
        BEGIN
            INSERT INTO db(a,b) VALUES (key, data);
            RETURN;
        EXCEPTION WHEN unique_violation THEN
            -- do nothing, and loop to try the UPDATE again
        END;
    END LOOP;
END;
$$
LANGUAGE plpgsql;

SELECT merge_db(1, 'david');
SELECT merge_db(1, 'dennis');

Возможно, пример того, как это сделать навалом, используя CTE в 9.1 и выше, в списке рассылки хакеров:

WITH foos AS (SELECT (UNNEST(%foo[])).*)
updated as (UPDATE foo SET foo.a = foos.a ... RETURNING foo.id)
INSERT INTO foo SELECT foos.* FROM foos LEFT JOIN updated USING(id)
WHERE updated.id IS NULL;

Подробнее см. a_horse_with_no_name для более четкого примера.

Единственное, что мне не нравится в этом, это то, что это будет намного медленнее, потому что каждый переход будет представлять собой отдельный вызов в базу данных.
@ baash05 Там может быть способ сделать это навалом, см. мой обновленный ответ.
это вдохновило рубиновую библиотеку: github.com/seamusabshere/upsert
Единственное, что я бы сделал по-другому, - это использовать FOR 1..2 LOOP вместо просто LOOP, чтобы в случае нарушения какого-либо другого уникального ограничения оно не вращалось бесконечно.
эй @olamork, хочешь отправить запрос на включение, реализующий это? github.com/seamusabshere/upsert/blob/master/lib/upsert/...
@ d11wtq AIUI mysql делает это, используя блокировки таблиц.
@ d11wtq вы правы, но, надеюсь , это скоро изменится .
MySQL также предлагает ЗАМЕНИТЬ: dev.mysql.com/doc/refman/5.6/en/replace.html
Эта функция появится в 9.5 - wiki.postgresql.org/wiki/UPSERT
Возможная проблема с решением 'CTEs в 9.1', в котором используется INSERT INTO foo SELECT foos.* FROM foos LEFT JOIN updated USING(id) заключается в том, что вы не можете легко получить обновленную строку, используя инструкцию 'RETURNING'. В случае вставки он вернет вставленную строку, однако в случае обновления не будет.
Другая проблема заключается в том, что вам придется включить все столбцы NOT NULL в оператор INSERT , даже если вы не собираетесь обновлять эти столбцы, в противном случае вы получите ошибку нарушения ограничения.
На что здесь ссылаются excluded в первом решении?