Как импортировать данные из файла CSV в таблицу PostgreSQL?

Question

Как импортировать данные из файла CSV в таблицу PostgreSQL?

414

Как я могу написать хранимую процедуру, которая импортирует данные из файла CSV и заполняет таблицу?

vardhan 07 июнь 2010, в 05:49

Источник

14

Почему хранимая процедура? COPY делает свое дело
Frank Heikens 07 июнь 2010, в 06:43
0

У меня есть пользовательский интерфейс, который загружает файл CSV, чтобы подключить это мне нужна хранимая процедура, которая на самом деле копирует данные из файла CSV
vardhan 07 июнь 2010, в 06:58
0

Вот что делает COPY ...
Frank Heikens 07 июнь 2010, в 06:59
3

не могли бы вы уточнить, как использовать COPY?
vardhan 07 июнь 2010, в 07:10
15

Божидар Бацов уже дал вам ссылку на пример, также может помочь прекрасное руководство: postgresql.org/docs/8.4/interactive/sql-copy.html
Frank Heikens 07 июнь 2010, в 07:11
4

Текущее руководство: postgresql.org/docs/current/static/sql-copy.html
Basil Bourque 09 авг. 2014, в 20:37
0

Похожие страницы : stackoverflow.com/questions/17662631/…
G. Cito 19 нояб. 2014, в 04:50
0

Смотрите этот ответ: stackoverflow.com/a/42726226/1614973
Dmitri Zaitsev 10 март 2017, в 19:26

Показать ещё 6 комментариев

Теги:

csv

postgresql

postgresql-copy

12 ответов

Ещё вопросы

Почему хранимая процедура? COPY делает свое дело
У меня есть пользовательский интерфейс, который загружает файл CSV, чтобы подключить это мне нужна хранимая процедура, которая на самом деле копирует данные из файла CSV
не могли бы вы уточнить, как использовать COPY?
Божидар Бацов уже дал вам ссылку на пример, также может помочь прекрасное руководство: postgresql.org/docs/8.4/interactive/sql-copy.html
Текущее руководство: postgresql.org/docs/current/static/sql-copy.html
Похожие страницы : stackoverflow.com/questions/17662631/…
Смотрите этот ответ: stackoverflow.com/a/42726226/1614973

Bozhidar Batsov · Answer 1 · 2010-06-07T06-46-00.000Z

578

Взгляните на короткую статью.

Решение перефразировано здесь:

Создайте таблицу:

CREATE TABLE zip_codes 
(ZIP char(5), LATITUDE double precision, LONGITUDE double precision, 
CITY varchar, STATE char(2), COUNTY varchar, ZIP_CLASS varchar);

Скопировать данные из файла CSV в таблицу:

COPY zip_codes FROM '/path/to/csv/ZIP_CODES.txt' WITH (FORMAT csv);

Bozhidar Batsov 07 июнь 2010, в 06:46

42

фактически использование \ copy сделало бы тот же трюк, если у вас нет прав суперпользователя; это жалуется на мою Fedora 16 при использовании COPY с учетной записью без полномочий root.
asksw0rder 15 окт. 2012, в 17:07
79

СОВЕТ: вы можете указать, какие столбцы у вас есть в CSV, используя zip_codes (col1, col2, col3). Столбцы должны быть перечислены в том же порядке, в котором они появляются в файле.
David Pelaez 02 янв. 2013, в 05:16
4

@ asksw0rder имеет ли \ copy такой же синтаксис? bcoz я получаю синтаксическую ошибку с \ copy
JhovaniC 29 май 2013, в 19:59
6

Должен ли я включить строку заголовка?
bernie2436 27 окт. 2013, в 23:09
105

Вы можете легко включить строку заголовка - просто добавьте HEADER в опции: COPY zip_codes FROM '/path/to/csv/ZIP_CODES.txt' DELIMITER ',' CSV HEADER; postgresql.org/docs/9.1/static/sql-copy.html
Barrett Clark 08 нояб. 2013, в 15:17
0

Это действительно круто ... Я набрал оператор копирования в окне запроса, используя PGAdmin, и он прекрасно работает.
itsols 19 нояб. 2013, в 07:29
0

У меня есть несколько разделителей, как, и "Как я могу скопировать
user88 02 фев. 2015, в 10:41
1

Как использовать (у клиента psql ) FROM ./relativePath/file ? Не работает для меня
Peter Krauss 31 март 2015, в 15:01
2

Будет ли это перезаписывать данные в существующей таблице или добавлять ее?
Andy Ray 27 нояб. 2015, в 22:29
0

@AndyRay «пока COPY FROM копирует данные из файла в таблицу (добавляя данные к тому, что уже есть в таблице)» из руководства по ссылке выше. postgresql.org/docs/current/static/sql-copy.html .
Robban1980 04 март 2016, в 04:57

Показать ещё 8 комментариев

bjelli · Answer 2 · 2015-06-20T08-24-00.000Z

109

Если у вас нет разрешения на использование COPY (который работает на сервере db), вы можете вместо этого использовать \copy (который работает в клиенте db). Используя тот же пример, что и Божидар Бацов:

Создайте таблицу:

CREATE TABLE zip_codes 
(ZIP char(5), LATITUDE double precision, LONGITUDE double precision, 
CITY varchar, STATE char(2), COUNTY varchar, ZIP_CLASS varchar);

Скопировать данные из файла CSV в таблицу:

\copy zip_codes FROM '/path/to/csv/ZIP_CODES.txt' DELIMITER ',' CSV

Вы также можете указать столбцы для чтения:

\copy zip_codes(ZIP,CITY,STATE) FROM '/path/to/csv/ZIP_CODES.txt' DELIMITER ',' CSV

bjelli 20 июнь 2015, в 08:24

0

\ копировать избирателей (ZIP, CITY) из '/Users/files/Downloads/WOOD.TXT' DELIMITER ',' CSV HEADER; ОШИБКА: дополнительные данные после последнего ожидаемого столбца КОНТЕКСТ: избиратели КОПИИ, строка 2: "OH0012781511,87,26953, ДОМАШНИЙ ХОЛДИНГ, ВЫСОКИЙ ,, 11/26 / 1965,08 / 19/1988, 211 N GARFIELD ST,, BLOOMD ...»
JZ. 06 сен. 2015, в 17:29
0

@JZ. У меня была похожая ошибка. Это потому, что у меня были лишние пустые столбцы. Проверьте ваш CSV, и если у вас есть пустые столбцы, это может быть причиной.
alex bennett 08 июль 2016, в 04:32
4

Это несколько вводит в заблуждение: разница между COPY и \copy намного больше, чем просто разрешения, и вы не можете просто добавить ``, чтобы он волшебным образом работал. Смотрите описание (в контексте экспорта) здесь: stackoverflow.com/a/1517692/157957
IMSoP 26 янв. 2017, в 16:29
0

@IMSoP: вы правы, я добавил упоминание о сервере и клиенте, чтобы уточнить
bjelli 27 янв. 2017, в 09:03
0

@bjelli \ копировать медленнее, чем копировать? У меня есть файл 1,5 МБ и экземпляр db.m4.large на RDS, и уже несколько часов выполняется эта команда копирования (как минимум 3).
Sebastian 28 май 2018, в 22:38
0

@Sebastian: важное отличие в том, что \ copy работает с клиента. так что вам все равно придется передавать все данные на сервер. с помощью COPY (без косой черты) вы сначала загружаете все данные на сервер другими средствами (sftp, scp), а затем выполняете импорт на сервер. но передача 1,5 МБ не звучит так, как будто она должна говорить 3 часа - независимо от того, как вы это делаете.
bjelli 29 май 2018, в 20:49

Показать ещё 4 комментария

RobinL · Answer 3 · 2015-04-18T21-39-00.000Z

Один быстрый способ сделать это с помощью библиотеки Python pandas (версия 0.15 или выше работает лучше всего). Это приведет к созданию столбцов для вас - хотя, очевидно, выбор, который он делает для типов данных, может быть не таким, каким вы хотите. Если это не совсем то, что вы хотите, вы всегда можете использовать код "create table", сгенерированный как шаблон.

Вот простой пример:

import pandas as pd
df = pd.read_csv('mypath.csv')
df.columns = [c.lower() for c in df.columns] #postgres doesn't like capitals or spaces

from sqlalchemy import create_engine
engine = create_engine('postgresql://username:password@localhost:5432/dbname')

df.to_sql("my_table_name", engine)

И вот какой код, который показывает вам, как установить различные параметры:

#Set is so the raw sql output is logged
import logging
logging.basicConfig()
logging.getLogger('sqlalchemy.engine').setLevel(logging.INFO)

df.to_sql("my_table_name2", 
          engine, 
          if_exists="append",  #options are ‘fail’, ‘replace’, ‘append’, default ‘fail’
          index=False, #Do not output the index of the dataframe
          dtype={'col1': sqlalchemy.types.NUMERIC,
                 'col2': sqlalchemy.types.String}) #Datatypes should be [sqlalchemy types][1]

Кроме того, параметр if_exists может быть установлен для замены или добавления к существующей таблице, например, df.to_sql("fhrs", engine, if_exists='replace')
имя пользователя и пароль: необходимо создать логин и назначить БД пользователю. Если используется pgAdmin, то создайте «Login / Group роль» с помощью графического интерфейса
Pandas - это очень медленный способ загрузки в sql (по сравнению с CSV-файлами). Может быть на несколько порядков медленнее.
Это может быть способ записи данных, но он очень медленный даже при пакетной работе и хорошей вычислительной мощности. Использование CSV - хороший способ сделать это.
df.to_sql() действительно медленный, вы можете использовать d6tstack.utils.pd_to_psql() из d6tstack, посмотреть сравнение производительности

Paul · Answer 4 · 2014-11-03T20-10-00.000Z

Вы также можете использовать pgAdmin, который предлагает графический интерфейс для импорта. Это показано в этом потоке SO. Преимущество использования pgAdmin в том, что он также работает для удаленных баз данных.

Как и предыдущие решения, вам нужно будет иметь свою таблицу в базе данных уже. У каждого человека есть свое решение, но то, что я обычно делаю, это открыть CSV в Excel, скопировать заголовки, вставить специальные с транспозицией на другой рабочий лист, поместить соответствующий тип данных в следующий столбец, а затем просто скопировать и вставить его в текстовый редактор вместе с соответствующим запросом создания SQL-таблицы:

CREATE TABLE my_table (
    /*paste data from Excel here for example ... */
    col_1 bigint,
    col_2 bigint,
    /* ... */
    col_n bigint 
)

Пожалуйста, покажите несколько образцов строк вставленных данных.

Andreas L. · Answer 5 · 2015-09-17T10-38-00.000Z

Как сказал Павел, импорт работает в pgAdmin:

щелкните правой кнопкой мыши по таблице → import

выберите локальный файл, формат и кодирование

здесь представлен немецкий скриншот графического интерфейса пользователя pgAdmin:

Аналогичная вещь, которую вы можете сделать с DbVisualizer (у меня есть лицензия, не уверенная о бесплатной версии)

щелкните правой кнопкой мыши по таблице → Импортировать данные таблицы...

DBVisualizer занял 50 секунд, чтобы импортировать 1400 строк с тремя полями - и мне пришлось преобразовать все обратно из строки в ту, какой она должна была быть.

mehmet · Answer 6 · 2015-05-06T18-39-00.000Z

В большинстве других решений здесь требуется создать таблицу заранее/вручную. В некоторых случаях это может оказаться неприемлемым (например, если в таблице назначения много столбцов). Таким образом, подход ниже может пригодиться.

Предоставляя количество путей и столбцов вашего файла csv, вы можете использовать следующую функцию для загрузки таблицы в таблицу temp, которая будет называться как target_table:

Предполагается, что в верхней строке есть имена столбцов.

create or replace function data.load_csv_file
(
    target_table text,
    csv_path text,
    col_count integer
)

returns void as $$

declare

iter integer; -- dummy integer to iterate columns with
col text; -- variable to keep the column name at each iteration
col_first text; -- first column name, e.g., top left corner on a csv file or spreadsheet

begin
    set schema 'your-schema';

    create table temp_table ();

    -- add just enough number of columns
    for iter in 1..col_count
    loop
        execute format('alter table temp_table add column col_%s text;', iter);
    end loop;

    -- copy the data from csv file
    execute format('copy temp_table from %L with delimiter '','' quote ''"'' csv ', csv_path);

    iter := 1;
    col_first := (select col_1 from temp_table limit 1);

    -- update the column names based on the first row which has the column names
    for col in execute format('select unnest(string_to_array(trim(temp_table::text, ''()''), '','')) from temp_table where col_1 = %L', col_first)
    loop
        execute format('alter table temp_table rename column col_%s to %s', iter, col);
        iter := iter + 1;
    end loop;

    -- delete the columns row
    execute format('delete from temp_table where %s = %L', col_first, col_first);

    -- change the temp table name to the name given as parameter, if not blank
    if length(target_table) > 0 then
        execute format('alter table temp_table rename to %I', target_table);
    end if;

end;

$$ language plpgsql;

Привет, Мехмет, спасибо за ответ, который ты написал, но когда я запускаю твой код, я получаю следующее сообщение об ошибке: ОШИБКА: схема "data" не существует
user2867432 вам нужно изменить имя схемы, которое вы используете соответственно (например, public )
Привет, Мехмет, спасибо за решение, это прекрасно, но это работает, только если пользователь postgres DB суперпользователь, есть ли способ заставить его работать без суперпользователя?
Geeme: читать «Определитель безопасности» здесь , но я не использовал его сам.

Tim Siwula · Answer 7 · 2016-11-16T19-40-00.000Z

COPY table_name FROM 'path/to/data.csv' DELIMITER ',' CSV HEADER;

djdere · Answer 8 · 2017-01-12T08-12-00.000Z

Используйте этот код SQL

    copy table_name(atribute1,attribute2,attribute3...)
    from 'E:\test.csv' delimiter ',' csv header

ключевое слово заголовка позволяет СУБД знать, что файл csv имеет заголовок с атрибутами

для более подробной информации http://www.postgresqltutorial.com/import-csv-file-into-posgresql-table/

R.mia · Answer 9 · 2017-07-26T17-46-00.000Z

Личный опыт работы с PostgreSQL, все еще ждущий более быстрый способ.

1. Сначала создайте скелет таблицы, если файл хранится локально:

    drop table if exists ur_table;
    CREATE TABLE ur_table
    (
        id serial NOT NULL,
        log_id numeric, 
        proc_code numeric,
        date timestamp,
        qty int,
        name varchar,
        price money
    );
    COPY 
        ur_table(id, log_id, proc_code, date, qty, name, price)
    FROM '\path\xxx.csv' DELIMITER ',' CSV HEADER;

2. Когда \path\xxx.csv находится на сервере, postgreSQL не имеет разрешение на доступ к серверу, вам придется импортировать CSV файл через встроенные функции pgAdmin.

Щелкните правой кнопкой мыши имя таблицы, выберите импорт.

Если у вас все еще есть проблемы, обратитесь к этому руководству. http://www.postgresqltutorial.com/import-csv-file-into-posgresql-table/

sal · Answer 10 · 2015-11-07T10-50-00.000Z

2

IMHO, наиболее удобным способом является " Импортировать данные CSV в postgresql, удобный способ;-)", используя csvsql из csvkit, который является питоном пакет, устанавливаемый через pip.

sal 07 нояб. 2015, в 10:50

2

Ссылка гниль прожорлива! Статья, на которую вы ссылаетесь, больше не работает, что делает меня неудобным :(
chbrown 27 июль 2016, в 20:18
0

Вы могли бы упомянуть, что его зовут.
mountainclimber 09 авг. 2016, в 14:46
1

Для меня я получаю MemoryError, если пытаюсь импортировать большой CSV-файл, чтобы он не передавался в потоковом режиме.
DavidC 20 окт. 2016, в 12:32
0

@DavidC Интересно. Насколько большой ваш файл? Сколько у тебя памяти? Если он не передается так, как кажется, я предлагаю разделить данные перед вставкой
sal 31 окт. 2016, в 12:13
0

@DavidC Либо вы используете команду csvql без опции --insert и позже вставляете данные через COPY, либо вы используете ответ RobinL stackoverflow.com/a/29722393/2772305
sal 31 окт. 2016, в 12:20
1

Размер файла был 5 ГБ, а у меня 2 ГБ памяти. Я отказался от этого и использую скрипт для генерации команд CREATE TABLE и COPY в конце.
DavidC 01 нояб. 2016, в 09:51
0

В качестве альтернативы потоки d6tstack, а также имеют дело с изменениями схемы, см. Примеры
citynorman 04 дек. 2018, в 04:14

Показать ещё 5 комментариев

suriruler · Answer 11 · 2017-07-04T08-28-00.000Z

Создайте таблицу и введите необходимые столбцы, которые используются для создания таблицы в файле csv.

Откройте postgres и щелкните правой кнопкой мыши на целевой таблице, которую вы хотите загрузить, и выберите импорт и обновите следующие шаги в разделе параметры файла
Теперь просмотрите файл в имени файла
Выберите csv в формате
Кодирование как ISO_8859_5

Теперь перейти Разное. options и проверьте заголовок и нажмите на импорт.

Sawan · Answer 12 · 2017-12-06T01-35-00.000Z

Возможно, этот инструмент будет полезен http://www.convertcsv.com/csv-to-sql.htm Он имеет множество конфигурационных параметров для преобразования из CSV в базу данных script.