Сохранить WRDS SQL-запрос в файл на Python

Question

Сохранить WRDS SQL-запрос в файл на Python

0

Мой код:

import wrds
db = wrds.Connection() 
compustatq = db.raw_sql("""
              select *
              from comp.fundq 
              """)

compustatq.to_csv('path.csv',index=False)

Проблема в том, что набор данных настолько велик, что у меня закончилась оперативная память. Поэтому я думал, можно ли загружать/сохранять данные непосредственно на диске? Следовательно, избегая двухэтапной процедуры загрузки в фрейм данных, а затем экспортируя в файл csv.

Chris 04 июль 2018, в 22:17

Источник

1

Вы можете сохранить результат запроса непосредственно в CSV, используя команду -e с mysql в командной строке. Кроме того, если данные слишком велики, попробуйте использовать chunking и сохранить их в нескольких CSV-файлах или добавить в тот же CSV-файл .... также, где у вас заканчивается память? Вы уверены, что это потому, что запрос слишком велик?
skybunk 04 июль 2018, в 19:45
0

@skybunk да, я уверен, что он слишком большой. Мы говорим много много гигабайт. Не могли бы вы привести пример кода, где вы используете chunking на моем примере?
Chris 05 июль 2018, в 06:10
0

Это совершенно неэффективно, я не вижу смысла использовать python в качестве экспортера данных, когда вы можете использовать различные клиентские инструменты sql для непосредственного форматирования и экспорта в csv-файл, не беспокоясь об ограничении памяти.
mootmoot 05 июль 2018, в 10:01
0

При использовании библиотеки WRDS у вас не так много вариантов выбора программы.
Chris 05 июль 2018, в 10:14

Показать ещё 2 комментария

Теги:

mysql

python

1 ответ

Ещё вопросы

Вы можете сохранить результат запроса непосредственно в CSV, используя команду -e с mysql в командной строке. Кроме того, если данные слишком велики, попробуйте использовать chunking и сохранить их в нескольких CSV-файлах или добавить в тот же CSV-файл .... также, где у вас заканчивается память? Вы уверены, что это потому, что запрос слишком велик?
@skybunk да, я уверен, что он слишком большой. Мы говорим много много гигабайт. Не могли бы вы привести пример кода, где вы используете chunking на моем примере?
Это совершенно неэффективно, я не вижу смысла использовать python в качестве экспортера данных, когда вы можете использовать различные клиентские инструменты sql для непосредственного форматирования и экспорта в csv-файл, не беспокоясь об ограничении памяти.
При использовании библиотеки WRDS у вас не так много вариантов выбора программы.

Yun Luo · Answer 1 · 2018-07-05T05-15-00.000Z

вы можете использовать библиотеку csv для этого. это встроенная библиотека python. Я не знаю, какой тип является вашим compustatq. но найдите свой способ прочитать его по каждой строке.

используйте его вот так:

import csv

writer = csv.writer(open('path.csv', 'wb+'), dialect='excel')
for row in compustatq:
    writer.writerow([str(v) for v in row])

ref: csv

Я просто прочитал исходный код wrds.Connection.raw_sql. он сообщает, что ваш compustatq является экземпляром pandas.DataFrame. Таким образом, вы все равно можете использовать метод to_csv но несколько иначе:

f = open('path.csv', 'wb+')
for i in xrange(len(compustatq)):
    f.write(df[i:i+1].to_csv(header=i==0))
f.close()

Спасибо за помощь. Я не уверен, смогу ли я сделать это? Моя проблема атм. в том, что мне не хватает памяти до того, как все данные будут сохранены в compustatq, который, между прочим, является фреймом данных. Поэтому вместо того, чтобы хранить данные во временной переменной, я хотел бы просто записать их непосредственно в csv.
@ Крис, если вы пишете CSV-файл построчно, как показывает мой код, вы преодолеете ошибку памяти. При этом вам не нужно создавать большой CSV-файл в памяти для записи на диск, вы пишете прямо на диск.
Но я получаю сообщение об ошибке, когда пытаюсь использовать ваш код. часть вашего кода compustatq должна быть заменена выражением SQL (db.raw_sql) .. или я что-то упустил?
@Chris Я не знал, какой именно тип compustatq есть, поэтому я предположил, что его можно рассматривать как вложенный итератор (как объект курсора python db-api). Вы получаете ошибку, когда делаете это, так что, очевидно, это не объект, похожий на курсор. Я думаю, что вам нужно найти способ читать строки в нем одну за другой. Попробуйте прочитать соответствующие документы API этого или попробуйте выполнить dir(compustatq) чтобы увидеть, какие атрибуты кажутся повторяемыми. угадайте rows может быть?