Как оптимизировать разбиение данных на панды?

Question

Как оптимизировать разбиение данных на панды?

1

Мне нужно разбить мой набор данных на куски, которые я сейчас делаю со следующим простым кодом:

    cases = []
    for i in set(df['key']):
        cases.append(df[df['key']==i].copy())

Но мой набор данных огромен, и это заканчивается тем, что занимает пару часов, поэтому мне было интересно, есть ли способ использовать многопоточность, чтобы ускорить это? Или, если есть какой-либо другой способ сделать это быстрее?

Antoine Barthelet 11 июль 2018, в 01:10

Источник

2

Я действительно не думаю, что вы хотите пойти по этому пути. Я думаю, что вам нужно расширить вопрос, чтобы включить задачу, которую вы хотите сделать, в более широком смысле (сейчас отложите многопроцессорность в одну сторону)
roganjosh 10 июль 2018, в 22:39
0

что огромного ? строки? колонны?
hootnot 10 июль 2018, в 22:53
0

примерно 80 миллионов строк на 30 столбцов и около 30 000 уникальных ключей, которые я пытаюсь разделить
Antoine Barthelet 10 июль 2018, в 22:56
0

Многопроцессорная обработка @AntoineBarthelet - это способ обойти GIL - панды, или, в основном, тупица, могут делать это естественным путем. Похоже, у вас есть хороший вопрос панд. Я повторяю, что я думаю, что многопроцессорный подход должен быть отброшен, и вы должны позволить людям внимательно изучить код, который вы пытаетесь ускорить (в MCVE )
roganjosh 10 июль 2018, в 23:02

Показать ещё 2 комментария

Теги:

python

pandas

python-multiprocessing

python-multithreading

1 ответ

Ещё вопросы

Я действительно не думаю, что вы хотите пойти по этому пути. Я думаю, что вам нужно расширить вопрос, чтобы включить задачу, которую вы хотите сделать, в более широком смысле (сейчас отложите многопроцессорность в одну сторону)
примерно 80 миллионов строк на 30 столбцов и около 30 000 уникальных ключей, которые я пытаюсь разделить
Многопроцессорная обработка @AntoineBarthelet - это способ обойти GIL - панды, или, в основном, тупица, могут делать это естественным путем. Похоже, у вас есть хороший вопрос панд. Я повторяю, что я думаю, что многопроцессорный подход должен быть отброшен, и вы должны позволить людям внимательно изучить код, который вы пытаетесь ускорить (в MCVE )

juanpa.arrivillaga · Accepted Answer · 2018-07-10T21-35-00.000Z

Я уверен, что вы хотите группировать уникальные ключи. Для этого используйте встроенные функции.

cases = list(df.groupby('key'))

Это должен быть правильный ответ, если данные помещаются в память.