Мне нужно разбить мой набор данных на куски, которые я сейчас делаю со следующим простым кодом:
cases = []
for i in set(df['key']):
cases.append(df[df['key']==i].copy())
Но мой набор данных огромен, и это заканчивается тем, что занимает пару часов, поэтому мне было интересно, есть ли способ использовать многопоточность, чтобы ускорить это? Или, если есть какой-либо другой способ сделать это быстрее?
Я уверен, что вы хотите группировать уникальные ключи. Для этого используйте встроенные функции.
cases = list(df.groupby('key'))