Кратчайший способ разделения столбца DataFrame от pandas на основе другого столбца

Question

Кратчайший способ разделения столбца DataFrame от pandas на основе другого столбца

1

вдохновение

В R это очень просто

data("iris")
bartlett.test(Sepal.Length ~ Species,data = iris)

Важное значение в наборе данных состоит в том, что столбец Sepal.Length является числовым, вид является категоричным.

проблема

В Python scipy.stats.bartlett потребуются отдельные массивы для каждого вида, см. Документы.

Каким будет самый простой способ достичь этого?

Простой способ получить набор данных в python:

from sklearn import datasets
iris = datasets.load_iris()
iris = pd.DataFrame(data= np.c_[iris['data'], iris['target']],
                     columns= ["sepal.length","sepal.width","petal.length","petal.width"] + ['species'])

Я действительно хотел, чтобы это работало:

iris.groupby("species")["sepal.length"].apply(ss.bartlett)

но это не связано с тем, что ему нужно несколько векторов образцов.

fbence 16 окт. 2018, в 19:33

Источник

0

где декларация для сс?
Yuca 16 окт. 2018, в 17:29
1

@Yuca import scipy.stats as ss
WeNYoBen 16 окт. 2018, в 17:30
0

iris.groupby("species").apply(lambda x : ss.bartlett(x['species'],x['sepal.length']))
WeNYoBen 16 окт. 2018, в 17:32
0

@ Если ты запустишь это, то получишь инфу, я не знаком с Бартлеттом, поэтому держусь подальше от этого
Yuca 16 окт. 2018, в 17:56
0

@ При этом передаются столбцы species и sepal.length , но мне нужно разделить столбец sepal.length на три массива на основе значений в столбце species
fbence 16 окт. 2018, в 19:25

Показать ещё 3 комментария

Теги:

python

pandas

1 ответ

Ещё вопросы

iris.groupby("species").apply(lambda x : ss.bartlett(x['species'],x['sepal.length']))
@ Если ты запустишь это, то получишь инфу, я не знаком с Бартлеттом, поэтому держусь подальше от этого
@ При этом передаются столбцы species и sepal.length , но мне нужно разделить столбец sepal.length на три массива на основе значений в столбце species

Sven Harris · Accepted Answer · 2018-10-16T15-33-00.000Z

После шаблона groupby вы можете немного манипулировать и сделать это:

gb = iris.groupby('species')["sepal.length"]
ss.bartlett(*[gb.get_group(x).values for x in gb.groups])

* распаковывает список в функцию, остальное - это просто, чтобы группы были в правильной форме для функции. Как уже упоминалось в комментариях, здесь .values здесь не нужны, поэтому мы можем написать это как:

gb = iris.groupby('species')["sepal.length"]
ss.bartlett(*[gb.get_group(x) for x in gb.groups])

И только для завершения, если вы действительно хотите сделать это в одной строке:

ss.bartlett(*[x[1] for x in iris.groupby('species')["sepal.length"]])

Но я лично считаю это менее читаемым.

Кажется, что .values не нужен, поэтому это решение еще круче, чем казалось! Мне немного грустно, что для этого нужны две строки, но на самом деле с такими данными, где есть только один категорический столбец, я полагаю, вы в groupby случае сразу сделаете groupby , поэтому я думаю, что все в порядке :) (Я учу курс статистики, используя R и параллельно я выясняю все на python, так как обычно это язык, который я использую, и теперь, когда я нашел некоторые изящные возможности pandas я снова думаю, что, вероятно, python лучше в целом: D) ,
о да, так это работает: ss.bartlett(*(gb.get_group(g) for g in gb.groups))
Замечательно, да, хорошо, я обычно по умолчанию .values как он дает вам объект массива, но в большинстве случаев, как это, он не нужен. Также не знаю, знаете ли вы, но использование compintersion inside () вместо [] создает объект-генератор, что хорошо в этом случае, но дает вам свойства, отличные от понимания списков, которые могут вас заинтересовать. Обновлю мой ответ вашими выводами.
@fbence, если вы хотите сделать это в одной строке, посмотрите мое редактирование, я лично считаю, что слишком много абстрагировано, чтобы оно того стоило