Как уменьшить временную сложность или повысить эффективность программы, находя промежутки месяца, используя питонов

Question

Как уменьшить временную сложность или повысить эффективность программы, находя промежутки месяца, используя питонов

1

Ввод такой вот

Я обнаружил пробелы в датах и использовал это. Но для завершения функции для больших данных требуется слишком много времени, как я могу уменьшить временную сложность

#convert to datetimes
month['data'] = pd.to_datetime(month['data'], format='%Y%m')
#resample by start of months with asfreq
mdf = month.set_index('data').groupby(['series_id','symbol'])['series_id'].resample('MS').asfreq().rename('val').reset_index()
x = mdf['val'].notnull().rename('g')
#create index by cumulative sum for unique groups for consecutive NaNs
mdf.index = x.cumsum()
#filter only NaNs row and aggregate first, last and count.
mdf = (mdf[~x.values].groupby(['series_id','symbol','g'])['data'].agg(['first','last','size']).reset_index(level=2, drop=True).reset_index())

print mdf

 Id      first       last  size
0  A 2015-06-01 2015-06-01     1
1  A 2015-08-01 2015-08-01     1
2  B 2000-02-01 2000-02-01     1
3  C 2003-03-01 2003-04-01     2

Как я могу уменьшить временную сложность или какой-либо другой способ найти промежутки времени.

raam 30 июль 2018, в 17:16

Источник

0

Что вы имеете в виду под пробелами
Don Thousand 30 июль 2018, в 15:15
0

пропущенные месяцы для идентификатора, например, для идентификатора А пропущен месяц с 201505 по 201507, пропущенный месяц равен 201506
raam 30 июль 2018, в 15:17
0

хм хорошо, но тогда в вашем выводе, почему есть строка с идентификатором 1
Don Thousand 30 июль 2018, в 15:18
0

поскольку 201508 является последним значением в вашем фрейме данных, пробела нет
Don Thousand 30 июль 2018, в 15:18
0

извините, я обновил ввод 201509 201508 отсутствует.
raam 30 июль 2018, в 15:23
0

понял, я поработаю над ответом
Don Thousand 30 июль 2018, в 15:23

Показать ещё 4 комментария

Теги:

python

pandas

2 ответа

Ещё вопросы

Что вы имеете в виду под пробелами
пропущенные месяцы для идентификатора, например, для идентификатора А пропущен месяц с 201505 по 201507, пропущенный месяц равен 201506
хм хорошо, но тогда в вашем выводе, почему есть строка с идентификатором 1
поскольку 201508 является последним значением в вашем фрейме данных, пробела нет
извините, я обновил ввод 201509 201508 отсутствует.

Ben.T · Answer 1 · 2018-07-30T16-38-00.000Z

1

Поэтому, используя немного идею @RushabhMehta, вы можете pd.DateOffset создать выходной блок данных. Ваш входной фреймворк называется month, с данными столбца 'и' series_id ', в соответствии с вашим кодом. Вот идея:

month['data'] = pd.to_datetime(month['data'], format='%Y%m')
month = month.sort_values(['series_id','data'])
# create mdf with the column you want
mdf = pd.DataFrame({'Id':month.series_id, 'first':month.data + pd.DateOffset(months=1), 
                    'last': (month.groupby('series_id').data.shift(-1) - pd.DateOffset(months=1))})

Обратите внимание, как столбец "последний" создается, используя groupby, shift значение и вычитать в месяц с pd.DateOffset(months=1). Теперь выберите только строки, в которых дата в "первом" находится перед "последним", и создайте размер столбца, например:

mdf = mdf.loc[mdf['first'] <= mdf['last']]
mdf['size'] = (mdf['last']- mdf['first']).astype('timedelta64[M]')+1

mdf выглядит так:

       first Id       last  size
0 2015-06-01  A 2015-06-01   1.0
1 2015-08-01  A 2015-08-01   1.0
3 2000-02-01  B 2000-02-01   1.0
6 2000-03-01  C 2000-04-01   2.0

Просто нужно изменить порядок столбцов и reset_index если хотите.

Ben.T 30 июль 2018, в 16:38

0

Я получаю сообщение об ошибке mdf = mdf.loc [mdf.first <= mdf.last] в этой функции, которая является ключевой ошибкой true.
raam 31 июль 2018, в 16:33
0

@raam действительно, это потому, что 'first' и 'last' - это имена столбцов, которые я не должен использовать таким образом. Попробуйте mdf.loc[mdf['first'] <= mdf['last']] должно работать
Ben.T 31 июль 2018, в 16:38
0

@raam и то же самое после mdf['size'] = (mdf['last']- mdf['first'] ).astype('timedelta64[M]')+1
Ben.T 31 июль 2018, в 16:40
0

я получаю все данные в мдф мне нужны только пробелы
raam 31 июль 2018, в 16:51
0

@raam мой первый комментарий означал: mdf = mdf.loc[mdf['first'] <= mdf['last']] , извините, неясно, так как я знал, что это была ключевая ошибка. конец, а затем создать размер столбца
Ben.T 31 июль 2018, в 16:52
0

Я заметил, что разница иногда становится неправильной ... это означает, что сначала размер должен быть 4, но ваша логика становится равной 3, потому что некоторая разница в данных равна -1. Я знаю, где ошибка есть?
raam 06 авг. 2018, в 11:53
0

@raam Я думаю, что проблема в astype('timedelta64[M]') как не все месяцы имеют одинаковое количество дней. Я думаю, что вы можете заменить последнюю строку кода на: mdf['size'] = (mdf['last'].dt.year - mdf['first'].dt.year)*12 + (mdf['last'].dt.month - mdf['first'].dt.month)+1 , оно должно быть более строгим
Ben.T 06 авг. 2018, в 13:35
0

Для разницы в год, что я должен умножить mdf ['size'] = (mdf ['last']. Dt.year - mdf ['first']. Dt.year) * 365 + (mdf ['last']. Dt. month - mdf ['first']. dt.month) +1 - это так или иначе
raam 06 авг. 2018, в 14:58
0

@raam в разрыве года? почему ты умножаешь на 365?
Ben.T 06 авг. 2018, в 15:02
0

Для разницы в год, что я должен умножить mdf ['size'] = (mdf ['last']. Dt.year - mdf ['first']. Dt.year) + (mdf ['last']. Dt.month - mdf ['first']. dt.month) +1 - это так или иначе
raam 06 авг. 2018, в 15:03
0

@raam, если я хорошо понимаю, я бы разделил число месяцев на 12, чтобы получить его как «год»: `mdf ['size'] = (mdf ['last']. dt.year - mdf ['first'] .dt.year) + ((mdf ['last']. dt.month - mdf ['first']. dt.month) +1) / 12.
Ben.T 06 авг. 2018, в 15:05
0

у меня получилось решение без деления на 12 .. у меня есть некоторая путаница в том, как рассчитать недельный и дневной разрыв .. можете ли вы дать функцию.
raam 06 авг. 2018, в 15:07
0

@raam на несколько дней, это просто mdf['last']- mdf['first'] . Затем по неделям делим на 7 я бы сказал. вам может понадобиться +1 где-нибудь, в зависимости от того, хотите ли вы принять во внимание границы или нет
Ben.T 06 авг. 2018, в 15:09
0

Можете ли вы дать решение этой проблемы stackoverflow.com/questions/51746797/…
raam 08 авг. 2018, в 13:12
0

Можете ли вы дать ответ на этот вопрос, как сравнить или объединить два фрейма данных с помощью панда Python?
raam 09 авг. 2018, в 13:44
0

Можем ли мы уменьшить сложность этой логики df = pd.concat ([pd.DataFrame ({'start': pd.date_range (row.start, row.end, freq = 'AS'), 'series_id': row.series_id }, columns = ['start', 'id']) для i, строка в df.iterrows ()], ignore_index = True) эта логика извлекает дату начала и конец для идентификатора.
raam 10 авг. 2018, в 16:30
0

мы можем уменьшить или мы можем иметь другую логику для этого df1 = (pd.concat ([pd.Series (r.id, pd.date_range (r.start, r.end, freq = 'AS')) для r в df .itertuples ()]) .reset_index ()). Пожалуйста, помогите мне.
raam 13 авг. 2018, в 15:32
0

Можете ли вы дать решение для этих начальных и конечных данных 1 2001 2003 [[2001,1.4], [2002,23], [2004,56]] 2 2002 2005 [[2003,1], [2004,1], [2005, 1]] id start 1 2001 1 2002 1 2003 2 2002 2 2003 2 2004 2 2005 вот так. Я привык к iteruple и iterrows, но он становится все более сложным. Я хочу уменьшить временную сложность для него
raam 24 авг. 2018, в 10:26

Показать ещё 16 комментариев

Rushabh Mehta · Answer 2 · 2018-07-30T13-56-00.000Z

Сделанные предположения следующие:

Все значения в столбце данных уникальны, даже для групп
Данные в столбце данных являются целыми числами
Сначала данные сортируются по группам, а затем по значению.

Вот мой алгоритм (mdf - это вход df):

import pandas as pd
df2 = pd.DataFrame({'Id':mdf['Id'],'First':mdf['Data']+1,'Last':(mdf['Data']-1).shift(-1)})
df2 = df2.groupby('Id').apply(lambda g: g[g['Data'] != g['Data'].max()]).reset_index(drop=True)
print(df2[~df['First'].isin(mdf['Data'])&~df['Last'].isin(mdf['Data'])])

данные в столбцах имеют тип datetime с форматом = '% Y% m', а также ваш код выдает ошибку lambda x: op (x, rvalues)) TypeError: должен быть str, а не int
что бери данные в лямду показывает ошибку
Ваш алгоритм не работает. Даже если он не отображает вывод, он показывает ошибки
Вы читали предположения человек, я сказал, что данные должны быть целыми числами. Вы можете конвертировать их?
Я преобразовал их в целые числа. Теперь он получает ошибку столбца данных лямда