Удаление одинаковых выбросов в двух временных сериях

Question

Удаление одинаковых выбросов в двух временных сериях

1

У меня вопрос об устранении выбросов из двух-временных рядов. Одна временная серия включает в себя спотовые рыночные цены, а другая - мощность. Эти две серии относятся к 2012-2016 годам и являются файлами CSV с меткой времени, а затем значением. В качестве примера для выходной мощности: 2012-01-01 00: 00: 00,2335.2152646951617 и по цене: 2012-01-01 00: 00: 00,17.2

Поскольку цены на спотовом рынке очень неустойчивы и имеют много выбросов, я отфильтровал их. Для второго временного ряда мне нужно удалить значения с той же меткой времени, которые были устранены во временном ряду цен. Я подумал о создании списка с удаленными значениями и написании цикла для удаления значений с одинаковой временной меткой во втором временном ряду. Но пока это не сработало, и я не уверен. У кого-нибудь есть идея?

Мой код python выглядит следующим образом:

import pandas as pd
import matplotlib.pyplot as plt

power_output = pd.read_csv("./data/external/power_output.csv", delimiter=",", parse_dates=[0], index_col=[0])
print(power_output.head())
plt.plot(power_output)

spotmarket = pd.read_csv("./data/external/spotmarket_dhp.csv", delimiter=",", parse_dates=[0], index_col=[0])
print(spotmarket.head())

r = spotmarket['price'].pct_change().dropna() * 100
print(r)
plt.plot(r)

Q1 = r.quantile(.25)
Q3 = r.quantile(.75)
q1 = Q1-2*(Q3-Q1)
q3 = Q3+2*(Q3-Q1)

a = r[r.between(q1, q3)]
print(a)
plt.plot(a)

Может кто-нибудь мне помочь?

Pyrmon55 18 июнь 2018, в 09:38

Источник

Теги:

python

time-series

outliers

2 ответа

1

Следующее предложение основано на моем ответе от предыдущего поста. Вы можете решить свою проблему, объединив обе свои серии и сохранив их в pandas dataframe. Затем вы можете использовать любой желаемый метод для идентификации и удаления выбросов. Взгляните на сообщение, упомянутое выше.

Вот мой подход к вашей конкретной проблеме, используя фрагмент, который может обрабатывать несколько серий:

Поскольку у меня нет доступа к вашим данным, следующий фрагмент будет генерировать две серии, в которых один из них имеет отличительный характер:

def sample(colname):

    base = 100
    nsample = 20
    sigma = 10

    # Basic df with trend and sinus seasonality 
    trend1 = np.linspace(0,1, nsample)
    y1 = np.sin(trend1)
    dates = pd.date_range(pd.datetime(2016, 1, 1).strftime('%Y-%m-%d'), periods=nsample).tolist()
    df = pd.DataFrame({'dates':dates, 'trend1':trend1, 'y1':y1})
    df = df.set_index(['dates'])
    df.index = pd.to_datetime(df.index)

    # Gaussian Noise with amplitude sigma
    df['y2'] = sigma * np.random.normal(size=nsample)
    df['y3'] = df['y2'] + base + (np.sin(trend1))
    df['trend2'] = 1/(np.cos(trend1)/1.05)
    df['y4'] = df['y3'] * df['trend2']

    df=df['y4'].to_frame()
    df.columns = [colname]

    return(df)

df_sample1 = sample(colname = 'series1')
df_sample2 = sample(colname = 'series2')
df_sample2['series2'].iloc[10] = 800
df_sample1.plot()
df_sample2.plot()

Серия 1 - Нет выбросов

Серия 2 - отличительный выброс

Теперь вы можете объединить эти серии следующим образом:

# Merge dataframes
df_merged = pd.merge(df_sample1, df_sample2, how='outer', left_index=True, right_index=True)
df_merged.plot()

То, что считается выбросом, будет зависеть от характера вашего набора данных. В этом случае вы можете установить уровень для идентификации выбросов с помощью sscipy.zscore(). В следующем случае каждое наблюдение с разницей, превышающим 3, считается выбросом.

# A function for removing outliers
def noSpikes(df, level, keepFirst):

    # 1. Get some info about the original data:

    ##%%
    #df = df_merged
    #level = 3
    #keepFirst = True
    ##%%

    firstVal = df[:1]
    colNames = df.columns
    colNumber = len(df.columns)

    #cleanBy = 'Series1'

    # 2. Take the first difference and 
    df_diff = df.diff()

    # 3. Remove missing values
    df_clean = df_diff.dropna()

    # 4. Select a level for a Z-score to identify and remove outliers
    df_Z = df_clean[(np.abs(stats.zscore(df_clean)) < level).all(axis=1)]
    ix_keep = df_Z.index

    # 5. Subset the raw dataframe with the indexes you'd like to keep
    df_keep = df.loc[ix_keep]

    # 6. 
    # df_keep will be missing some indexes.
    # Do the following if you'd like to keep those indexes
    # and, for example, fill missing values with the previous values
    df_out = pd.merge(df_keep, df, how='outer', left_index=True, right_index=True)

    # 7. Keep only the original columns (drop the diffs)
    df_out = df_out.ix[:,:colNumber]

    # 8. Fill missing values
    df_complete = df_out.fillna(axis=0, method='ffill')

    # 9. Reset column names
    df_complete.columns = colNames

    # Keep the first value
    if keepFirst:
        df_complete.iloc[0] = firstVal.iloc[0]

    return(df_complete)

df_clean = noSpikes(df = df_merged, level = 3, keepFirst = True)
df_clean.plot()

Дайте мне знать, как это работает для вас.

Здесь все для простой копии-пасты:

# Imports
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from scipy import stats

np.random.seed(22)

# A function for noisy data with a trend element
def sample(colname):

    base = 100
    nsample = 20
    sigma = 10

    # Basic df with trend and sinus seasonality 
    trend1 = np.linspace(0,1, nsample)
    y1 = np.sin(trend1)
    dates = pd.date_range(pd.datetime(2016, 1, 1).strftime('%Y-%m-%d'), periods=nsample).tolist()
    df = pd.DataFrame({'dates':dates, 'trend1':trend1, 'y1':y1})
    df = df.set_index(['dates'])
    df.index = pd.to_datetime(df.index)

    # Gaussian Noise with amplitude sigma
    df['y2'] = sigma * np.random.normal(size=nsample)
    df['y3'] = df['y2'] + base + (np.sin(trend1))
    df['trend2'] = 1/(np.cos(trend1)/1.05)
    df['y4'] = df['y3'] * df['trend2']

    df=df['y4'].to_frame()
    df.columns = [colname]

    return(df)

df_sample1 = sample(colname = 'series1')
df_sample2 = sample(colname = 'series2')
df_sample2['series2'].iloc[10] = 800
df_sample1.plot()
df_sample2.plot()

# Merge dataframes
df_merged = pd.merge(df_sample1, df_sample2, how='outer', left_index=True, right_index=True)
df_merged.plot()

# A function for removing outliers
def noSpikes(df, level, keepFirst):

    # 1. Get some info about the original data:
    firstVal = df[:1]
    colNames = df.columns
    colNumber = len(df.columns)

    #cleanBy = 'Series1'

    # 2. Take the first difference and 
    df_diff = df.diff()

    # 3. Remove missing values
    df_clean = df_diff.dropna()

    # 4. Select a level for a Z-score to identify and remove outliers
    df_Z = df_clean[(np.abs(stats.zscore(df_clean)) < level).all(axis=1)]
    ix_keep = df_Z.index

    # 5. Subset the raw dataframe with the indexes you'd like to keep
    df_keep = df.loc[ix_keep]

    # 6. 
    # df_keep will be missing some indexes.
    # Do the following if you'd like to keep those indexes
    # and, for example, fill missing values with the previous values
    df_out = pd.merge(df_keep, df, how='outer', left_index=True, right_index=True)

    # 7. Keep only the original columns (drop the diffs)
    df_out = df_out.ix[:,:colNumber]

    # 8. Fill missing values
    df_complete = df_out.fillna(axis=0, method='ffill')

    # 9. Reset column names
    df_complete.columns = colNames

    # Keep the first value
    if keepFirst:
        df_complete.iloc[0] = firstVal.iloc[0]

    return(df_complete)

df_clean = noSpikes(df = df_merged, level = 3, keepFirst = True)
df_clean.plot()

vestland 18 июнь 2018, в 06:43

0

Спасибо за идею! Я думаю, что это хороший способ, но для моей проблемы немного. Solutin из m33n работал также хорошо для меня.
Pyrmon55 19 июнь 2018, в 20:03
0

Нет проблем, и спасибо за отзыв!
vestland 19 июнь 2018, в 20:56

Ещё вопросы

Спасибо за идею! Я думаю, что это хороший способ, но для моей проблемы немного. Solutin из m33n работал также хорошо для меня.

m33n · Accepted Answer · 2018-06-18T06-09-00.000Z

Если у вас вопрос о том, как сравнивать две метки времени, вы можете взглянуть на это.

В основном вы могли бы сделать:

out = r[~r.between(q1, q3)] # negation of your between to get the outliers
df=pd.merge(spotmarker,out,on=['date'],how="outer",indicator=True)
df=df[df['_merge']=='left_only']

Это операция слияния, которая сохраняет только те строки, которые присутствуют только в левом фрейме данных