Scipy rv_continuous неправильно генерирует образец из распределения

Question

Scipy rv_continuous неправильно генерирует образец из распределения

1

from scipy import stats
import numpy as np 

class your_distribution(stats.rv_continuous):
    def _pdf(self, x):
        p0 = 10.9949
        p1 = 0.394447
        p2 = 12818.4
        p3 = 2.38898

        return ((p1*p3)/(p3*p0+p2*p1))*((p0*np.exp(-1.0*p1*x))+(p2*np.exp(-1.0*p3*x)))

distribution = your_distribution(a=0.15, b=10.1)
sample = distribution.rvs(size=50000)

Приведенный выше код генерирует 50000 выборок из нормализованного pdf в диапазоне от 0,15 до 10,1. Однако на верхней границе b=10.1 имеется непропорционально большое количество образцов. Это не имеет смысла, как видно при построении pdf.

Как я могу исправить эту проблему?

PiccolMan 14 июнь 2018, в 15:18

Источник

Теги:

python

scipy

statistics

random

1 ответ

Ещё вопросы

kazemakase · Accepted Answer · 2018-06-14T12-53-00.000Z

PDF правильно нормируется для полного диапазона распространения. Однако установка a и b просто сокращает PDF без какой-либо повторной нормализации. С (a=0.15, b=10.1) PDF больше не интегрируется в 1, а по причуде реализации scipy оставшаяся плотность, по-видимому, добавляется в конце диапазона. Это вызывает большое количество образцов на верхней границе.

Мы можем визуализировать, что происходит, построив функцию кумулятивной плотности (CDF) при a = 0 и a = 0,15:

x = np.linspace(0, 15, 1000)

distribution = your_distribution(a=0.0, b=10.1)
plt.plot(x, distribution.cdf(x), label='a=0')

distribution = your_distribution(a=0.15, b=10.1)
plt.plot(x, distribution.cdf(x), label='a=0.15')

plt.legend()

Чтобы избавиться от прыжка в CDF и ложных выборок в верхнем диапазоне, нам необходимо изменить нормализацию PDF для диапазона a..b. Я слишком ленив, чтобы аналитически выработать правильный фактор, поэтому пусть делает scipy делать тяжелую работу:

from scipy import stats
from scipy.integrate import quad
import numpy as np

# I pulled the definition of the PDF out of the class so we can use it to
# compute the scale factor.
def pdf(x):
    p0 = 10.9949
    p1 = 0.394447
    p2 = 12818.4
    p3 = 2.38898

    return ((p1*p3)/(p3*p0+p2*p1))*((p0*np.exp(-1.0*p1*x))+(p2*np.exp(-1.0*p3*x)))    

class your_distribution(stats.rv_continuous):        
    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)

        # integrate area of the PDF in range a..b
        self.scale, _ = quad(pdf, self.a, self.b)

    def _pdf(self, x):
        return pdf(x) / self.scale  # scale PDF so that it integrates to 1 in range a..b 

distribution = your_distribution(a=0.15, b=10.1)
sample = distribution.rvs(size=1000)

Если вам известно аналитическое решение интеграла, вы можете использовать его вместо вызова quad.

Ваше решение имеет смысл, а также работает. Спасибо @kazemakase.