Выборка случайных строк в кадре данных

Question

Выборка случайных строк в кадре данных

190

Я изо всех сил пытаюсь найти соответствующую функцию, которая возвращала бы определенное количество строк, выбранных случайным образом без замены из фрейма данных на языке R? Может ли кто-нибудь помочь мне?

nikhil 25 нояб. 2011, в 19:16

Источник

Теги:

dataframe

r

sample

r-faq

7 ответов

83

Ответ Джон Колби дает правильный ответ. Однако, если вы являетесь пользователем dplyr, есть также ответ sample_n:

sample_n(df, 10)

случайным образом отображает 10 строк из фрейма данных. Он вызывает sample.int, поэтому на самом деле это один и тот же ответ с меньшим набором символов (и упрощает использование в контексте magrittr, поскольку dataframe является первым аргументом).

kasterma 20 фев. 2015, в 09:58

24

Напишите один! Обертывание ответа JC дает мне:

randomRows = function(df,n){
   return(df[sample(nrow(df),n),])
}

Теперь сделайте это лучше, сначала проверив, если n <= nrow (df) и остановится с ошибкой.

Spacedman 25 нояб. 2011, в 20:19

15

В пакете data.table предусмотрена функция DT[sample(.N, M)], выборка из случайных строк из таблицы данных DT.

library(data.table)
set.seed(10)

mtcars <- data.table(mtcars)
mtcars[sample(.N, 6)]

    mpg cyl  disp  hp drat    wt  qsec vs am gear carb
1: 14.7   8 440.0 230 3.23 5.345 17.42  0  0    3    4
2: 19.2   6 167.6 123 3.92 3.440 18.30  1  0    4    4
3: 17.3   8 275.8 180 3.07 3.730 17.60  0  0    3    3
4: 21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
5: 22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1
6: 15.5   8 318.0 150 2.76 3.520 16.87  0  0    3    2

Gennaro Tedesco 18 окт. 2015, в 17:40

7

EDIT: этот ответ устарел, см. обновленную версию.

В мой пакет R У меня есть улучшенный sample, так что он теперь ведет себя так же, как ожидалось, и для фреймов данных:

library(devtools); install_github('kimisc', 'krlmlr')

library(kimisc)
example(sample.data.frame)

smpl..> set.seed(42)

smpl..> sample(data.frame(a=c(1,2,3), b=c(4,5,6),
                           row.names=c('a', 'b', 'c')), 10, replace=TRUE)
    a b
c   3 6
c.1 3 6
a   1 4
c.2 3 6
b   2 5
b.1 2 5
c.3 3 6
a.1 1 4
b.2 2 5
c.4 3 6

Это достигнуто, сделав sample общий метод S3 и предоставив необходимую (тривиальную) функциональность в функции. Вызов setMethod устраняет все. К исходной реализации все еще можно получить доступ через base::sample.

krlmlr 14 май 2013, в 10:07

1

Что неожиданного в его обработке кадров данных?
a different ben 23 авг. 2013, в 05:20
2

@adifferentben: Когда я вызываю sample.default(df, ...) для фрейма данных df , он выбирает из столбцов фрейма данных, так как фрейм данных реализован в виде списка векторов одинаковой длины.
krlmlr 23 авг. 2013, в 07:05
0

Ваша посылка еще доступна? Я запустил install_github('kimisc', 'krlmlr') и получил сообщение об Error: Does not appear to be an R package (no DESCRIPTION) . Любой способ обойти это?
terdon 26 авг. 2013, в 14:23
0

Извините, что снова вас беспокою, но, поскольку вы написали этот (отличный) пакет, как вы думаете, вы могли бы прокомментировать это ?
terdon 28 авг. 2013, в 16:00
0

@krlmlr Я не согласен с тобой. Хорошая функциональность в вашем пакете, но sample () работает с фреймом данных, как и ожидалось. Вы путаете фрейм данных с матрицей. Это не. Это список. Это действительно не интуитивно понятно, но это потому, что слишком многие люди никогда не понимали, что фрейм данных - это список. Также обратите внимание, что установка вашего пакета может нарушить другой код в зависимости от исходного поведения sample ().
Joris Meys 06 сен. 2013, в 09:27
1

@JorisMeys: Согласен, за исключением части "как ожидалось". То, что фрейм данных реализован как список внутри, не означает, что он должен вести себя как единое целое. Оператор [ для фреймов данных является контрпримером. Также, пожалуйста, скажите мне: Вы когда-нибудь, только один раз, использовали sample для выборки столбцов из фрейма данных?
krlmlr 06 сен. 2013, в 10:01
1

@krlmlr Оператор [не является контрпримером: iris[2] работает как список, как и iris[[2]] . Или iris$Species , lapply(iris, mean) , ... lapply(iris, mean) данных - это списки. Поэтому я ожидаю, что они будут вести себя как они. И да, я на самом деле использовал образец (myDataframe). В наборе данных, где каждая переменная содержит данные экспрессии одного гена. Ваш конкретный метод помогает начинающим пользователям, но также эффективно меняет поведение sample() . Обратите внимание, я использую «как ожидалось» с точки зрения программиста. Что отличается от общей интуиции. Многое в R не совместимо с общей интуицией ...;)
Joris Meys 06 сен. 2013, в 14:19
0

@JorisMeys: достаточно справедливо. Я был неправ, предполагая, что никто никогда не будет использовать sample(dataframe) ... Я изменю имя функции на sample.rows и не буду использовать его в качестве метода S3. - Что касается [ , я имел в виду myList[i, j] .
krlmlr 06 сен. 2013, в 21:01
0

Я нашел этот вопрос StackOverflow, потому что я новичок в R, и я только что попробовал sample (dataframe), что привело к неожиданному причуду. Я согласен с Крлмиром здесь. Почему выборка (dataframe, 3) не дает мне 3 случайных строки из dataframe?
stackoverflowuser2010 15 янв. 2014, в 08:05
0

@ stackoverflowuser2010: см. обновленную версию этого ответа для решения.
krlmlr 15 янв. 2014, в 11:43

Показать ещё 8 комментариев

4

В мой пакет R существует функция sample.rows только для этой цели:

install.packages('kimisc')

library(kimisc)
example(sample.rows)

smpl..> set.seed(42)

smpl..> sample.rows(data.frame(a=c(1,2,3), b=c(4,5,6),
                               row.names=c('a', 'b', 'c')), 10, replace=TRUE)
    a b
c   3 6
c.1 3 6
a   1 4
c.2 3 6
b   2 5
b.1 2 5
c.3 3 6
a.1 1 4
b.2 2 5
c.4 3 6

Усиление sample, сделав его общей функцией S3, было плохой идеей, согласно комментариям Джориса Мейса к предыдущему ответу .

krlmlr 15 янв. 2014, в 12:50

1

Выберите случайный образец из типа подсвечника в R:

library("tibble")    
a <- your_tibble[sample(1:nrow(your_tibble), 150),]

nrow берет заголовок и возвращает количество строк. Первым параметром, переданным в sample, является диапазон от 1 до конца вашего подсвета. Второй параметр, переданный образцу 150, представляет собой количество случайных выборок, которые вы хотите. Квадратная скобка определяет строки возвращаемых индексов. Значение переменной "a" получает значение случайной выборки.

Eric Leschinski 11 фев. 2017, в 09:19

Ещё вопросы

Что неожиданного в его обработке кадров данных?
@adifferentben: Когда я вызываю sample.default(df, ...) для фрейма данных df , он выбирает из столбцов фрейма данных, так как фрейм данных реализован в виде списка векторов одинаковой длины.
Ваша посылка еще доступна? Я запустил install_github('kimisc', 'krlmlr') и получил сообщение об Error: Does not appear to be an R package (no DESCRIPTION) . Любой способ обойти это?
Извините, что снова вас беспокою, но, поскольку вы написали этот (отличный) пакет, как вы думаете, вы могли бы прокомментировать это ?
@krlmlr Я не согласен с тобой. Хорошая функциональность в вашем пакете, но sample () работает с фреймом данных, как и ожидалось. Вы путаете фрейм данных с матрицей. Это не. Это список. Это действительно не интуитивно понятно, но это потому, что слишком многие люди никогда не понимали, что фрейм данных - это список. Также обратите внимание, что установка вашего пакета может нарушить другой код в зависимости от исходного поведения sample ().
@JorisMeys: Согласен, за исключением части "как ожидалось". То, что фрейм данных реализован как список внутри, не означает, что он должен вести себя как единое целое. Оператор [ для фреймов данных является контрпримером. Также, пожалуйста, скажите мне: Вы когда-нибудь, только один раз, использовали sample для выборки столбцов из фрейма данных?
@krlmlr Оператор [не является контрпримером: iris[2] работает как список, как и iris[[2]] . Или iris$Species , lapply(iris, mean) , ... lapply(iris, mean) данных - это списки. Поэтому я ожидаю, что они будут вести себя как они. И да, я на самом деле использовал образец (myDataframe). В наборе данных, где каждая переменная содержит данные экспрессии одного гена. Ваш конкретный метод помогает начинающим пользователям, но также эффективно меняет поведение sample() . Обратите внимание, я использую «как ожидалось» с точки зрения программиста. Что отличается от общей интуиции. Многое в R не совместимо с общей интуицией ...;)
@JorisMeys: достаточно справедливо. Я был неправ, предполагая, что никто никогда не будет использовать sample(dataframe) ... Я изменю имя функции на sample.rows и не буду использовать его в качестве метода S3. - Что касается [ , я имел в виду myList[i, j] .
Я нашел этот вопрос StackOverflow, потому что я новичок в R, и я только что попробовал sample (dataframe), что привело к неожиданному причуду. Я согласен с Крлмиром здесь. Почему выборка (dataframe, 3) не дает мне 3 случайных строки из dataframe?
@ stackoverflowuser2010: см. обновленную версию этого ответа для решения.

John Colby · Accepted Answer · 2011-11-25T20-04-00.000Z

273

Лучший ответ

Сначала сделайте несколько данных:

> df = data.frame(matrix(rnorm(20), nrow=10))
> df
           X1         X2
1   0.7091409 -1.4061361
2  -1.1334614 -0.1973846
3   2.3343391 -0.4385071
4  -0.9040278 -0.6593677
5   0.4180331 -1.2592415
6   0.7572246 -0.5463655
7  -0.8996483  0.4231117
8  -1.0356774 -0.1640883
9  -0.3983045  0.7157506
10 -0.9060305  2.3234110

Затем выберите некоторые строки в случайном порядке:

> df[sample(nrow(df), 3), ]
           X1         X2
9  -0.3983045  0.7157506
2  -1.1334614 -0.1973846
10 -0.9060305  2.3234110

John Colby 25 нояб. 2011, в 20:04

4

@nikhil Смотрите здесь и здесь для начала. Вы также можете набрать ?sample в консоли R, чтобы прочитать об этой функции.
joran 25 нояб. 2011, в 19:50
8

Может кто-нибудь объяснить, почему sample (df, 3) не работает? Зачем вам нужен df [sample (nrow (df), 3),])?
stackoverflowuser2010 15 янв. 2014, в 08:03
4

@ stackoverflowuser2010, вы можете ввести? sample и увидеть, что первый аргумент в функции sample должен быть вектором или положительным целым числом. Я не думаю, что data.frame в этом случае работает как вектор.
David Braun 31 янв. 2014, в 02:43
8

Не забудьте установить ваше семя (например, set.seed(42) ) каждый раз, когда вы хотите воспроизвести этот конкретный образец.
CousinCocaine 10 апр. 2014, в 08:47
2

sample.int что sample.int будет немного быстрее: library(microbenchmark);microbenchmark( sample( 10000, 100 ), sample.int( 10000, 100 ), times = 10000 )
Ari B. Friedman 01 нояб. 2014, в 15:04
0

@ stackoverflowuser2010 Во фрейме данных sample выбирает случайные столбцы (например, ваши переменные) вместо случайных строк (ваши наблюдения). Таким образом, вы должны выбирать индексы строк вместо фрейма данных.
Roger Filmyer 30 нояб. 2014, в 21:07
0

Есть ли способ, чтобы случайные строки были последовательными?
user2113499 16 сен. 2015, в 20:17
0

Лол. Тогда они не будут случайными ....
pyll 11 апр. 2017, в 13:25

Показать ещё 6 комментариев