Почему `[` лучше чем `subset`?

Question

Почему `[` лучше чем `subset`?

362

Когда мне нужно отфильтровать data.frame, т.е. извлечь строки, соответствующие определенным условиям, я предпочитаю использовать функцию subset:

subset(airquality, Month == 8 & Temp > 90)

Вместо функции [:

airquality[airquality$Month == 8 & airquality$Temp > 90, ]

Есть две основные причины моего предпочтения:

Я считаю, что код читается лучше, слева направо. Даже люди, которые ничего не знают о R, могут сказать, что делает инструкция subset выше.
Поскольку столбцы можно назвать переменными в выражении select, я могу сэкономить несколько нажатий клавиш. В приведенном выше примере мне приходилось вводить airquality один раз с subset, но три раза с [.

Итак, я жил счастливым, используя subset всюду, потому что он короче и читает лучше, даже защищая его красоту среди моих соратников-кодеров. Но вчера мой мир развалился. Читая документацию subset, я замечаю этот раздел:

Предупреждение

Это функция удобства, предназначенная для интерактивного использования. Для программирования лучше использовать стандартные функции подмножества, такие как [, и, в частности, нестандартная оценка подмножества аргументов может иметь непредвиденные последствия.

Может кто-то помочь прояснить, что означают авторы?

Во-первых, что они подразумевают под "для интерактивного использования"? Я знаю, что такое интерактивный сеанс, в отличие от script в режиме BATCH, но я не вижу, какую именно разницу он должен сделать.

Тогда, не могли бы вы объяснить "нестандартную оценку подмножества аргументов" и почему это опасно, может быть, пример?

flodel 25 март 2012, в 14:04

Источник

13

Это немного меньше (но меньше, чем подмножество) для использования с with(airquality, airquality[Month == 8 & Temp > 90, ])
Tyler Rinker 25 март 2012, в 13:09
1

В этой теме обсуждается предупреждение subset() : r.789695.n4.nabble.com/…
jthetzel 25 март 2012, в 13:14
5

Вы также можете взглянуть на Cirlces 8.2.31 и 8.2.32 из «The R Inferno» burns-stat.com/pages/Tutor/R_inferno.pdf
Patrick Burns 25 март 2012, в 18:25
8

Вместо этого попробуйте data.table, синтаксис по умолчанию похож на airquality [Month == 8 & Temp> 90,] - очень читабельный и намного быстрее.
Stian Håklev 27 сен. 2013, в 20:23
2

ХОРОШО. так что если подмножество плохо использовать - что насчет [против dplyr :: filter ()?
userJT 12 фев. 2015, в 09:55
1

@RichieCotton, я знаю, что ваш раздел о dplyr и data.table полон благих намерений, но я не уверен насчет среды (отказ от ответственности) и некоторого ее содержания. filter и [ являются базовыми функциями, поэтому все еще очень актуальны, в то время как plyr и data.table остаются сторонними пакетами. Для тех, кто пишет профессиональный код (например, пакет), я бы порекомендовал использовать базовые [ над сторонними пакетами, чтобы максимально избежать зависимостей. Другие люди предложили plyr::filter и data.table.[ В комментариях я чувствую, что это их правильное место, ИМХО.
flodel 24 март 2015, в 09:44
0

@flodel Я думаю, что стоит упомянуть, что проблемы с subset работали в других местах, и на этой странице так много комментариев, что стоит упомянуть об этом либо в вопросе, либо в верхнем ответе, где его легко найти. Тем не менее, это ваш (очень хороший) вопрос, и вы должны отредактировать или откатить по своему усмотрению.
Richie Cotton 24 март 2015, в 10:22
1

Полностью согласен с вами, что это хорошие работы, о которых стоит упомянуть. У меня проблема в том, что, предлагая альтернативы subset , вы упускаете возможность упомянуть, что с base [ function нет ничего плохого. Что и остается справкой: новички в инструментах (для которых установка и изучение dplyr не должна быть приоритетом) или опытные программисты (заботящиеся о том, чтобы не добавлять зависимости) должны использовать 99% времени. Поэтому я считаю, что отказ от ответственности немного вводит в заблуждение. Я оставлю вам или другим опытным пользователям возможность высказать свое мнение, прежде чем я откажусь (или нет).
flodel 24 март 2015, в 11:40
3

Для тех, кто интересуется, dplyr::filter имеет ту же проблему. Т.е. если в среде есть переменная с таким именем, она будет использовать ее вместо переменной во фрейме данных. Делает для запутанной отладки!
Deleet 28 янв. 2017, в 04:44
0

.subset2 даже быстрее, если это уместно. Смотрите Хэдли на производительность в adv-r
Jack Wasey 24 июнь 2017, в 11:06

Показать ещё 8 комментариев

Теги:

r

filter

subset

r-faq

2 ответа

22

Также [ выполняется быстрее:

require(microbenchmark)        
microbenchmark(subset(airquality, Month == 8 & Temp > 90),airquality[airquality$Month == 8 & airquality$Temp > 90,])
    Unit: microseconds
                                                           expr     min       lq   median       uq     max neval
                     subset(airquality, Month == 8 & Temp > 90) 301.994 312.1565 317.3600 349.4170 500.903   100
     airquality[airquality$Month == 8 & airquality$Temp > 90, ] 234.807 239.3125 244.2715 271.7885 340.058   100

bartektartanus 05 апр. 2014, в 16:42

31

И да и нет. Я думаю, что разница во времени, которую вы видите, обусловлена двумя причинами. 1) небольшая (<100 микросекунд) служебная информация и 2) subset отличие от [ удаляет строки, в которых фильтр оценивается как NA . Сделайте это, и вы увидите, что они оба так же быстры, если сравнивать их «довольно»: x <- do.call(rbind, rep(list(airquality), 100)); microbenchmark(subset(x, Month == 8 & Temp > 90),{ i <- x$Month == 8 & x$Temp > 90; x[!is.na(i) & i ,] })
flodel 05 апр. 2014, в 16:20

Ещё вопросы

Это немного меньше (но меньше, чем подмножество) для использования с with(airquality, airquality[Month == 8 & Temp > 90, ])
В этой теме обсуждается предупреждение subset() : r.789695.n4.nabble.com/…
Вы также можете взглянуть на Cirlces 8.2.31 и 8.2.32 из «The R Inferno» burns-stat.com/pages/Tutor/R_inferno.pdf
Вместо этого попробуйте data.table, синтаксис по умолчанию похож на airquality [Month == 8 & Temp> 90,] - очень читабельный и намного быстрее.
ХОРОШО. так что если подмножество плохо использовать - что насчет [против dplyr :: filter ()?
@RichieCotton, я знаю, что ваш раздел о dplyr и data.table полон благих намерений, но я не уверен насчет среды (отказ от ответственности) и некоторого ее содержания. filter и [ являются базовыми функциями, поэтому все еще очень актуальны, в то время как plyr и data.table остаются сторонними пакетами. Для тех, кто пишет профессиональный код (например, пакет), я бы порекомендовал использовать базовые [ над сторонними пакетами, чтобы максимально избежать зависимостей. Другие люди предложили plyr::filter и data.table.[ В комментариях я чувствую, что это их правильное место, ИМХО.
@flodel Я думаю, что стоит упомянуть, что проблемы с subset работали в других местах, и на этой странице так много комментариев, что стоит упомянуть об этом либо в вопросе, либо в верхнем ответе, где его легко найти. Тем не менее, это ваш (очень хороший) вопрос, и вы должны отредактировать или откатить по своему усмотрению.
Полностью согласен с вами, что это хорошие работы, о которых стоит упомянуть. У меня проблема в том, что, предлагая альтернативы subset , вы упускаете возможность упомянуть, что с base [ function нет ничего плохого. Что и остается справкой: новички в инструментах (для которых установка и изучение dplyr не должна быть приоритетом) или опытные программисты (заботящиеся о том, чтобы не добавлять зависимости) должны использовать 99% времени. Поэтому я считаю, что отказ от ответственности немного вводит в заблуждение. Я оставлю вам или другим опытным пользователям возможность высказать свое мнение, прежде чем я откажусь (или нет).
Для тех, кто интересуется, dplyr::filter имеет ту же проблему. Т.е. если в среде есть переменная с таким именем, она будет использовать ее вместо переменной во фрейме данных. Делает для запутанной отладки!
.subset2 даже быстрее, если это уместно. Смотрите Хэдли на производительность в adv-r
И да и нет. Я думаю, что разница во времени, которую вы видите, обусловлена двумя причинами. 1) небольшая (<100 микросекунд) служебная информация и 2) subset отличие от [ удаляет строки, в которых фильтр оценивается как NA . Сделайте это, и вы увидите, что они оба так же быстры, если сравнивать их «довольно»: x <- do.call(rbind, rep(list(airquality), 100)); microbenchmark(subset(x, Month == 8 & Temp > 90),{ i <- x$Month == 8 & x$Temp > 90; x[!is.na(i) & i ,] })

joran · Accepted Answer · 2012-03-25T19-54-00.000Z

214

Лучший ответ

На этот вопрос был дан ответ в комментариях @James, указывая на отличное объяснение Хэдли Викхэма об опасностях subset (и подобных ему функциях) [здесь]. Пойдите, прочитайте это!

Это несколько длинное чтение, поэтому может быть полезно записать здесь пример, который использует Хэдли, который наиболее непосредственно затрагивает вопрос "что может пойти не так?":

Хэдли предлагает следующий пример: предположим, что мы хотим подмножество, а затем переупорядочить кадр данных, используя следующие функции:

scramble <- function(x) x[sample(nrow(x)), ]

subscramble <- function(x, condition) {
  scramble(subset(x, condition))
}

subscramble(mtcars, cyl == 4)

Это возвращает ошибку:

Ошибка в eval (expr, envir, enc): объект 'cyl' не найден

потому что R больше не "знает", где найти объект, называемый "цил". Он также указывает на действительно причудливые вещи, которые могут произойти, если случайно в глобальной среде есть объект, называемый "цил":

cyl <- 4
subscramble(mtcars, cyl == 4)

cyl <- sample(10, 100, rep = T)
subscramble(mtcars, cyl == 4)

(Запустите их и убедитесь сами, это довольно сумасшедшее.)

joran 25 март 2012, в 19:54

2

Могу ли я задать несколько вопросов новичку для уточнения? Когда мы пишем subset(mtcars, cyl == 4) (на верхнем уровне), где R ищет цил? Если он смотрит на объект mtcars который передается в subset() , то не должен ли он найти cyl даже если scramble находится в другой функции, поскольку mtcars все еще передается ему? Если мой вопрос не имеет смысла, вы можете подробнее рассказать, почему R больше не может найти cyl . Спасибо!
Heisenberg 28 окт. 2013, в 22:12
4

@Anh Внутри subset.data.frame , вещь, которую мы пытаемся оценить в этот момент, это просто condition . Этого не существует в mtcars . Поэтому subset.data.frame использует enclos = parent.frame() чтобы убедиться, что condition правильно оценено как cyl == 4 . Но затем мы вернулись к рамке, и теперь, когда R ищет cyl он больше не смотрит внутрь mtcars . Если бы мы не использовали enclos , что-то вроде subset(mtcars,cyl == a) не сработало бы вообще.
joran 28 окт. 2013, в 22:28
0

Кто-нибудь знает, почему subset () не просто реализует более быстрый и безопасный метод [,] за кулисами?
Mike Palmice 02 окт. 2017, в 20:35
1

@MikePalmice Это делает. Последняя строка subset.data.frame - это x[r, vars, drop = drop] . Проблема заключается в том, как получить из не заключенного в кавычки subset и select аргументы для чего-то, что вы можете достоверно передать в [.data.frame .
joran 02 окт. 2017, в 21:33
0

@joran понял, спасибо. как вы думаете, стоит ли использовать фильтр dplyr вместо [] ?
Mike Palmice 20 окт. 2017, в 14:17
0

Это такой старый вопрос / ответ с таким большим количеством голосов - так ясно, что я что-то упускаю ?? Для меня ваш пример кода не работает сам по себе. Пример Хэдли содержит предварительное создание другой функции под названием 'subset2' ... Важное различие между [ и subset() заключается в этой функции ...
Tjebo 20 июнь 2018, в 16:55
0

@Tjebo Пример кода в моем ответе работает точно так же, как я описал для меня в чистой сессии R (3.4.3), как и 5 минут назад.
joran 20 июнь 2018, в 19:43
0

Спасибо за проверку. Возможно, я неправильно понял цель вашего кода. Но если заменить его на подмножество с помощью [ , это приведет к тому же «странному» результату, что и ваш код с использованием subset - по крайней мере, здесь: / Также очистите R 3.4.3
Tjebo 20 июнь 2018, в 19:59
0

@Tjebo Это не мой код, а код Хэдли. Возможно, вам следует прочитать его полную версию, если вы не уверены. Я не понимаю, что вас смущает, насколько я могу судить, эти примеры иллюстрируют то, что Хэдли намеревался показать.
joran 20 июнь 2018, в 20:20
0

Я создал чат, чтобы лучше объяснить свою точку зрения («Подмножество обсуждений против [»)
Tjebo 21 июнь 2018, в 08:50
2

@Tjebo Как вы заметили, этот вопрос старый, и исходный материал Хэдли, возможно, изменился с тех пор, как я написал это. Но это не "мой" ответ, это вики сообщества, которая просто обобщает что-то еще. Если вы думаете, что это устарело, просто исправьте это.
joran 21 июнь 2018, в 15:12

Показать ещё 9 комментариев