Уровни опускания в заданном кадре данных

Question

Уровни опускания в заданном кадре данных

459

У меня есть кадр данных, содержащий фактор. Когда я создаю подмножество этого фрейма данных с помощью subset() или другой функции индексирования, создается новый кадр данных. Однако фактор-переменная сохраняет все свои исходные уровни - даже если они не существуют в новом кадре данных.

Это создает головные боли при графовом построении или использовании функций, которые зависят от уровней факторов.

Каков самый краткий способ удаления уровней из фактора в моем новом фрейме данных?

Вот мой пример:

df <- data.frame(letters=letters[1:5],
                    numbers=seq(1:5))

levels(df$letters)
## [1] "a" "b" "c" "d" "e"

subdf <- subset(df, numbers <= 3)
##   letters numbers
## 1       a       1
## 2       b       2
## 3       c       3    

## but the levels are still there!
levels(subdf$letters)
## [1] "a" "b" "c" "d" "e"

medriscoll 28 июль 2009, в 19:07

Источник

Теги:

dataframe

r

r-factor

r-faq

14 ответов

439

Так как R версия 2.12, там есть функция droplevels().

levels(droplevels(subdf$letters))

Roman Luštrik 26 нояб. 2010, в 11:58

7

Кроме того, вы можете просто немного прокрутить вниз ...
Señor O 30 янв. 2014, в 17:28
0

@ RomanLuštrik К сожалению, сортировка по голосам все еще делает принятый ответ № 1, хотя у него (сейчас) меньше голосов, чем у вас :-(
tim 28 июнь 2015, в 19:02
3

Преимущество этого метода перед использованием factor() состоит в том, что нет необходимости изменять исходный кадр данных или создавать новый постоянный кадр данных. Я могу обернуть droplevels вокруг подмножественного фрейма данных и использовать его в качестве аргумента данных для решеточной функции, и группы будут обрабатываться правильно.
Mars 21 нояб. 2015, в 05:44
0

Я заметил, что если у меня есть уровень АН в моем факторе (настоящий уровень АН), он падает на пониженные уровни, даже если присутствуют АН.
Meep 05 июль 2016, в 00:48

Показать ещё 2 комментария

36

Если вы не хотите этого поведения, не используйте факторы, используйте вместо него векторы символов. Я думаю, что это имеет больше смысла, чем исправление. Перед загрузкой данных выполните следующие действия: read.table или read.csv:

options(stringsAsFactors = FALSE)

Недостатком является то, что вы ограничены алфавитным порядком. (переупорядочить ваш друг для сюжетов)

hadley 29 июль 2009, в 01:47

6

Вы также можете сделать read.csv (file = 'foo.csv', as.is = T).
andrewj 29 июль 2009, в 01:37

33

Это известная проблема, и одно возможное решение предоставляется drop.levels() в пакете gdata, где ваш пример становится

> drop.levels(subdf)
  letters numbers
1       a       1
2       b       2
3       c       3
> levels(drop.levels(subdf)$letters)
[1] "a" "b" "c"

Существует также функция dropUnusedLevels в пакете Hmisc. Однако он работает только при изменении оператора подмножества [ и здесь не применим.

В качестве следствия прямой подход на основе столбца является простым as.factor(as.character(data)):

> levels(subdf$letters)
[1] "a" "b" "c" "d" "e"
> subdf$letters <- as.factor(as.character(subdf$letters))
> levels(subdf$letters)
[1] "a" "b" "c"

Dirk Eddelbuettel 28 июль 2009, в 20:32

4

reorder параметр drop.levels функции стоит упомянуть: если у вас есть , чтобы сохранить первоначальный порядок ваших факторов, используйте его с FALSE значения.
daroczig 17 янв. 2011, в 11:31
0

Использование gdata только для drop.levels дает «gdata: read.xls поддержка« XLS »(Excel 97-2004) файлов ВКЛЮЧЕНА». "gdata: невозможно загрузить библиотеки perl, необходимые для read.xls ()" "gdata: для поддержки файлов 'XLSX' (Excel 2007+)." "gdata: запустить функцию 'installXLSXsupport ()'" "gdata: для автоматической загрузки и установки perl". Использовать уровни уровней от baseR ( stackoverflow.com/a/17218028/9295807 )
Vrokipal 20 июнь 2018, в 19:12
0

Материал случается со временем. Вы комментируете на ответ я написал девять лет назад. Итак, давайте возьмем это как подсказку, чтобы вообще предпочесть решения на основе R, так как те, которые используют функциональность, которая все еще будет через N лет.
Dirk Eddelbuettel 20 июнь 2018, в 19:21

Показать ещё 1 комментарий

18

Другой способ сделать то же самое, но с dplyr

library(dplyr)
subdf <- df %>% filter(numbers <= 3) %>% droplevels()
str(subdf)

Изменить:

Также работает! Благодаря agenis

subdf <- df %>% filter(numbers <= 3) %>% droplevels
levels(subdf$letters)

Prradep 15 июль 2015, в 12:30

10

Здесь другой способ, который, я считаю, эквивалентен подходу factor(..):

> df <- data.frame(let=letters[1:5], num=1:5)
> subdf <- df[df$num <= 3, ]

> subdf$let <- subdf$let[ , drop=TRUE]

> levels(subdf$let)
[1] "a" "b" "c"

ars 29 июль 2009, в 04:08

0

Ха, после всех этих лет я не знал, что существует метод `[.factor` с аргументом drop и вы опубликовали это в 2009 году ...
David Arenburg 13 фев. 2019, в 15:42

7

Для полноты картины теперь в пакете forcats также fct_drop forcats http://forcats.tidyverse.org/reference/fct_drop.html.

Он отличается от droplevels тем, как он имеет дело с NA:

f <- factor(c("a", "b", NA), exclude = NULL)

droplevels(f)
# [1] a    b    <NA>
# Levels: a b <NA>

forcats::fct_drop(f)
# [1] a    b    <NA>
# Levels: a b

Aurèle 12 июнь 2017, в 10:27

7

Взглянув на droplevels методов droplevels в droplevels коде R, вы увидите, что он переносится в factor функцию. Это означает, что вы можете воссоздать столбец с помощью factor функции.
Ниже data.table способ отбрасывать уровни из всех столбцов факторов.

library(data.table)
dt = data.table(letters=factor(letters[1:5]), numbers=seq(1:5))
levels(dt$letters)
#[1] "a" "b" "c" "d" "e"
subdt = dt[numbers <= 3]
levels(subdt$letters)
#[1] "a" "b" "c" "d" "e"

upd.cols = sapply(subdt, is.factor)
subdt[, names(subdt)[upd.cols] := lapply(.SD, factor), .SDcols = upd.cols]
levels(subdt$letters)
#[1] "a" "b" "c"

jangorecki 09 дек. 2015, в 15:59

1

Я думаю, что data.table путь будет что-то вроде for (j in names(DT)[sapply(DT, is.factor)]) set(DT, j = j, value = factor(DT[[j]]))
David Arenburg 24 янв. 2016, в 13:24
1

@DavidArenburg, здесь ничего не меняется, так как мы называем [.data.table только один раз
jangorecki 30 нояб. 2016, в 13:25

6

вот способ сделать это

varFactor <- factor(letters[1:15])
varFactor <- varFactor[1:5]
varFactor <- varFactor[drop=T]

Diogo 31 янв. 2014, в 04:03

1

Это обман этого ответа, который был размещен 5 лет назад.
David Arenburg 13 фев. 2019, в 15:43

6

Это неприятно. Так я обычно это делаю, чтобы не загружать другие пакеты:

levels(subdf$letters)<-c("a","b","c",NA,NA)

который получает вас:

> subdf$letters
[1] a b c
Levels: a b c

Обратите внимание, что новые уровни заменят все, что занимает их индекс на старых уровнях (subdf $letters), поэтому что-то вроде:

levels(subdf$letters)<-c(NA,"a","c",NA,"b")

не будет работать.

Это, очевидно, не идеально, когда у вас много уровней, но для некоторых это легко и быстро.

Matt Parker 28 июль 2009, в 19:10

5

Я написал вспомогательные функции для этого. Теперь, когда я знаю о gdata drop.levels, он выглядит примерно так же. Вот они (отсюда):

present_levels <- function(x) intersect(levels(x), x)

trim_levels <- function(...) UseMethod("trim_levels")

trim_levels.factor <- function(x)  factor(x, levels=present_levels(x))

trim_levels.data.frame <- function(x) {
  for (n in names(x))
    if (is.factor(x[,n]))
      x[,n] = trim_levels(x[,n])
  x
}

Brendan OConnor 01 сен. 2009, в 20:59

4

Очень интересная тема, мне особенно понравилась идея просто повторить подзаголовок. Раньше у меня была аналогичная проблема, и я просто перешел к символу, а затем вернулся к коэффициенту.

   df <- data.frame(letters=letters[1:5],numbers=seq(1:5))
   levels(df$letters)
   ## [1] "a" "b" "c" "d" "e"
   subdf <- df[df$numbers <= 3]
   subdf$letters<-factor(as.character(subdf$letters))

DfAC 25 май 2015, в 13:24

0

Я имею в виду, что factor(as.chracter(...)) работает, но менее эффективно и лаконично, чем factor(...) . Кажется, строго хуже, чем другие ответы.
Gregor 13 фев. 2019, в 15:47

0

К сожалению, factor() не работает при использовании rxDataStep из RevoScaleR. Я делаю это в два этапа: 1) Преобразовать в символ и сохранить во временном внешнем фрейме данных (.xdf). 2) Преобразовать обратно в фактор и сохранить в определенном внешнем фрейме данных. Это исключает любые неиспользуемые уровни факторов без загрузки всех данных в память.

# Step 1) Converts to character, in temporary xdf file:
rxDataStep(inData = "input.xdf", outFile = "temp.xdf", transforms = list(VAR_X = as.character(VAR_X)), overwrite = T)
# Step 2) Converts back to factor:
rxDataStep(inData = "temp.xdf", outFile = "output.xdf", transforms = list(VAR_X = as.factor(VAR_X)), overwrite = T)

Jerome Smith 28 янв. 2019, в 22:34

0

Когда я работаю с data.frame, я теперь использую options(stringsAsFactors = FALSE) в начале скрипта. Следовательно, персонажи остаются персонажами. Так как у меня больше нет проблем с факторами :)

SDahm 22 нояб. 2018, в 14:51

Ещё вопросы

Кроме того, вы можете просто немного прокрутить вниз ...
@ RomanLuštrik К сожалению, сортировка по голосам все еще делает принятый ответ № 1, хотя у него (сейчас) меньше голосов, чем у вас :-(
Преимущество этого метода перед использованием factor() состоит в том, что нет необходимости изменять исходный кадр данных или создавать новый постоянный кадр данных. Я могу обернуть droplevels вокруг подмножественного фрейма данных и использовать его в качестве аргумента данных для решеточной функции, и группы будут обрабатываться правильно.
Я заметил, что если у меня есть уровень АН в моем факторе (настоящий уровень АН), он падает на пониженные уровни, даже если присутствуют АН.
Вы также можете сделать read.csv (file = 'foo.csv', as.is = T).
reorder параметр drop.levels функции стоит упомянуть: если у вас есть , чтобы сохранить первоначальный порядок ваших факторов, используйте его с FALSE значения.
Использование gdata только для drop.levels дает «gdata: read.xls поддержка« XLS »(Excel 97-2004) файлов ВКЛЮЧЕНА». "gdata: невозможно загрузить библиотеки perl, необходимые для read.xls ()" "gdata: для поддержки файлов 'XLSX' (Excel 2007+)." "gdata: запустить функцию 'installXLSXsupport ()'" "gdata: для автоматической загрузки и установки perl". Использовать уровни уровней от baseR ( stackoverflow.com/a/17218028/9295807 )
Материал случается со временем. Вы комментируете на ответ я написал девять лет назад. Итак, давайте возьмем это как подсказку, чтобы вообще предпочесть решения на основе R, так как те, которые используют функциональность, которая все еще будет через N лет.
Ха, после всех этих лет я не знал, что существует метод `[.factor` с аргументом drop и вы опубликовали это в 2009 году ...
Я думаю, что data.table путь будет что-то вроде for (j in names(DT)[sapply(DT, is.factor)]) set(DT, j = j, value = factor(DT[[j]]))
@DavidArenburg, здесь ничего не меняется, так как мы называем [.data.table только один раз
Это обман этого ответа, который был размещен 5 лет назад.
Я имею в виду, что factor(as.chracter(...)) работает, но менее эффективно и лаконично, чем factor(...) . Кажется, строго хуже, чем другие ответы.

hatmatrix · Accepted Answer · 2009-07-28T23-27-00.000Z

343

Лучший ответ

Все, что вам нужно сделать, это снова применить factor() к вашей переменной после подмножества:

> subdf$letters
[1] a b c
Levels: a b c d e
subdf$letters <- factor(subdf$letters)
> subdf$letters
[1] a b c
Levels: a b c

ИЗМЕНИТЬ

В примере с примерами факторов:

factor(ff)      # drops the levels that do not occur

Для удаления уровней из всех столбцов факторов в фрейме данных вы можете использовать:

subdf <- subset(df, numbers <= 3)
subdf[] <- lapply(subdf, function(x) if(is.factor(x)) factor(x) else x)

hatmatrix 28 июль 2009, в 23:27

18

Это хорошо для одноразового использования, но в data.frame с большим количеством столбцов вы можете сделать это для каждого столбца, который является фактором ... что приводит к необходимости использования такой функции, как drop.levels () из гдата.
Dirk Eddelbuettel 29 июль 2009, в 14:16
6

Я вижу ... но с точки зрения пользователя это быстро написать что-то вроде subdf [] <- lapply (subdf, function (x) if (is.factor (x)) factor (x) else x) ... Is drop.levels () намного эффективнее в вычислительном отношении или лучше с большими наборами данных? (Полагаю, что для огромного фрейма данных пришлось бы переписать приведенную выше строку в цикле for.)
hatmatrix 29 июль 2009, в 17:09
1

Спасибо Стивену и Дирку - я даю этому большие пальцы для объяснения одного фактора, но, надеюсь, люди прочитают эти комментарии для ваших предложений по очистке целого ряда данных факторов.
medriscoll 30 июль 2009, в 04:18
6

В качестве побочного эффекта функция преобразует фрейм данных в список, поэтому mydf <- droplevels(mydf) является mydf <- droplevels(mydf) предложенное Романом Луштриком и Томми О'Деллом ниже.
Johan 09 май 2014, в 10:41
0

Что также может быть примечательно: rlm действительно работает неправильно, когда ваш data.frame содержит факторы, которые содержат уровни без данных. Вы получите сообщение об ошибке: в «rlm» особые соответствия не реализованы. Большую часть времени ваша матрица не является единственной, это просто именно эта проблема.
Matt Bannert 19 июнь 2014, в 14:31
0

Кроме того : этот метод не сохраняет упорядоченность переменной.
webelo 01 июль 2016, в 00:36

Показать ещё 4 комментария