Как получить имена столбцов из моего массива?

Question

Как получить имена столбцов из моего массива?

1

Я использовал L1-функцию, показанную здесь, чтобы выбрать подходящие столбцы из pandas DataFrame X

from sklearn.svm import LinearSVC
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectFromModel

iris = load_iris()
X, y = iris.data, iris.target

lsvc = LinearSVC(C=0.01, penalty="l1", dual=False).fit(X, y)
model = SelectFromModel(lsvc, prefit=True)
X_new = model.transform(X)

Однако мне непонятно, как я могу получить имена столбцов. Поскольку X_new является массивом numpy, я пробовал это:

X_new.dtype.names

Но он ничего не возвращает. Итак, как я могу понять, какие столбцы были выбраны?

ScalaBoy 03 сен. 2018, в 14:33

Источник

0

Вы видели stackoverflow.com/a/29907472/4764434 ?
Zero 03 сен. 2018, в 12:00
0

@Zero: в моем случае количество функций не совпадает с исходным X и X_new. Я видел это решение, но я не понимаю, что такое «feature_selector.get_support»: X_selected_df = pd.DataFrame(X_new, columns=[X.columns[i] for i in range(len(X.columns)) if feature_selector.get_support()[i]])
ScalaBoy 03 сен. 2018, в 12:06
0

Вот что я пытался: X_selected_df = pd.DataFrame(X_new, columns=[X.columns[i] for i in range(len(X.columns)) if SelectFromModel.get_support()[i]]) , но получил AttributeError: 'numpy.ndarray' object has no attribute 'columns' .
ScalaBoy 03 сен. 2018, в 12:08
0

Вы используете файл данных CSV?
elf 03 сен. 2018, в 12:16
0

Нет, я использую iris = load_iris() . Нет CSV.
ScalaBoy 03 сен. 2018, в 12:18
0

попробуйте использовать файл CSV, чтобы вы могли сделать pd.read_csv
elf 03 сен. 2018, в 12:20
0

@LiamHealy: Хорошо, теперь у меня ошибка: TypeError: get_support() missing 1 required positional argument: 'self'
ScalaBoy 03 сен. 2018, в 12:21
0

Я решил это. Мне пришлось использовать model.get_support вместо SelectFromModel.get_support .
ScalaBoy 03 сен. 2018, в 12:24

Показать ещё 6 комментариев

Теги:

python

pandas

numpy

scikit-learn

1 ответ

Ещё вопросы

@Zero: в моем случае количество функций не совпадает с исходным X и X_new. Я видел это решение, но я не понимаю, что такое «feature_selector.get_support»: X_selected_df = pd.DataFrame(X_new, columns=[X.columns[i] for i in range(len(X.columns)) if feature_selector.get_support()[i]])
Вот что я пытался: X_selected_df = pd.DataFrame(X_new, columns=[X.columns[i] for i in range(len(X.columns)) if SelectFromModel.get_support()[i]]) , но получил AttributeError: 'numpy.ndarray' object has no attribute 'columns' .
Нет, я использую iris = load_iris() . Нет CSV.
попробуйте использовать файл CSV, чтобы вы могли сделать pd.read_csv
@LiamHealy: Хорошо, теперь у меня ошибка: TypeError: get_support() missing 1 required positional argument: 'self'
Я решил это. Мне пришлось использовать model.get_support вместо SelectFromModel.get_support .

Liam Healy · Answer 1 · 2018-09-03T10-52-00.000Z

После преобразования данных в файл csv вы захотите использовать pd.read_csv чтобы получить этот файл в dataframe.

Затем вы можете использовать атрибут columns для доступа к столбцам.

Кроме того, вы можете использовать атрибут to_list для получения столбцов в виде списка.

В качестве альтернативы вы можете использовать метод Ahmad:

import re

f = open('f.csv','r')

alllines = f.readlines()
columns = re.sub(' +',' ',alllines[0]) #delete extra space in one line
columns = columns.strip().split(',') #split using space

print(columns)

EDIT: вопрос был решен OP с помощью model.get_support вместо SelectFromModel.get_support