read_csv с использованием dtypes, но в столбцах есть значение [duplicate]

Question

read_csv с использованием dtypes, но в столбцах есть значение [duplicate]

1

Я использовал следующий код для чтения csv, указав типы для каждого col:

clean_pdf_type=pd.read_csv('table_updated.csv',usecols=col_names,dtype =col_types)

Но у него есть ошибка:

ValueError: Integer column has NA values in column 298

Не знаете, как пропустить НС?

sweetyBaby 24 авг. 2018, в 12:58

Источник

0

Просто импортируйте без указания типов для столбцов со значениями Null. Он проанализирует нужный вам тип данных, и если этого не произойдет, вы всегда сможете преобразовать его и переписать csv, чтобы не было никаких проблем при будущих чтениях.
Andre Motta 24 авг. 2018, в 10:18
0

@AndreMotta AndreMotta спасибо, не могли бы вы привести пример?
user5768866 24 авг. 2018, в 10:20
2

проверьте ответ от Алексис ... я на моем телефоне и не хотел делать синтаксические ошибки здесь.
Andre Motta 24 авг. 2018, в 10:29

Показать ещё 1 комментарий

Теги:

python

pandas

csv

dataframe

2 ответа

2

clean_pdf_type=pd.read_csv('table_updated.csv',usecols=col_names)
clean_pdf_type = (clean_pdf_type.fillna(0)).astype(col_types)

Как сказано в комментариях, не указывайте тип, удалите NA, а затем переведите его в определенный тип

Alexis 24 авг. 2018, в 09:09

0

Быть осторожен. Это будет применяться ко всему фрейму данных. Вероятно, в col_types может быть определено несколько типов.
jpp 24 авг. 2018, в 10:31
0

я знаю, но без дополнительной информации приведение к 0 будет самым простым и быстрым способом поиска конкретных ошибок. Мы могли бы привести NAN в соответствии с типом, но пока у нас есть только целочисленная ошибка. Если есть что-то еще, что поднимает флаг, тогда, конечно, было бы полезно сделать разделение на фрейме данных, чтобы убедиться, что мы не выполняем все одинаковое приведение.
Alexis 24 авг. 2018, в 10:37
0

Более простой и быстрый способ - понять ваши данные и соответственно изменить col_types чтобы они читались как float а не int где это применимо. Это решение в основном гласит: «давайте посмотрим на ошибку, вернемся и внесем некоторые изменения».
jpp 24 авг. 2018, в 10:38
0

это именно то, что говорится: ищи ошибку, вноси изменения и учись на своих ошибках. Вы не могли бы сказать это более идеально!
Alexis 24 авг. 2018, в 12:35

Показать ещё 2 комментария

Ещё вопросы

Просто импортируйте без указания типов для столбцов со значениями Null. Он проанализирует нужный вам тип данных, и если этого не произойдет, вы всегда сможете преобразовать его и переписать csv, чтобы не было никаких проблем при будущих чтениях.
@AndreMotta AndreMotta спасибо, не могли бы вы привести пример?
проверьте ответ от Алексис ... я на моем телефоне и не хотел делать синтаксические ошибки здесь.
Быть осторожен. Это будет применяться ко всему фрейму данных. Вероятно, в col_types может быть определено несколько типов.
я знаю, но без дополнительной информации приведение к 0 будет самым простым и быстрым способом поиска конкретных ошибок. Мы могли бы привести NAN в соответствии с типом, но пока у нас есть только целочисленная ошибка. Если есть что-то еще, что поднимает флаг, тогда, конечно, было бы полезно сделать разделение на фрейме данных, чтобы убедиться, что мы не выполняем все одинаковое приведение.
Более простой и быстрый способ - понять ваши данные и соответственно изменить col_types чтобы они читались как float а не int где это применимо. Это решение в основном гласит: «давайте посмотрим на ошибку, вернемся и внесем некоторые изменения».
это именно то, что говорится: ищи ошибку, вноси изменения и учись на своих ошибках. Вы не могли бы сказать это более идеально!

jpp · Accepted Answer · 2018-08-24T07-34-00.000Z

Вы не можете иметь значения NaN в серии int dtype. Это невозможно избежать, поскольку значения NaN считаются float:

import numpy as np
type(np.nan)  # float

Лучше всего читать в этих столбцах как float. Если вы затем можете заменить значения NaN значением наполнителя, например 0 или -1, вы можете обработать соответственно и преобразовать в int:

int_cols = ['col1', 'col2', 'col3']
df[int_cols] = df[int_cols].fillna(-1)
df[int_cols] = df[int_cols].apply(pd.to_numeric, downcast='integer')

Альтернатива, имеющих смешанные int и float значения приведет к серии DTYPE object. Это не рекомендуется.