ParserError: Ошибка токенизации данных C ошибка

Question

ParserError: Ошибка токенизации данных C ошибка

1

Я пытаюсь запустить этот код, который удаляет ненужные столбцы из фрейма данных для последующей обработки. Он перебирает первые файлы, а затем дает ошибку ниже. До того, как он работал нормально. Я видел что-то об этом, возможно, являясь поврежденным файлом, поэтому я удалил все предыдущие файлы и снова начал создавать все файлы на шагах, но я все еще получаю ошибку. Извините, если он длинный, мне нужно показать каждый шаг для моей диссертации, а также я все еще очень начинающий программист. Может ли кто-нибудь помочь в устранении этой проблемы?

Код:

import pandas as pd
import os

path = ('./Sketch_grammar/weighted/')
files = os.listdir(path)
for file in files:
    df = pd.read_csv(path+file)
    df = df.drop('Hits', axis=1)
    df = df.drop('Score', axis=1)
    df = df.drop('Score.1', axis=1)
    print(df)
    filename = os.path.splitext(file)
    (f, ext) = filename
    print(f)
    df.to_csv(path+'weighted_out/'+f+'_out.csv', index=False)

Сообщение об ошибке выглядит следующим образом:

Traceback (most recent call last):
  File "/home/sandra/git/trees/trees/remove_columns.py", line 9, in <module>
    df = pd.read_csv(path+file)
  File "/home/sandra/miniconda3/lib/python3.6/site-packages/pandas/io/parsers.py", line 678, in parser_f
    return _read(filepath_or_buffer, kwds)
  File "/home/sandra/miniconda3/lib/python3.6/site-packages/pandas/io/parsers.py", line 440, in _read
    parser = TextFileReader(filepath_or_buffer, **kwds)
  File "/home/sandra/miniconda3/lib/python3.6/site-packages/pandas/io/parsers.py", line 787, in __init__
    self._make_engine(self.engine)
  File "/home/sandra/miniconda3/lib/python3.6/site-packages/pandas/io/parsers.py", line 1014, in _make_engine
    self._engine = CParserWrapper(self.f, **self.options)
  File "/home/sandra/miniconda3/lib/python3.6/site-packages/pandas/io/parsers.py", line 1708, in __init__
    self._reader = parsers.TextReader(src, **kwds)
  File "pandas/_libs/parsers.pyx", line 539, in pandas._libs.parsers.TextReader.__cinit__
  File "pandas/_libs/parsers.pyx", line 737, in pandas._libs.parsers.TextReader._get_header
  File "pandas/_libs/parsers.pyx", line 932, in pandas._libs.parsers.TextReader._tokenize_rows
  File "pandas/_libs/parsers.pyx", line 2112, in pandas._libs.parsers.raise_parser_error
pandas.errors.ParserError: Error tokenizing data. C error: Calling read(nbytes) on source failed. Try engine='python'

,

Sandra Young 10 окт. 2018, в 14:54

Источник

1

Вы пытались сделать то, что предлагает ошибка? df = pd.read_csv(path+file, engine='python')
Chris 10 окт. 2018, в 12:56
0

У вас есть файлы в папке, которые не являются CSV?
Pankaj Joshi 10 окт. 2018, в 12:59
0

@Chris Крис, вы будете шокированы тем, как много людей не читают сообщения об ошибках, даже если они точно говорят , как решить свою конкретную проблему.
Matt Messersmith 10 окт. 2018, в 13:17
0

Спасибо, я попробую это. Я прочитал сообщение об ошибке, извините, я начинающий программист, и я не всегда понимаю, что меня спрашивают. Я также был смущен тем фактом, что он работает для первых файлов, а затем дает сбой, хотя все файлы были созданы одним и тем же способом. Спасибо.
Sandra Young 10 окт. 2018, в 13:30
0

Это решение не сработало для меня. Тем не менее, ниже сделал.
Sandra Young 10 окт. 2018, в 13:42

Показать ещё 3 комментария

Теги:

python

pandas

python-2.7

1 ответ

Ещё вопросы

Вы пытались сделать то, что предлагает ошибка? df = pd.read_csv(path+file, engine='python')
У вас есть файлы в папке, которые не являются CSV?
@Chris Крис, вы будете шокированы тем, как много людей не читают сообщения об ошибках, даже если они точно говорят , как решить свою конкретную проблему.
Спасибо, я попробую это. Я прочитал сообщение об ошибке, извините, я начинающий программист, и я не всегда понимаю, что меня спрашивают. Я также был смущен тем фактом, что он работает для первых файлов, а затем дает сбой, хотя все файлы были созданы одним и тем же способом. Спасибо.
Это решение не сработало для меня. Тем не менее, ниже сделал.

Vishnudev · Accepted Answer · 2018-10-10T10-35-00.000Z

Эта ошибка обычно возникает, когда файл, считанный с использованием pandas, либо поврежден, либо нет в читаемом состоянии. Изменение кода, как показано ниже, должно работать:

import pandas as pd
import os

path = ('./Sketch_grammar/weighted/')
files = os.listdir(path)
for file in files:
    if file.endswith('.csv'):
        df = pd.read_csv(path+file)
        df = df.drop('Hits', axis=1)
        df = df.drop('Score', axis=1)
        df = df.drop('Score.1', axis=1)
        filename = os.path.splitext(file)
        (f, ext) = filename
        df.to_csv(path+'weighted_out/'+f+'_out.csv', index=False)

Спасибо! Это сработало! Таким образом, в основном, если это дает, и вы знаете, что файлы в порядке, это потому, что Python не распознает, какой тип файла они?
Если вы знаете, что файл не поврежден и в текстовом файле используется разделитель, то есть запятая, вкладка и т. Д., Тогда проблем быть не должно. Дело не в том, что python не распознает тип файла, а в том, что функция read_csv не может автоматически найти разделитель. Читать
Спасибо, ваша помощь была очень полезной.