Поиск и замена строк в CSV с двойными кавычками с использованием Python

Question

Поиск и замена строк в CSV с двойными кавычками с использованием Python

1

Мне нужно обработать некоторые файлы .csv. Некоторые из них имеют записи в поле 1 двойная кавычка (") или, возможно, несколько смешанных с другим текстом. Мне нужно избежать их всех. Пока я делаю это:

def process_file():
  input_path = 'input.txt'
  output_path = 'output.txt'
  with open(input_path) as input_file, open(output_path, 'w+') as output_file:
    for line in input_file:
      newline = line.replace('"', '""""')
      output_file.write(newline)

Как я могу убедиться, что замена происходит только с одиночными символами и не заменяет, например, "" или """".

Я хотел бы использовать Python вместо любого решения командной строки. Кроме того, эти файлы очень большие, поэтому я зацикливаюсь на строках, а не загружаю все это в память.

Helto 08 янв. 2019, в 23:49

Источник

1

Вы пытались использовать модуль csv ?
mkrieger1 08 янв. 2019, в 21:53
0

Можете ли вы показать пример того, как файл выглядит?
mkrieger1 08 янв. 2019, в 21:54
0

Это CSV-файл с разделителями, состоящий из миллионов строк и более 200 полей
Helto 08 янв. 2019, в 21:57
0

Не использовал модуль CSV, глядя на него сейчас
Helto 08 янв. 2019, в 22:06
0

Достаточно небольшого репрезентативного фрагмента из нескольких строк и нескольких столбцов.
mkrieger1 08 янв. 2019, в 22:06
0

@ mkrieger1 отредактировал мой вопрос с частью одной из строк с кавычками
Helto 08 янв. 2019, в 22:14
0

Я не вижу поле, которое состоит из одного " в этой строке. Есть поле, которое содержит " как часть более крупного текста. Это то, что вы имели ввиду?
mkrieger1 08 янв. 2019, в 22:16
0

Ах да, извините, если я сформулировал это смешно. Я имел в виду, что есть только 1 ", а не" "" ". Есть некоторые поля, содержащие один", но мне нужно экранировать все из них
Helto 08 янв. 2019, в 22:19

Показать ещё 6 комментариев

Теги:

python

csv

quotes

2 ответа

Ещё вопросы

Вы пытались использовать модуль csv ?
Можете ли вы показать пример того, как файл выглядит?
Это CSV-файл с разделителями, состоящий из миллионов строк и более 200 полей
Не использовал модуль CSV, глядя на него сейчас
Достаточно небольшого репрезентативного фрагмента из нескольких строк и нескольких столбцов.
@ mkrieger1 отредактировал мой вопрос с частью одной из строк с кавычками
Я не вижу поле, которое состоит из одного " в этой строке. Есть поле, которое содержит " как часть более крупного текста. Это то, что вы имели ввиду?
Ах да, извините, если я сформулировал это смешно. Я имел в виду, что есть только 1 ", а не" "" ". Есть некоторые поля, содержащие один", но мне нужно экранировать все из них

Helto · Answer 1 · 2019-01-08T22-10-00.000Z

Благодаря @mkrieger1 и этому вопросу я смог собрать это решение:

def process_file():
  input_path = 'input.txt'
  output_path = 'output.txt'
  with open(input_path) as input_file, open(output_path, 'w+') as output_file:
    for line in input_file:
      newline = re.sub(r'(?<!")"(?!")', '""""', line)
      output_file.write(newline)

Lucas Abbade · Answer 2 · 2019-01-08T19-57-00.000Z

Вы можете использовать регулярное выражение:

import re
newline = re.sub(r'^"$', '"""', line)

Это будет действовать в строках, которые состоят только из одной кавычки, но я думаю, что здесь нет проблемы.