Python или утилита командной строки - сортировать и фильтровать файл?

Question

Python или утилита командной строки - сортировать и фильтровать файл?

1

Приведенные данные формы:

a b 1.1
c d 2.3
b a 1.1

Можно ли сортировать такой файл на основе разбитого столбца и удалять строки, где дублируется запись в третьем столбце, так что вывод будет:

a b 1.1
c d 2.3

или,

c d 2.3
b a 1.1

,

Я могу использовать только утилиты python, R или командной строки для выполнения этой задачи в наборе очень больших файлов.

Благодарю!

Darren J. Fitzpatrick 26 авг. 2011, в 23:53

Источник

1

Как вы решаете, какую из строк "1.1" отбросить?
MattH 26 авг. 2011, в 21:32
0

Неважно, что отбрасывается.
Darren J. Fitzpatrick 26 авг. 2011, в 21:34

Теги:

python

command-line

text-processing

2 ответа

2

f = open('text.txt','rb')
filter = []
rows = []
for line in f:
    line = line.replace('\r\n','')
    data = line.split(' ')
    if len(data) >= 3:
        if not data[2] in filter:
            filter.append(data[2])
            rows.append(data)
f.close()

f = open('output.txt','wb')
for row in rows:
    f.write(row[0] + ' ' + row[1] + ' ' + row[2] + '\r\n')
f.close()

Sinzor 26 авг. 2011, в 20:22

Ещё вопросы

Как вы решаете, какую из строк "1.1" отбросить?

MattH · Accepted Answer · 2011-08-26T20-11-00.000Z

8

Лучший ответ

Unix- sort должна быть способна выполнить вашу работу:

cat file | sort -u -k3,3n
a b 1.1
c d 2.3

cat file | sort -u -k3,3rn
c d 2.3
a b 1.1

MattH 26 авг. 2011, в 20:11

0

Как это поможет?
Dominik 26 авг. 2011, в 21:36
4

@Dominik: как это не помогает?
sehe 26 авг. 2011, в 21:38
1

@Dominik: ОП показала два примера выходных данных, по одному с каждым направлением сортировки, и ОП сказала, что отброшенная дублирующая строка не имеет значения. Я думаю, что продемонстрировал то, что просит ОП.
MattH 26 авг. 2011, в 21:39
1

Это отлично отвечает на вопрос. Сортирует и сбрасывает дубликаты ... + 1
bot403 26 авг. 2011, в 21:40
0

Какая команда удалит удалить дубликаты ab / ba?
Dominik 26 авг. 2011, в 21:42
0

@Dominik: не реализовано, OP сказал, что это не имеет значения
MattH 26 авг. 2011, в 21:51
0

@ MattH - элегантно и очень быстро. Я узнал что-то новое. Спасибо!
Darren J. Fitzpatrick 26 авг. 2011, в 21:54
0

@ Darren J. Fitzpatrick: пожалуйста!
MattH 26 авг. 2011, в 21:55

Показать ещё 6 комментариев