Использование python для извлечения нескольких строк из файла данных

Question

Использование python для извлечения нескольких строк из файла данных

1

У меня есть большой файл, в котором есть огромное количество данных. Мне нужно извлечь 3 строки каждые 5000 строк. Формат файла данных выглядит следующим образом:

...

O_sh          9215    1.000000   -2.304400   
 -1.0680E+00  1.3617E+00 -5.7138E+00  
O_sh          9216    1.000000   -2.304400  
 -8.1186E-01 -1.7454E+00 -5.8169E+00  
timestep    501      9216         0         3    0.000500  
   20.54      -11.85       35.64      
  0.6224E-02   23.71       35.64      
  -20.54      -11.86       35.64      
Li               1    6.941000    0.843200
  3.7609E-02  1.1179E-01  4.1032E+00
Li               2    6.941000    0.843200
  6.6451E-02 -1.3648E-01  1.0918E+01

...

Мне нужны три строки после строки, начинающейся с "timestep", поэтому в этом случае мне нужен массив 3x3:

   20.54      -11.85       35.64      
  0.6224E-02   23.71       35.64      
  -20.54      -11.86       35.64

в выходном файле для каждого раза, когда появляется слово "timestep".

Тогда мне нужно среднее значение всех этих массивов только в одном массиве. Только один массив, состоящий из среднего значения каждого элемента в одной позиции в каждом массиве для всего файла. Я работал над этим некоторое время, но я еще не смог извлечь данные правильно.

Большое спасибо, и это не для домашних заданий. Вы совет будете помогать развитию науки! =)

Спасибо,

Maimon 09 май 2011, в 18:43

Источник

0

Это домашнее задание? Является ли регулярное выражение требованием или только первым подходом, который вы пробовали?
g.d.d.c 09 май 2011, в 16:19

Теги:

python

5 ответов

3

Предполагая, что это не домашнее задание, я думаю, что регулярное выражение является излишним для проблемы. Если вы знаете, что вам нужно три строки после того, как вы начинаете с "timestep", почему бы не подойти к проблеме таким образом:

Matrices = []

with open('data.txt') as fh:
  for line in fh:
    # If we see timestep put the next three lines in our Matrices list.
    if line.startswith('timestep'):
      Matrices.append([next(fh) for _ in range(3)])

В комментариях - вы используете следующую (fh) в этой ситуации, чтобы поддерживать ручку файла в синхронизации, когда вы хотите вывести из нее следующие три строки. Спасибо!

g.d.d.c 09 май 2011, в 14:51

1

Идея while True/readline/break , но использование while True/readline/break - неправильный путь. Просто используйте for line in fh:
Daniel Roseman 09 май 2011, в 16:28
0

Не будете использовать for line in fh: есть проблемы, когда вы пытаетесь прочитать 3 строки в цикле? Или цикл for не заботится о том, что позиция дескриптора файла продвинулась с момента его предыдущей итерации?
g.d.d.c 09 май 2011, в 16:30
1

- Вызвать next(fh) вместо fh.readline() чтобы сохранить синхронизацию.
Joe Kington 09 май 2011, в 20:23

Показать ещё 1 комментарий

1

Итак, вы можете сделать это:

Алгоритм:

Read the file line by line
if the line starts with "timestep":
    read the next three lines
    take the average as needed

код:

def getArrays(f):
    answer = [[0, 0, 0], [0, 0, 0], [0, 0, 0]]
    count = 0
    line = f.readline()
    while line:
        if line.strip().startswith("timestep"):
            one, two, three = getFloats(f.readline().strip()), getFloats(f.readline().strip()), getFloats(f.readline().strip())
            answer[0][0] = ((answer[0][0]*count) + one[0])/(count+1)
            answer[0][1] = ((answer[0][0]*count) + one[1])/(count+1)
            answer[0][2] = ((answer[0][0]*count) + one[2])/(count+1)

            answer[1][0] = ((answer[0][0]*count) + two[0])/(count+1)
            answer[1][1] = ((answer[0][0]*count) + two[1])/(count+1)
            answer[1][2] = ((answer[0][0]*count) + two[2])/(count+1)

            answer[2][0] = ((answer[0][0]*count) + three[0])/(count+1)
            answer[2][1] = ((answer[0][0]*count) + three[1])/(count+1)
            answer[2][2] = ((answer[0][0]*count) + three[2])/(count+1)
        line = f.readline()
        count += 1
    return answer

def getFloats(line):
    answer = []
    for num in line.split():
        if "E" in num:
            parts = num.split("E")
            base = float(parts[0])
            exp = int(parts[1])
            answer.append(base**exp)
        else:
            answer.append(float(num))
    return answer

answer теперь является списком всех массивов 3x3. Я не знаю, как вы хотите сделать усреднение, поэтому, если вы опубликуете это, я могу включить его в этот алгоритм. Кроме того, вы можете написать функцию, чтобы взять мой массив и вычислить средние значения.

Надеюсь, что это поможет

inspectorG4dget 09 май 2011, в 13:37

0

Мне просто нужно прямое усреднение по элементам, желательно распечатать в отдельный файл.
Maimon 09 май 2011, в 16:38
0

Используя этот код, кто-нибудь знает, как получить средний массив 3х3 из этой коллекции всех массивов?
Maimon 09 май 2011, в 17:12
0

@Maimon: так что если у вас есть массив 3x3, который выглядит следующим образом: [[a, b, c], [d, e, f], [g, h, i]], что будет результатом результата усреднение похоже?
inspectorG4dget 09 май 2011, в 17:19
0

Результатом усреднения будет массив 3х3, здесь у меня есть коллекция массивов 3х3, каждый из которых имеет формат [[a, b, c], [d, e, f], [g, h, i ]], мне нужно, чтобы каждый из этих элементов складывался отдельно, чтобы у меня был массив. Затем я могу разделить каждый элемент этого суммированного массива на количество выборок.
Maimon 09 май 2011, в 18:36
0

Так что если у вас есть массив, который выглядит следующим образом: [[a1, b1, c1], [d1, e1, f1], [g1, h1, i1], [a2, b2, c2], [d2, e2, f2 ], [g2, h2, i2], [a3, b3, c3], [d3, e3, f3], [g3, h3, i3]], тогда это будет результатом: [[avg (a1, b1, c1), avg (d1, e1, f1), avg (g1, h1, i1)], [avg (a2, b2, c2), avg (d2, e2, f2), avg (g2, h2, i2)] , [avg (a3, b3, c3), avg (d3, e3, f3), avg (g3, h3, i3)]]?
inspectorG4dget 09 май 2011, в 18:49
0

Не совсем. Если бы я это настроил, я бы хотел, чтобы каждое 'a', каждое 'b', каждое 'c' и т. Д. ... складывалось и усреднялось для создания массива формата: [[avg (a), avg (b), avg (с)], [ср (г), ср (е), ср (е], [ср (г), ср (ч), ср (я)]]
Maimon 09 май 2011, в 19:04
0

Я добавил функциональность, которую вы просили. У меня не было времени протестировать его, поэтому, если он не работает, прокомментируйте и я его отредактирую
inspectorG4dget 09 май 2011, в 20:08
0

Traceback (последний вызов был последним): файл "cell_vector_extract1.py", строка 33, в <module> getArrays (history) Файл "cell_vector_extract1.py", строка 7, в getArrays один, два, три = getFloats (f.readline ( )), getFloats (f.readline ()), getFloats (f.readline ()) Файл "cell_vector_extract1.py", строка 28, в getFloats exp = int (parts [1]) IndexError: список индексов вне диапазона
Maimon 09 май 2011, в 20:15
0

Попробуйте сейчас (пока не проверено)
inspectorG4dget 09 май 2011, в 20:21
0

Traceback (последний вызов был последним): файл "cell_vector_extract1.py", строка 36, в <module> getArrays (history) Файл "cell_vector_extract1.py", строка 8, в ответе getArrays [0] [0] = ((answer [ 0] [0] * count) + one [0]) / (count + 1) IndexError: список индексов вне диапазона
Maimon 09 май 2011, в 20:27
0

Попробуйте сейчас (пока не проверено). Дайте мне знать, если это все еще не работает, и я проверю это после рабочих часов
inspectorG4dget 09 май 2011, в 22:45

Показать ещё 9 комментариев

0

import re
from itertools import imap

text = '''O_sh          9215    1.000000   -2.304400
 -1.0680E+00  1.3617E+00 -5.7138E+00
O_sh          9216    1.000000   -2.304400
 -8.1186E-01 -1.7454E+00 -5.8169E+00
timestep    501      9216         0         3    0.000500
   20.54      -11.85       35.64
  0.6224E-02   23.71       35.64
  -20.54      -11.86       35.64
Li               1    6.941000    0.843200
  3.7609E-02  1.1179E-01  4.1032E+00
Li               2    6.941000    0.843200
  6.6451E-02 -1.3648E-01  1.0918E+01
O_sh          9215    1.000000   -2.304400
 -1.0680E+00  1.3617E+00 -5.7138E+00
O_sh          9216    1.000000   -2.304400
 -8.1186E-01 -1.7454E+00 -5.8169E+00
timestep    501      9216         0         3    0.000500
   80.80      -14580       42.28
  7.5224E-01   777.1       42.28
  140.54      -33.86       42.28
Li               1    6.941000    0.843200
  3.7609E-02  1.1179E-01  4.1032E+00
Li               2    6.941000    0.843200
  6.6451E-02 -1.3648E-01  1.0918E+01'''

lin = '\r?\n{0}*({1}+){0}+({1}+){0}+({1}+){0}*'
pat = ('^timestep.+'+3*lin).format('[ \t]','[.\deE+-]')
regx = re.compile(pat,re.MULTILINE)

def moy(x):
    return sum(map(float,x))/len(x)

li = map(moy,zip(*regx.findall(text)))
n = len(li)
g = iter(li).next
res = [(g(),g(),g()) for i in xrange(n//3)]
print res

результат

[(50.67, -7295.925, 38.96), (0.379232, 400.40500000000003, 38.96), (60.0, -22.86, 38.96)]

eyquem 09 май 2011, в 16:49

0

Основываясь на сообщениях inspectorG4dget и g.d.d.c, здесь приведена версия, которая должна выполнять чтение, разбор и усреднение. Пожалуйста, укажите мои ошибки!:)

    def averageArrays(filename):
        # initialize average variables then,
        # open the file and iterate through the lines until ...
        answer, count = [[0.0]*3 for _ in range(3)], 0
        with open(filename) as fh:
            for line in fh:
                if line.startswith('timestep'):  # ... we find 'timestep'!
                    # so , we read the three lines and sanitize them
                    # conversion to float happens here, which may be slow
                    raw_mat = [fh.next().strip().split() for _ in range(3)]
                    mat = []
                    for row in raw_mat:
                        mat.append([float(item) for item in row])
                    # now, update the running average, noting overflows as by
                    # http://invisibleblocks.wordpress.com/2008/07/30/long-running-averages-without-the-sum-of-preceding-values/
                    # there are surely more pythonic ways to do this
                    count += 1
                    for r in range(3):
                        for c in range(3):
                            answer[r][c] += (mat[r][c] - answer[r][c]) / count
        return answer

Prashant Kumar 09 май 2011, в 16:13

0

Я получаю эту ошибку, когда ваш код запускается: Файл "cell_vector_extract1.py", строка 23, в файле <module> averageArrays (history) Файл "cell_vector_extract1.py", строка 5, в AverageArrays с открытым (filename) как fh: TypeError: приведение к Unicode: нужна строка или буфер, файл найден
Maimon 09 май 2011, в 18:30
0

filename должно быть строкой имени файла. Таким образом, 'history.dat' может быть этим.
Prashant Kumar 09 май 2011, в 21:17

Ещё вопросы

Это домашнее задание? Является ли регулярное выражение требованием или только первым подходом, который вы пробовали?
Идея while True/readline/break , но использование while True/readline/break - неправильный путь. Просто используйте for line in fh:
Не будете использовать for line in fh: есть проблемы, когда вы пытаетесь прочитать 3 строки в цикле? Или цикл for не заботится о том, что позиция дескриптора файла продвинулась с момента его предыдущей итерации?
- Вызвать next(fh) вместо fh.readline() чтобы сохранить синхронизацию.
Мне просто нужно прямое усреднение по элементам, желательно распечатать в отдельный файл.
Используя этот код, кто-нибудь знает, как получить средний массив 3х3 из этой коллекции всех массивов?
@Maimon: так что если у вас есть массив 3x3, который выглядит следующим образом: [[a, b, c], [d, e, f], [g, h, i]], что будет результатом результата усреднение похоже?
Результатом усреднения будет массив 3х3, здесь у меня есть коллекция массивов 3х3, каждый из которых имеет формат [[a, b, c], [d, e, f], [g, h, i ]], мне нужно, чтобы каждый из этих элементов складывался отдельно, чтобы у меня был массив. Затем я могу разделить каждый элемент этого суммированного массива на количество выборок.
Так что если у вас есть массив, который выглядит следующим образом: [[a1, b1, c1], [d1, e1, f1], [g1, h1, i1], [a2, b2, c2], [d2, e2, f2 ], [g2, h2, i2], [a3, b3, c3], [d3, e3, f3], [g3, h3, i3]], тогда это будет результатом: [[avg (a1, b1, c1), avg (d1, e1, f1), avg (g1, h1, i1)], [avg (a2, b2, c2), avg (d2, e2, f2), avg (g2, h2, i2)] , [avg (a3, b3, c3), avg (d3, e3, f3), avg (g3, h3, i3)]]?
Не совсем. Если бы я это настроил, я бы хотел, чтобы каждое 'a', каждое 'b', каждое 'c' и т. Д. ... складывалось и усреднялось для создания массива формата: [[avg (a), avg (b), avg (с)], [ср (г), ср (е), ср (е], [ср (г), ср (ч), ср (я)]]
Я добавил функциональность, которую вы просили. У меня не было времени протестировать его, поэтому, если он не работает, прокомментируйте и я его отредактирую
Traceback (последний вызов был последним): файл "cell_vector_extract1.py", строка 33, в <module> getArrays (history) Файл "cell_vector_extract1.py", строка 7, в getArrays один, два, три = getFloats (f.readline ( )), getFloats (f.readline ()), getFloats (f.readline ()) Файл "cell_vector_extract1.py", строка 28, в getFloats exp = int (parts [1]) IndexError: список индексов вне диапазона
Попробуйте сейчас (пока не проверено)
Traceback (последний вызов был последним): файл "cell_vector_extract1.py", строка 36, в <module> getArrays (history) Файл "cell_vector_extract1.py", строка 8, в ответе getArrays [0] [0] = ((answer [ 0] [0] * count) + one [0]) / (count + 1) IndexError: список индексов вне диапазона
Попробуйте сейчас (пока не проверено). Дайте мне знать, если это все еще не работает, и я проверю это после рабочих часов
Я получаю эту ошибку, когда ваш код запускается: Файл "cell_vector_extract1.py", строка 23, в файле <module> averageArrays (history) Файл "cell_vector_extract1.py", строка 5, в AverageArrays с открытым (filename) как fh: TypeError: приведение к Unicode: нужна строка или буфер, файл найден
filename должно быть строкой имени файла. Таким образом, 'history.dat' может быть этим.

zeekay · Accepted Answer · 2011-05-09T15-55-00.000Z

2

Лучший ответ

Я бы предложил использовать сопрограмму (которая в основном представляет собой генератор, который может принимать значения, если вы незнакомы), чтобы поддерживать средний показатель как вы перебираете ваш файл.

def running_avg():
    count, sum = 0, 0
    value = yield None
    while True:
        if value:
            sum += value
            count += 1
        value = yield(sum/count)

# array for keeping running average
array = [[running_avg() for y in range(3)] for x in range(3)]

# advance to first yield before we begin
[[elem.next() for elem in row] for row in array]

with open('data.txt') as f:
    idx = None
    for line in f:
        if idx is not None and idx < 3:
            for i, elem in enumerate(line.strip().split()):
                array[idx][i].send(float(elem))
            idx += 1
        if line.startswith('timestep'):
            idx = 0

Чтобы получить преобразование array в список средних значений, просто вызовите каждый метод coroutine next, он вернет текущее среднее значение:

averages = [[elem.next() for elem in row] for row in array]

И вы получите что-то вроде:

averages = [[20.54, -11.85, 35.64], [0.006224, 23.71, 35.64], [-20.54, -11.86, 35.64]]

zeekay 09 май 2011, в 15:55

0

Я не совсем уверен, что здесь произошло, но вы конвертируете массивы 3x3 в списки 9x1, а затем берете среднее значение по всему списку, что не совсем то, что мне нужно. Вместо этого мне нужно сложить каждый из этих списков, а затем разделить каждый элемент этого списка на количество выборок.
Maimon 09 май 2011, в 18:39
0

О, я тогда не понял, я искал то, что вы сказали в комментарии к другому ответу. Я обновлю свой ответ, чтобы отразить это.
zeekay 09 май 2011, в 18:45
0

@Maimon Я усредняю каждую строку в файле, который является частью "массива". Таким образом, используя данные вашего примера, вы получите 3 строки средних значений. Это то, что вы пытались сделать?
zeekay 09 май 2011, в 18:54
0

@zeekay Извините, у меня возникли проблемы с прояснением. У меня есть файл с 1000 (или около того) массивами 3х3. Каждый массив идет после строки 'timestep'. Что мне нужно, так это отдельный массив 3х3, который состоит из среднего значения для каждого элемента в этих 1000 массивах. Выглядит так: [[avg (a), avg (b), avg (c)], [avg (d), avg (e), avg (f), [avg (g), avg (h), avg (я)]]
Maimon 09 май 2011, в 19:05
0

Ах, хорошо, мы вернулись к старому коду, усредняя по мере того, как вы перебираете строки в файле, добавляя каждую строку в массиве по умолчанию, привязанному к индексу массива.
zeekay 09 май 2011, в 19:26
0

Хорошо, я не уверен, как объяснить это по-другому. Когда я печатаю arrays.values (), я получаю огромный список, намного больше, чем простой массив 3x3. Все, что я хочу, это один массив 3х3 формата, который я разместил: [[avg (a), avg (b), avg (c)], [avg (d), avg (e), avg (f], [avg (g), avg (h), avg (i)]], просто складывая каждое a, каждый b, каждый c и т. д. ... и получая 9 чисел. Каждое из этих девяти чисел должно быть затем разделено на число образцов. Большое спасибо за вашу помощь и терпение.
Maimon 09 май 2011, в 19:40
0

Да, я понятия не имею, о чем ты говоришь. Для всего вашего файла вы хотите вернуть массив 3х3? Как рассчитываются средние значения a, b, c, d, e, f, g, h, i? Среднее значение каждого элемента в этой позиции по каждому массиву?
zeekay 09 май 2011, в 19:42
0

Да, точно, только один массив, состоящий из среднего значения каждого элемента в его позиции в каждом отдельном массиве.
Maimon 09 май 2011, в 19:51
0

Вы имеете в виду среднее значение каждой позиции по всем массивам, верно?
zeekay 09 май 2011, в 19:56
0

Я имею в виду, если [[1,1,1], [2,2,2], [3,3,3]] и [[3,3,3], [2,2,2], [1,1 , 1]] были бы все массивы, которые я имел, это было бы в сумме [[4,4,4], [4,4,4], [4,4,4]] и среднее значение до [[2,2, 2], [2,2,2], [2,2,2]]. Так что да, я думаю.
Maimon 09 май 2011, в 20:03
0

@Maimon Я обновил свой ответ, чтобы отразить это.
zeekay 09 май 2011, в 20:44
0

@zeekay Большое спасибо за вашу помощь. Я боролся с этой проблемой без достаточного обучения программированию, и ваша помощь очень ценится.
Maimon 09 май 2011, в 22:15
0

Хаха, нет проблем! Я действительно изо всех сил пытался понять, что вы хотели. Может быть, в следующий раз большими жирными буквами сделайте следующее: ОБРАЗЕЦ ВЫХОДА в вашем вопросе, и я поймаю его. Перечитав вопрос сейчас, должно было быть совершенно очевидно, что вы хотели.
zeekay 09 май 2011, в 22:19

Показать ещё 11 комментариев