Применение арифметических функций к элементам подсписков, где первый элемент каждого подсписка одинаков

Question

Применение арифметических функций к элементам подсписков, где первый элемент каждого подсписка одинаков

1

Вот моя проблема.

У меня есть список списков:

linesort=[
  ['Me', 1, 596], 
  ['Mine', 1, 551], 
  ['Myself', 1, 533], 
  ['Myself', 1, 624], 
  ['Myself', 1, 656], 
  ['Myself', 1, 928], 
  ['Theirs', 1, 720], 
  ['Theirs', 1, 1921], 
  ['Them', 1, 716], 
  ['Themselves', 1, 527]
]

Каждый из подсписок представляет время, затраченное участником для классификации слова, правильно или неправильно (второе значение) и время ответа (третье значение). То, что я хотел бы сделать, это вернуть еще один список списков, в котором есть слово, сумма вторых значений в каждом списке и среднее значение для третьих значений.

По сути, мне нужно сравнить первый элемент каждого подсписок, и если они равны, то вычислите сумму второго элемента и среднее значение третьего элемента.

Хотя я смог сделать это вручную (т.е. вручную назначать и создавать переменные), мои попытки сделать это в цикле все провалились. Учитывая, что у меня есть два довольно больших текстовых файла с такими данными, я был бы признателен за программное решение.

Некоторые моменты, которые могут быть полезны: я заранее знаю, какие слова используются в каждом тесте, но я не знаю, где они появятся (и даже если они появятся в любой группе стимулов). Может ли кто-нибудь помочь мне с этим?

Я использую Python 2.6.5 на Ubuntu 10.04.

richiemorrisroe 21 июнь 2011, в 14:20

Источник

Теги:

python

sublist

text-processing

3 ответа

1

Вот мое простое решение:

#!/usr/bin/python

linesort=[['Me', 1, 596], ['Mine', 1, 551], ['Myself', 1, 533], ['Myself', 1, 624], ['Myself', 1, 656], ['Myself', 1, 928], ['Theirs', 1, 720], ['Theirs', 1, 1921], ['Them', 1, 716], ['Themselves', 1, 527]]

cnts = {};
sums = {};
# here we count occurrences of each word (cnts),
# and we compute the the sum of second elements of each input list
for list in linesort:
  cnts[list[0]] = cnts.get(list[0], 0) + 1;
  sums[list[0]] = sums.get(list[0], 0) + list[1];

# now that we know the occurrences for each work we can compute
# the averages of the third elements of each input list 
avgs = {};
for list in linesort:
  avgs[list[0]] = avgs.get(list[0], 0) + list[2] / cnts[list[0]];

# we build the result as a list of lists
result = [];
for word in avgs:
  result.append([word, sums[word], avgs[word]]);

print result;

И выход:

[['Me', 1, 596], ['Myself', 4, 685], ['Theirs', 2, 1320], ['Mine', 1, 551], ['Themselves', 1, 527], ['Them', 1, 716]]

MarcoS 21 июнь 2011, в 10:41

0

Спасибо за ваш ответ, это было очень ясно. Я принял другой ответ, но тем не менее спасибо за вашу помощь.
richiemorrisroe 21 июнь 2011, в 15:37
0

@richiemorrisroe: пожалуйста
MarcoS 21 июнь 2011, в 15:41

1

Мое подробное решение

#!/usr/bin/env python

import collections

linesort=[['Me', 1, 596], ['Mine', 1, 551], ['Myself', 1, 533], ['Myself', 1, 624],
          ['Myself', 1, 656], ['Myself', 1, 928],['Theirs', 1, 720], ['Theirs', 1, 1921],
          ['Them', 1, 716], ['Themselves', 1, 527]]
new=[]

d=collections.defaultdict(list)
for i in linesort:
    d[i[0]].append(i[1:])

for k,v in d.iteritems():
    s=sum([i[0] for i in v])
    avg=sum([i[1] for i in v]) / len(v)

    new.append([k,s,avg])

for i in new: print i

Вывод:

['Me', 1, 596]
['Myself', 4, 685]
['Theirs', 2, 1320]
['Mine', 1, 551]
['Themselves', 1, 527]
['Them', 1, 716]

Fredrik Pihl 21 июнь 2011, в 09:50

0

еще раз спасибо за ваш ответ, он помог мне понять немного больше Python и его идиомы.
richiemorrisroe 21 июнь 2011, в 15:38

Ещё вопросы

Спасибо за ваш ответ, это было очень ясно. Я принял другой ответ, но тем не менее спасибо за вашу помощь.
еще раз спасибо за ваш ответ, он помог мне понять немного больше Python и его идиомы.

Artsiom Rudzenka · Accepted Answer · 2011-06-21T10-48-00.000Z

Не красивый, но:

from collections import defaultdict

linesort = [['Me', 1, 596], ['Mine', 1, 551], ['Myself', 1, 533], ['Myself', 1, 624],
            ['Myself', 1, 656], ['Myself', 1, 928], ['Theirs', 1, 720], 
            ['Theirs', 1, 1921], ['Them', 1, 716], ['Themselves', 1, 527]]

d = defaultdict(list)
for line in linesort:
    d[line[0]].append(line[1:])


output = {}
for x,val in d.items():
    svals = [y[1] for y in val]
    output[x] = [sum([y[0] for y in val]), sum(svals) / len(svals)] # need to be modified if you need float value

print output
>>> {'Mine': [1, 551], 'Theirs': [2, 1320], 'Me': [1, 596], 'Them': [1, 716], 'Themselves': [1, 527], 'Myself': [4, 685]}

Или с помощью groupby (обратите внимание, что это не самый эффективный и требуемый список с сортировкой исходных данных):

from itertools import groupby

res = {}
for key, gen in groupby(sorted(linesort), key=lambda x: x[0]):
    val = list(gen)
    svals = [y[2] for y in val]
    res[key] = [sum([y[1] for y in val]), sum(svals) / float(len(svals))]

Но все мои предыдущие образцы возвращают вам словарь, поэтому, если вы хотите получить список, вам просто нужно немного изменить код:

from itertools import groupby

res = []
for key, gen in groupby(sorted(linesort), key=lambda x: x[0]):
    val = list(gen)
    svals = [y[2] for y in val]
    res.append([key, sum([y[1] for y in val]), sum(svals) / float(len(svals))])

print res
>>> [['Me', 1, 596.0], ['Mine', 1, 551.0], ['Myself', 4, 685.25], ['Theirs', 2, 1320.5], ['Them', 1, 716.0], ['Themselves', 1, 527.0]]