Лучший способ объединить две карты и суммировать значения одного и того же ключа?

Question

Лучший способ объединить две карты и суммировать значения одного и того же ключа?

154

val map1 = Map(1 -> 9 , 2 -> 20)
val map2 = Map(1 -> 100, 3 -> 300)

Я хочу объединить их и суммировать значения одних и тех же ключей. Таким образом, результат будет:

Map(2->20, 1->109, 3->300)

Теперь у меня есть 2 решения:

val list = map1.toList ++ map2.toList
val merged = list.groupBy ( _._1) .map { case (k,v) => k -> v.map(_._2).sum }

и

val merged = (map1 /: map2) { case (map, (k,v)) =>
    map + ( k -> (v + map.getOrElse(k, 0)) )
}

Но я хочу знать, есть ли лучшие решения.

Freewind 16 авг. 2011, в 10:20

Источник

1

@ Томаш: это то же самое ...
paradigmatic 16 авг. 2011, в 09:52
0

Самый простой это map1 ++ map2
Seraf 22 июнь 2017, в 23:13
2

@Seraf Это просто объединяет карты, игнорируя дубликаты, а не суммируя их значения.
Zeynep Akkalyoncu Yilmaz 29 сен. 2018, в 15:39
0

@ZeynepAkkalyoncuYilmaz правильно, должен был прочитать вопрос лучше, уходит в позор
Seraf 29 сен. 2018, в 16:01

Показать ещё 2 комментария

Теги:

scala

merge

map

13 ответов

140

Самый короткий ответ, который я знаю об этом, использует только стандартную библиотеку

map1 ++ map2.map{ case (k,v) => k -> (v + map1.getOrElse(k,0)) }

Rex Kerr 16 авг. 2011, в 15:00

31

Хорошее решение. Мне нравится добавлять подсказку, что ++ заменяет любой (k, v) из карты на левой стороне ++ (здесь map1) на (k, v) с правой стороны карты, если (k, _) уже существует в левой части карты (здесь map1), например, Map(1->1) ++ Map(1->2) results in Map(1->2)
Lutz 17 авг. 2011, в 09:49
0

Вид аккуратной версии: for ((k, v) <- (aa ++ bb)) приводит к k -> (если ((aa содержит k) && (bb содержит k)) aa (k) + v, иначе v)
dividebyzero 13 дек. 2014, в 01:05
0

Ранее я делал что-то другое, но вот версия того, что вы сделали, заменив карту на a for map1 ++ (для ((k, v) <- map2), получим k -> (v + map1.getOrElse (k, 0)))
dividebyzero 13 дек. 2014, в 01:41
0

@dividebyzero - Да, именно это и сделал AmigoNico в ответе ниже.
Rex Kerr 13 дек. 2014, в 07:55
0

Странно, но (map1 ++ map2).map{ case (k,v) => k -> (v + map1.getOrElse(k,0)) } не сохраняет порядок map1 , в то время как map1 ++ map2.map{ case (k,v) => k -> (v + map1.getOrElse(k,0)) } делает.
Jus12 22 авг. 2015, в 14:22
0

@ Jus12 - Карты не упорядочены. Не уверен, что вы имеете в виду?
Rex Kerr 23 авг. 2015, в 00:46
0

Я пытался это с TreeMap и неявным Ordering . В любом случае, не является ли map1 ++ map2.map{...} эквивалентным (map1 ++ map2).map{...} ?
Jus12 23 авг. 2015, в 09:07
0

@ Jus12 - Нет . имеет более высокий приоритет, чем ++ ; Вы читаете map1 ++ map2.map{...} как map1 ++ (map2 map {...}) . Таким образом, одним способом вы отображаете элементы map1 , а другим - нет.
Rex Kerr 23 авг. 2015, в 18:14
0

Возможно, будущая библиотека коллекций позволит более чистое функциональное решение.
matanster 08 нояб. 2015, в 21:02
1

@matt - Scalaz уже сделает это, поэтому я бы сказал, что «существующая библиотека уже делает это».
Rex Kerr 08 нояб. 2015, в 21:54
0

Как сохранить только ключи, которые являются общими для обеих карт? То есть как сделать, как пересекаться, так и сливаться одновременно?
Ahmedov 16 май 2016, в 10:35
0

@ Ахмедов - Это другой вопрос, и сложный, если важна эффективность. Если нет, то это просто flatMap (либо явно, либо for понимания).
Rex Kerr 16 май 2016, в 13:23

Показать ещё 10 комментариев

41

Быстрое решение:

(map1.keySet ++ map2.keySet).map {i=> (i,map1.getOrElse(i,0) + map2.getOrElse(i,0))}.toMap

Matthew Farwell 16 авг. 2011, в 11:42

36

Ну, теперь в библиотеке scala (по крайней мере, в 2.10) есть что-то, что вы хотели - объединенная функция. НО он представлен только в HashMap не на карте. Это несколько сбивает с толку. Также подпись громоздка - не могу представить, почему мне нужен ключ дважды, и когда мне нужно будет создать пару с другим ключом. Но, тем не менее, он работает и намного чище, чем предыдущие "родные" решения.

val map1 = collection.immutable.HashMap(1 -> 11 , 2 -> 12)
val map2 = collection.immutable.HashMap(1 -> 11 , 2 -> 12)
map1.merged(map2)({ case ((k,v1),(_,v2)) => (k,v1+v2) })

Также в scaladoc упоминалось, что

Метод merged в среднем более эффективен, чем выполнение обход и реконструкция новой неизменной хэш-карты из нуля или ++.

Mikhail Golubtsov 06 июль 2013, в 23:28

0

На данный момент это только неизменный Hashmap, но не изменяемый Hashmap.
Kevin Wheeler 25 окт. 2014, в 02:33
2

Это довольно неприятно, что они имеют это только для HashMaps, чтобы быть честным.
Johan S 15 нояб. 2014, в 15:04
0

Я не могу заставить это скомпилировать, кажется, что тип, который он принимает, является частным, поэтому я не могу передать типизированную функцию, которая соответствует.
Ryan The Leach 07 июль 2015, в 20:20
2

Кажется, что-то изменилось в версии 2.11. Проверьте 2.10 scaladoc - scala-lang.org/api/2.10.1/… Есть обычная функция. Но в 2.11 это MergeFunction .
Mikhail Golubtsov 08 июль 2015, в 06:26
0

Все, что изменилось в 2.11, - это введение псевдонима типа для этого конкретного типа функции private type MergeFunction[A1, B1] = ((A1, B1), (A1, B1)) => (A1, B1)
EthanP 10 март 2016, в 20:00

Показать ещё 3 комментария

13

Это может быть реализовано как Monoid с помощью простого Scala. Вот пример реализации. При таком подходе мы можем объединить не только 2, но и список карт.

// Monoid trait

trait Monoid[M] {
  def zero: M
  def op(a: M, b: M): M
}

Реализация на основе карты моноидного признака, объединяющего две карты.

val mapMonoid = new Monoid[Map[Int, Int]] {
  override def zero: Map[Int, Int] = Map()

  override def op(a: Map[Int, Int], b: Map[Int, Int]): Map[Int, Int] =
    (a.keySet ++ b.keySet) map { k => 
      (k, a.getOrElse(k, 0) + b.getOrElse(k, 0))
    } toMap
}

Теперь, если у вас есть список карт, которые необходимо объединить (в этом случае всего 2), это можно сделать, как показано ниже.

val map1 = Map(1 -> 9 , 2 -> 20)
val map2 = Map(1 -> 100, 3 -> 300)

val maps = List(map1, map2) // The list can have more maps.

val merged = maps.foldLeft(mapMonoid.zero)(mapMonoid.op)

Jegan 27 апр. 2016, в 05:23

5

Я написал сообщение в блоге об этом, проверьте:

http://www.nimrodstech.com/scala-map-merge/

в основном с использованием полугруппы scalaz вы можете достичь этого довольно легко

будет выглядеть примерно так:

  import scalaz.Scalaz._
  map1 |+| map2

Nimrod007 29 июль 2014, в 14:35

11

Вам нужно добавить немного больше подробностей в свой ответ, желательно код реализации. Сделайте это также для других похожих ответов, которые вы опубликовали, и подгоните каждый ответ к конкретному заданному вопросу. Полезное правило . Запрашивающий должен иметь возможность получить пользу от вашего ответа, не щелкая ссылку в блоге.
Robert Harvey♦ 29 июль 2014, в 14:24

5

map1 ++ ( for ( (k,v) <- map2 ) yield ( k -> ( v + map1.getOrElse(k,0) ) ) )

AmigoNico 06 янв. 2012, в 10:54

3

Вы также можете сделать это с помощью Cats.

import cats.implicits._

val map1 = Map(1 -> 9 , 2 -> 20)
val map2 = Map(1 -> 100, 3 -> 300)

map1 combine map2 // Map(2 -> 20, 1 -> 109, 3 -> 300)

Artsiom Miklushou 06 июль 2016, в 21:13

0

Eek, import cats.implicits._ . Импорт import cats.instances.map._ import cats.instances.int._ import cats.syntax.semigroup._ не намного более многословно ...
St.Antario 14 дек. 2018, в 08:39

2

Ответ Andrzej Doyle содержит большое объяснение полугрупп, которое позволяет использовать оператор |+| для объединения двух карт и суммирования значений для сопоставления ключей.

Существует много способов определить, каким образом может быть экземпляр класса typeclass, и в отличие от OP, который вы, возможно, не захотите точно суммировать свои ключи. Или, возможно, вы захотите работать на объединении, а не на перекрестке. Scalaz также добавляет дополнительные функции для Map для этой цели:

https://oss.sonatype.org/service/local/repositories/snapshots/archive/org/scalaz/scalaz_2.11/7.3.0-SNAPSHOT/scalaz_2.11-7.3.0-SNAPSHOT-javadoc.jar/!/index.html#scalaz.std.MapFunctions

Вы можете сделать

import scalaz.Scalaz._

map1 |+| map2 // As per other answers
map1.intersectWith(map2)(_ + _) // Do things other than sum the values

user1158559 08 авг. 2016, в 11:12

1

Вот что я придумал...

def mergeMap(m1: Map[Char, Int],  m2: Map[Char, Int]): Map[Char, Int] = {
   var map : Map[Char, Int] = Map[Char, Int]() ++ m1
   for(p <- m2) {
      map = map + (p._1 -> (p._2 + map.getOrElse(p._1,0)))
   }
   map
}

kaur 23 нояб. 2015, в 20:54

0

Начиная Scala 2.13, другое решение только на основе стандартной библиотеки заключается в замене groupBy части вашего решения с [groupMapReduce] (https://www.scala-lang.org/api/2.13.x/scala/collection/Seq. html # groupMapReduce K, B (f: A =% 3EB) (уменьшите: (B, B) =% 3EB): scala.collection.immutable.Map [K, B]), который (как следует из его названия) является эквивалентом groupBy за которым следует mapValues и шаг сокращения:

// val map1 = Map(1 -> 9, 2 -> 20)
// val map2 = Map(1 -> 100, 3 -> 300)
(map1.toSeq ++ map2.toSeq).groupMapReduce(_._1)(_._2)(_+_)
// Map[Int,Int] = Map(2 -> 20, 1 -> 109, 3 -> 300)

Это:

объединяет две карты в виде последовательности кортежей (List((1,9), (2,20), (1,100), (3,300)))
group элементы на основе их первой части кортежа (групповая часть группы MapReduce)
map сгруппированные значения с их второй частью кортежа (часть карты группы Map Reduce)
reduce значения (_+_), суммируя их (уменьшить часть groupMap Reduce)

Xavier Guihot 18 янв. 2019, в 11:54

0

Самый быстрый и простой способ:

val m1 = Map(1 -> 1.0, 3 -> 3.0, 5 -> 5.2)
val m2 = Map(0 -> 10.0, 3 -> 3.0)
val merged = (m2 foldLeft m1) (
  (acc, v) => acc + (v._1 -> (v._2 + acc.getOrElse(v._1, 0.0)))
)

Таким образом, каждый элемент сразу добавляется на карту.

Второй способ ++:

map1 ++ map2.map { case (k,v) => k -> (v + map1.getOrElse(k,0)) }

В отличие от первого способа, вторым способом для каждого элемента на второй карте будет создан новый список, который будет объединен с предыдущей картой.

Выражение case неявно создает новый список, используя метод unapply.

Alexey Kudryashov 07 янв. 2018, в 21:08

0

У меня есть небольшая функция для выполнения этой работы, это в моей небольшой библиотеке для некоторых часто используемых функций, которые не входят в стандартную библиотеку. Он должен работать для всех типов карт, изменяемых и неизменных, не только HashMaps

Здесь используется

scala> import com.daodecode.scalax.collection.extensions._
scala> val merged = Map("1" -> 1, "2" -> 2).mergedWith(Map("1" -> 1, "2" -> 2))(_ + _)
merged: scala.collection.immutable.Map[String,Int] = Map(1 -> 2, 2 -> 4)

https://github.com/jozic/scalax-collection/blob/master/README.md#mergedwith

И вот тело

def mergedWith(another: Map[K, V])(f: (V, V) => V): Repr =
  if (another.isEmpty) mapLike.asInstanceOf[Repr]
  else {
    val mapBuilder = new mutable.MapBuilder[K, V, Repr](mapLike.asInstanceOf[Repr])
    another.foreach { case (k, v) =>
      mapLike.get(k) match {
        case Some(ev) => mapBuilder += k -> f(ev, v)
        case _ => mapBuilder += k -> v
      }
    }
    mapBuilder.result()
  }

https://github.com/jozic/scalax-collection/blob/master/src%2Fmain%2Fscala%2Fcom%2Fdaodecode%2Fscalax%2Fcollection%2Fextensions%2Fpackage.scala#L190

Eugene Platonov 15 дек. 2014, в 22:17

Ещё вопросы

@Seraf Это просто объединяет карты, игнорируя дубликаты, а не суммируя их значения.
@ZeynepAkkalyoncuYilmaz правильно, должен был прочитать вопрос лучше, уходит в позор
Хорошее решение. Мне нравится добавлять подсказку, что ++ заменяет любой (k, v) из карты на левой стороне ++ (здесь map1) на (k, v) с правой стороны карты, если (k, _) уже существует в левой части карты (здесь map1), например, Map(1->1) ++ Map(1->2) results in Map(1->2)
Вид аккуратной версии: for ((k, v) <- (aa ++ bb)) приводит к k -> (если ((aa содержит k) && (bb содержит k)) aa (k) + v, иначе v)
Ранее я делал что-то другое, но вот версия того, что вы сделали, заменив карту на a for map1 ++ (для ((k, v) <- map2), получим k -> (v + map1.getOrElse (k, 0)))
@dividebyzero - Да, именно это и сделал AmigoNico в ответе ниже.
Странно, но (map1 ++ map2).map{ case (k,v) => k -> (v + map1.getOrElse(k,0)) } не сохраняет порядок map1 , в то время как map1 ++ map2.map{ case (k,v) => k -> (v + map1.getOrElse(k,0)) } делает.
@ Jus12 - Карты не упорядочены. Не уверен, что вы имеете в виду?
Я пытался это с TreeMap и неявным Ordering . В любом случае, не является ли map1 ++ map2.map{...} эквивалентным (map1 ++ map2).map{...} ?
@ Jus12 - Нет . имеет более высокий приоритет, чем ++ ; Вы читаете map1 ++ map2.map{...} как map1 ++ (map2 map {...}) . Таким образом, одним способом вы отображаете элементы map1 , а другим - нет.
Возможно, будущая библиотека коллекций позволит более чистое функциональное решение.
@matt - Scalaz уже сделает это, поэтому я бы сказал, что «существующая библиотека уже делает это».
Как сохранить только ключи, которые являются общими для обеих карт? То есть как сделать, как пересекаться, так и сливаться одновременно?
@ Ахмедов - Это другой вопрос, и сложный, если важна эффективность. Если нет, то это просто flatMap (либо явно, либо for понимания).
На данный момент это только неизменный Hashmap, но не изменяемый Hashmap.
Это довольно неприятно, что они имеют это только для HashMaps, чтобы быть честным.
Я не могу заставить это скомпилировать, кажется, что тип, который он принимает, является частным, поэтому я не могу передать типизированную функцию, которая соответствует.
Кажется, что-то изменилось в версии 2.11. Проверьте 2.10 scaladoc - scala-lang.org/api/2.10.1/… Есть обычная функция. Но в 2.11 это MergeFunction .
Все, что изменилось в 2.11, - это введение псевдонима типа для этого конкретного типа функции private type MergeFunction[A1, B1] = ((A1, B1), (A1, B1)) => (A1, B1)
Вам нужно добавить немного больше подробностей в свой ответ, желательно код реализации. Сделайте это также для других похожих ответов, которые вы опубликовали, и подгоните каждый ответ к конкретному заданному вопросу. Полезное правило . Запрашивающий должен иметь возможность получить пользу от вашего ответа, не щелкая ссылку в блоге.
Eek, import cats.implicits._ . Импорт import cats.instances.map._ import cats.instances.int._ import cats.syntax.semigroup._ не намного более многословно ...

Andrzej Doyle · Accepted Answer · 2011-08-16T11-41-00.000Z

Scalaz имеет концепцию Semigroup, которая фиксирует то, что вы хотите сделать здесь, и приводит к возможно кратчайшему/самому чистому решению:

scala> import scalaz._
import scalaz._

scala> import Scalaz._
import Scalaz._

scala> val map1 = Map(1 -> 9 , 2 -> 20)
map1: scala.collection.immutable.Map[Int,Int] = Map(1 -> 9, 2 -> 20)

scala> val map2 = Map(1 -> 100, 3 -> 300)
map2: scala.collection.immutable.Map[Int,Int] = Map(1 -> 100, 3 -> 300)

scala> map1 |+| map2
res2: scala.collection.immutable.Map[Int,Int] = Map(1 -> 109, 3 -> 300, 2 -> 20)

В частности, двоичный оператор для Map[K, V] объединяет ключи карт, складывая оператор V полугруппы над любыми повторяющимися значениями. Стандартная полугруппа для Int использует оператор сложения, поэтому вы получаете сумму значений для каждого повторяющегося ключа.

Изменить: немного больше деталей, в соответствии с запросом user482745.

Математически semigroup - это всего лишь набор значений вместе с оператором, который принимает два значения из этого набора и производит другое значение из этого набора. Таким образом, целые числа при добавлении являются полугруппой, например - оператор + объединяет два ints для создания другого int.

Вы также можете определить полугруппу по множеству "всех карт с заданным типом ключа и типом значения", если вы можете придумать некоторую операцию, которая объединяет две карты для создания новой, которая как бы сочетается из двух входов.

Если на обеих картах нет ключей, это тривиально. Если один и тот же ключ существует на обеих картах, нам нужно объединить два значения, к которым привязана клавиша. Хм, разве мы не просто описали оператор, который объединяет два объекта одного типа? Вот почему в Scalaz полугруппа для Map[K, V] существует тогда и только тогда, когда существует полугруппа для V - полугруппа V используется для объединения значений из двух карт, которые назначены одному и тому же ключу.

Так как Int является типом значения здесь, "столкновение" на клавише 1 разрешается путем целочисленного добавления двух отображаемых значений (как это делает оператор группы полугрупп), следовательно 100 + 9. Если бы значения были Strings, столкновение привело бы к конкатенации строк двух отображаемых значений (опять же, потому что это то, что делает оператор полугруппы для String).

(И интересно, потому что конкатенация строк не является коммутативной, т.е. "a" + "b" != "b" + "a" - результирующая полугрупповая операция тоже не является. Таким образом, map1 |+| map2 отличается от map2 |+| map1 в случае String, но не в Int случай.)

Brilliant! Первый практический пример, в котором scalaz смысл.
Без шуток! Если вы начнете искать это ... это повсюду. Процитируем слова erric torrebone, автора спецификаций и спецификаций2: «Сначала вы изучаете Option и начинаете видеть его повсюду. Затем вы изучаете Applicative, и это то же самое. Далее?» Далее идут еще более функциональные концепции. И это очень помогает вам структурировать ваш код и хорошо решать проблемы.
На самом деле, я искал Option пять лет, когда наконец нашел Scala. Разница между ссылкой на объект Java, которая может быть нулевой, и ссылкой, которая не может быть (т. Е. Между A и Option[A] ), настолько велика, что я не мог поверить, что они действительно были одного типа. Я только начал смотреть на Скалаз. Я не уверен, что я достаточно умен ...
Существует также опция для Java, см. Функциональная Java. Не бойтесь, учиться весело. А функциональное программирование не учит вас новым вещам (только), а предлагает программисту помощь в предоставлении терминов, словарного запаса для решения проблем. ОП вопрос является прекрасным примером. Концепция полугруппы настолько проста, что вы используете ее каждый день, например, для строк. Реальная сила появляется, если вы идентифицируете эту абстракцию, назовете ее и, наконец, примените ее к другим типам, а не только к String.
Как возможно, что это приведет к 1 -> (100 + 9)? Можете ли вы показать мне "трассировка стека"? Спасибо. PS: здесь я прошу сделать ответ более понятным.
Есть ли способ не импортировать все scalaz ?
@KevinWheeler Я полагаю, что этот пример покрыт import scalaz.syntax.semigroup._; import scalaz.std.map.mapInstance ; import scalaz.std.anyVal.intInstance
@Daenyth, незначительное исправление (по крайней мере) для Scalaz 7.2.4: импортировать mapMonoid вместо mapInstance .
Может ли автор уточнить выбор Monoid отношении данного примера? Добавление значений предполагается с AnyValInstances#intInstance в области видимости. Если вам нужна другая операция, скажем, умножение, я обнаружил тегирование с помощью m1.mapValues(Multiplication(_)) |+| m2.mapValues(Multiplication(_)) желаемую Map(1 -> 900, 3 -> 300, 2 -> 20) . Это имеет смысл (см. Tagged type и Monoid от Learning Scalaz ), но выглядит не элегантно.