матрица расстояний для матрицы размером 100k * 100k в R

Question

матрица расстояний для матрицы размером 100k * 100k в R

1

У меня есть вектор A размера 100k+, и я хочу рассчитать расстояние между каждым элементом этого вектора с каждым другим элементом. Я пытаюсь решить эту проблему в R, используя встроенную функцию adist, а также пытаюсь использовать пакет stringdist. Проблема в том, что она является очень сложной и она работает в течение нескольких дней, не заканчивая.

Конечная проблема, которую я пытаюсь решить, заключается в поиске дубликатов или почти дубликатов с использованием меры расстояния, а затем создайте вокруг нее какую-то классификационную модель.

Код, который я использую в настоящее время

 # declare an empty data frame and append data to it
matchedStr_vecA <- data.frame(row_index = integer(),
                              col_index = integer(),
                              vecA_i = character(),
                              vecA_j = character(),
                              dist_diff_vecA = double(),
                              stringsAsFactors=FALSE)


k = 1 # (keeps track of the pointer to the data frame)
# Run 2 different loops to calculate the bottom half of the matrix (below the diagonal - 
# as the diagonal elements will be zero and the upper half is the mirror image of the bottom half)
for (i in 1:length(vecA)) { 
  for (j in 1:length(vecA)) { 
    if (i < j) {
      dist_diff_vecA <- stringdist(vecA[i], vecA[j], method = "lv")
      matchedStr_invId[k,] <- c(i, j, vecA[i], vecA[j], dist_diff_vecA)
      k <- k + 1
    }
  }
}

Пожалуйста, помогите мне привести это вычисление от O (n ^ 2) к O (n). Я в порядке с использованием python. Мне сказали, что это можно решить с помощью программирования динамического программирования, но я не уверен, как его реализовать.

Спасибо всем

Chandra 21 авг. 2018, в 12:34

Источник

0

Во-первых, вы знаете алгоритм?
user202729 21 авг. 2018, в 10:19
0

Вы хотите choose(100e3, 2) сравнения. Это обязательно отнимает много времени, но вы должны делать это с помощью скомпилированного языка и / или массового распараллеливания. Конечно, было бы гораздо лучше перейти от грубой силы к разумному подходу к тому, чего вы на самом деле пытаетесь достичь.
Roland 21 авг. 2018, в 10:20
0

@ Ronald & user 202729: Я новичок в мире программирования / кодирования и не знаю подходов / алгоритмов для использования. Может ли кто-то указать мне в правильном направлении
Chandra 21 авг. 2018, в 10:30
0

Я не использовал stringdist::stringdist , но если она похожа на adist то функция векторизована, поэтому stringdist(vecA, method = "lv") должен возвращать матрицу результатов. Это значительно быстрее (в 100-1000 раз быстрее), чем ваш двойной цикл. Затем проанализируйте матрицу для получения желаемых результатов. Конечно, тогда возникает вопрос: есть ли у вас память для матрицы 100k x100k?
DaveT 21 авг. 2018, в 13:17
0

@Dave2e: Dave2e: Существует проблема с памятью для решения этой проблемы даже с 8 ГБ ОЗУ. Вот почему я искал другие варианты. Любая помощь по альтернативным методам, таким как динамическое программирование или иным образом
Chandra 24 авг. 2018, в 05:21
0

Как уже упоминалось выше, попытка найти расстояние между всеми возможными точками составляет миллиарды комбинаций. Если вы выполняете некоторую предварительную обработку, например сортировку списка, вы можете использовать метод «разделяй и властвуй» для множества управляемых частей.
DaveT 24 авг. 2018, в 11:47

Показать ещё 4 комментария

Теги:

python

string

r

matrix

duplicates

1 ответ

Ещё вопросы

Вы хотите choose(100e3, 2) сравнения. Это обязательно отнимает много времени, но вы должны делать это с помощью скомпилированного языка и / или массового распараллеливания. Конечно, было бы гораздо лучше перейти от грубой силы к разумному подходу к тому, чего вы на самом деле пытаетесь достичь.
@ Ronald & user 202729: Я новичок в мире программирования / кодирования и не знаю подходов / алгоритмов для использования. Может ли кто-то указать мне в правильном направлении
Я не использовал stringdist::stringdist , но если она похожа на adist то функция векторизована, поэтому stringdist(vecA, method = "lv") должен возвращать матрицу результатов. Это значительно быстрее (в 100-1000 раз быстрее), чем ваш двойной цикл. Затем проанализируйте матрицу для получения желаемых результатов. Конечно, тогда возникает вопрос: есть ли у вас память для матрицы 100k x100k?
@Dave2e: Dave2e: Существует проблема с памятью для решения этой проблемы даже с 8 ГБ ОЗУ. Вот почему я искал другие варианты. Любая помощь по альтернативным методам, таким как динамическое программирование или иным образом
Как уже упоминалось выше, попытка найти расстояние между всеми возможными точками составляет миллиарды комбинаций. Если вы выполняете некоторую предварительную обработку, например сортировку списка, вы можете использовать метод «разделяй и властвуй» для множества управляемых частей.

sophros · Answer 1 · 2018-08-21T08-27-00.000Z

У меня была та же самая проблема вычисления матрицы расстояния, и я успешно ее разрешил в Python. В этом вопросе обсуждаются важнейшие элементы решения, обеспечивающие одинаковое распределение расчётов между потоками: как разбить диагональную матрицу на равное количество элементов по одной оси?

Следует отметить две вещи:

Расстояние между двумя точками обычно симметрично, поэтому вы можете повторно использовать эту математическую функцию и вычислить расстояние между i и j элементами один раз и либо сохранить его, либо повторно использовать для расстояния между j и i.
Алгоритм не может быть оптимизирован ниже O (n ^ 2), если вы не в порядке с неточными результатами. И поскольку вы новичок в программировании, я бы даже не подумал об этом.
Вы должны иметь возможность распараллеливать вычисления, используя расщепление индексов, как я предложил в вышеприведенном вопросе для почти оптимального решения.