У меня есть массив:
[[ 0.32730174 -0.1436172 -0.3355202 -0.2982458 ]
[ 0.50490916 -0.33826587 0.4315952 0.4850834 ]
[-0.18594801 -0.06028342 -0.24817085 -0.41029227]
[-0.22551994 0.47151482 -0.39798814 -0.14978702]
[-0.3315491 0.05832376 -0.29526958 0.3786153 ]]
Я вычислил его косинус-расстояние с помощью "pdist", cosine_distance=1-pdist(array, metric='cosine')
и получил расстояние:
[-0.14822659 0.51635946 0.09485546 -0.38855427 -0.82434624 -0.86407176
-0.25101774 0.49793639 -0.07881047 0.41272145]
Теперь я хочу получить только те пары, косинус расстояние которых больше 0,4. Я вычислил количество значений, которое больше 0,4, by number_points=len([1 for я in cosine_distance if я >= 0.4])
. Но не в состоянии получить эти пары.
Я решил это. Вот мой ответ,
distance_matrix = squareform(cosine_distance)
points_to_keep = []
for i in range(len(a)-1):
for j in range(i+1, len(a)):
if(distance_matrix[i,j] > 0.66):
points_to_keep.append((a[i], a[j]))
result_array = np.array(points_to_keep)
print(result_array)
Фокус в описании выхода для pdist.
Y: ndarray
Возвращает конденсированную матрицу расстояний Y. Для каждого и (где), где m - количество исходных наблюдений. Метрический dist (u = X [i], v = X [j]) вычисляется и сохраняется в записи ij.
Документация также относится к квадрату, чтобы снова преобразовать вектор расстояния. Объяснение документации выходного массива имеет смысл тогда. Позиция ij
в документации будет первым и вторым индексом матрицы, созданной операцией squareform
. Затем мы можем получить каждое расстояние относительно каждой пары точек.
distance_matrix = squareform(cosine_distances_array)
points_to_keep = []
for (i in range(len(points)-1)):
for (j in range(i+1, len(points))):
if(distance_matrix[i,j] > 0.4):
points_to_keep.push((points[i], points[j]))
print points_to_keep