Как использовать RDKit для расчета молекулярных отпечатков пальцев и сходства списка структур SMILE?

Question

Как использовать RDKit для расчета молекулярных отпечатков пальцев и сходства списка структур SMILE?

1

Я использую RDKit для вычисления молекулярной подобия, основанной на коэффициенте Tanimoto между двумя списками молекул с структурами SMILE. Теперь я могу извлечь структуры SMILE из двух отдельных файлов csv. Мне интересно, как поместить эти структуры в модуль отпечатков пальцев в RDKit и как рассчитать сходство по очереди один за другим между двумя списками молекул?

from rdkit import DataStructs
from rdkit.Chem.Fingerprints import FingerprintMols
ms = [Chem.MolFromSmiles('CCOC'), Chem.MolFromSmiles('CCO'), ... Chem.MolFromSmiles('COC')]
fps = [FingerprintMols.FingerprintMol(x) for x in ms]
DataStructs.FingerprintSimilarity(fps[0],fps[1])

Я хочу разместить все структуры SMILE у меня (более 10 000) в списке "ms" и получить отпечатки пальцев. Тогда я сравню сходство между каждой парой молекул из двух списков, может быть, цикл for нужен здесь?

Заранее спасибо!

Я использовал dataframe pandas для выбора и распечатки списков с моими структурами, и я сохранил свои списки в list_1 и list_2. Когда он работает с линией ms1, он имеет следующую ошибку:

TypeError: No registered converter was able to produce a C++ rvalue of type std::__cxx11::basic_string<wchar_t, 
std::char_traits<wchar_t>, std::allocator<wchar_t> > from this Python object of type float

Затем я проверил файлы и там только SMILES в столбце улыбок. Но когда я вручную помещаю некоторые структуры молекул в списки для тестирования, все еще есть ошибки в отношении

fpArgs['minSize'].

Например, SMILES для гадодиамида "O = C1 [O-] [Gd + 3] 234567 [O] = C (C [N] 2 (CC [N] 3 (CC ([O-] 4) = O) CC [N] 5 (CC (= [O] 6) NC) CC (= O) [O-] 7) C1) NC ", а коды ошибок следующие (при запуске линии fps):

ArgumentError: Python argument types in
rdkit.Chem.rdmolops.RDKFingerprint(NoneType, int, int, int, int, int, float, int)
did not match C++ signature:
RDKFingerprint(RDKit::ROMol mol, unsigned int minPath=1, 
unsigned int maxPath=7, unsigned int fpSize=2048, unsigned int nBitsPerHash=2, 
bool useHs=True, double tgtDensity=0.0, unsigned int minSize=128, bool branchedPaths=True, 
bool useBondOrder=True, boost::python::api::object atomInvariants=0, boost::python::api::object fromAtoms=0, 
boost::python::api::object atomBits=None, boost::python::api::object bitInfo=None).

Как включить имена молекул в выходной файл вместе с значениями подобия, если исходный файл csv выглядит следующим образом:

имена, улыбки, стоимость, значение2

molecule1, CCOCN (С) (С), 0,25, А

molecule2, ССО, 1.12, В

molecule3, КОК, 2,25, С

Я добавил эти коды, чтобы включить имена молекул в выходной файл, и эти некоторые значения значений массива относительно имен (в частности, для d2):

name_1 = df_1['id1']
name_2 = df_2['id2']
name_3 = pd.concat([name_1, name_2])
# create a list for the dataframe
d1, qu, d2, ta, sim = [], [], [], [], []
for n in range(len(fps)-1): 
    s = DataStructs.BulkTanimotoSimilarity(fps[n], fps[n+1:]) 
    #print(c_smiles[n], c_smiles[n+1:])
    for m in range(len(s)):
        qu.append(c_smiles[n])
        ta.append(c_smiles[n+1:][m])
        sim.append(s[m])
        d1.append(name_3[n])
        d2.append(name_3[n+1:][m])
    #print()
d = {'ID_1':d1, 'query':qu, 'ID_2':d2, 'target':ta, 'Similarity':sim}
df_final = pd.DataFrame(data=d)
df_final = df_final.sort_values('Similarity', ascending=False)
for index, row in df.iterrows():
    print (row["ID_1"], row["query"], row["ID_2"], row["target"], row["Similarity"])
print(df_final)
# save as csv
df_final.to_csv('RESULT_3.csv', index=False, sep=',')

Anna Zhou 04 авг. 2018, в 03:20

Источник

Теги:

python

csv

similarity

fingerprint

rdkit

1 ответ

Ещё вопросы

rapelpy · Accepted Answer · 2018-08-04T04-16-00.000Z

0

Лучший ответ

Отредактировал ответ, чтобы поймать все комментарии.

RDKit имеет объемную функцию для сходства, поэтому вы можете сравнить один отпечаток пальца со списком отпечатков пальцев. Просто перечеркните список отпечатков пальцев.

Если CSV выглядит так

Первый csv с недопустимым SMILES

smiles,value,value2
CCOCN(C)(C),0.25,A
CCO,1.12,B
COC,2.25,C

Второй csv с правильными SMILES

smiles,value,value2
CCOCC,0.55,D
CCCO,2.58,E
CCCCO,5.01,F

Вот как читать SMILES, удалять недействительные, делать сходство с отпечатками пальцев без дубликатов и сохранять отсортированные значения.

from rdkit import Chem
from rdkit import DataStructs
from rdkit.Chem.Fingerprints import FingerprintMols
import pandas as pd

# read and Conconate the csv's
df_1 = pd.read_csv('first.csv')
df_2 = pd.read_csv('second.csv')
df_3 = pd.concat([df_1, df_2])

# proof and make a list of SMILES
df_smiles = df_3['smiles']
c_smiles = []
for ds in df_smiles:
    try:
        cs = Chem.CanonSmiles(ds)
        c_smiles.append(cs)
    except:
        print('Invalid SMILES:', ds)
print()

# make a list of mols
ms = [Chem.MolFromSmiles(x) for x in c_smiles]

# make a list of fingerprints (fp)
fps = [FingerprintMols.FingerprintMol(x) for x in ms]

# the list for the dataframe
qu, ta, sim = [], [], []

# compare all fp pairwise without duplicates
for n in range(len(fps)-1): # -1 so the last fp will not be used
    s = DataStructs.BulkTanimotoSimilarity(fps[n], fps[n+1:]) # +1 compare with the next to the last fp
    print(c_smiles[n], c_smiles[n+1:]) # witch mol is compared with what group
    # collect the SMILES and values
    for m in range(len(s)):
        qu.append(c_smiles[n])
        ta.append(c_smiles[n+1:][m])
        sim.append(s[m])
print()

# build the dataframe and sort it
d = {'query':qu, 'target':ta, 'Similarity':sim}
df_final = pd.DataFrame(data=d)
df_final = df_final.sort_values('Similarity', ascending=False)
print(df_final)

# save as csv
df_final.to_csv('third.csv', index=False, sep=',')

Распечатка:

Invalid SMILES: CCOCN(C)(C)C

CCO ['COC', 'CCOCC', 'CCCO', 'CCCCO']
COC ['CCOCC', 'CCCO', 'CCCCO']
CCOCC ['CCCO', 'CCCCO']
CCCO ['CCCCO']

   query target  Similarity
9   CCCO  CCCCO    0.769231
2    CCO   CCCO    0.600000
1    CCO  CCOCC    0.500000
7  CCOCC   CCCO    0.466667
3    CCO  CCCCO    0.461538
8  CCOCC  CCCCO    0.388889
4    COC  CCOCC    0.333333
5    COC   CCCO    0.272727
0    CCO    COC    0.250000
6    COC  CCCCO    0.214286

rapelpy 04 авг. 2018, в 04:16

0

Спасибо за Ваш ответ! Ваши коды работают хорошо. Итак, как я могу импортировать мои структуры из CSV-файла в два списка?
Anna Zhou 06 авг. 2018, в 21:11
0

В своем вопросе вы написали, что вы можете извлечь улыбки из CSV. Разве вы не поместили их в список? Что ты сделал?
rapelpy 07 авг. 2018, в 04:15
0

Я использовал pandas dataframe, чтобы выбрать и распечатать списки с моими структурами, и я сохранил свои списки в list_1 и list_2. Когда он запускается в строку ms1, он имеет следующую ошибку: TypeError: Ни один из зарегистрированных преобразователей не смог создать значение C ++ типа std :: __cxx11 :: basic_string <wchar_t, std :: char_traits <wchar_t>, std :: allocator <wchar_t>> из этого объекта Python типа float
Anna Zhou 07 авг. 2018, в 21:19
0

В ваших списках есть номера с плавающей точкой, а не SMILES. Я добавляю пример pandas / csv в мой ответ.
rapelpy 08 авг. 2018, в 14:32
0

Спасибо. Я попытался, и он возвратил тот же код ошибки в той же точке.
Anna Zhou 09 авг. 2018, в 19:10
0

Проверьте правильность CSV. Может быть, есть некоторые цифры вместо улыбок.
rapelpy 11 авг. 2018, в 05:21
0

Я отредактировал свои вопросы, чтобы включить коды ошибок. Я думаю, что файлы CSV просто отлично, только со структурами смайлов. Спасибо!
Anna Zhou 14 авг. 2018, в 21:13
0

В столбце смайликов также есть несколько пробелов (молекулы лекарств без структур SMILES), когда я печатаю эти элементы из списков, вывод показывает «nan». Повлияет ли это на общие результаты?
Anna Zhou 14 авг. 2018, в 22:36
0

Если есть «nan», вы получите «ошибку с плавающей точкой». Удалить строку или положить в улыбки вручную. Но будьте осторожны со SMILES, потому что RDKit очень строг со SMILES. Ваши Gadodiamide-SMILES не будут работать с RDKit, но когда я использую SMILES из PubChem, ЧПУ (= O) CN (CCN (CCN (CC (= O) NC) CC (= O) [O -]) CC (= O) [O -]) CC (= O) [O -]. [Gd + 3] "это работает. Всегда хорошо проверять улыбки перед использованием, но это другой вопрос.
rapelpy 15 авг. 2018, в 16:28
0

Да, я удалил значения "nan", и он возвращает ту же ошибку. Знаете ли вы, как написать это как цикл for, чтобы проверить наличие проблемных структур?
Anna Zhou 16 авг. 2018, в 18:24
0

Я всегда изменяю свои УЛЫБКИ на канонические УЛЫБКИ, чтобы я мог проверить, есть ли там хорошие, и позже проверю, есть ли дубликаты. Я редактирую свой ответ с доказательством.
rapelpy 16 авг. 2018, в 19:55
0

После замены некоторых структур каноническими улыбками я наконец-то получил свою матрицу! БЛАГОДАРЮ ВАС! и еще один вопрос, поскольку вывод представляет собой огромную матрицу с только числами, как я могу извлечь значения в файл CSV, например, с их именами, чтобы я мог знать, какая молекула сравнивается с какими, и может получить рейтинг всех значений подобия этого?
Anna Zhou 17 авг. 2018, в 00:22
0

Соедините cs1 и cs2 вместо ms1 и ms2. Разделите значения и SMILES во время цикла подобия и добавьте их в списки. Преобразуйте списки в фрейм данных, отсортируйте фрейм данных и сохраните его как CSV. Эти основы Python и Pandas вы должны выучить, потому что они будут вам часто нужны.
rapelpy 18 авг. 2018, в 06:51
0

Я попытался сделать cs = cs1 + cs2, и все еще отображается ошибка, и я не могу вывести названия молекул вместе со значениями подобия. Можете ли вы показать мне несколько примеров кодов, как это сделать? Я действительно новичок в Python, я изучаю основы только в медленном прогрессе.
Anna Zhou 21 авг. 2018, в 02:57
0

Сделал полное редактирование ответа для более полного решения. Попробуйте это с моим образцом CSV, чтобы увидеть, как это работает.
rapelpy 21 авг. 2018, в 17:24
0

Спасибо! У меня наконец получился действительно большой файл, но многие структуры SMILES, похоже, изменились в новом файле. Когда я пытаюсь скопировать и найти определенную структуру из нового файла в исходном файле, я не могу найти ее. Например, в исходном файле структура N-метилтриптофана имеет вид C [NH2 +] [C @@ H] (Cc1c [nH] c2ccccc12) C ([O -]) = O и изменяется на C [NH2 +] [ C @@ H] (Cc1c [nH] c2ccccc12) C (= O) [O-] в новом файле. Так что сложно подобрать молекулы.
Anna Zhou 24 авг. 2018, в 00:33
0

Это потому, что все ваши улыбки были заменены на канонические улыбки. Если вы хотите, чтобы исходные SMILES только проверялись, но не заменялись, измените 'cs = Chem.CanonSmiles (ds)' -> 'Chem.CanonSmiles (ds)' и 'c_smiles.append (cs)' -> 'c_smiles. .append (DS).
rapelpy 24 авг. 2018, в 15:41
0

Спасибо! Таким образом, выходной файл содержит значения улыбок и сходства. Для того, чтобы легко сравнить результаты, как включить имена молекул в выходной файл? Я отредактировал вопрос, чтобы показать пример CSV-файла. Благодарю.
Anna Zhou 31 авг. 2018, в 21:10
0

Вы получите имена молекул так же, как вы получили СМЕЛИ на выходе. Чтобы получить улыбки и имена parralel используйте Pandas iterrows. Ищите «для индекса, строка в df.iterrows ()», и вы можете найти объяснения и примеры.
rapelpy 02 сен. 2018, в 09:00
0

Спасибо! Я выучил коды и применил свои сценарии. Я отредактировал свой вопрос, чтобы включить эти коды. Новая ошибка здесь касается значения массива для строки "d2.append (name_3 [n + 1:] [m])". Вы знаете, как решить эту проблему?
Anna Zhou 05 сен. 2018, в 09:04
0

'c_smiles' и 's' - списки, но name_3 - это фрейм данных. Вы должны поместить имена в список 'na3 = [na для na в name_3]'. Теперь вы можете добавить из na3 вместо name_3, но это не будет работать, потому что все имена недопустимых SMILES находятся в списке, поэтому вы должны составить чистый список имен, как вы сначала создали чистый список SMILES. Я упомянул выше, что вы можете сделать это так же, как вы сделали список SMILES.
rapelpy 05 сен. 2018, в 17:24

Показать ещё 19 комментариев