Biomedical Chemistry: Research and Methods 2018, 1(3), e00065
К 40-летию Института физиологически активных веществ РАН

Бинарная классификация соединений, проходящих и не проходящих через гемато-энцефалический барьер, созданная методом логистической регрессии

О.А. Раевский*, Д.Е.Полианчик, О.Е.Раевская

Институт физиологически активных веществ Российской академии наук 142432 Черноголовка Московской обл., Северный проезд, 1; *e-mail: raevsky@ipac.ac.ru

Ключевые слова: ЦНС; ГЭБ; бинарная классификация; дескрипторы; взаимосвязи структура-активность

DOI: 10.18097/BMCRM00065

ВВЕДЕНИЕ

В настоящее время проблема лекарств, воздействующих на центральную нервную систему (ЦНС) приобретает для международного сообщества исключительно важное значение. Увеличение продолжительности жизни населения влечет за собой увеличение прослойки пожилых людей и, соответственно, рост различных заболеваний ЦНС. Лечение таких болезней является чрезвычайно дорогостоящим и подчас неэффективным [1]. Достаточно упомянуть, что сейчас на фармацевтическом рынке есть шесть малоэффективных лекарств для терапии болезни Альцгеймера. Высокая стоимость открытия новых лекарств и их предклинических и клинических испытаний побуждает фармацевтическую индустрию к развитию и использованию современных компьютерных технологий для отбора перспективных кандидатов.

Одним из важнейших защитных механизмов ЦНС является гематоэнцефалический барьер (ГЭБ). Под этим термином условно объединяют совокупность анатомических и функциональных систем, которые поддерживают постоянство и регулируют состав внутренней среды головного и спинного мозга [2]. ГЭБ регулирует распределение различных веществ между током крови и мозгом и обладает высокой избирательностью. Барьерная функция состоит в предотвращении проникновения вредных веществ (лекарства также рассматриваются ГЭБ как вредные) из крови в мозг и их активном выведении в тех случаях, если они каким-то образом попали в ЦНС. Существует множество механизмов проникновения веществ из кровеносного русла в мозг. Большинство веществ проходит через ГЭБ посредством диффузии через клеточные мембраны по градиенту концентрации из тока крови в мозг без энергетических затрат. Кроме этого, различные транспортные системы могут осуществлять как перенос веществ из кровотока к мозгу (influx), так и обратный перенос из ткани мозга в кровоток (efflux).

Созданию моделей in silico для предсказания транспорта через ГЭБ, являющегося сложнейшим биохимическим процессом, уделяется огромное внимание, поскольку это может заменить тотальный биологический скрининг разумными избирательными процедурами без неоправданного дорогостоящего синтеза. Здесь всё возрастающую роль играют методы установления взаимосвязей “структура-активность” (QSAR).

Обширные исследования в области компьютерного моделирования транспорта через ГЭБ ведутся с 90-х годов прошлого века. Здесь нужно упомянуть о «наивных» эмпирических правилах медицинских химиков [3-7], знаменитом «правиле-5» Липинского [8], Мульти-Оптимизационный подходе (MOP) [9-11]. Первые наши работы в этой области были выполнены вместе со швейцарскими коллегами в середине 90-х годов [12,13]. Результаты недавних наших работ опубликованы в [14-16]. Однако, несмотря на интенсивные исследования, проблема создания стабильных предсказательных моделей транспорта через ГЭБ требует привлечения новых баз данных, дескрипторов и методов [17].

МАТЕРИАЛЫ И МЕТОДЫ

Настоящая публикация кратко описывает результаты работы по созданию модели бинарной классификации соединений хорошо и плохо проходящих ГЭБ (BBB+ и BBB-). Порогом такого разделения служит величина logBB = 0. В работе использованы тщательно отобранные данные logBB в равновесном состоянии. Объектом тестирования были крысы [18].

Для BBB+/BBB- классификации была использована логистическая регрессия (LR). LR во многом похожа на линейную регрессию. Однако, в отличие от последней, LR используется для моделирования вероятности какого-либо события (явления) как линейной функции ряда переменных (дескрипторов) [19].

Делается предположение о том, что вероятность (Ρ) наступления события BBB+ (вещество проходит ГЭБ; Y = 1):

$$P\{Y=1ǀX\}\ =\ ƒ(z)$$
(1).

Логистическая функция ƒ(z), именуемая также «логит» или сигмоидная функция, записывается как:

$$f\left(z\right)={{1}\over {1+e^{-z}}}$$
(2),

где z = a0 + a1X1 +a 2X2 + ... + aiXi, a0 – свободный член модели, X1, …,Xi – дескрипторы с их соответствующими регрессионными коэффициентами – a1, …, ai.

Вероятность наступления события BBB- (вещество не проходит ГЭБ; Y = 0):

$$P\{Y=0ǀX\}=1-ƒ(z)$$
(3).

При построении QSAR модели с использованием логистической регрессии коэффициенты при дескрипторах рассчитываются из данных по соединениям обучающей выборки, а затем рассчитываются вероятности события для соединений тестовой выборки при фиксированных значениях коэффициентов, установленных для соединений обучающей выборки. При этом выбор события между BBB+ и BBB- (Y = 1 или 0) определяется по рассчитанному значению функции ƒ(z). Если рассчитанное значение ƒ(z) ≥ 0.5, то соединение относится к категории BBB+ (Y = 1), если ƒ(z) < 0.5 – к категории BBB- (Y = 0).

Подобно множественной линейной регрессии коэффициенты логистической регрессии могут описывать влияние молекулярных дескрипторов на результат предсказания. Когда коэффициент имеет большое значение, он показывает, что молекулярный дескриптор сильно влияет на вероятность события, в то время как нулевое значение коэффициента свидетельствует, что этот дескриптор не оказывает влияния на конечный результат. Аналогично, положительные знаки коэффициентов увеличивают вероятность события, а отрицательные знаки уменьшают эту вероятность. Примеры успешного применения логистической регрессии в QSAR моделировании представлены в публикациях [20-24]. В данной работе для проведения расчетов LR использован программный комплекс SSPS [25]. Дескрипторы рассчитаны программами DRAGON [26] и HYBOT [27].

РЕЗУЛЬТАТЫ

В таблице 1 приведены результаты расчетов бинарной классификации BBB+/BBB- для 83 соединений. Перед расчетами соединения были ранжированы по величине logBB и каждое пятое соединение отбирали для тестовой выборки. В работе использована k-fold = 4 кросс-валидация, с числом итераций равной 100.

Закрыть окно
Таблица 1. Статистические параметры бинарной классификации BBB+/BBB- лекарств методом логистической регрессии.

Если результат классификации положительный, и истинное значение тоже положительное, то речь идет об истинно-положительном значении (true-positive, TP); если результат классификации положительный, но истинное значение отрицательное, ложно-положительное значение (false-positive, FP); если результат классификации отрицательный, и истинное значение тоже отрицательное, истинно-отрицательное значение (true-negative, TN); если результат классификации отрицательный, но истинное значение положительно, ложно-отрицательное значение (false-negative, FN). Чувствительность определяется как Sens = TP / (TP + FN), специфичность как Spec = TN / (TN + FP), точность как ACC = (TP + TN) / (TP + FN + TN + FP) и коэффициент корреляции Мэтьюса (MCC) как:

$${\rm MCC}={{TP\times TN-FP\times FN}\over {\sqrt{(TP+FP)(TP+FN)(TN+FP)(TN+FN)}}}$$
(4).

Прежде всего было испытано влияние гидрофобности, выраженного как AlogP. Эта модель оказалась неудовлетворительной вследствие плохого распознавания BBB-соединений. Последующее поочередное добавление дескрипторов MW, HBD, TPSA существенно улучшило этот параметр. В результате четырех-параметровая модель с указанными дескрипторами программы DRAGON обеспечила правильное распознавание 82.5% BBB+ и 74.1% BBB- при обучении и 60.0% BBB+ и 100% ВВВ- в тестовой выборке. Однако лучшей QSAR моделью для данного ряда соединений оказалась модель из трёх дескрипторов программы HYBOT (α, ∑Ca, ∑Cd). Эта модель дала такую же точность для обучающей выборки, но существенно лучшие результаты для тестовой выборки (81.2%). Как показывает данная работа, метод LR является простым и удобным для медицинских химиков бинарным классификатором свойства (активности). При его использовании особенно просто оценить вклад каждого дескриптора в модель.

БЛАГОДАРНОСТИ

Работа выполнена в рамках государственного задания на 2018 год (тема № 0090-2017-0020).

ЛИТЕРАТУРА

  1. Wager, T.T.; Chandrasekaran, R.Y.; Hou, X.; Troutman, M.D.; Verhoest, P.R.; Villalobos, A.; Will, Y. (2010). Defining desirable central nervous system drug space through the alignment of molecular properties, in vitro ADME, and safety attributes. ACS Chemical Neuroscience,1(6), 420-434. DOI
  2. Bradbury, M. W. B. (1979). The concept of a blood-brain barrier. John Wiley & Sons.
  3. Young, R.C.; Mitchell, R.C.; Brown, T.H.; Ganellin, C.R.; Griffiths, R.; Jones, M.; Rana, K.K.; Saunders, D.; Smith, I.R.; Sore, N.E.; Wilks, T.J. (1988). Development of a new physicochemical model for brain penetration and its application to the design of centrally acting H2 receptor histamine antagonists. Journal of Medicinal Chemistry, 31(3), 656–671. DOI
  4. van de Waterbeemd, H.D.; Kansy, M. (1992). Hydrogen-bonding capacity and brain penetration. Chimia, 46(7-8), 299-303.
  5. Kelder, J.; Grootenhuis, P.D.J.; Bayada, D.M.; Delbressine, L.P.; Ploemen, J.P. (1999). Polar molecular surface as a dominating determinant for oral absorption and brain penetration of drugs. Pharmaceutical Research, 16(10), 1514-1519. DOI
  6. Gleeson, M.P. (2008). Generation of a set of simple, interpretable ADMET rules of thumb.Journal of Medicinal Chemistry, 51(4), 817-834. DOI
  7. Waring, M.J. (2009). Defining optimum lipophilicity and molecular weight ranges for drug candidates-Molecular weight dependent lower logD limits based on permeability.Bioorganic & Medicinal Chemistry Letters, 19(10), 2844-2851. DOI
  8. Lipinski, C.A.; Lombardo, F.; Dominy, B.W.; Feeney, P.J. (1997). Experimental and computational approaches to estimate solubility and permeability in drug discovery and development settings. Advanced Drug Delivery Review, 23(1-3), 3-26. DOI
  9. Wager, T.T.;Hou, X.; Verhoest, P.R.; Villalobos, A. (2010).Moving beyond rules: the development of a central nervous system multiparameter optimization (CNS MPO) approach to enable alignment of druglike properties. ACS Chemical Neuroscience, 1(6), 435-439. DOI
  10. Rankovic, Z. (2015). CNS drug design: balancing physicochemical properties for optimal brain exposure.Journal of Medicinal Chemistry, 58(6), 2584-2608. DOI
  11. Rankovic, Z. (2017). CNS physicochemical property space shaped by a diverse set of molecules with experimentally determined exposure in the mouse brain. Journal of Medicinal Chemistry, 60(14), 5943-5954. DOI
  12. van de Waterbeemd, H.D.; Camenisch, G.; Folkers, G.; Raevsky, O.A. (1996). Estimation of CACO-2 cell permeability using calculated molecular descriptors. Quantitative Structure-Activity Relationships, 15(6), 480-490. DOI
  13. van de Waterbeemd, H.D.; Camenisch, G.; Folkers, G.; Chretien, J.R.; Raevsky, O.A. (1998). Estimation of blood-brain barrier crossing of drugs using molecular size and shape, and H-bonding descriptors. Journal of Drug Targeting, 6(2), 151-165. DOI
  14. Raevsky, O.A.; Grigorev, V.Y.;Polianczyk, D.E.;Sandakov, G.I.; Solodova, S.L.; Yarkov, A.V.; Bachurin, S.O.; Dearden, J.C. (2016). Physicochemical property profile for brain permeability: comparative study by different approaches. Journal of Drug Targeting, 24(7), 655-662. DOI
  15. Raevsky, O.A. (2016). CNS multiparameter optimization approach: is it in accordance with Occam's razor principle? Molecular Informatics, 35(3-4), 94-98. DOI
  16. Raevsky, O.A.; Polianczyk, D.E.; Mukhametov, A.; Grigorev, V.Y. (2016). Assessment of the classification abilities of the CNS multi-parametric optimization approach by the method of logistic regression. SAR and QSAR in Environmental Research, 27(8), 629-635. DOI
  17. 17. Raevsky, O.A. (2018). Hydrogen Bond Contribution to Drug Bioavailability: cheminformatics approach. Biomedical Chemistry: Research and Methods, 1(3), e00060. DOI
  18. Raevsky, O.A.; Solodova, S.L.; Lagunin, A.A.; Poroikov, V.V. (2014). Computer Modeling of Blood-Brain Barrier Permeability for Physiologically Active Compounds. Biochemistry (Moscow) Supplement Series B: Biomedical Chemistry, 60(2), 161-181. DOI
  19. Ooms, F.; Weber, P.; Carrupt, P.-A.; Testa, B. (2002). A simple model to predict blood–brain barrier permeation from 3D molecular fields. Biochimica et Biophysica Acta, 1587(2-3), 118-125. DOI
  20. Raevskij, O.A. (2015). Modelirovanie sootnoshenij “struktura-svojstva”, Dobrosvet, M.
  21. Singh, N.; Chaudhury, S.; Liu, R.; AbdulHameed, M.D.M.; Tawa, G.; Wallqvist, A. (2012). QSAR Classification Model for Antibacterial Compounds and Its Use in Virtual Screening.Journal of Chemical Information and Modeling, 52(10), 2559-2569. DOI
  22. Riniker, S.; Wang, Y.; Jenkins, J.L.; Landrum, G.A. (2014). Using Information from Historical High-Throughput Screens to Predict Active Compounds. Journal of Chemical Information and Modeling, 54(7), 1880-1891. DOI
  23. Iwata, H.; Sawada,R.; Mizutani, S.; Yamanishi, Y. (2015). Systematic Drug Repositioning for a Wide Range of Diseases with Integrative Analyses of Phenotypic and Molecular Data. Journal of Chemical Information and Modeling, 55(2), 446-459. DOI
  24. Yee, L.C.; Wei, Y.C. (2012). Statistical Modelling of Molecular Descriptors in QSAR/QSPR, Vol. 2 (Eds: Dehmer, M.; Varmuza, K.; Bonchev, D.), Wiley-VCH, Verlag GmbH & Co. KGaA., 1-31.
  25. SPSS Inc. Released 2008. SPSS Statistics for Windows, Version 17.0. Chicago: SPSS Inc.
  26. DRAGON, version 5.5; Talete srl: Milano, Italy (2011).
  27. Raevsky, O.A.; Grigor’ev, V.Y.; Trepalin, S.V. HYBOT program, registration by Russian State Patent Agency No. 990090 of 26.02.99