К 40-летию Института физиологически активных веществ РАН
Бинарная классификация соединений, проходящих и не проходящих через гемато-энцефалический барьер, созданная методом логистической регрессии Институт физиологически активных веществ Российской академии наук 142432 Черноголовка Московской обл., Северный проезд, 1; *e-mail: raevsky@ipac.ac.ru Ключевые слова: ЦНС; ГЭБ; бинарная классификация; дескрипторы; взаимосвязи структура-активность DOI: 10.18097/BMCRM00065 ВВЕДЕНИЕ В настоящее время проблема лекарств, воздействующих на центральную нервную систему (ЦНС) приобретает для международного сообщества исключительно важное значение. Увеличение продолжительности жизни населения влечет за собой увеличение прослойки пожилых людей и, соответственно, рост различных заболеваний ЦНС. Лечение таких болезней является чрезвычайно дорогостоящим и подчас неэффективным [1]. Достаточно упомянуть, что сейчас на фармацевтическом рынке есть шесть малоэффективных лекарств для терапии болезни Альцгеймера. Высокая стоимость открытия новых лекарств и их предклинических и клинических испытаний побуждает фармацевтическую индустрию к развитию и использованию современных компьютерных технологий для отбора перспективных кандидатов. Одним из важнейших защитных механизмов ЦНС является гематоэнцефалический барьер (ГЭБ). Под этим термином условно объединяют совокупность анатомических и функциональных систем, которые поддерживают постоянство и регулируют состав внутренней среды головного и спинного мозга [2]. ГЭБ регулирует распределение различных веществ между током крови и мозгом и обладает высокой избирательностью. Барьерная функция состоит в предотвращении проникновения вредных веществ (лекарства также рассматриваются ГЭБ как вредные) из крови в мозг и их активном выведении в тех случаях, если они каким-то образом попали в ЦНС. Существует множество механизмов проникновения веществ из кровеносного русла в мозг. Большинство веществ проходит через ГЭБ посредством диффузии через клеточные мембраны по градиенту концентрации из тока крови в мозг без энергетических затрат. Кроме этого, различные транспортные системы могут осуществлять как перенос веществ из кровотока к мозгу (influx), так и обратный перенос из ткани мозга в кровоток (efflux). Созданию моделей in silico для предсказания транспорта через ГЭБ, являющегося сложнейшим биохимическим процессом, уделяется огромное внимание, поскольку это может заменить тотальный биологический скрининг разумными избирательными процедурами без неоправданного дорогостоящего синтеза. Здесь всё возрастающую роль играют методы установления взаимосвязей “структура-активность” (QSAR). Обширные исследования в области компьютерного моделирования транспорта через ГЭБ ведутся с 90-х годов прошлого века. Здесь нужно упомянуть о «наивных» эмпирических правилах медицинских химиков [3-7], знаменитом «правиле-5» Липинского [8], Мульти-Оптимизационный подходе (MOP) [9-11]. Первые наши работы в этой области были выполнены вместе со швейцарскими коллегами в середине 90-х годов [12,13]. Результаты недавних наших работ опубликованы в [14-16]. Однако, несмотря на интенсивные исследования, проблема создания стабильных предсказательных моделей транспорта через ГЭБ требует привлечения новых баз данных, дескрипторов и методов [17]. МАТЕРИАЛЫ И МЕТОДЫ Настоящая публикация кратко описывает результаты работы по созданию модели бинарной классификации соединений хорошо и плохо проходящих ГЭБ (BBB+ и BBB-). Порогом такого разделения служит величина logBB = 0. В работе использованы тщательно отобранные данные logBB в равновесном состоянии. Объектом тестирования были крысы [18]. Для BBB+/BBB- классификации была использована логистическая регрессия (LR). LR во многом похожа на линейную регрессию. Однако, в отличие от последней, LR используется для моделирования вероятности какого-либо события (явления) как линейной функции ряда переменных (дескрипторов) [19]. Делается предположение о том, что вероятность (Ρ) наступления события BBB+ (вещество проходит ГЭБ; Y = 1):
Логистическая функция ƒ(z), именуемая также «логит» или сигмоидная функция, записывается как:
Вероятность наступления события BBB- (вещество не проходит ГЭБ; Y = 0):
При построении QSAR модели с использованием логистической регрессии коэффициенты при дескрипторах рассчитываются из данных по соединениям обучающей выборки, а затем рассчитываются вероятности события для соединений тестовой выборки при фиксированных значениях коэффициентов, установленных для соединений обучающей выборки. При этом выбор события между BBB+ и BBB- (Y = 1 или 0) определяется по рассчитанному значению функции ƒ(z). Если рассчитанное значение ƒ(z) ≥ 0.5, то соединение относится к категории BBB+ (Y = 1), если ƒ(z) < 0.5 – к категории BBB- (Y = 0). Подобно множественной линейной регрессии коэффициенты логистической регрессии могут описывать влияние молекулярных дескрипторов на результат предсказания. Когда коэффициент имеет большое значение, он показывает, что молекулярный дескриптор сильно влияет на вероятность события, в то время как нулевое значение коэффициента свидетельствует, что этот дескриптор не оказывает влияния на конечный результат. Аналогично, положительные знаки коэффициентов увеличивают вероятность события, а отрицательные знаки уменьшают эту вероятность. Примеры успешного применения логистической регрессии в QSAR моделировании представлены в публикациях [20-24]. В данной работе для проведения расчетов LR использован программный комплекс SSPS [25]. Дескрипторы рассчитаны программами DRAGON [26] и HYBOT [27]. РЕЗУЛЬТАТЫ В таблице 1 приведены результаты расчетов бинарной классификации BBB+/BBB- для 83 соединений. Перед расчетами соединения были ранжированы по величине logBB и каждое пятое соединение отбирали для тестовой выборки. В работе использована k-fold = 4 кросс-валидация, с числом итераций равной 100.
Если результат классификации положительный, и истинное значение тоже положительное, то речь идет об истинно-положительном значении (true-positive, TP); если результат классификации положительный, но истинное значение отрицательное, ложно-положительное значение (false-positive, FP); если результат классификации отрицательный, и истинное значение тоже отрицательное, истинно-отрицательное значение (true-negative, TN); если результат классификации отрицательный, но истинное значение положительно, ложно-отрицательное значение (false-negative, FN). Чувствительность определяется как Sens = TP / (TP + FN), специфичность как Spec = TN / (TN + FP), точность как ACC = (TP + TN) / (TP + FN + TN + FP) и коэффициент корреляции Мэтьюса (MCC) как:
Прежде всего было испытано влияние гидрофобности, выраженного как AlogP. Эта модель оказалась неудовлетворительной вследствие плохого распознавания BBB-соединений. Последующее поочередное добавление дескрипторов MW, HBD, TPSA существенно улучшило этот параметр. В результате четырех-параметровая модель с указанными дескрипторами программы DRAGON обеспечила правильное распознавание 82.5% BBB+ и 74.1% BBB- при обучении и 60.0% BBB+ и 100% ВВВ- в тестовой выборке. Однако лучшей QSAR моделью для данного ряда соединений оказалась модель из трёх дескрипторов программы HYBOT (α, ∑Ca, ∑Cd). Эта модель дала такую же точность для обучающей выборки, но существенно лучшие результаты для тестовой выборки (81.2%). Как показывает данная работа, метод LR является простым и удобным для медицинских химиков бинарным классификатором свойства (активности). При его использовании особенно просто оценить вклад каждого дескриптора в модель. БЛАГОДАРНОСТИ Работа выполнена в рамках государственного задания на 2018 год (тема № 0090-2017-0020). ЛИТЕРАТУРА
|