Попов Артем ВалерійовичВойтешенко, Іван Сергійович2024-08-202024-08-202024Попов А.В. Аналіз закономірностей фолдингу білків методами пояснення штучного інтелекту : випускна кваліфікаційна робота магістра : 091 Біологія та біохімія / наук. кер. І. С. Войтешенко. Київ, 2024. 94 с.https://ir.library.knu.ua/handle/15071834/4202Прогнозування структур білків за послідовностями амінокислот є складною задачею для обчислювальної біології з широкими наслідками для різних галузей, включаючи проектування ліків та дослідження хвороб. Нещодавні досягнення в глибокому навчанні дозволяють отримати високоточні моделі фолдингу, які, однак, не піддаються інтерпретації через свою black-box природу. В цій роботі вивели частину закономірностей фолдингу білків із індивідуальних властивостей амінокислот на основі інсайдів з модуля нейромережі для de-novo згортки AminoBERT. У результаті аналізу було встановлено частину основних залежностей, необхідних для передбачення вторинної та третинної структури із первинної. Для отримання та перевірки цих закономірностей було отримано локальні (12 вторинної структури та 14 третинної структури) та глобальні (2 вторинної та 1 третинної) моделі фолдингу При аналізі векторів-вставок було проведено лінійну регресію для визначення основних фізико-хімічних закономірностей, що розміщують амінокислоти у векторному просторі вставок. Встановлено, що маса, гідрофобність, дипольний момент та частота пояснюють 48-49% варіативності дистанцій між векторами. Було також визначено, що ці властивості далі залишаються важливими для розрізнення вторинних та третинних структур . Для визначення закономірностей вторинної структури було розраховано 12 локальних та 2 глобальні моделі, за допомогою яких виведено та підтверджено найбільш розповсюджені особливості, що визначають вторинну структуру. Серед них була встановлена характерна залежність від позиції в послідовності, що нагадує гаусову криву, інверсія залежності від гідрофобності для бета ланцюга при віддаленні від позиції передбачення, менша залежність альфа спіралі від гідрофобності, ніж для бета ланцюга, і навпаки для дипольного моменту. Нарешті, певні структурні дескриптори також відрізняються між бета ланцюгом та альфа спіраллю - для альфа спіралі характерна залежність від поверхні, тоді як для бета ланцюга - від об’єму. Серед невпорядкованих найкраще класифікуються випадковий клубок, невпорядкований регіон та повороти, де різниця між вигинами та поворотами пов’язана різними залежностями від рКа біля точки передбачення та дипольного моменту. Для третинної структури побудували простіші моделі для фолдингу на основі передбачення матриць дистанцій, розрахували пояснення та встановили найважливіші характеристики. Ними виявились позиційна відстань, гідрофобність, дипольний момент та частота амінокислот у послідовностях. Було підтверджено зменшення відстані між термінальними регіонами білка, що є можливим проспектом для покращення майбутньої простої глобальної моделі фолдингу білка.Predicting protein structures from amino acid sequences is a challenging task for computational biology with broad implications for various fields, including drug design and disease research. Recent advances in deep learning have produced highly accurate folding models, which, however, are not interpretable due to their black-box nature. In this work, we derived some of the patterns of protein folding from individual amino acid properties based on insights from the neural network module for de novo folding AminoBERT. The analysis revealed some of the main dependencies necessary for predicting secondary and tertiary structures from the primary structure. Local (12 for secondary structure prediction and 14 for tertiary structure prediction) and global (2 secondary and 1 tertiary) folding models were generated to obtain and verify these patterns. When analyzing the embeddings, a linear regression was performed to determine the main physicochemical characteristics that cluster amino acids in the embeddings’ space. Mass, hydrophobicity, dipole moment, and amino acid frequency were found to explain 48-49% of the variation in vector distance. It was also determined that these properties further remain important for modeling secondary and tertiary structures. To determine the patterns necessary for secondary structure prediction, 12 local and 2 global surrogate models were calculated, which were used to derive and confirm the most common features that determine the secondary structure. Among them, we found a characteristic dependence on the position in the sequence that resembles a Gaussian curve, an inversion of the dependence of hydrophobicity on the distance from the prediction position for the beta chain, a lower dependence of the alpha helix on hydrophobicity than for the beta chain, and vice versa for the dipole moment. Finally, certain structural descriptors also differ between beta chain and alpha helix: alpha helix is characterized by a surface dependence, while beta chain is characterized by a volume dependence. Among the disordered ones, the classes with the most accurate predictions are random tangle, disordered region, and turns, where the difference between bends and turns was found to be due to different dependencies on the pKa near the prediction point and the dipole moment. For the tertiary structure, we constructed simpler models for folding based on the prediction of distograms, calculated explanations, and identified the most important characteristics. These were the positional distance, hydrophobicity, dipole moment, and frequency of amino acids in the sequences. A decrease in the distance between protein terminal regions compared to the average was confirmed, which is a possible avenue for improving a future simple global protein folding model.uaфолдинг білкапояснення штучного інтелектупередбачення вторинної структурипередбачення третинної структуриprotein foldingexplainable artificial intelligencesecondary structure predictiontertiary structure predictionАналіз закономірностей фолдингу білків методами пояснення штучного інтелектуAnalysis of protein folding patterns using explainable artificial intelligence methodsМагістерська робота