Dumni z bycia Polakami - przeczytaj nowe wydanie Kwartalnika Coopernicus!
Artykuł - zdjęcie główne
Szybsza i dokładniejsza klasyfikacja białek dzięki nowemu narzędziu bioinformatycznemu

Białka to substancje chemiczne występujące we wszystkich żywych organizmach, a także w wirusach – które nie należą do organizmów żywych, a są po prostu fragmentami kwasu nukleinowego otoczonymi właśnie białkowym płaszczem. Czy z racji tego, że komórki każdego z nas są zbudowane z białek, wiemy o nich wszystko? Niekoniecznie. Ich budowa może być zarówno bardzo prosta, jak i niezwykle skomplikowana, przez co ich klasyfikacja i analiza wciąż przysparza wielu problemów. Wykorzystywane dotychczas metody rozpoznawania białek opierały się głównie na podobieństwie sekwencji, a więc kolejności aminokwasów będących budulcem tych substancji chemicznych i porównywaniu nowych białek do już poznanych. Inne spojrzenie na to zadanie przedstawił zespół z Zakładu Biologii Molekularnej Wydziału Biologii Uniwersytetu Warszawskiego, który skomplikowaną strukturę białek zamienił na chmurę punktów i nauczył swoje narzędzie, jak wyciągać z tego wnioski. Dzięki ich pomysłowi białka występujące na powierzchni wirusa czy obecne w nich miejsca wiążące potencjalne leki można identyfikować szybciej i dokładniej, opierając się na ich strukturze przestrzennej i uczeniu maszynowym, a nie tylko żmudnym procesie porównywania struktur nowych białek do już sklasyfikowanych.

Innowacyjne bioinformatyczne narzędzie stworzone przez Alberta Roethela, doktora Piotra Bilińskiego i doktora Takao Ishikawę to BioS2Net (Biological Sequence and Structure Network) – zaawansowany algorytm opierający się na uczeniu głębokim (deep learning), który uczy się sam – bez kontroli człowieka – jedynie poprzez przetwarzanie danych.

Wykorzystanie uczenia głębokiego przez BioS2Net

Uczenie głębokie jest elementem wchodzącym w skład sztucznej inteligencji, a jego nazwa pochodzi od tego, że struktura sztucznych sieci neuronowych składa się z wielu warstw wejściowych, wyjściowych i ukrytych, przez co proces faktycznie można nazwać głębokim. Jego złożoność została wykorzystana przy tworzeniu narzędzia BioS2Net. Dane strukturalne białka (input protein) przetwarzane są przez narzędzie na białkowe chmury punktów (widoczne na schemacie poniżej jako protein pointcloud). Każdy z tych punktów reprezentowany jest przez współrzędne przestrzenne 3D i może zawierać dodatkowe informacje, na przykład o cechach strukturalnych czy fizykochemicznych białka. Dane analizowane są przez element sieci neuronowych o nazwie ,,konwolucyjny ekstraktor sekwencji z pięcioma modułami inicjacji” (5 x inception). Cechy białka łączone są z chmurą punktów, a następnie interpretowane przez kolejny element sieci neuronowych – ,,ekstraktor struktury 3D” o nazwie ,,PointNet++” poprzez generowanie uproszczonych sieci neuronowych (PointNet). Aby lepiej zrozumieć pojęcie sieci neuronowych, warto porównać je do ludzkiego systemu nerwowego, na którym są wzorowane. Sztuczne sieci neuronowe zbudowane są z warstw sztucznych neuronów, które naśladują swoim działaniem sposób, w jaki biologiczne neurony przekazują między sobą informacje. Przesyłając te dane, sieci neuronowe z czasem samodzielnie się uczą i poprawiają swoją dokładność, co stanowi podstawę uczenia głębokiego.  Wracając do opisywanego procesu – kolejnym etapem jest wykorzystanie przetwarzania pozyskanych danych metodami uczenia głębokiego. Efektem jest wektor cech (global features vector), który może być w końcu użyty do rozpoznawania białek i klasyfikacji pofałdowania ich łańcuchów białkowych. [1]

Rys. 1 Schemat działania BioS2Net. [2]

Znaczenia narzędzia dla klasyfikacji białek

Dzięki holistycznemu badaniu cząsteczek chemicznych budujących białka – opartemu na algorytmie sztucznej inteligencji – BioS2Net może prawie bezbłędnie rozwiązywać problemy związane z klasyfikacją białek. Narzędzie pozwala na rozpoznawanie białek na podstawie sekwencji aminokwasowej oraz struktury przestrzennej, w tym na wykrywanie wśród nich tych, które mają podobną strukturę trójwymiarową, ale inny sposób zwinięcia łańcucha białkowego – co dotychczas nie było możliwe. BioS2Net może dzięki temu wskazywać białka, które mimo tej różnicy pełnią podobne funkcje i mogą być wykorzystywane do takich samych celów. Po zbadaniu dokładności opisywanego narzędzia stwierdzono, że BioS2Net osiąga precyzyjność w skali 95,4% w jednym z zestawów danych, co wskazuje na jego faktyczną przydatność w rozpoznawaniu struktur białkowych. A ponieważ wciąż odkrywane są nowe białka, które wymagają analizy i jak najdokładniejszego sklasyfikowania, BioS2Net ma szansę stać się narzędziem wykorzystywanym na bardzo dużą skalę.

Rys. 2 Przykłady białek o podobnej ogólnej strukturze, różniące się pofałdowaniem łańcucha białkowego. Każdy z pięciu przykładów (A-E) pokazuje dwa różne białka – po lewej i prawej stronie, na środku zaś ich strukturalne nałożenie na siebie zabarwione na zielono i czerwono. Ukazane białka mogą pełnić wspólną funkcję, na przykład zapewniając powierzchnię oddziaływania dla innych cząsteczek, gdyż mimo różnic topologicznych, ich ogólne struktury 3D są wystarczająco podobne, by mogły one odgrywać zbliżone role biologiczne. Podobieństwa w tej strukturze 3D wykrywa właśnie BioS2Net. [3]

Bibliografia:

  1. [1] BioS2Net: Holistic Structural and Sequential Analysis of Biomolecules Using a Deep Neural Network, Albert Roethel, Piotr Biliński, Takao Ishikawa, https://www.mdpi.com/1422-0067/23/6/2966/htm (dostęp 21.10.2022)
  1. Getting Started with Point Clouds Using Deep Learning – MATLAB & Simulink, MathWorks, https://www.mathworks.com/help/vision/ug/getting-started-with-deep-learning-using-point-clouds.html (dostęp 21.10.2022)
  1. Czym są sieci neuronowe i jaki mają związek z uczeniem głębokim? DeepTechnology.ai, https://www.deeptechnology.ai/sieci-neuronowe-i-ich-zwiazek-z-uczeniem-glebokim/ (dostęp 21.10.2022)
  1. Głębokie sieci neuronowe i ich zastosowania w eksploracji danych, Stanisław Osowski, https://sep.com.pl/photo/files/04%20-%20Stanisław%20Osowski%20-%20Głębokie%20sieci%20neuronowe%20i%20ich%20zastosowania%20w%20eksploracji%20danych.pdf (dostęp 21.10.2022)
Eryka Klimowska
Redaktor
Bio:

Studentka prawa na Uniwersytecie Warszawskim, zafascynowana biznesem, nauką i łączeniem tych dwóch światów w celu skutecznego rozwiązywania realnych problemów na dużą skalę. Od dziecka brała udział w konkursach zarówno z zakresu nauk ścisłych, jak i humanistycznych, przez co nie lubi określać się ani jako ,,humanistka” ani ,,umysł ścisły”. Swoje zainteresowania rozwija jako przewodnicząca studenckiej organizacji biznesowej w Warszawie oraz członkini Koła Naukowego Prawa Medycznego i Farmaceutycznego.

Napisany przez:

Eryka Klimowska

Dodaj komentarz