Badanie aktywności elektrycznej mózgu za pomocą elektroencefalografii, powszechnie znanej jako EEG, to jedna z podstawowych metod diagnostycznych w neurologii. Elektrody przyklejone do skóry głowy rejestrują mikroskopijne sygnały elektryczne generowane przez miliardy neuronów, tworząc zapis, który lekarz analizuje wzrokiem, szukając charakterystycznych wzorców świadczących o nieprawidłowościach. Brzmi precyzyjnie. W praktyce jednak ta metoda ma poważne ograniczenia, z którymi zmierzyła się Maja Marzec z Wydziału Fizyki Uniwersytetu Warszawskiego, prezentując swoje badania podczas VII edycji Our Future Forum w grudniu 2025 roku.
Problem: ocean danych i ludzkie oko
Każde badanie EEG generuje ogromną ilość informacji. W zbiorze danych wykorzystanym przez Marżec, obejmującym blisko 56 tysięcy zapisów EEG pochodzących z 38 szpitali i dostarczonych przez firmę Elmiko Biosignals, każde sześciosekundowe okno czasowe jednego nagrania przekładało się na aż 2850 odrębnych cech sygnału. Cechy te opisywały między innymi spójność sygnałów między różnymi obszarami mózgu, widmo częstotliwościowe oraz kowariancję, czyli wzajemne zależności między elektrodami.
Wyobraźmy sobie, że lekarz ma przejrzeć wzrokiem tysiące takich zapisów, każdy składający się z setek kanałów danych, i ocenić, czy aktywność mózgu jest prawidłowa, czy patologiczna. To zadanie nie tylko czasochłonne, ale też nieuchronnie subiektywne. Dwóch doświadczonych specjalistów może ocenić ten sam zapis różnie. Właśnie tu pojawia się szansa dla uczenia maszynowego.
Cel: mniej danych, ta sama wiedza
Głównym wyzwaniem badania było znalezienie skutecznej metody upraszczania tych ogromnych zbiorów danych bez utraty informacji diagnostycznie istotnych. W matematyce i informatyce nazywa się to redukcją wymiarowości. Chodzi o to, żeby z 2850 cech wyodrębnić znacznie mniejszy zestaw, który wciąż pozwala odróżnić prawidłową aktywność mózgu od patologicznej.
Marzec zastosowała w tym celu dwie techniki: analizę głównych składowych, w skrócie PCA, oraz analizę składowych niezależnych, zwaną ICA. Obie metody działają na podobnej zasadzie: szukają w danych ukrytych wzorców i przekształcają je w nową, bardziej zwartą reprezentację. Innowacyjnym elementem pracy jest zastosowanie ICA nie do usuwania artefaktów z sygnału EEG, co jest jej standardowym zastosowaniem w neurologii, lecz właśnie do redukcji wymiarowości cech wyodrębnionych ręcznie. To podejście wyraźnie odróżnia tę pracę od dotychczasowych badań w tej dziedzinie.
Wynik: dziesięć razy mniej danych, niemal ta sama skuteczność
Efekty są obiecujące. Po zastosowaniu redukcji wymiarowości metodą PCA liczba cech spadła z 2850 do zaledwie 247, a więc do około dziesięciu procent pierwotnego zbioru. Tymczasem skuteczność klasyfikatora, mierzona wskaźnikiem AUC, czyli zdolnością modelu do odróżniania przypadków prawidłowych od patologicznych, obniżyła się tylko nieznacznie: z 0,86 do 0,84. W praktyce oznacza to, że model zachował niemal pełną moc diagnostyczną, operując na ułamku pierwotnych danych.
Do klasyfikacji sygnałów jako prawidłowych lub patologicznych wykorzystano metodę zwaną Gradient-Boosted Ensemble, czyli zespół wzmocnionych drzew decyzyjnych, uznaną za jedną z najskuteczniejszych technik uczenia maszynowego w zadaniach klasyfikacyjnych na danych tabelarycznych.
Interpretowalność: co tak naprawdę widzi algorytm?
Jednym z częstych zarzutów wobec modeli uczenia maszynowego jest to, że działają jak czarna skrzynka: dają wynik, ale nie wiadomo, dlaczego. Marzec zwróciła szczególną uwagę na kwestię interpretowalności, czyli na to, czy zredukowane cechy wciąż mają sens diagnostyczny i czy można zrozumieć, co model faktycznie analizuje. Analiza selektywnej aktywacji składowych wskazuje, że zredukowane reprezentacje sygnału rzeczywiście różnicują prawidłową i patologiczną aktywność mózgu w sposób, który można zinterpretować. To ważne z punktu widzenia zastosowań klinicznych: lekarz musi móc zaufać narzędziu i rozumieć jego logikę.
Neuroscreening: wstępna ocena zdrowia mózgu
Projekt wpisuje się w szerszy nurt badań nad neuroscreeningiem, czyli metodą szybkiej, wstępnej oceny aktywności mózgu, która mogłaby służyć jako narzędzie przesiewowe w identyfikacji predyspozycji do chorób psychicznych lub neurologicznych. W zatłoczonych szpitalach, gdzie czas lekarza jest na wagę złota, system wspierający decyzje diagnostyczne, który szybko i obiektywnie oceni, czy dany zapis EEG wymaga pilnej uwagi specjalisty, mógłby realnie poprawić jakość i dostępność opieki zdrowotnej.
Praca Maji Marzec pokazuje, że inteligentne przetwarzanie sygnałów biomedycznych nie musi oznaczać rezygnacji z interpretowalności na rzecz skuteczności. Można mieć jedno i drugie, a mózg ludzki i algorytm mogą w diagnostyce nie rywalizować, lecz współpracować.
Opracowano na podstawie posteru, pn. „Exploring EEG Features Strukturę for Neuroscreening: A Study of Dimensionality Reduction Techniques” zaprezentowanego przez Maję Marzec podczas VII edycji konferencji Our Future Forum w ramach konkursu na najlepszy poster. Zapraszamy do wysłuchania całego wystąpienia na naszym kanale na YouTube.
