W dzisiejszych czasach przepływ informacji następuje w niesamowitym tempie i na ogromną skalę. Gdy przyjrzymy się przykładowi rozmowy wideo na odległość pomiędzy osobą znajdującą się w Nowym Jorku i w Warszawie – na pierwszy rzut oka nie wydaje się to niesamowite. Czy jest tak naprawdę? W linii prostej te miasta dzieli odległość 6854 km. Jak więc wideo i dźwięk docierają do rozmówców bez wyraźnego opóźnienia?
Przesył danych – skala i aktualne wyzwania
Problem przesyłu danych dotyczy zarówno szybkości, jak i przepustowości stosowanych łączy [ang. Bandwith]. Stanowi to spore wyzwanie dla przesyłu danych, gdyż na klasycznym łączu światłowodowym internet wykorzystuje protokół TCP/IP który aktywnie wyczerpuje jedynie ok. 20% pasma. Gdy weźmiemy pod uwagę ogromne zbiory danych, które są przetwarzanie i przesyłane w genomice, bioinformatyce, czy kosmicznych projektach obserwacyjnych; potrzeby na szybki i niezawodny transfer danych stają się kluczową kwestią. W najbliższej przyszłości obserwacje kosmosu np. Przy użyciu budowanych właśnie radioteleskopów Powierzchni Jednego Kilometra (ang. Square Kilometer Area) dane z obserwacji kosmosu będą generowane z szybkością rzędu 1 000 Petabajtów na dzień. Są to tak ogromne dane, że mimo ich redukcji i częściowej analizy “w locie” (ang. In flight) przechowywanie ich w pojedynczym Data Centre jest nierealne – trzeba przeprowadzić podział, transfer i przechowywać dane w różnych centrach.
Transfer danych stanowi ważną kwestię przy przetwarzaniu ogromnych zbiorów danych. Pójdźmy jednak o krok dalej. Zakładając, że dane nie tylko chcemy przechowywać, ale także wykorzystywać – mierzymy się z jeszcze większym wyzwaniem – zapewnienia wystarczającej mocy obliczeniowej. Problem ten został zaadresowany przez projekt InfiniCortex prowadzony w latach 2014-2016 w Singapurze z udziałem kilku tuzinów organizacji sieciowych, globalnych firm technologicznych, uniwersytetów i jednostek badawczych na całym świecie. Było to bezprecedensowe i unikalne wydarzenie na scenie supercomputingu. Zespołowi przewodził dr Marek Michalewicz, wówczas dyrektor generalny w A*STAR Computational Resource Centre, Singapur. Ze względu na globalny charakter tego projektu partnerami było ponad czterdzieści organizacji na świecie, wśród nich tzw. NRENs (National Research and Education Networks) takie jak Internet 2 w USA, ESNet Departamentu Energii w Stanach Zjednoczonych, GEANT w Europie czy polskie naukowo edukacyjne konsorcjum sieciowe PIONIER stworzone i zarządzane przez Poznańskie Centrum Superkomputerowo-Sieciowe oraz operatorzy komercjalni światłowodów na świecie tacy jak Tata Communications czy PacificWave, oraz szereg uniwersytetów takich jak Tokyo Institute of Technology; Australian National University, AU; Georgia Institute of Technology, Georgie, USA; Stony Brook Univeristy in NY, USA, Georgetown University, D.C. USA; Reims University in France and Poznańskie Centrum Superkomputerowo Sieciowe oraz Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego (ICM) Uniwersytetu Warszawskiego.. Dzięki zaangażowaniu wszystkich zespołów i przewodnictwu A*CRC w Singapurze i finansowaniu od partnerów komercjalnych udało się osiągnąć zaskakujące efekty. [1].
Gdzie wykorzystuje się superkomputery?
Superkomputery stanowią obecnie niezwykle ważne narzędzie w dziedzinie obronności, badań nad klimatem i przewidywaniem pogody, inżynierii, genomiki, medycyny i diagnostyki medycznej, oraz od niedawna w dziedzinie sztucznej inteligencji i tzw. Large Language Models. Dzięki nim możliwe jest przeprowadzanie zaawansowanych analiz genomowych, diagnozowanie chorób, a także prowadzenie badań nad nowymi terapiami. Są one używane do przetwarzania ogromnych ilości danych z dowolnej dziedziny nauki w szczególności – genetycznych – pozwala to na dokładne analizowanie genomów pacjentów oraz dogłębne badanie mutacji genetycznych związanych z chorobami. Zasługą superkomputerów jest szybkie diagnozowanie chorób genetycznych oraz tworzenie indywidualnych planów leczenia. Medycyna to duże pole rozwoju dla wykorzystania technologii. Superkomputery są tutaj wykorzystywane również do symulowania skomplikowanych procesów biologicznych, co pozwala na testowanie nowych leków oraz prowadzenie badań nad nowymi terapiami. W tym celu wykorzystuje się symulacje komputerowe, które pozwalają na przetestowanie różnych wariantów leków i wybranie najlepszego rozwiązania.
Wraz z rozwojem robotyki medycznej i badań genomicznych, superkomputery będą stanowiły niezbędne narzędzie dla medycyny spersonalizowanej. W każdym szpitalu coraz częściej pojawiają się sequencery, umożliwiające przeprowadzenie badania genomicznego. Jednak, aby dokładnie przeanalizować pobrany materiał, potrzebna jest ogromna moc obliczeniowa oraz dobre łącze na linii szpital – centrum danych.
Czym jest projekt InfiniCortex?
InfiniCortex skupia się na czterech aspektach, z których najważniejszym jest międzykontynentalna łączność o wysokiej przepustowości pomiędzy Azją (Singapur, Japonia), Australią, USA i Europą (Polska, Francja). Istotne są też przepływy pracy i aplikacje na współbieżnej infrastrukturze obliczeń rozproszonych oraz łączenie oddzielnych podsieci InfiniBand [2] o różnych topologiach sieciowych w celu stworzenia jednego zasobu obliczeniowego. InfiniCortex pozwolił na stworzenie „połączenia” superkomputerów globalnie – łącząc ich moc obliczeniową, zwiększając wydajność i tworząc „Galaktykę superkomputerów”. [1]
Podczas konferencji w Austin zaprezentowano najbardziej rozbudowaną formę InfiniCortex, która obejmowała pierwsze na świecie okrążenie InfiniBand wokół kuli ziemskiej, większość ścieżki przebiegała z prędkością aż 100 GB/s! Rozwiązanie było testowane z wielu miejsc na całym świecie i dotyczyły: usług genomicznych, bioinformatyki, analizy obrazów medycznych, symulacji reaktora termojądrowego pozyskiwania energii, asynchroniczne solwery liniowe, framework ADIOS, rozproszoną pamięć masową HPC oraz wirtualizację zasobów. Współbieżne rozwiązanie superkomputerowe może zrewolucjonizować transfer danych i globalizację obliczeń w skali około-ziemskiej. To pierwsze takie rozwiązanie dostarczone przez naukowców cywilnych – wcześniej technologię wykorzystywało NASA czy nieoficjalne, wojskowe projekty ale wyłącznie do przesyłu wielkich danych o znaczeniu militarnym.
Potencjał dla rynku polskiego
W rozmowie, dr Marek Michalewicz wielokrotnie zaznaczał skalę możliwości zastosowań tego projektu. Podkreślił także potencjał rynku polskiego w tym zakresie:
„Polska ma fantastyczne możliwości pod kątem rozwoju superkomputingu. Już na początku XX wieku Poznaniacy stworzyli Konsorcjum PIONIER, zapewniając światłowodowe połączenia. Polska jest jednym z niewielu krajów, które mają tak solidne podłoże fizyczne do przesyłu danych. Dodatkowo technologia światłowodowa i okablowanie jest trwałe – może służyć przez wiele lat. To znakomita inicjatywa”.
dr Marek Michalewicz
Dzięki sieci światłowodowej, która rozłożona jest na terenie całej Polski, organizacje naukowe w kraju nie muszą płacić komercyjnych stawek za wykorzystywanie tej przepustowości. To pozwala na przeprowadzanie zaawansowanych badań naukowych, w tym także tych na temat superkomputerów. Polska od wielu lat aktywnie uczestniczy w projektach europejskich związanych z rozwojem superkomputerów, ostatnio w ramach europejskiego programu EuroHPC. Od niedawna Polska zaangażowała się w europejski projekt bezpiecznej transmisji danych przy użyciu technologii kwantowych.
Stosowaną przez Konsorcjum technologią jest szerokopasmowa, optyczna sieć szkieletowa PIONIER, która integruje 21 akademickich sieci metropolitalnych – MAN i 5 Centrów Komputerów Dużej Mocy [3]. Bez wątpliwości supercomputing będzie dalej się rozwijał, a razem z nim wykorzystanie go we wszystkich dziedzinach nauki i inżynierii oraz w biomedycynie molekularnej (tzw. omics), analizie danych genomicznych, diagnostyce na odległość, i rozwiązaniach chmurowych.
Rozwój superkomputerów jest niezwykle ważny dla przyszłości technologicznej kraju. Polska ma szansę stać się jednym z liderów w dziedzinie badań i rozwoju oraz zastosowań superkomputerów. To otwiera nowe możliwości rozwoju dla państwa i pozwala na przyciągnięcie nowych inwestycji.
Bibliografia
- InfiniCortex – From Proof-of-concept to Production
https://www.researchgate.net/publication/318673017_InfiniCortex_-_From_Proof-of-concept_to_Production (accessed: 26 May 2023) - InfiniBAND, https://en.wikipedia.org/wiki/InfiniBand , (accessed: 26 May 2023)
- Konsorcjum Pionier, https://pionier.net.pl, (accessed: 26 May 2023)
- InfiniCortex: Present and Future
https://www.researchgate.net/publication/303680868_InfiniCortex_Present_and_Future (accessed: 26 May 2023) - InfiniCortex: concurrent supercomputing across the globe utilising trans-continental InfiniBand and Galaxy of Supercomputers
https://www.researchgate.net/publication/269287382_InfiniCortex_concurrent_supercomputing_across_the_globe_utilising_trans–continental_InfiniBand_and_Galaxy_of_Supercomputers (accessed: 26 May 2023) - High Performance Computing as a critical discovery and support infrastructure in Bio-Medical Research and Practice
https://sano.science/seminars/high-performance-computing-as-a-critical-discovery-and-support-infrastructure-in-bio-medical-research-and-practice/ (accessed: 26 May 2023)
Zuzanna Czernicka, Joanna Rancew