Marek Stanisław Wiewiórka obronił pracę doktorską
Z przyjemnością informujemy, że w dniu 21 września 2023 roku mgr inż. Marek Stanisław Wiewiórka z Instytutu Informatyki (WEITI) obronił rozprawę doktorską pt.:
"Distributed algorithms and computational methods for scalable processing of high-throughput sequencing data"
Promotorem rozprawy był dr hab. inż. Tomasz Gambin
Streszczenie: Najnowsze odkrycia w sekwencjonowaniu wysokoprzepustowym (HTS) przyczynişy się do bezprecedensowego wzrostu ilości generowanych danych multiomicznych. Z jednej strony, przekroczenie w poşowie pierwszej dekady XXI w. historycznego progu, jakim byş koszt kompletnej sekwencji genomu czşowieka (sekwencjonowanie caşego genomu, WGS) poni£ej tysiąca dolarów, otworzyşo drzwi do wielu narodowych inicjatyw genomowych, takich jak 100,000 Genomes Project w Wielkiej Brytanii, czy 1000 Polskich Genomów. Z drugiej strony, wiele popularnych metod bioinformatycznych do analizy drugoi trzeciorzędowej wykazuje du£ą zşo£oność obliczeniową. Większość istniejących narzędzi i algorytmów analizy genomicznej jest z natury sekwencyjna i nie jest w stanie w peşni wykorzystać mo£liwości rozproszonego modelu obliczeń, co czyni sytuację jeszcze trudniejszą. W szczególności, jak dotąd nie zaproponowano prawdziwie skalowalnych metod dla typowych operacji genomicznych, takich jak obliczanie gşębokości pokrycia, podsumowywanie krótkich odczytów (ang. pileup) i şączenie zbiorów danych za pomocą przecięć przedziaşowych. Ponadto, znikoma liczba badań podejmuje temat wyzwań związanych z projektowaniem genomicznych platform chmurowych do rozproszonego przetwarzania i analizy danych pochodzących z HTS. Podobnie maşo uwagi poświęcono idei wykorzystania zuniĄkowanego podejścia, realizującego deklaratywny paradygmat programowania do wyra£ania operacji genomicznych przy u£yciu języka Structured Query Language (SQL). Niniejsza rozprawa ma na celu wypeşnienie tych luk poprzez przedstawienie koncepcji Genomicznej Platformy Danych typu Lakehouse oraz zaprezentowanie projektu SeQuiLa, implementującego nowatorskie skalowalne metody dla wy£ej wymienionych, obliczeniowo wymagających, operacji genomicznych. Na poni£szą pracę skşada się seria sześciu publikacji poprzedzonych wstępem, w którym Autor opisuje wyzwania i najnowsze osiągnięcia w dziedzinie analizy danych genomicznych. Słowa kluczowe: Big Data, obliczenia rozproszone, obliczenia chmurowe, sekwencjonowanie wysokoprzepustowe, architektura Data Lakehouse