Przejdź do głównej treści

Widok zawartości stron Widok zawartości stron

Pomiń baner

Widok zawartości stron Widok zawartości stron

Bioinformatyka

Odkrycie liniowych polimerów w żywych organizmach pozwoliło dostrzec nieoczekiwaną własność natury jaką jest zapis informacji biologicznej, która jest abstrakcyjna i niezależna od jej nośnika. Z kolei transport tego nośnika informacji, na przykład od procesu transkrypcji po translację, sugeruje związek tych procesów z transmisją sygnału z wykorzystaniem odpowiedniego systemu kodowania i mechanizmów kontroli.

przepływ informacji od DNA do białka

 

DNA, RNA czy sekwencje białek zbudowane są z ograniczonej liczby podobnych monomerów. Sposób reprezentacji sekwencji tych monomerów jest tematem otwartym. Jedynie w najprostszym podejściu wykorzystuje się alfabet 4 lub 20 literowy zależnie od rodzaju molekuły. W szerszym podejściu uwzględnia się kontekst, długość kodonu, właściwości fizyko-chemiczne monomerów.

Naszą uwagę koncentrujemy na poniższych zagadnieniach:

częstości każdego k-merPrzykładowa analiza opiera się na wyodrębnieniu wszystkich k-mer czyli podsekwencji o długości k. Częstości każdego k-mer pozwalają zaprezentować sekwencje w postaci wektorowej. Zastosowanie wybranej metryki oceni podobieństwo między sekwencjami.

reprezentacja chaos gameReprezentacji chaos game (CGR) to metoda przekształcania sekwencji nukleotydowej (liter) w ciąg liczbiowy. Nukleotydy są umieszczone w rogach kwadratu jednostkowego, na płaszczyźnie. Przykładowa reprezentacja to 𝐴(−1, −1), 𝐶(−1, 1), 𝑇 (1, 1) i 𝐺(1, −1). Zaczynamy od początku 𝑁0 = (0, 0), a następny punkt znajduje się w połowie między poprzednim a kolejnym nukleotydem w obrębie sekwencji.

różnica reprezentacji choas game i embeddingMetody uczenia maszynowego w eksploracji danych biologicznych. Przykładem jest zastosowanie koncepcji osadzania dla reprezentacji aminokwasów. Tam słowa są reprezentowane jako wektory, a główną cechą takiego podejścia jest to, że podobne słowa mają podobne wektory mierzone podobieństwem cosinusowym lub odległością euklidesową. Zwykle stosuje się do tego celu skip-gram lub ciągły zbiór słów. Zgodnie z drugim podejściem słowa umieszczone w pobliżu słowa mogą wyznaczać to słowo. Dekompozycja zdania na słowa, a następnie na serię osadzeń umożliwia jego analizę za pomocą rekurencyjnych sieci neuronowych (RNN) czy wreszcie bardziej popularnych Transformatorów

reprezentacja chaos game struktury RNAPredykcja struktury RNA w pewnych przypadkach może zostać poprawiona w oparciu o strukturę docelowego produktu. W tym podejściu zakłada się podobieństwo struktury transkryptów które kodują homologiczne białka. Przy pewnych założeniach CGR może również reprezentować oprócz sekwencji elementy struktury II rzędowej RNA.

model procesu intereferencji RNARNAi hamuje etap translacji poprzez wyciszanie cząsteczek mRNA. Ten mechanizm zakłada niedoskonałości i ograniczenia w działaniu czynników transkrypcyjnych, szczególnie w kwestii podaży i popytu na dany transkrypt. W niektórych przypadkach regulacja transkrypcji nie jest wystarczająca i wówczas włącza się mechanizm RNAi. Nie jest trywialne stwierdzić czy nadprodukcja lub niedobór transkryptów jest spowodowana czynnikiem patogennym, czy też wynika z wcześniejszych niedoskonałych etapów regulacji genów.