Odkrycie liniowych polimerów w żywych organizmach pozwoliło dostrzec nieoczekiwaną własność natury jaką jest zapis informacji biologicznej, która jest abstrakcyjna i niezależna od jej nośnika. Z kolei transport tego nośnika informacji, na przykład od procesu transkrypcji po translację, sugeruje związek tych procesów z transmisją sygnału z wykorzystaniem odpowiedniego systemu kodowania i mechanizmów kontroli.
DNA, RNA czy sekwencje białek zbudowane są z ograniczonej liczby podobnych monomerów. Sposób reprezentacji sekwencji tych monomerów jest tematem otwartym. Jedynie w najprostszym podejściu wykorzystuje się alfabet 4 lub 20 literowy zależnie od rodzaju molekuły. W szerszym podejściu uwzględnia się kontekst, długość kodonu, właściwości fizyko-chemiczne monomerów.
Naszą uwagę koncentrujemy na poniższych zagadnieniach:
Przykładowa analiza opiera się na wyodrębnieniu wszystkich k-mer czyli podsekwencji o długości k. Częstości każdego k-mer pozwalają zaprezentować sekwencje w postaci wektorowej. Zastosowanie wybranej metryki oceni podobieństwo między sekwencjami.
Reprezentacji chaos game (CGR) to metoda przekształcania sekwencji nukleotydowej (liter) w ciąg liczbiowy. Nukleotydy są umieszczone w rogach kwadratu jednostkowego, na płaszczyźnie. Przykładowa reprezentacja to 𝐴(−1, −1), 𝐶(−1, 1), 𝑇 (1, 1) i 𝐺(1, −1). Zaczynamy od początku 𝑁0 = (0, 0), a następny punkt znajduje się w połowie między poprzednim a kolejnym nukleotydem w obrębie sekwencji.
Metody uczenia maszynowego w eksploracji danych biologicznych. Przykładem jest zastosowanie koncepcji osadzania dla reprezentacji aminokwasów. Tam słowa są reprezentowane jako wektory, a główną cechą takiego podejścia jest to, że podobne słowa mają podobne wektory mierzone podobieństwem cosinusowym lub odległością euklidesową. Zwykle stosuje się do tego celu skip-gram lub ciągły zbiór słów. Zgodnie z drugim podejściem słowa umieszczone w pobliżu słowa mogą wyznaczać to słowo. Dekompozycja zdania na słowa, a następnie na serię osadzeń umożliwia jego analizę za pomocą rekurencyjnych sieci neuronowych (RNN) czy wreszcie bardziej popularnych Transformatorów
Predykcja struktury RNA w pewnych przypadkach może zostać poprawiona w oparciu o strukturę docelowego produktu. W tym podejściu zakłada się podobieństwo struktury transkryptów które kodują homologiczne białka. Przy pewnych założeniach CGR może również reprezentować oprócz sekwencji elementy struktury II rzędowej RNA.
RNAi hamuje etap translacji poprzez wyciszanie cząsteczek mRNA. Ten mechanizm zakłada niedoskonałości i ograniczenia w działaniu czynników transkrypcyjnych, szczególnie w kwestii podaży i popytu na dany transkrypt. W niektórych przypadkach regulacja transkrypcji nie jest wystarczająca i wówczas włącza się mechanizm RNAi. Nie jest trywialne stwierdzić czy nadprodukcja lub niedobór transkryptów jest spowodowana czynnikiem patogennym, czy też wynika z wcześniejszych niedoskonałych etapów regulacji genów.