Metody i algorytmy sztucznej inteligencji

Projekt - Dziedziczenie chorób genetycznych

Autor projektu: Marcin Rabenda 128245 (ARS) 09.06.2006

Prowadzący projekt: dr inż. Witold Paluszyński


1. Wstęp

Program służy do określenia prawdopodobieństwa odziedziczenia choroby genetycznej z rodzica na potomka. Prawdopodobieństwa otrzymujemy w  wyniku pewnych wyszczególnionych w programie zależności.

Badania można przeprowadzać ze względu na:
- stopień dziedziczności choroby,
- wpływ czynników zewnętrznych,
- uleczalność zaistniałych chorób,
- skuteczność przeciwdziałania chorobom,
- prawdopodobieństwo zaatakowania organów,

Dane statystyczne zostały zaczerpnięte i opracowane przy współpracy z biologiem i lekarzem medycyny. Dane wykorzystane do wykonania programu są częścią projektu badawczego, mającego na celu zobrazowanie statystycznych zjawisk występujących w przyrodzie, oraz badań przeprowadzonych w celu zwalczania chorób genetycznych.

2. Opis chorób

Zespół Alagille'a

Zespół Alagille'a (ang. Alagille syndrome, AGS) jest wieloukładowym zespołem zaburzeń rozwojowych. AGS charakteryzuje się występowaniem zaburzeń w budowie wątroby, serca, nerek i trzustki. Kryterium diagnostycznym jest występowanie skąpości dróg żółciowych w połączeniu z trzema z pięciu głównych cech klinicznych, takich jak: cholestaza wewnątrzwątrobowa, wady serca, wady kręgosłupa, wady narządu wzroku oraz charakterystyczny wygląd twarzy. Choroba dziedziczy się w sposób autosomalny dominujący, z wysoką penetracją (ok. 94%) i zmienną ekspresją objawów.

Choroba Friedreicha

Choroba Friedreicha, opisana po raz pierwszy w 1864 roku, określana również jako ataksja Friedreicha, zwyrodnienie rdzeniowo-móżdżkowe lub bezwład dziedziczny rdzeniowo-móżdżkowy, jest skutkiem postępującego procesu zwyrodnieniowego w obrębie układu nerwowego (głównie struktur rdzenia kręgowego i móżdżku). Choroba dziedziczy się jako cecha auto-somalnie recesywna. Jest jedną z najczęstszych ataksji dziedzicznych.

Choroba Leigha

Choroba Leigha (ang. Leigh Disease, LD,) jest jednym z częściej występujących zaburzeń łańcucha oddechowego u dzieci. Jest to zespół heterogenny u podłoża, którego leżą defekty molekularne związane z deficytem kompleksu IV, a także deficytem kompleksów I, II i V, deficytem kompleksu dehydrogenazy pirogronianu i karboksylazy pirogronianu, bądź zaburzeniami funkcji enzymów metabolizmu pośredniego, prowadzącymi do intoksykacji.

Trombofilia

Aktywowany czynnik V krzepnięcia jest składnikiem kompleksu enzymatycznego czynnika X przekształcającego protrombinę w trombinę podczas wykrzepiania krwi. Gen kodujący czynnik V krzepnięcia znajduje się na chromosomie 1, w regionie 1q23. Identyfikacja osób z grupy ryzyka trombofilii pozwala na zastosowanie odpowiedniej profilaktyki w okolicznościach mogących wyzwalać zakrzepicę (np. zabieg operacyjny).

Deficyt dehydrogenazy acylo-CoA średniołańcuchowych kwasów tłuszczowych (MCAD)

Deficyt dehydrogenazy acylo-CoA średniołańcuchowych kwasów tłuszczowych jest genetyczną wadą metabolizmu o autosomalnym recesywnym dziedziczeniu. Zaliczany jest do defektów -oksydacji kwasów tłuszczowych, które uniemożliwiają wykorzystanie tłuszczów jako źródła energii, stanowiąc ryzyko wystąpienia zagrażających życiu epizodów (hipoglikemii hipoketotycznej, zespołu Reye'a, zespołu nagłego zgonu).

Dystrofia mięśniowa

DMD jest chorobą uwarunkowaną genetycznie, polega na stopniowym i nieodwracalnym zaniku mięśni wywołanym uszkodzeniem białka sarkoplazmatycznego - dystrofiny. Opisano dwie postacie kliniczne: z ostrym jej przebiegiem typ Duchenne'a (DMD) i z łagodnym typ Beckera (BMD). W ostrej postaci pacjenci przestają samodzielnie chodzić w wieku 8-10 lat, a śmierć na skutek niewydolności oddechowej następuje około 20 roku życia, w postaci łagodnej spektrum objawów jest zróżnicowane od objawów nieco łagodniejszych niż w postaci Duchenne'a poprzez kardiomiopatie do przypadków bezobjawowych.

Hemochromatoza dziedziczna

Rodzinnie występujące zaburzenie metabolizmu żelaza spowodowane gromadzeniem się złogów hemosyderyny w narządach miąższowych prowadzi w 4 lub 5 dekadzie życia do marskości wątroby, cukrzycy, nadmiernej pigmentacji skóry i niewydolności krążenia. Wczesne objawy hemochromatozy są mało specyficzne i obejmują bóle głowy, bóle stawów i łatwe męczenie się. Chorzy mają często podwyższone poziomy transaminaz i wysoki poziom ferrytyny w osoczu. Wskazaniem do badania molekularnego w kierunku hemochromatozy rodzinnej jest kliniczne podejrzenie choroby. W przypadku molekularnego potwierdzenia diagnozy można ustalić genotyp choroby u bezobjawowych członków rodziny probanta. Efektywne leczenie hemochromatozy polega na regularnych krwioupustach. Zapobiegają one wystąpieniu fenotypu choroby u osób bezobjawowych, u chorych z marskością wątroby zmniejszają występowanie objawów niespecyficznych i ryzyko raka wątroby.

Niedobór Dehydrogenazy- 6- glukozo fosforanowej (G6PD)

G6PD jest enzymem otwierającym cykl pentozowy przemiany glukozy. W cyklu tym NADP ulega redukcji do formy NADPH. Prawidłowe krwinki czerwone mają zdolność utrzymywania takiego stężenia NADPH, które zapewni im właściwą obronę przed stresem oksydacyjnym. Niedobór G6PD zmniejsza rezerwy metaboliczne cyklu pentozowego, co może niekorzystnie odbić się na zdolności krwinek czerwonych do przeżycia.

Rdzeniowy zanik mięśni (SMA)

Rdzeniowy zanik mięśni (SMA) jest chorobą dziedziczną przekazywaną z pokolenia na pokolenie jako cecha autosomalnie recesywna. Choroba prowadzi do zaniku mięśni wywołanego zanikiem motoneuronów rdzenia kręgowego. Wiotkość, brak postępu w rozwoju ruchowym dziecka, niewydolność oddechowa lub też postępujące osłabienie mięśni obręczy biodrowej są zwykle pierwszymi objawami choroby.

Zespół łamliwego chromosomu X

Zespół łamliwego chromosomu X jest najczęstszą dziedziczną formą upośledzenia umysłowego i drugą, po zespole Downa, przyczyną upośledzenia umysłowego uwarunkowaną genetycznie. Za występowanie zespołu odpowiedzialne jest nadmierne wydłużenie (ekspansja) niestabilnej sekwencji powtórzonej (CGG)n w pierwszym eksonie genu FMR1. Ten typ mutacji, określany mianem mutacji dynamicznych.

Galaktozemia

Klasyczna galaktozemia jest wadą metaboliczną, powodowaną znacznym niedoborem lub brakiem aktywności urydylo-transferazy galaktozo-1-fosforanowej (GALT). Nie leczona powoduje uszkodzenia wątroby. Leczenie galaktozemii polega na wyeliminowaniu z diety galaktozy i musi być prowadzone przez całe życie chorego. Diagnostyka molekularna umożliwia weryfikację rozpoznania klinicznego oraz identyfikację nosicieli w rodzinie ryzyka. Molekularna charakterystyka (określenie genotypu pacjenta) ułatwia leczenie i prognozowanie przebiegu choroby.


Tabela przedstawiająca dane statystyczne wykorzystane w programie

Choroba
Prawdopodobieństwo odziedziczenia
Wpływ czynników zewnętrznych
Prawdopodobieństwo zaatakowania organów
Skuteczność leczenia
Prawdopodobieństwo uleczenia przed rozwinięciem się choroby
Zespół Alagille'a 25% (0.015%)
palenie 55% (0.075%)
tłusta dieta 35% (0.0375%)
ukł. krwionośny 53%
ukł. trawienny 30%
0%
11%
Choroba Friedreicha 14% (0.001%)
brak
ukł. nerwowy 30%
0%
61%
Choroba Leigha 7.2% (0.004%))
palenie 15% (0.02%)
ukł. oddechowy 26%
0% (w 70% przypadków prowadzi do zgonu)
0%
Trombofilia 46% (0.04%)
brak
ukł. krwionośny 20%
0%
68%
Deficyt MCAD
57% (0.0025%)
siedzący tryb życia 75% (0.0035%)
problemy z metabolizmem 86%
0% (w 12% przypadków prowadzi do zgonu) 0%
Dystrofia mięśniowa 42% (0.0033%)
siedzący tryb życia 77% (0.0075%)
ukł. mięśniowy 68%
0% (w 10% przypadków prowadzi do zgonu) 0%
Hemochromatoza dziedziczna 33% (0.03%)
tłusta dieta 62.5% (0.075%)
ukł. trawienny 52%
91%
99%
Niedobór G6PD 1.2% (0.0019%)
palenie 6% (0.0095%)
ukł. krwionośny 3%
50%
75%
Rdzeniowy zanik mięśni 78% (0.001%)
siedzący tryb życia  99% (0.004%)
ukł. mięśniowy 78%
0%
21%
Zespół łamliwego chromosomu X 21% (0.01%)
brak
ukł. nerwowy 24%
0%
1%
Galaktozemia
63% (0.017%)
tłusta dieta 92% (0.0425%)
ukł. trawienny 26%
68%
98%

Opis kolumn tabeli:

- Prawdopodobieństwo odziedziczenia oznacza odziedziczenie przez potomka od rodziców zmutowanego genu. Wartość w nawiasach oznacza samoistne zmutowanie się genu u potomka w przypadku, kiedy rodzice nie posiadają zmutowanego genu.
- Wpływ czynników zewnętrznych oznacza zwiększenie prawdopodobieństwa odziedziczenia wadliwego genu do wartości podanej w procentach
- Prawdopodobieństwo zaatakowania organów mówi o częstości atakowania organów przez chorobę. Fakt występowania choroby w organizmie nie świadczy o tym, że organizm zostanie zaatakowany (można powiedzieć o tzw. nosicielstwie).
- Skuteczność leczenia jest to procentowa ilość wyleczonych przypadków
- Prawdopodobieństwo uleczenia przed rozwinięciem się choroby jest to procentowa ilość przypadków wyleczonych przed objawowym rozwinięciem się choroby.


5. Analiza danych

Samodzielnie nie byłem w stanie zebrać dokładnych i precyzyjnie opracować danych. Analiza budowy genomu ludzkiego, czynniki wpływające na zwiększenie występowania mutacji, oraz zjawiska między pokoleniowe wymagały zaczerpnięcia fachowej wiedzy.  W tym celu skontaktowałem się z biologiem mgr. Katarzyną Cyrzytek, oraz lekarzem medycyny pracującym przy opracowywaniu leków w przemyśle farmakologicznym lek. med. Dominikiem Rakiem.

4. Opis elementów programu




Opis poszczególnych elementów programu
Ze względu na podobieństwo w budowie sieci elementy są opisane schematycznie.

p(Rodzice)
posiadają_zmutowany_gen   nie_posiadają_zmutowanego_genu   p(Rodzice|...)
                TAK                                          NIE                                    1
                NIE                                           TAK                                   0
Wybór zdarzenia w którym decydujemy czy rodzice posiadają zmutowany gen.


p(CHOROBA|Rodzice,CZYNNIK_ZEWNĘTRZNY)
CHOROBA - jest to interesującą nas choroba. W tym elemencie wybieramy prawdopodobieństwo czy dana choroba wystąpi. Do wyboru mamy takie choroby jak:
- Zespół Alagille'a
- Choroba Friedreicha
- Choroba Leigha
- Trombofilia
- Choroba Leigha
- Deficyt MCAD
- Dystrofia mięśniowa
- Hemochromatoza dziedziczna
- Niedobór G6PD
- Rdzeniowy zanik mięśni
- Zespół łamliwego chromosomu X
- Galaktozemia

CZYNNIK_ZEWNĘTRZNY - Są to czynniki wpływające na poszczególne choroby (palenie papierosów, tłusta dieta, siedzący tryb życia)
W zależności od CZYNNIKA_ZEWNĘTRZNEGO i p(Rodzice) program zwróci wartość prawdopodobnego zachorowania potomka na daną chorobę.
Jeżeli rodzice nie posiadają zmutowanych genów zwróci wartość prawdopodobnego zmutowania się genu.


p(CZYNNIK_ZEWNĘTRZNY)

CZYNNIK_ZEWNĘTRZNY jest to czynnik wpływający na zwiększone ryzyko odziedziczenia zmutowanego genu po rodzicach, bądź wystąpienia mutacji u samego potomka. Należy wybrać czy czynnik zewnętrzny istnieje, czy też nie.
- Palenie
- Tłusta dieta
- siedzący tryb życia


p(ATAKUJE_UKŁAD|CHOROBA)

ATAKUJE_UKŁAD - element zwracający wartość prawdopodobieństwa zaatakowania przed chorobę narządów z danego układu. Nie zawsze samo pojawienie sie choroby powoduje zaatakowanie narządów. z układów:
- krwionośnego
- nerwowego
- trawiennego
- oddechowego
- mięśniowego
- powoduje problemy z metabolizmem

p(ULECZALNOŚĆ_CHOROBY|CHOROBA,ATAKUJE_UKŁAD)
Jest to prawdopodobieństwo wyleczenia choroby już po jej ujawnieniu, lub prawdopodobieństwo uleczenie przed jej ujawnieniem. Uleczalność choroby zależy od rodzaju choroby oraz od tego czy zaatakowała już organizm.

5. Przykłady działania

Przykład 1 sprawdzanie szansy na zachorowanie na daną chorobę ze względu na czynniki zewnętrzne oraz występowanie zmutowanych genów u rodziców.

Załóżmy, że rodzice posiadają zmutowany gen, oraz palą papierosy to szansa na wystąpienie choroby Leighta wynosi 15%, a na zaatakowanie układu oddechowego dziecka przez chorobę 3.9%.

probability (  "Leighta" ) { //1 variable(s) and 2 values
    table
        0.15    // p(wystapi | evidence )
        0.85;     // p(niewystapi | evidence );
}
probability (  "Atakuje_uklad_oddechowy" ) { //1 variable(s) and 2 values
    table
        0.039    // p(TAK | evidence )
        0.961;     // p(NIE | evidence );
}


Załóżmy, że rodzice nie posiadają zmutowanego genu, ale palą papierosy to wtedy szansa na wystąpienie choroby Leighta wynosi 0.002%, a zaatakowanie układu oddechowego dziecka przez chorobę  0.0052%

probability (  "Leighta" ) { //1 variable(s) and 2 values
    table
        2.0E-4    // p(wystapi | evidence )
        0.9998;     // p(niewystapi | evidence );
probability (  "Atakuje_uklad_oddechowy" ) { //1 variable(s) and 2 values
    table
        5.2000000000000004E-5    // p(TAK | evidence )
        0.9999480000000001;     // p(NIE | evidence );
}


Załóżmy, że rodzice posiadają zmutowany gen, ale nie palą papierosów to wtedy szansa wystąpienia choroby Leighta wynosi 7.2%, a zaatakowanie układu oddechowego dziecka przez chorobę 1.872%.

probability (  "Leighta" ) { //1 variable(s) and 2 values
    table
        0.072    // p(wystapi | evidence )
        0.928;     // p(niewystapi | evidence );
}
probability (  "Atakuje_uklad_oddechowy" ) { //1 variable(s) and 2 values
    table
        0.01872    // p(TAK | evidence )
        0.98128;     // p(NIE | evidence );
}


Załóżmy, że rodzice nie posiadają zmutowanego genu, oraz nie palą papierosów to wtedy szansa wystąpienia choroby Leighta wynosi 0.004%, a zaatakowanie układu oddechowego dziecka przez chorobę 0.00104%.

probability (  "Leighta" ) { //1 variable(s) and 2 values
    table
        4.0E-5    // p(wystapi | evidence )
        0.99996;     // p(niewystapi | evidence );
}
probability (  "Atakuje_uklad_oddechowy" ) { //1 variable(s) and 2 values
    table
        1.0400000000000002E-5    // p(TAK | evidence )
        0.9999896;     // p(NIE | evidence );


Przykład 2 sprawdzenie możliwości wyleczenia choroby

Załóżmy, że rodzice posiadają zmutowany gen powodujący Rdzeniowy zanik mięśni, Rdzeniowy zanik mięśni wystąpił u ich potomka, oraz zaatakował już układ mięśniowy to szansa na wyleczenie choroby wynosi 0%.

probability (  "Uleczalnosc_Rdzeniowego_zaniku_miesni" ) { //1 variable(s) and 2 values
    table
        0.0    // p(ULECZALNA | evidence )
        1.0;     // p(NIEULECZALNA | evidence );
}

Załóżmy, że rodzice posiadają zmutowany gen powodujący Rdzeniowy zanik mięśni, Rdzeniowy zanik mięśni nie wystąpił u ich potomka, ale potomek cierpi na zaburzenia pracy układu mięśniowego to szansa na zapobiegnięcie wystąpienia choroby wynosi 24.4186%.

probability (  "Uleczalnosc_Rdzeniowego_zaniku_miesni" ) { //1 variable(s) and 2 values
    table
        0.2441860465116279    // p(ULECZALNA | evidence )
        0.7558139534883721;     // p(NIEULECZALNA | evidence );
}


 Załóżmy, że rodzice posiadają zmutowany gen powodujący Rdzeniowy zanik mięśni, Rdzeniowy zanik mięśni wystąpił u ich potomka, ale nie zaatakował jeszcze układu mięśniowego to szansa na wyleczenie choroby wynosi 0%.

probability (  "Uleczalnosc_Rdzeniowego_zaniku_miesni" ) { //1 variable(s) and 2 values
    table
        0.0    // p(ULECZALNA | evidence )
        1.0;     // p(NIEULECZALNA | evidence );
}

Załóżmy, że rodzice posiadają zmutowany gen powodujący Rdzeniowy zanik mięśni, Rdzeniowy zanik mięśni nie wystąpił u ich potomka, oraz potomek nie cierpi na zaburzenia pracy układu mięśniowego to szansa na zapobiegnięcie wystąpienia choroby wynosi 21%.

probability (  "Uleczalnosc_Rdzeniowego_zaniku_miesni" ) { //1 variable(s) and 2 values
    table
        0.21    // p(ULECZALNA | evidence )
        0.79;     // p(NIEULECZALNA | evidence );
}


6. Wnioski

Z przeprowadzonych badań mogę wywnioskować, że prawdopodobieństwo samoistnego zmutowania się genu, jeżeli rodzice nie posiadali genu chorobotwórczego jest znikome. Wyniki programu są porównywalne do danych światowych mówiących o ilości zachorowań na wymienione w programie choroby genetyczne. Najczęstszym przypadkiem wystąpienia choroby jest odziedziczenie jej po rodzicach.
Czynniki zewnętrzne w wielu przypadkach znacząco zwiększają prawdopodobieństwo wystąpienia choroby, a czasem nawet to prawdopodobieństwo zwielokrotniają.
Samo występowanie choroby w organizmie w ewidentny sposób zaburza pracę organizmu, a w ekstremalnych przypadkach prowadzi nawet do śmierci.
Na wiele chorób nadal nie ma skutecznej terapii genowej, czy też skutecznych zabiegów likwidujących choroby (takie jak zabiegi chirurgiczne, transfuzje czy też zajęcia ruchowe), bądź też ich skutki .

7. Środowisko

Sieć Bayesowska została stworzona w programie JavaBayes v. 0.346

8. Źródła

- Wszystkie dane o chorobach genetycznych zostały zaczerpnięte od biologa mgr. Katarzyny Curzytek, oraz lek. med. Dominika Raka.
- http://sequoia.ict.pwr.wroc.pl/~witold/ai/beliefnet_s.pdf  - "Przygotowanie do ćwiczenia w systemie JavaBayes" - wykład dr inż. Witolda Paluszyńskiego poruszający tematykę ćwiczeń w systemie JavaBayes
- http://www.cs.cmu.edu/~javabayes/Home/node3.html  -  strona z której pobrałem program do tworzenia sieci Bayesowskiej