Varjatud Markovi mudelitega seonduv
Varjatud Markovi mudelid on latentsete ehk varjatud tunnustega mudelite klass, mille korral eeldatakse, et vaatlused on ajaliselt või ka ruumiliselt sõltuvad ja sisaldavad mustreid või struktuuri, mida saab latentsete tunnuste abil kirjeldada. Näiteks inimkeha magnetresonantstomograafia väärtused sõltuvad koetüüpidest mida otseselt registreerida ei saa. Varjatud Markovi mudeleid kasutatakse juhuslikkuse modelleerimiseks paljudes teadusharudes, näiteks geneetikas, bioinformaatikas, signaalitöötluses ja pildianalüüsis. Uurimisrühma eesmärgid on nii mudelite teoreetiline analüüs kui ka rakendused reaalsetele andmetele. Üks peamistest uurimissuundadest on nn segmenteerimine ehk varjatud seisundite jada prognoosimine vaatluste põhjal. Traditsiooniliste segmenteerimisalgoritmide (Viterbi, edasi-tagasi algoritmid) kõrval uuritakse ka alternatiivseid meetode (nn hübriidalgoritmid) ning fookuses on ka prognoositud seisundite jada asümptootiline käitumine, parameetrite hindamine ja mitmesugused piirteoreemid. Koostöö on tihti rahvusvaheline, peamine välispartner on A. Koloydenko (RHUL). Lisaks klassikalistele varjatud Markovi mudelitele tegeleb rühm kaasajal üha enam huvipakkuvate üldistustega: nn paarikaupa ja kolmekaupa Markovi mudelid. Praktikutele palju huvi pakkuv uurimissuund on ka segmeteerimine Bayesi kontekstis, kus eelpoolnimetatud lihtsad algoritmid ei rakendu ning uurimisrühm tegeleb spetsiaalselt Bayesi lähenemisviisi tarbeks mõeldud segmenteerimisalgoritmide väljatöötamisega.
Juhuslike jadade võrdlemine
Paljudes teadusharudes uuritakse lõplikust hulgast (tähestikust) moodustatud pikkade (kuid lõpliku pikkusega) jadade – näiteks DNA järjestused, kirjutatud tekstid, aminohapete järjestused (valgud), digitaliseeritud informatsioon – omavahelist sarnasust. Sarnasuse mõõtmiseks on palju võimalusi, tihti kasutakse selleks mitmesuguseid sarnasusskoore, tuntuim neist on pikima ühisjada pikkus – mida pikim on kahe jada ühisjada, seda seotumaks loetakse jadad. Jadasi modelleritakse juhuslikena, nii on ka ka skoor juhuslik suurus. Jadade käsitlemine juhuslikena võimaldab modellerida üksteisega mitteseotud jadasi: sellised jadad on sõltumatud. Ka sõltumatutel jadadel on sarnasusskoor ning selle skoori käitumise tundmaõppimine võimaldab eristada sõltumatuid jadasi sõltuvatest. Selgub, et juhusliku skoori (asümptootilise) käitumise uurimine on keeruline matemaatiline probleem isegi kõige lihtsamate sõltumatute jadade korral. Et klassikalised piirteoreemid puuduvad, pakuvad huvi järgmised pealtnäha lihtsad kuid olulised küsimused: kui kiiresti kasvab juhusliku skoori keskväärtus, dispersioon, momendid jadade pikkuste kasvamisel. Klassikaline tõenäosusteooria aparatuur võimaldeb kergesti leida skoori momentidele ülemisi hinnaguid, kuid alumiste hinnagute jaoks on vaja leida uus lähenemine. Koostöös kollegidega GeorgiaTech’ist (eelkõige H. Matzinger) on töögrupp välja töötanud üldise meetodi alumiste hinnagute jaoks. Selle meetodi eelis on see, et jadad ei pruugi olla sõltumatud ega koosneda sõltumatutest tähtedest ja nii on võimalik jadade sarnasust modelleerida (ja analüüsida) ka paarikaupa Markovi mudelite abil, sidudes sel moel töögrupi erinevad uurimissunad. Lisaks skoori momentidele uuritakse muid küsimusi nagu pikimate ühisjadade (neid on palju) struktuur, skooriparameetrite mõju, suboptimaalsed joondused.
Suurima vahemiku meetod ja valideerimine
Statistilisel modelleerimisel on oluline leida mudel, mis kirjeldab tegelikkust mingis mõttes kõige paremini. Erinevalt informatsioonikriteeriumitest nagu näiteks Akaike või Bayesi kriteerium võimaldab suurimate vahemike meetod lisaks mudeli parameetrite hindamisele hinnata vaadeldava mudelite klassi sobivust antud andmete jaoks. Põhiprobleemideks on uurida suurimate vahemike meetodi abil saadud hinnangute omadusi ja meetodi võimalusi mudelite valideerimisel erineva keerukusega mudelite korral.
Moran-tüüpi evolutsioonimudelid
Klassikalised evolutsioonimudelid modelleerivad populatsiooni geneetilise struktuuri muutumist ajas kahe teguri - mutatsioonid ja looduslik valik - toimel. Selliseid mudeleid on väga palju, osa neist vaatleb populatsiooni dünaamikat generatsioonide kaupa (nn Wright-Fisher-tüüpi mudelid) ja osa indiviidi kaupa (nn Moran – tüüpi mudelid): populatsiooni sünnib teatud genotüübiga indiviid ning mingi teine (kas sama või erineva genotüübiga) indiviid sureb. Nii jääb populatsiooni suurus samaks, kuid selle geneetiline kooslus võib muutuda. Stohhastilistes evolutsioonimudelites modelleeritakse sünde ja surmi juhuslikena ning iga genotüübiga on seotud tema sünni- või surmatõenäosust iseloomustav arvuline suurus: elulemus. Suurema elulemusega genotüüpidel on suurem tõenäosus sündida või väiksem tõenäosus surra. Populatsiooni geneetiline olek peale üht sündi/surma sõltub vaid juhusest ning olekust enne sündi/surma, mistõttu kirjeldab olekute muutusi Markovi protsess. Selle Markovi protsessi omadused, statsionaarne jaotus, käitumine populatsiooni suuruse kasvamisel ja piirjaotused on matemaatikute uurimisobjektid. Evolutsioonimudelid on rühma jaoks suhteliselt uus valdkond, peamised koostööpartnerid on C. Watkins (RHUL) ja F. Zucca ning D. Bertacchi (Milano). Uuritakse nii olemasolevaid mudeleid (näiteks nn Guiol-Machado-Schinazi mudel) kui ka päris uusi.
Uurimisrühma koosseis
Uurimisküsimused
- Stohhastiline modelleerimine: peamiselt varjatud Markovi mudelitega seotud mudelid (HMM, paariviisilised ja kolmekaupa Markovi mudelid (PMM ja TMM)), segmenteerimine (Viterbi algoritm ja seotud algoritmid), parameetrite hindamisega seotud probleemid, lõpmatute joonduste olemasolu, asümptootika, Bayesi modelleerimine, rakendused.
- Diskreetne tõenäosus: juhuslike jadade võrdlemine: pikima ühisjadaga seotud skoorid ja optimaalsed joondused, asümptootilised omadused, PMM mudelid jadade võrdluses.
- Maximum spacing methods (MSP ehk suurimate vahemike meetod): MSP-hinnangute asümptootilised omadused mitmemõõtmeliste vaatluste korral; MSP-meetodi üldistamine juhule, kui vaatlused on sõltuvad; MSP-meetodi kasutamine mudelite valideerimiseks.
- Evolutsioonimudelid: Moran-tüüpi mudelid, pööratavad mudelid, Dirichlet protsessid, Polya urni mudel, GMS mudel).
Uurimisrühma projektid
Praegused projektid
- PRG865 Statistiline modelleerimine varjatud Markovi mudelite abil ning mudelite valideerimine
Lõppenud olulisemad projektid
- IUT34-5 Matemaatiline statistika: teooria ja rakendused
- ETF9288 Varjatud Markovi ahelad ja juhuslike jadade võrdlemine (Käesolev projekt on eelnevate ETFgrantide 5694 ja 7553 jätk.) (01.2012-07.2016)
- SF0180015s12 Stohhastika: teooria ja rakendused (01.2012-12.2014)
Olulisemad publikatsioonid
Varjatud Markovi mudelitega seonduv:
- Lember, Jüri (2023). Local Viterbi property in decoding.
- Kuljus, Kristi; Lember, Jüri (2023). Pairwise Markov Models and Hybrid Segmentation Approach. Methodol Comput Appl Probab 25, 67 (2023). https://doi.org/10.1007/s11009-023-10044-z
- Lember, J; Sova, J (2021). Exponential forgetting of smoothing distributions for pairwise Markov models. Electronic Journal of Probability 26 1-30. DOI: 10.1214/21-EJP628.
- Lember, J; Sova, J (2021). Regenerativity of Viterbi Process for Pairwise Markov Models. Journal of Theoretical Probability. DOI: 10.1007/s10959-020-01022-z.
- Koloydenko, A.; Kuljus, K.; Lember, J. (2020). MAP segmentation in Bayesian hidden Markov models: a case study. Journal of Applied Statistics. DOI: 10.1080/02664763.2020.1858273.
- Lember, J; Sova, J (2020). Existence of infinite Viterbi path for pairwise Markov models. Stochastic Processes and their Applications, 130 (3), 1388−1425. DOI: 10.1016/j.spa.2019.05.004.
- Lember, J., Gasbarra, D., Koloydenko, A. and Kuljus, K. (2019). Estimation of Viterbi path in Bayesian hidden Markov models. METRON, 1−27. DOI: 10.1007/s40300-019-00152-7.
- Kuljus, Kristi; Bayisa, Fekadu L.; Bolin, David; Lember, Jüri; Yu, Jun (2018). Comparison of hidden Markov chain models and hidden Markov random field models in estimation of computed tomography images. Communications in Statistics: Case Studies, Data Analysis and Applications , 4 (1), 46−55.10.1080/23737484.2018.1473059.
- Kuljus, Kristi; Lember, Jüri (2016). On the accuracy of the MAP inference in HMMs. Methodology And Computing In Applied Probability, 18 (3), 597−627.
- Koloydenko, Alexey; Lember, Jüri (2014). Bridging Viterbi and Posterior Decoding: A Generalized Risk Approach to Hidden Path Inference Based on Hidden Markov Models. Journal of Machine Learning Research, 15, 1−58.
- Kuljus, Kristi; Lember, Jüri (2012). Asymptotic risks of Viterbi segmentation. Stochastic Processes and their Applications, 122 (9), 3312−3341. DOI: 10.1016/j.spa.2012.05.014.
- Lember, J.; Koloydenko, A. (2008). The adjusted Viterbi training for hidden Markov models. Bernoulli, 14 (1), 180−206.
Juhuslike jadade võrdlemine:
- Lember, Jüri; Matzinger, Heinrich; Sova, Joonas; Zucca, Fabio (2018). Lower bounds for moments of global scores of pairwise Markov chains. Stochastic Processes and their Applications, 128, 1678−1710. DOI: 10.1016/j.spa.2017.08.009.
- Gong, Ruoting; Houdre, Christian; Lember, Jüri (2018). Lower Bounds on the Generalized Central Moments of the Optimal Alignments Score of Random Sequences. Journal of Theoretical Probability, 31 (2), 1−41. DOI: 10.1007/s10959-016-0730-4.
- Lember, Jüri; Matzinger, Heinrich; Vollmer, Anna-Lisa (2014). Optimal alignments of longest common subsequences and their path properties. Bernoulli, 20 (3), 1292−1343. DOI: 10.3150/13-BEJ522.
- Lember, J.; Matzinger, H.; Torres, F. (2012). The rate of the convergence of the mean score in random sequence comparison. The Annals of Applied Probability, 22 (3), 1046−1058. DOI: 10.1214/11-AAP778.
- Lember, J.; Matzinger, H. (2009). Standard deviation of the longest common subsequences Annals of probability, 37 (3), 1192−1235. DOI: 10.1214/08-AOP436.
Suurima vahemiku meetod ja valideerimine:
- Kuljus, Kristi; Ranneby, Bo (2021). Maximum spacing estimation for continuous time Markov chains and semi-Markov processes. Statistical Inference for Stochastic Processes, 24 (2), 421−443. DOI: 10.1007/s11203-021-09238-4.
- Kuljus, Kristi; Ranneby, Bo (2020). Asymptotic normality of generalized maximum spacing estimators for multivariate observations. Scandinavian Journal of Statistics, 47 (3), 968−989. DOI: 10.1111/sjos.12436.
- Kuljus, Kristi; Ranneby, Bo (2015). Generalized maximum spacing estimation for multivariate observations. Scandinavian Journal of Statistics, 42 (4), 1092−1108.
Moran-tüüpi evolutsioonimudelid:
- Bertacchi, Daniela; Lember, Jüri; Zucca, Fabio (2023). An evolution model with uncountably many alleles. Latin American Journal of Probability and Mathematical Statistics, 20 (2), 1041−1075. DOI: 10.30757/ALEA.v20-38.
- Lember, Jüri; Watkins, Chris (2021). An Evolutionary Model that Satisfies Detailed Balance. Methodology And Computing In Applied Probability. DOI: 10.1007/s11009-020-09835-5 [ilmumas].
- Bertacchi, Daniela; Lember, Jüri; Zucca, Fabio (2018). A stochastic model for the evolution of species with random fitness. Electronic Communications in Probability, 23 (88), 1−13. DOI: 10.1214/18-ECP190.