New Language Models for South Slavic Languages


Саопштење са скупа штампано у изводу
Верзија рада
Mihailo Škorić
South Slavic Languages in the Digital Environment JuDig Book of Abstracts, University of Belgrade - Faculty of Philology, Serbia, November 21-23, 2024
prof. dr Jasmina Moskovljević Popović, prof. dr Ranka Stanković
University of Belgrade - Faculty of Philology
Датум издавања
Izlaganje će predstaviti izazove i perspektive modelovanja južnoslovenskih jezika, sa posebnim osvrtom opšte jezičke modele građene na arhitekturi transformera (BERT, GPT), na dostupne skupove tekstova za obučavanje tih modela, te kvantitet i kvalitet tih skupova. Izlaganje će ponuditi pregled dostupnih skupova i modela, dok će posebna pažnja biti posvećena najnovijim korpusima tekstova. Prvi korpus, Kišobran, predstavlja krovni veb korpus južnoslovenskih jezika i ujedno trenutno najveći korpus tekstova na našim prostorima koji broji preko osamnaest milijardi reči i uključuje sve ostale trenutno dostupne južnoslovenske veb korpuse. Drugi korpus, S.T.A.R.S, na jednom mestu okuplja akademske radove pisane na srpskom jeziku i uključuje pre svega jedanaest hiljada disertacija preuzetih sa platforme NARDUS, ali i veliki broj naučnih i stručnih radova preuzetih iz različitih otvorenih repozitorijuma koji su uvršteni u sistem eNauka. Osim toga, biće reči o akademskih korpusima ostalih južnoslovenskih jezika, koji su nastali od radova pohranjenih na različitim veb platformama: DABAR (za hrvatski jezik), repozitorijuma univerziteta u Mariboru, Ljubljani, Primorskoj i Novoj Gorici i repozitorijuma DiRROS i REVIS (za slovenački jezik), repozitorijuma univerziteta u Zenici, Sarajevu i Istočnom Sarajevu (za bosanski jezik), repozitorijuma Univerziteta Goce Delčev i Sv. Kliment Ohridski (za makedonski jezik) i repozitorijuma Univerziteta Crne Gore (za crnogorski). Naposletku, biće reči o novim modelima za vektorizaciju teksta pisanog na južnoslovenskim jezicima, a koji su obučavani korišćenjem upravo navedenih korpusa tekstova. Biće predstavljena analiza njihovih performansi na nekolicini prethodno utvrđenih zadataka sa osvrtom na unapređenja koja su ostvarena u odnosu na rezultate modela obučavanih na prethodnoj generaciji korpusa.
The report will present the challenges and perspectives of modeling South Slavic languages, especially the general language models built on the transformer architecture (BERT, GPT), available corpora of texts for training those models, and the quantity and quality of those corpora. The presentation will offer an overview of the available data and models, primarily the latest textual corpora. The first corpus, Umbrella, represents the umbrella web corpus of South Slavic languages and at the same time the largest corpus of texts in the region, includes all other currently available regional web corpora and contains over eighteen billion words. The second corpus, S.T.A.R.S, gathers academic works written in the Serbian language and includes, most notably, eleven thousand dissertations downloaded from the NARDUS platform, and a large number of scientific and professional works downloaded from various open repositories that are included in the eScience system. In addition, academic corpora of other South Slavic languages will be discussed, which were created from works stored on various web platforms: DABAR (for the Croatian language), the repositories of the universities in Maribor, Ljubljana, Primorska and Nova Gorica, and the DiRROS and REVIS repositories (for the Slovene language ), the repository of the universities in Zenica, Sarajevo and East Sarajevo (for the Bosnian language), the repository of the University of Goce Delčev and St. Kliment Ohridski (for the Macedonian language) and the repository of the University of Montenegro (for Montenegrin). Finally, we will talk about new models for text vectorization in South Slavic languages, which were trained using the aforementioned corpora. An analysis of their performance on a number of previously established tasks will be presented, with reference to the model performance and improvements over models trained on the previous generation of the corpora.
veliki korpusi teksta, jezički modeli, južnoslovenski jezici
large text corpora, language models, South Slavic languages
Шира категорија рада
Ужа категорија рада
Је дио
Text Embeddings - Serbian Language Applications - TESLA
Отворени приступ
Creative Commons – Attribution 4.0 International
Скупови објеката
Михаило Шкорић
Radovi istraživača

Mihailo Škorić. "New Language Models for South Slavic Languages" in South Slavic Languages in the Digital Environment JuDig Book of Abstracts, University of Belgrade - Faculty of Philology, Serbia, November 21-23, 2024, University of Belgrade - Faculty of Philology (2024) М64

This item was submitted on 29. новембар 2024. by [anonymous user] using the form “Рад у зборнику радова” on the site “Радови”:

Click here to view the collected data.