Collected Item: “New Language Models for South Slavic Languages”
Врста публикације
Саопштење са скупа штампано у изводу
Верзија документа
објављена
Језик
енглески
Аутор/и (Милан Марковић, Никола Николић)
Mihailo Škorić
Наслов рада (Наслов - поднаслов)
New Language Models for South Slavic Languages
Назив конференције (зборника), место и датум одржавања
South Slavic Languages in the Digital Environment JuDig Book of Abstracts, University of Belgrade - Faculty of Philology, Serbia, November 21-23, 2024.
Уредник/ци зборника
prof. dr Jasmina Moskovljević Popović, prof. dr Ranka Stanković
Издавач (Београд : Просвета)
University of Belgrade - Faculty of Philology
Година издавања
2024.
Сажетак рада на српском језику
Izlaganje će predstaviti izazove i perspektive modelovanja južnoslovenskih jezika, sa posebnim osvrtom opšte jezičke modele građene na arhitekturi transformera (BERT, GPT), na dostupne skupove tekstova za obučavanje tih modela, te kvantitet i kvalitet tih skupova. Izlaganje će ponuditi pregled dostupnih skupova i modela, dok će posebna pažnja biti posvećena najnovijim korpusima tekstova. Prvi korpus, Kišobran, predstavlja krovni veb korpus južnoslovenskih jezika i ujedno trenutno najveći korpus tekstova na našim prostorima koji broji preko osamnaest milijardi reči i uključuje sve ostale trenutno dostupne južnoslovenske veb korpuse. Drugi korpus, S.T.A.R.S, na jednom mestu okuplja akademske radove pisane na srpskom jeziku i uključuje pre svega jedanaest hiljada disertacija preuzetih sa platforme NARDUS, ali i veliki broj naučnih i stručnih radova preuzetih iz različitih otvorenih repozitorijuma koji su uvršteni u sistem eNauka. Osim toga, biće reči o akademskih korpusima ostalih južnoslovenskih jezika, koji su nastali od radova pohranjenih na različitim veb platformama: DABAR (za hrvatski jezik), repozitorijuma univerziteta u Mariboru, Ljubljani, Primorskoj i Novoj Gorici i repozitorijuma DiRROS i REVIS (za slovenački jezik), repozitorijuma univerziteta u Zenici, Sarajevu i Istočnom Sarajevu (za bosanski jezik), repozitorijuma Univerziteta Goce Delčev i Sv. Kliment Ohridski (za makedonski jezik) i repozitorijuma Univerziteta Crne Gore (za crnogorski). Naposletku, biće reči o novim modelima za vektorizaciju teksta pisanog na južnoslovenskim jezicima, a koji su obučavani korišćenjem upravo navedenih korpusa tekstova. Biće predstavljena analiza njihovih performansi na nekolicini prethodno utvrđenih zadataka sa osvrtom na unapređenja koja su ostvarena u odnosu na rezultate modela obučavanih na prethodnoj generaciji korpusa.
Сажетак рада на енглеском језику
The report will present the challenges and perspectives of modeling South Slavic languages, especially the general language models built on the transformer architecture (BERT, GPT), available corpora of texts for training those models, and the quantity and quality of those corpora. The presentation will offer an overview of the available data and models, primarily the latest textual corpora. The first corpus, Umbrella, represents the umbrella web corpus of South Slavic languages and at the same time the largest corpus of texts in the region, includes all other currently available regional web corpora and contains over eighteen billion words. The second corpus, S.T.A.R.S, gathers academic works written in the Serbian language and includes, most notably, eleven thousand dissertations downloaded from the NARDUS platform, and a large number of scientific and professional works downloaded from various open repositories that are included in the eScience system. In addition, academic corpora of other South Slavic languages will be discussed, which were created from works stored on various web platforms: DABAR (for the Croatian language), the repositories of the universities in Maribor, Ljubljana, Primorska and Nova Gorica, and the DiRROS and REVIS repositories (for the Slovene language ), the repository of the universities in Zenica, Sarajevo and East Sarajevo (for the Bosnian language), the repository of the University of Goce Delčev and St. Kliment Ohridski (for the Macedonian language) and the repository of the University of Montenegro (for Montenegrin). Finally, we will talk about new models for text vectorization in South Slavic languages, which were trained using the aforementioned corpora. An analysis of their performance on a number of previously established tasks will be presented, with reference to the model performance and improvements over models trained on the previous generation of the corpora.
Кључне речи на српском (одвојене знаком ", ")
Veliki korpusi teksta, jezički modeli, južnoslovenski jezici
Кључне речи на енглеском (одвојене знаком ", ")
Large text corpora, language models, South Slavic languages
Шира категорија рада према правилнику МПНТ
М60
Ужа категорија рада према правилнику МПНТ
М64
Пројект у склопу кога је настао рад
Text Embeddings - Serbian Language Applications - TESLA
Ниво приступа
Отворени приступ
Лиценца
Creative Commons – Attribution 4.0 International
Формат датотеке
.pdf