The Many Faces of SrpKor

Објеката

Тип
Саопштење са скупа штампано у изводу
Верзија рада
објављена
Језик
енглески
Креатор
Duško Vitas, Ranka Stanković, Cvetana Krstev
Извор
South Slavic Languages in the Digital Environment JuDig Book of Abstracts, University of Belgrade - Faculty of Philology, Serbia, November 21-23, 2024
Уредник
prof. dr Jasmina Moskovljević Popović, prof. dr Ranka Stanković
Издавач
University of Belgrade - Faculty of Philology
Датум издавања
2024.
Сажетак
Акроним СрпКор означава фамилију електронских корпуса савременог српског језика чија је изградња почела крајем седамдесетих година прошлога века, а која је постала шире видљива заинтересованој истраживачкој заједници објављивањем његове прве верзије на вебу 2002. године. У овом дугом периоду, посебно пре појаве корисних текстуелних ресурса на вебу, развој корпуса се састојао у прикупљању и обради грађе као и у развоју метода обраде корпуса. Наиме, електронски корпус није само колекција текстова у дигиталном облику (како се то, на пример, наводи у (Добрић 2012)), већ подразумева више компонената које ће заједно овакву колекцију учинити корисном у језичким и другим истраживањима. Ове компоненте, поред самих текстова, чине, пре свега, софтверска подршка организацији и експлоатацији колекције текстова и средства за различите нивое анотације текстова који ће се наћи у корпусу (Витас 2023).
СрпКор је, водећи рачуна о овим компонентама, прошао различите метаморфозе током своје изградње које пружају слику како о еволуцији софтверске подршке за конструкцију и експлоатацију корпуса, као и о развоју система анотација на различитим нивоима (мета-подаци, морфолошко обележавање, лематизација, именовани ентитети, итд).
Крајње скромни услови (у поређењу са другим срединама, како у броју истраживача укључених у изградњу корпуса, додељеним финансијским средствима из различитих извора, расположивом опремом) су наметнули стратегију поступног развоја корпуса која је подразумевала да ће се нове верзије корпуса ослањати на материјал припремљен и употребљен у оним верзијама које су јој претходиле.
У раду ће бити илустрована еволуција у развоју СрпКор-а почев од његове прве верзије до данас пратећи упливе различитих средстава која су коришћена у изградњи појединачних верзија, као и промене димензија и система анотације текстова. Посебно ће бити описана структура појединачних верзија корпуса, њихове димензије, обухваћени временски период и ниво анотације.
Основне замисли приликом конципирања корпуса су прво изложене у (Витас, Поповић 2023), а затим у (Утвић 2013) где су описани бројни детаљи за верзију СрКор-а из 2013. године. Интеракције корпуса са речницима су разматране у (Krstev, Vitas 2005), (Vitas, Krstev 2012).
Значајно је напоменути да су у СрпКор унети и текстови на српском језику из паралелизованих корпуса који су настајали упоредо са СрпКор-ом. На овај начин је делимично компензован утицај веб-садржаја на састав корпуса. С друге стране, овакви текстови који су, по правилу, изузетно значајни у културном смислу, јер не само да нису присутни у грађи са веба, већ обично не улазе ни у традиционалне лексикографске корпусе. Њих чине одабрани научни, књижевни, филозофски, антрополошки, историјски и слични текстови преузети из угледних едиција.
Даљи рад на развоју овог корпуса обухватиће са једне стране обогаћивање метаподатака, допуну анотација и унос нових садржаја. Обогаћивање метаподатака омогућиће креирање подкорпуса по различитим димензијама: по изговору, периоду, домену, уз до сада расположиве по аутору, регистру, годинама. Уз поделу на реченице и допуну анотација именованим ентитетима, у плану је обогаћивање и граматичким информацијама. Унос нових садржаја проширује временску димензију припремом романа, путописа, мемоара, историјских новина које представљају драгоцени материјал не само из филолошког већ и из културно-историјског аспекта, уз уобичајено допуњавање (изабраним) садржајима са веба.
Спрега лексичке базе Лексимирка и фамилије корпуса СрпКор је двосмерна (Lazić, Škorić 2020). Кроз интерфејс Лексимирка је могућ директан увид у примере употребе речи у контексту или у синтаксичким обрасцима. Систем за лематизацију се унапређује из верзију у верзију, у чему специјалну улогу имају електронски морфолошки речници српског језика који коришћењем система Unitex обезбеђују генерисање свих флективних облика лема.
The acronym SrpKor denotes a family of electronic corpora of the modern Serbian language, the construction of which began at the end of the seventies of the last century, and which became more widely visible to the interested research community with the publication of its first version on the web in 2002. In this long period, especially before the emergence of useful textual resources on the web, corpus development consisted of the collection and processing of material as well as the development of corpus processing methods. Namely, an electronic corpus is not only a collection of texts in digital form (as, for example, it is stated in (Dobrić 2012)), but includes several components that will make such a collection useful in linguistic and other research. These components, in addition to the texts themselves, constitute, above all, software support for the organization and exploitation of the collection of texts and means for different levels of annotation of the texts that will be found in the corpus (Ви­тас 2023).
SrpKor, taking into account these components, underwent various metamorphoses during its construction, which provide a picture of the evolution of software support for the construction and exploitation of corpora, as well as the development of annotation systems at different levels (meta-data, morphological marking, lemmatization, named entities, etc.).
Extremely modest conditions (compared to other environments, both in the number of researchers involved in the construction of the corpus, allocated financial resources from different sources, and available equipment) imposed a strategy of gradual development of the corpus, which implied that new versions of the corpus would rely on material prepared and used in those versions that preceded it.
The paper will illustrate the evolution in the development of SrpKor from its first version until today, following the influx of different resources used in the construction of individual versions, as well as the changes in dimensions and text annotation system. The structure of the individual versions of the corpus, their dimensions, the period covered, and the level of annotation will be described in particular.
The basic ideas when conceiving the corpus are first presented in (Vitas, Popović 2023), and then in (Utvić 2013), where numerous details for the 2013 version of SrKor are described. Corpus interactions with dictionaries are discussed in (Krstev Vitas 2005), (Vitas, Krstev 2012).
It is important to note that texts in the Serbian language from parallelized corpora that were created at the same time as SrpKor were also included in SrpKor. In this way, the influence of web content on the composition of the corpus was partially compensated. On the other hand, such texts, which are, as a rule, extremely significant in the cultural sense, not only are not present in the material from the web but are not even included in traditional lexicographic corpora. They consist of selected scientific, literary, philosophical, anthropological, historical, and similar texts taken from reputable editions.
Further work on the development of this corpus will include, on the one hand, the enrichment of metadata, the addition of annotations and the introduction of new content. Enrichment of metadata will enable the creation of subcorpus according to different dimensions: by pronunciation, period, and domain, in addition to the ones available so far by author, register, and years. Along with the division into sentences and the addition of annotations with named entities everywhere, the plan is to enrich them with grammatical information. The introduction of new content expands the time dimension by preparing novels, travelogues, memoirs, and historical newspapers that are valuable not only from a linguistic but also from a cultural-historical point of view, with the usual addition of (selected) content from the web.
The coupling of the Leximirka lexical base and the SrpKor corpus family is two-way, from the Leximirka interface, direct insight into examples of word use in context or in syntactic patterns is possible (Lazić, Škorić 2020). The system for lemmatization is improved from version to version, in which the Serbian morphological dictionaries play a special role, which, using the Unitex system, ensures the generation of all inflectional forms of words.
Subject
СрпКор, корпуси, српски, лематизација, Лексимирка
SrpKor, corpora, Serbian, lemmatization, Leximirka
Шира категорија рада
М60
Ужа категорија рада
М64
Је дио
Text Embeddings - Serbian Language Applications - TESLA
Права
Отворени приступ
Лиценца
Creative Commons – Attribution 4.0 International
Формат
.pdf
Скупови објеката
Ранка Станковић
Radovi istraživača

Duško Vitas, Ranka Stanković, Cvetana Krstev. "The Many Faces of SrpKor" in South Slavic Languages in the Digital Environment JuDig Book of Abstracts, University of Belgrade - Faculty of Philology, Serbia, November 21-23, 2024, University of Belgrade - Faculty of Philology (2024.)

This item was submitted on 27. новембар 2024. by [anonymous user] using the form “Рад у зборнику радова” on the site “Радови”: https://dr.rgf.bg.ac.rs/s/repo

Click here to view the collected data.