Претрага
212 items
-
Towards ELTeC-LLOD: European Literary Text Collection Linguistic Linked Open Data
Овај рад описује студију случаја о генерисању повезаних података креираних на основу обечежених текстуалних корпуса коришћењем формата размене података у обради природних језика (NIF). Као основа за ово истраживање послужио је подскуп корпуса ELTeC, који се састоји од 900 романа из периода 1840-1920 за 9 европских језика. Верзија романа са коментарима, у такозваном TEI level-2 формату, трансформисана је у NIF, формат заснован на RDF/OWL који има за циљ постизање интероперабилности између алата за обраду природних језика, језичких ресурса и ...Ranka Stanković, Christian Chiarcos, Miloš Utvić, Olivera Kitanović. "Towards ELTeC-LLOD: European Literary Text Collection Linguistic Linked Open Data" in LDK 2023 – 4th Conference on Language, Data and Knowledge, 12-15 September in Vienna, Austria, Lisabon : NOVA FCSH - CLUNL (2023). https://doi.org/10.34619/srmk-injj
-
Глаголи у кухињи и за столом
Цветана Крстев, Биљана Лазић (2015)У раду је приказано истраживање лексике на српском језику кулинарског домена које се заснива на коришћењу доменског корпуса, електронских лексичких ресурса, пре свега WordNet-а и морфолошких речника, и локалних граматика. Приказане су доменске специфичности ових ресурса, како се користе, и међусобно употпуњују. Посебно је приказано како се коришћењем доменског корпуса могу екстраховати глаголи специфични за кулинарски домен и описати начини њиховог коришћења. Дат је попис глагола са основним подацима који је добијен применом представљених метода.аутоматска обрада, коначни трансдуктори, електронски речници, семантичке мреже, локалне граматике, кулинарство... језичких ресурса за кулинарски домен a. Корпус куварских рецепата За потребе изучавања лексике кулинарског домена, као и за потребе развоја и евалуације лексичких ресурса и алата из овог домена развијен је доменски корпус (Вујичић Станковић и Пајић 2014). Овај корпус је добијен превлачењем рецепата са ...
... на коришћењу доменског корпуса, електронских лексичких ресурса, пре свега WordNet-а и морфолошких речника, и локалних граматика. Приказане су доменске специфичности ових ресурса, како се користе, и међусобно употпуњују. Посебно је приказано како се коришћењем доменског корпуса могу екстраховати глаголи ...
... Анализом доменског корпуса и консултовањем српског ворднета прво су одабрани адекватни семантички маркери куварске лексике (дати у Табела 1) којима су потом обележене како све постојеће јединице електронског речника тако и оне нове које су добијене екстраховањем из доменског корпуса (Вујичић Станковић ...Цветана Крстев, Биљана Лазић. "Глаголи у кухињи и за столом" in Научни састанак слависта у Вукове дане - Српски језик и његови ресурси: теорија, опис и преимене, Вол. 44/3, Београд : Међународни славистички центар (2015)
-
SrpELTeC on Platforms: Udaljeno čitanje, Aurora, NoSketch
Serbian ELTeC collection (100 novels and extended) developed within COST action CA16204 Distant Reading for European Literary History comprises at this moment 111 novels published in the period 1840-1920. Such a valuable resource is and will be used for various lexical and linguistic research, by using different tools and methodologies. In this paper, three platforms on which these novels are published will be presented: “Udaljeno ˇcitanje”, Aurora and Sketch Engine.Ranka Stanković, Mihailo Škorić, Petar Popović. "SrpELTeC on Platforms: Udaljeno čitanje, Aurora, NoSketch" in Infotheca, Faculty of Philology, University of Belgrade (2022). https://doi.org/10.18485/infotheca.2021.21.2.7
-
Речници у дигиталном добу - информатичка подршка за српски језик
Биљана Рујевић (2022)Морфолошки речници српског језика представљају електронски језички ресурс који има значајну историју развоја и коришћења за потребе обраде природних језика. С обзиром на то да су чувани у облику датотека чији је број нарастао па је самим тим управљање речницима постало отежано јавила се потреба за смештањем информација из речника у облик лексикографске базе. Како би се омогућио симултани рад на развоју речника за више корисника јавила се потреба за веб-апликацијом заснованој на лексикографској бази. Како би се размотриле ...Биљана Рујевић. Речници у дигиталном добу - информатичка подршка за српски језик, Београд : [Б. Рујевић], 2022
-
Serbian ELTeC Sub-Collection in Wikidata
This paper presents an example of integration of Wikidata with digital libraries and external systems, as well as some best practices for speeding up the process of data preparation and import to Wikidata, on the use case of SrpELTeC, Serbian subcollection of the ELTeC multilingual collection (European Literary Text Collection). After preliminary work on the manual Wikidata population with SrpELTeC novels, the goal was to automate the process of preparing and importing information, so different solutions were analysed and ...Milica Ikonić Nešić, Ranka Stanković, Biljana Rujević. "Serbian ELTeC Sub-Collection in Wikidata" in Infotheca, Faculty of Philology, University of Belgrade (2021). https://doi.org/10.18485/infotheca.2021.21.2.4
-
Advancing Sentiment Analysis in Serbian Literature: A Zero and Few-Shot Learning Approach Using the Mistral Model
Ova studija predstavlja analizu sentimenta srpskih starih romana iz perioda 1840-1920, koristeći veliki jezički model (LLM) Mistral za tehniku učenja sa zasnovani na takozvanim "zero" i "few-shot" pokušajima. Glavni pristup uvodi inovacije osmišljavanjem istraživačkih upita (promptova) uključuju tekst sa uputstvom za klasifikaciju bez primera i na osnovu nekoliko primera, omogućavajući jezičkom modelu da klasifikuje osećanja u pozitivne, negativne ili objektivne kategorije. Ova metodologija ima za cilj da pojednostavi analizu osećanja ograničavanjem odgovora, čime se povećava preciznost ...Milica Ikonić Nešić, Saša Petalinkar, Mihailo Škorić, Ranka Stanković, Biljana Rujević. "Advancing Sentiment Analysis in Serbian Literature: A Zero and Few-Shot Learning Approach Using the Mistral Model" in In Proceedings of the Sixth International Conference on Computational Linguistics in Bulgaria (CLIB 2024), BAS (2024)
-
SASA Dictionary as the Gold Standard for Good Dictionary Examples for Serbian
Ranka Stanković, Branislava Šandrih, Rada Stijović, Cvetana Krstev, Duško Vitas, Aleksandra Marković (2019)У овом раду представљамо модел за избор добрих примера за речник српског језика и развој иницијалних компоненти модела. Метода која се користи заснива се на детаљној анализи различитих лексичких и синтактичких карактеристика у корпусу састављених од примера из пет дигитализованих свезака речника САНУ. Почетни скуп функција био је инспирисан сличним приступом и за друге језике. Дистрибуција карактеристика примера из овог корпуса упоређује се са карактеристиком дистрибуције узорака реченица ексцерпираних из корпуса који садрже различите текстове. Анализа је показала да ...Српски, добри примери из речника, аутоматизација израде речника, издвајање својстава, Машинско учење... of contemporary Serbian (SrpKor, developed by D. Vitas and a group of collaborators from University of Belgrade, http://www.korpus.matf.bg.ac.rs/korpus/), which is being used as a control corpus, but they rarely refer to it, although all concordances are associated with data about the source (Vitas ...
... and their importance for lexicographic description and corpus analysis [Integralni rečenični modeli i njihov značaj za lingvistički opis i analizu korpusa]. Naučni sastanak slavista u Vukove dane, 31(1), pp. 201–220. (In Serbian, cyrillic.) Popović, Lj. (2004). Red reči u rečenici [Word order in sentences] ...
... 47(1), pp. 427–440. (In Serbian, Cyrillic.) Utvić, M. (2014). The construction of reference corpus of contemporary Serbian [Izgradnja referentnog korpusa savremenog srpskog jezika] (Doctoral dissertation, University of Belgrade). Vitas D. & Krstev C. (2015). Blueprint for the computerized dictionary ...Ranka Stanković, Branislava Šandrih, Rada Stijović, Cvetana Krstev, Duško Vitas, Aleksandra Marković. "SASA Dictionary as the Gold Standard for Good Dictionary Examples for Serbian" in Electronic lexicography in the 21st century. Proceedings of the eLex 2019 conference , Lexical Computing CZ, s.r.o. (2019)
-
Vebran Web Services for Corpus Query Expansion
Ranka Stanković, Miloš Utvić (2020)U ovom radu se govori o razvoju veb usluga Vebran i njihovoj primeni u poboljšanju pretraživanja korpusa. Veb-servisi Vebran koriste se za konsultovanje spoljnih leksičkih izvora za srpski jezik (uglavnom elektronski morfološki rečnici i srpski Vordnet) i proširivanje korisničkih upita radi dobijanja relevantnijih rezultata iz srpskih korpusa.... Stanković R. and Utvić M., “Vebran Web Service . . . ”, pp. 99–118 Утвић, Милош. “Анотациjа Корпуса савременог српског jезика”. Инфотека Vol. XII, no. 2 (2011): 39–51 Utvić, Miloš. “Izgradnja referentnog korpusa savremenog srpskog jezika”. Phdthesis, Univerzitet u Beogradu, Filološki fakultet, Beograd ...
... Утвић, Милош В., Иван М. Обрадовић, Ранка М. Станковић, Александра Ђ. Томашевић and Биљана Ђ. Лазић. “Изградња специjалних корпуса савременог српског jезика на примеру корпуса из области рударства”. In Српски jезик и његови ресурси: теориjа, опис и примене. 3/47. научни састанак слависта у Вукове дане ...
... Beograd, 2014, accessed August 1, 2019. https://fedorabg.bg.ac.rs/fedora/get/o: 10061/bdef:Content/download Утвић, Милош. “Листе учестаности Корпуса савременог српског jезика”. In Научни састанак слависта у Вукове дане. Српски jезик и његови ресурси: теориjа, опис и примене. 3/43. научни састанак слависта ...Ranka Stanković, Miloš Utvić. "Vebran Web Services for Corpus Query Expansion" in Infotheca, Faculty of Philology, University of Belgrade (2020). https://doi.org/10.18485/infotheca.2019.19.2.5
-
Knowledge Graphs in the Era of Large Language Models: Opportunities and Challenges
Pojava velikih jezičkih modela (eng. Large Language Models ili LLMs) je značajno uticala na oblast veštačke inteligencije, naročito u oblastima obrade prirodnog jezika i generisanju teksta. Međutim, ključno ograničenje ovih modela leži u nedostatku strukturiranog znanja i sposobnosti zaključivanja, što otežava njihovu primenu u stvarnom svetu, gde se zahteva tačnost iznetih činjenica i zaključivanje na osnovu konteksta. S druge strane, grafovi znanja nude primamljivo rešenje. Oni pružaju bogat izvor strukturiranog znanja, tako što predstavljaju entitete i njihove relacije u ...grafovi znanja, veliki jezički modeli, obrada prirodnog jezika, strukturirano znanje, kvalitet podataka, objašnjiva veštačka inteligencija, bezbednost sadržaja na internetuDanka Jokić, Ranka Stanković, Jelena Jaćimović. "Knowledge Graphs in the Era of Large Language Models: Opportunities and Challenges" in South Slavic Languages in the Digital Environment JuDig Book of Abstracts, University of Belgrade - Faculty of Philology, Serbia, November 21-23, 2024., University of Belgrade - Faculty of Philology (2024)
-
SrpELTeC: A Serbian Literary Corpus for Distant Reading
U članku je predstavljen SrpELTeC, korpus razvijen u okviru akcije COST Distant Reading for European Literary History (CA16204). Svi romani u SrpELTeC-u su odabrani, pripremljeni i obeleženi korišćenjem zajedničkih principa uspostavljenih za sve jezičke zbirke u Evropskoj zbirci književnog teksta (ELTeC). Navedeni su izazovi i rešenja u pripremi SrpELTeC od nule. Svi romani su ručno kodirani u TEI sa bogatim metapodacima i strukturnim napomenama. Automatska anotacija je uključivala POS-označavanje, lematizaciju i imenovane entitete, oslanjajući se na resurse za obradu ...digital humanities, Serbian literature, text corpora, distant reading , linked data, named entity recognition, text analyticsRanka Stanković, Cvetana Krstev, Duško Vitas. "SrpELTeC: A Serbian Literary Corpus for Distant Reading" in Primerjalna književnost, Research Centre of the Slovenian Academy of Sciences and Arts (2024). https://doi.org/10.3986/pkn.v47.i2.03
-
A Twitter Corpus and Lexicon for Abusive Speech Detection in Serbian
Uvredljivi govor na društvenim medijima, uključujući psovke, pogrdni govor i govor mržnje, dostigao je nivo pandemije. Sistem koji bi bio u stanju da detektuje takve tekstove mogao bi da pomogne da internet i društveni mediji postanu bolji virtuelni prostor sa više poštovanja. Istraživanja i komercijalna primena u ovoj oblasti do sada su bili fokusirani uglavnom na engleski jezik. Ovaj rad predstavlja rad na izgradnji AbCoSER-a, prvog korpusa uvredljivog govora na srpskom jeziku. Korpus se sastoji od 6.436 ručno označenih ...Danka Jokić, Ranka Stanković, Cvetana Krstev, Branislava Šandrih. "A Twitter Corpus and Lexicon for Abusive Speech Detection in Serbian" in 3rd Conference on Language, Data and Knowledge (LDK 2021), MDPI AG (2021). https://doi.org/10.4230/OASIcs.LDK.2021.13
-
Towards the semantic annotation of SR-ELEXIS corpus: Insights into Multiword Expressions and Named Entities
Овај рад представља активности на развоју корпуса ELEXIS-sr, српском додатку вишејезичном анотираном корпусу ELEXIS-а, који се састоји од семантичких анотација и репозиторија значења речи. ELEXIS је паралелни вишејезични анотирани корпус на десет европских језика, који може да се користи као вишејезички репер за евалуацију европских језика са мање и средње развијеним ресурсима. Фокус овог рада је на вишечланим изразима и именованим ентитетима, њиховом препознавању у скупу реченица ELEXIS-sr и поређењу са анотацијама на другим језицима. Разматрају се први кораци ...Cvetana Krstev, Ranka Stanković, Aleksandra Marković, Teodora Mihajlov. "Towards the semantic annotation of SR-ELEXIS corpus: Insights into Multiword Expressions and Named Entities" in Proceedings of the Joint Workshop on Multiword Expressions and Universal Dependencies (MWE-UD) @ LREC-COLING 2024, Turin, May 25, 2024, ELRA and ICCL (2024)
-
Corpus-based bilingual terminology extraction in the power engineering domain
Ovaj rad predstavlja resurse i alate koji se koriste za ekstrkciju i evaluaciju dvojezične, englesko-srpske terminologije u domenu energetike. Resursi se sastoje od postojeće opšte i domenske leksike i domenskog paralelnog korpusa; alati uključuju ekstraktore termina za oba jezika i alat za poravnavanje segmenata koji pripadaju korpusnim rečenicama. Sistem je testiran variranjem funkcije podudaranja koja utvrđuje prisustvo ekstrahovanog termina u poravnatom segmentu (odsečak), u rasponu od veoma labavog do strogog. Procena rezultata je pokazala da je preciznost izdvajanja termina ...Tanja Ivanović, Ranka Stanković, Branislava Šandrih Todorović, Cvetana Krstev. "Corpus-based bilingual terminology extraction in the power engineering domain" in Terminology, John Benjamins Publishing Company (2022). https://doi.org/10.1075/term.20038.iva
-
Praktikum za vežbe iz Informatike 1
Ranka Stanković, Ivan Obradović, Olivera Kitanović, Mirjana Banković. Praktikum za vežbe iz Informatike 1, Beograd : Univerzitet u Beogradu, Rudarsko-geološki fakultet, 2014
-
Towards Automatic Definition Extraction for Serbian
U radu su prikazani preliminarni rezultati automatske ekstrakcije kandidata za definicije rečnika iz nestrukturiranih tekstova na srpskom jeziku u cilju ubrzanja razvoja rečnika. Definicije u rečniku Srpske akademije nauka i umetnosti (SANU) korišćene su za modelovanje različitih tipova definicija (opisnih, gramatičkih, referentnih i sinonimskih) koje imaju različite sintaksičke i leksičke karakteristike. Korpus istraživanja sastoji se od 61.213 definicija imenica, koje su analizirane korišćenjem morfoloških e-rečnika i lokalnih gramatika implementiranih kao pretvarači konačnih stanja u paketu za obradu korpusa otvorenog ...... in Corpus Linguistics, (Vol. 11). John Benjamins Publishing. Gortan Premk, D. (1980). O gramatičkoj informaciji i semantičkoj identifikaciji u velikom opisnom rečniku. [On grammatical information and semantic identification in a large descriptive dictionary.], Naš jezik, XXIV/3, pp. 107–114. ...Ranka Stanković, Cvetana Krstev, Rada Stijović, Mirjana Gočanin, Mihailo Škorić. "Towards Automatic Definition Extraction for Serbian" in Proceedings of the XIX EURALEX Congress of the European Assocition for Lexicography: Lexicography for Inclusion (Volume 2). 7-9 September (virtual), Democritus University of Thrace (2021)
-
Towards Semantic Interoperability: Parallel Corpora as Linked Data Incorporating Named Entity Linking
U radu se prikazuju rezultati istraživanja vezanih za pripremu paralelnih korpusa, fokusirajući se na transformaciju u RDF grafove koristeći NLP Interchange Format (NIF) za lingvističku anotaciju. Pružamo pregled paralelnog korpusa koji je korišćen u ovom studijskom slučaju, kao i proces označavanja delova govora, lematizacije i prepoznavanja imenovanih entiteta (NER). Zatim opisujemo povezivanje imenovanih entiteta (NEL), konverziju podataka u RDF, i uključivanje NIF anotacija. Proizvedene NIF datoteke su evaluirane kroz istraživanje triplestore-a korišćenjem SPARQL upita. Na kraju, razmatra se povezivanje Linked ...paralelni korpusi, povezivanje imenovanih entiteta, prepoznavanje imenovanih entiteta, NER, NEL, povezani podaci, NIF, VikipodaciRanka Stanković, Milica Ikonić Nešić, Olja Perisic, Mihailo Škorić, Olivera Kitanović. "Towards Semantic Interoperability: Parallel Corpora as Linked Data Incorporating Named Entity Linking" in Proceedings of the 9th Workshop on Linked Data in Linguistics @ LREC-COLING 2024, Turin, 20-25 May 2024, ELRA and ICCL (2024)
-
Komparativna analiza metoda ispitivanja stabilnosti zemljanih kosina-tekst i slike
Nikola najdanović (1958)Nikola najdanović. Komparativna analiza metoda ispitivanja stabilnosti zemljanih kosina-tekst i slike, Beograd:Rudarsko-geološki fakultet, 1958
-
English for Geology Students. 1
Lidija Beko (2023)... Naučna istraživanja iz oblasti jezika pokazuju da polaznici najbolje uče kada se aktivno angažuju, na primer u kombinaciji teksta i prakse, teksta i realnog života ili teksta i umetnosti. Kako bismo obezbedili da se studenti sećaju akademskih termina, geoloških koncepata i jezika relevantnog u ...
... mativnu bazu i bude upotrebljiv akademski model za učenje osnovnih principa i pojmova iz oblasti engleskog jezika za geologe. Čitljivim i razumljivim tekstovima, za studente koji pohađaju svoj prvi kurs metodom CLIL, želeli smo poboljšati naučnu pismenost naših studenata na konkretan, real- ističan i ...
... kontinenata 5. Stenski ciklus, magmatske stene i vulkani 6. Površinsko raspadanje, erozija i sedimentne stene. Teme se dele na tri manje celine ili teksta, svaki prateći C1 nivo Zajedničkog evropskog referentnog okvira za jezike, pri čemu se čestim podelama na naslove i podnaslove, polaznicima omogućava ...Lidija Beko. English for Geology Students. 1, Belgrade : The Faculty of Mining and Geology, 2023
-
Репозиторијум дигиталних идентификатора објеката – доиФил: изградња, стање и перспективе
Милош Утвић, Михаило Шкорић (2017)Филолошки факултет Универзитета у Београду је крајем јула 2015. године склопио уговор са агенцијом Crossref и тиме стекао право да својим публикацијама додељује дигитални идентификатор објекта (DOI), као и публикацијама других издавача које заступа. Истовремено, у склопу уговора, Филолошки факултет је развио репозиторијум доиФил који за све регистроване публикације чува њихове библиографске метаподатке, хипервезу ка комплетном тексту и сам DOI. После припремних радњи и разраде процеса на којима је заснован рад репозиторијума, у новембру 2016. године је репозиторијум доиФил ...... Филолошки факултет је развио репозиторијум доиФил који за све регистроване публикације чува њихове библиографске метаподатке, хипер- везу ка комплетном тексту и сам DOI. После припремних радњи и разраде процеса на којима је заснован рад репозиторијума, у новембру 2016. године је репозиторијум доиФил званично ...
... сервиса интернета, посебно са веба (енг. world wide web, скр. www или само web). Саставни део референци на дигиталне документе на вебу (у даљем тексту: веб-референце), поред уобичајених метаподатака (наслов документа, имена аутора итд.), постала је адреса документа на вебу, једнозначни (униформни) ...
... вебу (приступну страницу публикације) која ће садржати библиографске информације (метаподатке) о публикацији, као и хипервезу (линк) ка комплетном тексту публикације, при чему је садржина доступна у складу са политиком издавача (бесплатно или уз одговарајућу надокнаду). С друге стране, агенција IDF-а ...Милош Утвић, Михаило Шкорић. "Репозиторијум дигиталних идентификатора објеката – доиФил: изградња, стање и перспективе" in Научна конференција Библиоинфо — 55 година од покретања наставе библиотекарства на високошколском нивоу, Београд 18. мај 2017., Филолошки факултет Универзитета у Београду (2017). https://doi.org/10.18485/biblioinfo.2017.ch7
-
Kvarcdioritporfiriti Velikog Krivelja| njihova alteracija i veza sa orudnjenjem
Gojko Đorđević (1980)Gojko Đorđević. Kvarcdioritporfiriti Velikog Krivelja| njihova alteracija i veza sa orudnjenjem, Beograd:Rudarsko-geološki fakultet, 1980