Претрага
42 items
-
Претрага корпуса заснована на употреби екстерних лексичких ресурса путем веб-сервиса
У раду се разматра хибридни приступ претрази корпуса, илустрован на примеру алатки OCWB и NoSketch Engine, примењених на специјални корпус из области рударства (РудКор) и Корпус савременог српског језика (СрпКор). Разматрани приступ комбинује постојеће могућности алатки OCWB и NoSketch Engine, које своју претрагу заснивају на лингвистичкој анотацији корпуса, са новим могућностима претраге у виду консултовања екстерних језичких ресурса (морфолошки електронски речници српског језика и лексичка база података Српски ворднет). Хибридни приступ је реализован надоградњом вебсучеља која поменуте алатке користе ...... обраду упита (у даљем тексту: процесор упита) који интерпретира задати упит, ге- нерише резултате претраге корпуса, a веб-сучеље те резултате форматира и представља их кориснику. Према томе, веб-сучеље је заправо посредник између корисника и процесора упита, у једном смеру преноси задати упит од корисника ...
... могу у упитима да се користе са свим могућностима које упитни језик дозвољава правим позиционим атрибутима. Наиме, вредност правог позиционог атри- 15 Ово је генерисани упит у случају Рударског корпуса чији текстови користе српску латини- цу. У случају корпуса СрпКор2013, генерисани упит би користио ...
... проширивање упита. ИЗВОРИ Корпус 2013: Душко Витас и Милош Утвић, „Корпус савременог српског језика (СрпКор), верзија СрпКор2013”, Група за језичке технологије Универзитета у Београду, http://www.korpus.matf.bg.ac.rs/korpus (датум приступа: 30.6.2019). РудКор 2018: „Рударски корпус, специјализовани ...Милош Утвић, Ранка Станковић, Александра Томашевић, Михаило Шкорић, Биљана Лазић. "Претрага корпуса заснована на употреби екстерних лексичких ресурса путем веб-сервиса" in Научни састанак слависта у Вукове дане - Vol. 48/3 Српски језик и његови ресурси, Међународни славистички центар, Филолошки факултет, Универзитет у Београду (2019). https://doi.org/10.18485/msc.2019.48.3.ch12
-
Digital Library From A Domain Of Criminalistics As A Foundation For A Forensic Text Analysis
U ovom radu predstavljen je model koji omogućava prikupljanje, pripremu, opis metapodataka, upravljanje i eksploataciju, uključujući pretragu punog teksta dokumenata iz domena kriminalistike napisanih na srpskom jeziku. Predloženi pristup primenjuje se na veb portalu koji sakuplja različite tekstove nastale iz časopisa Akademije za kriminalistiku i policijske studije, Krivičnog zakona Srbije, konferencija „Tara“ i „Reiss“, kao i iz nekih doktorskih disertacija vezanih za ovu oblast istraživanje. Nakon obrade teksta, korpus koji sadrži preko 5500 stranica običnog teksta, kreiran je i ...... Karkaletsis, pp. 97-104, 2003 uc Use Case Preaživ anje korpusa Leksikograf Terminolog Pretraga po lemi Pretraga oblika reči Pretraga po sinonimima Pretraga po semantičkim obrascima Pretraga sintaksičkim grafov ima Lingv ista Urednik korpusa Terminolog Prikupljanje tekstov a Leksička obrada ...Dalibor Vorkapić, Aleksandra Tomašević, Miljana Mladenović, Ranka Stanković, Nikola Vulović. "Digital Library From A Domain Of Criminalistics As A Foundation For A Forensic Text Analysis" in International Scientific Conference “Archibald Reiss Days” Thematic Conference Proceedings Of International Significance, Belgrade, 7-9 November 2017, Academy Of Criminalistic And Police Studies Belgrade (2017)
-
Integrisano okruženje za pripremu paralelizovanog korpusa
Razvoj paralelizovanih korpusa zahteva pripremu paralelnih tekstova za njihovu integraciju u paralelizovani korpus. Reč je o jednom kompleksnom zadatku koji se može rešiti na različite načine, i koji mora da se odvija u nekoliko koraka. U ovom radu najpre je iznet postupak pripreme paralelnih tekstova za paralelizovani korpus koji se koristi u Grupi za jezičke tehnologije Univerziteta u Beogradu. Potom je dat kratak pregled programa (XAlign, Concordancier, WS4LR), odnosno softverskih alata koji se pri tome koriste. Nedostatak udobnog okruženja ...... 1998). Uporedni korpusi mogu, ali ne moraju biti višejezični. Ova vrsta korpusa je ređa i ovde će nadalje biti reči samo o paralelnim, odnosno paralelizovanim korpusima. U ovom radu će biti razmotreni problemi koji prate pripremu paralelnih tekstova i kreiranje paralelizovanih korpusa, kao i pristup ...
... Ranka Stanković – Miloš Utvić (Beograd) Integrisano okruženje za pripremu paralelizovanog korpusa Razvoj paralelizovanih korpusa zahteva pripremu paralelnih tekstova za njihovu integraciju u paralelizovani korpus. Reč je o jednom kompleksnom zadatku koji se može rešiti na različite načine, i koji mora ...
... kolekcije paralelizovanih tekstova nazivaju se paralelizovanim korpusima. Podrazumeva se da se tekstovi u paralelizovanim korpusima u elektronskom obliku, odnosno da se mogu obrađivati uz pomoć računarske tehnologije. Paralelizovani korpusi se mogu koristiti u istraživanjima iz oblasti dvojezične odnosno ...Ivan Obradović, Ranka Stanković, Miloš Utvić. "Integrisano okruženje za pripremu paralelizovanog korpusa" in Zbornik radova međunarodnog simpozijuma Razlike između bosanskog/bošnjačkog, hrvatskog i srpskog jezika, Graz, Austria, April 2007, - (2007)
-
Football terminology: compilation and transformation into OntoLex-Lemon resource
У овом раду представља се пројекат који је у развоју, креирање првог дигиталног фудбалског речника на српском језику, као и да демонстрација примене модела OntoLex и љегових модула. OntoLex-FrAC модул укључује информације о учесталости и примерима употребе екстрахованих из корпуса. У овом случају, креиран је корпус за специфичан домен под називом СрФудКо, који садржи чланке вести о фудбалу на српском језику. Вишечлани термини аутоматски су екстраховани из српског корпуса, а затим ручно евалуирани и класификовани као спортски или ...Jelena Lazarević, Ranka Stanković, Mihailo Škorić, Biljana Rujević. "Football terminology: compilation and transformation into OntoLex-Lemon resource" in LDK 2023 – 4th Conference on Language, Data and Knowledge, 12-15 September in Vienna, Austria, Lisabon : NOVA FCSH - CLUNL (2023). https://doi.org/10.34619/srmk-injj
-
Белешка о дигитализацији речника
У раду ће се анализирати ограничења која проистичу из линеарног процеса традиционалне израде речника на примеру Речника САНУ. Начин да се превазиђу ова ограничења се састоји у формирању електронске лексикографске базе која не представља само пуку дигиталну транскрипцију папирног издања речника. Посебно се указује на чињеницу да текст речника може представљати корпус и приказују се одабрани примери анализе таквог корпуса формираног из текстове 1. и 19. тома Речника САНУ.... пуку дигиталну транскрипцију папирног издања речника. Посебно се указује на чињеницу да текст речника може представљати корпус и приказују се одабрани примери анализе таквог корпуса формираног из текстове 1. и 19. тома Речника САНУ. Кључне речи: лексикографија, рачунарска лексикографија, информатика ...
... базе (Павловић-Лаже- тић 1996), опредељивање за начин организовања корпуса и његове експлоата- ције, као и одређивање система за писање речника (DWS – dictionary writing system) који мора бити тесно повезан са структуром базе и корпуса. Одлуке о ове две компоненте су дакле најуже повезане са концепцијом ...
... дати детаљније у (Станковић и др. 2018а), (Станковић и др. 2018б) (Стијовић и др. 2017), (Стијовић и др. 2018). 5. Речник као корпус Целина речника је својеврстан корпус који омогућава увид у различита својства речника невидљива листањем његове папирне верзије. Упоредили смо неструктуриране дигиталне ...Душко М. Витас, Цветана Ј. Крстев, Ранка М. Станковић. "Белешка о дигитализацији речника" in Српски језик и његови ресурси, Међународни славистички центар, Филолошки факултет, Универзитет у Београду (2019). https://doi.org/10.18485/msc.2019.48.3.ch3
-
Увођење доменских и семантичких маркера за област рударства у српске електронске речнике
... постављање комп- лексних упита за екстракцију конкорданци, то је за специфичне, доменски зависне упите је потребно допунити скуп лексичких маркера. Један од домена који су недавно уведени у српски морфолошки речник је рударство, а паралелно са тим развијан је и корпус текстова из области рударства ...
... семантички маркер – опрема (или део опреме) Маркере је могуће користити кроз регуларне изразе, за неке једностав- није упите над корпусом. Други вид употребе јесте кроз постављање упита конструкцијом аутомата са сложенијим захтевима. Пример истраживања у коме су коришћени маркери у циљу екстракције ...
... датотеке, а постоји и SPARQL приступна тачка за RESTfulAPIs. 4. Опис корпуса рударских текстова Новопредложени маркери значајни су пре свега за екстракцију инфор- мација из корпуса текстова везаних за рударство. Прикупљање корпуса са текстовима из рударског домена је почело 2014, након чека је урађена ...Иван Обрадовић, Александра Томашевић, Ранка Станковић, Биљана Лазић. "Увођење доменских и семантичких маркера за област рударства у српске електронске речнике" in Научни састанак слависта у Вукове дане - Српски језик и његови ресурси: теорија, опис и примене, Београд : Међународни славистички центар на Филолошком факултету, Филолошки факултет (2017). https://doi.org/10.18485/msc.2017.46.3.ch10
-
Речник САНУ као база терминолошких речника (на примеру речника кулинарства)
... се налазе у дефиницији. У раду је представљено неколико карактеристичних образаца. Претраживање кулинарског корпуса, осим по облицима и лемама, могуће је коришћењем колмплекснијих упита, представљених регуларним изразима или графовима. Образац облика<+MessApp> проналази ...
... термина са референтним корпусом коришћен је Корпус савременог српског језика (korpus.matf.bg.ac.rs) од двадесет два милиона речи, (Утвић, 2011). Кључност термина (енг. keyness) се рачуна као однос релативне фреквенције (на милион) у кулинарском корпусу и у општем корпусу. Коришћењем електронских ...
... креираном кулинарском корпусу препознате су семантичке категорије карактеристичне за лексику кулинарских текстова (Крстев, Лазић, 2015): Табела: Примери из корпуса који су препознати семантичким маркерима за текстове кулинарског домена Маркер Опис маркера Примери из корпуса +DOM=Culinary кулинарски ...Рада Стијовић, Олга Сабо, Ранка Станковић. "Речник САНУ као база терминолошких речника (на примеру речника кулинарства)" in Словенска терминологија данас, Београд : Српска академија наука и уметности (2017)
-
Towards ELTeC-LLOD: European Literary Text Collection Linguistic Linked Open Data
Овај рад описује студију случаја о генерисању повезаних података креираних на основу обечежених текстуалних корпуса коришћењем формата размене података у обради природних језика (NIF). Као основа за ово истраживање послужио је подскуп корпуса ELTeC, који се састоји од 900 романа из периода 1840-1920 за 9 европских језика. Верзија романа са коментарима, у такозваном TEI level-2 формату, трансформисана је у NIF, формат заснован на RDF/OWL који има за циљ постизање интероперабилности између алата за обраду природних језика, језичких ресурса и ...Ranka Stanković, Christian Chiarcos, Miloš Utvić, Olivera Kitanović. "Towards ELTeC-LLOD: European Literary Text Collection Linguistic Linked Open Data" in LDK 2023 – 4th Conference on Language, Data and Knowledge, 12-15 September in Vienna, Austria, Lisabon : NOVA FCSH - CLUNL (2023). https://doi.org/10.34619/srmk-injj
-
Нове технологије за оживљавање старих текстова
удаљено читање, књижевни корпус, обрада српског језика, анотација врстом речи, лематизација, именовани ентитетиЦветана Крстев, Ранка Станковић, Бранислава Шандрих Тодоровић, Милица Иконић Нешић. "Нове технологије за оживљавање старих текстова" in Зборник радова Међународне научне конференције Дигитална хуманистика и словенско културно наслеђе II, Београд, 28-29 јуни 2021., Београд : Савез славистичких друштава Србије (2023)
-
Глаголи у кухињи и за столом
Цветана Крстев, Биљана Лазић (2015)У раду је приказано истраживање лексике на српском језику кулинарског домена које се заснива на коришћењу доменског корпуса, електронских лексичких ресурса, пре свега WordNet-а и морфолошких речника, и локалних граматика. Приказане су доменске специфичности ових ресурса, како се користе, и међусобно употпуњују. Посебно је приказано како се коришћењем доменског корпуса могу екстраховати глаголи специфични за кулинарски домен и описати начини њиховог коришћења. Дат је попис глагола са основним подацима који је добијен применом представљених метода.аутоматска обрада, коначни трансдуктори, електронски речници, семантичке мреже, локалне граматике, кулинарство... језичких ресурса за кулинарски домен a. Корпус куварских рецепата За потребе изучавања лексике кулинарског домена, као и за потребе развоја и евалуације лексичких ресурса и алата из овог домена развијен је доменски корпус (Вујичић Станковић и Пајић 2014). Овај корпус је добијен превлачењем рецепата са ...
... на коришћењу доменског корпуса, електронских лексичких ресурса, пре свега WordNet-а и морфолошких речника, и локалних граматика. Приказане су доменске специфичности ових ресурса, како се користе, и међусобно употпуњују. Посебно је приказано како се коришћењем доменског корпуса могу екстраховати глаголи ...
... Анализом доменског корпуса и консултовањем српског ворднета прво су одабрани адекватни семантички маркери куварске лексике (дати у Табела 1) којима су потом обележене како све постојеће јединице електронског речника тако и оне нове које су добијене екстраховањем из доменског корпуса (Вујичић Станковић ...Цветана Крстев, Биљана Лазић. "Глаголи у кухињи и за столом" in Научни састанак слависта у Вукове дане - Српски језик и његови ресурси: теорија, опис и преимене, Вол. 44/3, Београд : Међународни славистички центар (2015)
-
Bridging Computational Lexicography and Corpus Linguistics: A Query Extension for OntoLex-FrAC
OntoLex, dominantni standard zajednice za mašinski čitljive leksičke resurse u kontekstu RDF-a, Linked Data i tehnologija Semantičkog veba, trenutno se proširuje sa posebnim modulom za Frekvencije, Primere i Informacije zasnovane na Korpusu (OntoLex-FrAC). Predlažemo novi komponent za OntoLex-FrAC, koji se bavi inkorporacijom korpusnih upita za (a) povezivanje rečnika sa korpusnim mašinama, (b) omogućavanje RDF baziranih web servisa da dinamički razmenjuju korpusne upite i podatke odgovora, i (c) korišćenje konvencionalnih upitačkih jezika za formalizaciju unutrašnje strukture kolokacija, skica reči i ...standardizacija, digitalna leksikografija, OntoLex, upiti korpusa, povezani podaci, Lingvistički povezani otvoreni podaciChristian Chiarcos, Ranka Stanković, Maxim Ionov, Gilles Sérasset. "Bridging Computational Lexicography and Corpus Linguistics: A Query Extension for OntoLex-FrAC" in Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), Turin, 20-25 May 2024, LREC (2024)
-
Ontološki model upravljanja rizikom u rudarstvu
Olivera Kitanović (2021)Rudarska proizvodnja obuhvata kompleksne tehnološke sisteme, što nameće potrebu za uspostavljanjem i unapređivanjem sistema upravljanja rizikom. Heterogenost i obim podataka neophodnih za upravljanje rizikom zahtevaju sistem koji ih na fleksibilan način integriše i omogućava njihovo optimalno korišćenje. Osnovni cilj ove disertacije je razvoj ontologije za domen rudarstva i na njoj zasnovanog modela za upravljanje rizikom. Njegova realizacija podrazumeva i implementaciju algoritama ekstrakcije informacija za popunjavanje ontologije, kao i odgovarajuće softversko rešenje. Razvoj modela obuhvata i značajno proširenje rudarskog korpusa, kao ...rudarstvo, rizik, upravljanje rizikom, procena rizika, ontologija, semantička mreža, ekstrakcija informacija, upravljanje znanjem, računarska lingvistika... primer upita nad korpusom koji bi odgovarao sličnom obrascu je: [lemma="jesam"][word!="\."]{0,3}[lemma="vrsta"][tag="N"] Analizom rezultata (Slika 4-31) je uočeno da dosta primera za nabrajanja idu sa zagradom tako da se može upit modifikovati u tom smeru. Slika 4-31 Konkordance za upit „je … ...
... rečima neophodna za precizniju ekstrakciju informacija. Markere je moguće koristiti kroz regularne izraze, za neke jednostavnije upite nad korpusom ili kroz postavljanje upita konstrukcijom automata sa složenijim zahtevima. Ekstrakcija domenske terminologije, mernih jedinica, za ekstrakciju imenovanih ...
... Slika 3-5 Panel alata Unitex sa obrađenim rudarskim korpusom Na ovako obrađen korpus se mogu primeniti različiti obrasci za pretragu, recimo: „“ koji će da vrati sve konkordance odnosno rečenice u kojima iza prideva sledi reč „rizik“. U upitima je moguće kombinovati i semantičke markere, recimo ... Olivera Kitanović. Ontološki model upravljanja rizikom u rudarstvu, Beograd : [O. Kitanović], 2021
-
SrpELTeC on Platforms: Udaljeno čitanje, Aurora, NoSketch
Serbian ELTeC collection (100 novels and extended) developed within COST action CA16204 Distant Reading for European Literary History comprises at this moment 111 novels published in the period 1840-1920. Such a valuable resource is and will be used for various lexical and linguistic research, by using different tools and methodologies. In this paper, three platforms on which these novels are published will be presented: “Udaljeno ˇcitanje”, Aurora and Sketch Engine.Ranka Stanković, Mihailo Škorić, Petar Popović. "SrpELTeC on Platforms: Udaljeno čitanje, Aurora, NoSketch" in Infotheca, Faculty of Philology, University of Belgrade (2022). https://doi.org/10.18485/infotheca.2021.21.2.7
-
Речници у дигиталном добу - информатичка подршка за српски језик
Биљана Рујевић (2022)Морфолошки речници српског језика представљају електронски језички ресурс који има значајну историју развоја и коришћења за потребе обраде природних језика. С обзиром на то да су чувани у облику датотека чији је број нарастао па је самим тим управљање речницима постало отежано јавила се потреба за смештањем информација из речника у облик лексикографске базе. Како би се омогућио симултани рад на развоју речника за више корисника јавила се потреба за веб-апликацијом заснованој на лексикографској бази. Како би се размотриле ...Биљана Рујевић. Речници у дигиталном добу - информатичка подршка за српски језик, Београд : [Б. Рујевић], 2022
-
Serbian ELTeC Sub-Collection in Wikidata
This paper presents an example of integration of Wikidata with digital libraries and external systems, as well as some best practices for speeding up the process of data preparation and import to Wikidata, on the use case of SrpELTeC, Serbian subcollection of the ELTeC multilingual collection (European Literary Text Collection). After preliminary work on the manual Wikidata population with SrpELTeC novels, the goal was to automate the process of preparing and importing information, so different solutions were analysed and ...Milica Ikonić Nešić, Ranka Stanković, Biljana Rujević. "Serbian ELTeC Sub-Collection in Wikidata" in Infotheca, Faculty of Philology, University of Belgrade (2021). https://doi.org/10.18485/infotheca.2021.21.2.4
-
Annotation of the Serbian ELTeC Collection
Ovaj rad predstavlja takozvano izdanje nivoa 2 kolekcije tekstova SrpELTeC razvijene u okviru aktivnosti Radne grupe 2 – Metode i alati COST akcije CA 16204 (Distant Reading for European Literary History) i njene specifikacije šeme. Izdanje nivoa 2 je nastavak izdanja nivoa 1, koje se koristi kao ulaz za morfosintaksičke i NER anotacije romana. Srpska obrada nivoa-2 je navedena kroz potrebne korake, uključujući metode i alate koji se koriste u tom procesu. Neki statistički podaci iz srpske kolekcije nivoa ...udaljeno čitanje, literarni korpus, tagiranje, prepoznavanje imenovanih entiteta, lematizacija, ELTeCRanka Stanković, Cvetana Krstev, Branislava Šandrih Todorović, Mihailo Škorić. "Annotation of the Serbian ELTeC Collection" in Infotheca, Faculty of Philology, University of Belgrade (2021). https://doi.org/10.18485/infotheca.2021.21.2.3
-
Чији је пример? Анализа лексичких обележја на примерима Речника САНУ
У овом раду поставља се питање: да ли се може утврдити ко је аутор неког текста уколико се анализирају искључиво његова лексичка обележја? Како бисмо покушали да добијемо одговор на ово питање, посматрали смо примере у оквиру речничког чланка појединачне лексеме Речника САНУ, који су забележени у пет томова (и то: I, II, XVIII, XIX и XX). Сваки пример је преузет из неког извора на шта упућују скраћенице, наведене у заградама. Од преко 5.000 понуђених извора, определили смо се ...... текста; o no_rare_tokens: број токена са фреквенцијом мањом од неке за- дате вредности у референтном корпусу; o Avg_freq_in_corpus: просечна фреквенција речи присутних у тексту у односу на референтни корпус; • остало: o no_pronouns: укупан број личних заменица. Навешћемо као пример употребу веб сервиса ...
... текста; o no_rare_tokens: број токена са фреквенцијом мањом од неке задате вредности у референтном корпусу; o Avg_freq_in_corpus: просечна фреквенција речи присутних у тексту у односу на референтни корпус; остало: o no_pronouns: укупан број личних заменица. Навешћемо као пример употребу веб сервиса ...
... текста; o no_rare_tokens: број токена са фреквенцијом мањом од неке задате вредности у референтном корпусу; o Avg_freq_in_corpus: просечна фреквенција речи присутних у тексту у односу на референтни корпус; остало: o no_pronouns: укупан број личних заменица. Навешћемо као пример употребу веб сервиса ...Бранислава Б. Шандрих, Ранка М. Станковић, Мирјана С. Гочанин. "Чији је пример? Анализа лексичких обележја на примерима Речника САНУ" in Српски језик и његови ресурси, Међународни славистички центар, Филолошки факултет, Универзитет у Београду (2019). https://doi.org/10.18485/msc.2019.48.3.ch13
-
Vebran Web Services for Corpus Query Expansion
Ranka Stanković, Miloš Utvić (2020)U ovom radu se govori o razvoju veb usluga Vebran i njihovoj primeni u poboljšanju pretraživanja korpusa. Veb-servisi Vebran koriste se za konsultovanje spoljnih leksičkih izvora za srpski jezik (uglavnom elektronski morfološki rečnici i srpski Vordnet) i proširivanje korisničkih upita radi dobijanja relevantnijih rezultata iz srpskih korpusa.... Stanković R. and Utvić M., “Vebran Web Service . . . ”, pp. 99–118 Утвић, Милош. “Анотациjа Корпуса савременог српског jезика”. Инфотека Vol. XII, no. 2 (2011): 39–51 Utvić, Miloš. “Izgradnja referentnog korpusa savremenog srpskog jezika”. Phdthesis, Univerzitet u Beogradu, Filološki fakultet, Beograd ...
... Утвић, Милош В., Иван М. Обрадовић, Ранка М. Станковић, Александра Ђ. Томашевић and Биљана Ђ. Лазић. “Изградња специjалних корпуса савременог српског jезика на примеру корпуса из области рударства”. In Српски jезик и његови ресурси: теориjа, опис и примене. 3/47. научни састанак слависта у Вукове дане ...
... Eighth International Confer- ence on Language Resources and Evaluation (LREC),(Istanbul, Turkey, 2012, 1710–1717 Stanković, Ranka. “Modeli ekspanzije upita nad tekstuelnim resursima”. Phdthesis, Univerzitet u Beogradu, Matematički fakultet, Beograd, 2009 Stanković, Ranka, Cvetana Krstev, Biljana Lazić ...Ranka Stanković, Miloš Utvić. "Vebran Web Services for Corpus Query Expansion" in Infotheca, Faculty of Philology, University of Belgrade (2020). https://doi.org/10.18485/infotheca.2019.19.2.5
-
Integracija heterogenih tekstualnih resursa
Ranka Stanković, Ivan Obradović (2007)U radu je opisan pristup integraciji heterogenih tekstualnih resursa za srpski jezik uz pomoć jednog kompleksnog softverskog alata, razvijenog specijalno za ove potrebe. Opisani su struktura i osnovne komponente razvijenog sistema. Iznete su i mogućnosti unapređivanja resursa međusobnom razmenom informacija, koje pruža razvijeno integrisano okruženje. Konačno, opisana je i mogućnost primene integrisanih heterogenih resursa za proširenje upita, kao i pretraživanje tekstova uopšte, a naznačeni su i neki od pravaca daljeg razvoja.... pitanju pretraživanje korpusa, sem najjednostavnijih upita, po 11 pravilu je moguće formulisanje i složenijih upita regularnim izrazima. Međutim, i kada je u pitanju tekstualni sadržaj na internetu, i kada se pretražuju korpusi, postoje znatno veće mogućnosti za proširenje upita. U ovom odeljku biće ...
... je, inače, kada su u pitanju korpusi. U upitima koji se zasnivaju na regularnim izrazima i grafovima upit se ne formira navođenjem jedne ili više lema ili njihovih oblika. Upit postavljen pomoću regularnog izraza može da ima znatno opštiji oblik, kao, na primer, upit koji se zasniva na regularnom ...
... in ch would alleviate their mainten eno poslužila za integrisanje WS4LR i korpusa srpskog jezika, koji je takođe delom dostupan na internetu. S tim u vezi je i planirani razvoj javnog Web servisa za proširenje upita. Konačno, u razmatranju je i mogućnost razvoja jedne mobilne aplikacije, za ...Ranka Stanković, Ivan Obradović. "Integracija heterogenih tekstualnih resursa" in Zbornik radova međunarodnog simpozijuma Razlike između bosanskog/bošnjačkog, hrvatskog i srpskog jezika, Graz, Austria, April 2007, - (2007)
-
Towards the semantic annotation of SR-ELEXIS corpus: Insights into Multiword Expressions and Named Entities
Овај рад представља активности на развоју корпуса ELEXIS-sr, српском додатку вишејезичном анотираном корпусу ELEXIS-а, који се састоји од семантичких анотација и репозиторија значења речи. ELEXIS је паралелни вишејезични анотирани корпус на десет европских језика, који може да се користи као вишејезички репер за евалуацију европских језика са мање и средње развијеним ресурсима. Фокус овог рада је на вишечланим изразима и именованим ентитетима, њиховом препознавању у скупу реченица ELEXIS-sr и поређењу са анотацијама на другим језицима. Разматрају се први кораци ...Cvetana Krstev, Ranka Stanković, Aleksandra Marković, Teodora Mihajlov. "Towards the semantic annotation of SR-ELEXIS corpus: Insights into Multiword Expressions and Named Entities" in Proceedings of the Joint Workshop on Multiword Expressions and Universal Dependencies (MWE-UD) @ LREC-COLING 2024, Turin, May 25, 2024, ELRA and ICCL (2024)