Skip to main content
Пријава

Collected Item: “Towards ELTeC-LLOD: European Literary Text Collection Linguistic Linked Open Data”

Врста публикације

Рад у зборнику

Верзија документа

објављена

Језик

енглески

Аутор/и (Милан Марковић, Никола Николић)

Ранка Станковић, Christian Chiarcos, Милош Утвић, Оливера Китановић

Наслов рада (Наслов - поднаслов)

Towards ELTeC-LLOD: European Literary Text Collection Linguistic Linked Open Data

Назив конференције (зборника), место и датум одржавања

LDK 2023 – 4th Conference on Language, Data and Knowledge

Уредник/ци зборника

Carlvalho, Sara et al.

Издавач (Београд : Просвета)

NOVA FCSH - CLUNL

Година издавања

2023

Сажетак рада на српском језику

Овај рад описује студију случаја о генерисању повезаних података креираних на основу обечежених текстуалних корпуса коришћењем формата размене података у обради природних језика (NIF). Као основа за ово истраживање послужио је подскуп корпуса ELTeC, који се састоји од 900 романа из периода 1840-1920 за 9 европских језика. Верзија романа са коментарима, у такозваном TEI level-2 формату, трансформисана је у NIF, формат заснован на RDF/OWL који има за циљ постизање интероперабилности између алата за обраду природних језика, језичких ресурса и анотација. У овом раду представљамо наш приступ трансформацији, имплементирану процедуру, програмски код и резултате за сличне случајеве употребе.

Сажетак рада на енглеском језику

This paper describes a case study on the generation of Linked Data text corpora using the NLP Interchange Format (NIF). The ELTEC corpus subset, which consists of 900 novels from the period 1840-1920 for 9 European languages, served as the basis for this research. The annotated version of the novels, in the so-called TEI level-2 format, was transformed into NIF, an RDF/OWL-based format that aims to achieve interoperability between NLP tools, language resources, and annotations. In this paper, we present our approach for transformation, and the implemented pipeline, and offer the code and results for similar use cases.

Почетна страна рада

180

Завршна страна рада

191

DOI број

10.34619/srmk-injj

ISBN број изворне публикације

978-989-54081-5-3

Кључне речи на српском (одвојене знаком ", ")

повезани отворени подаци, корпус, SrpELTeC, NIF

Кључне речи на енглеском (одвојене знаком ", ")

linked open data, corpus, SrpELTeC, NIF

Линк

http://hdl.handle.net/10362/156751

Шира категорија рада према правилнику МПНТ

М30

Ужа категорија рада према правилнику МПНТ

М33

Ниво приступа

Отворени приступ

Лиценца

Creative Commons – Attribution 4.0 International

Формат датотеке

.pdf
Click here to view the corresponding item.