Extraction of Bilingual Terminology Using Graphs, Dictionaries and GIZA++

Објеката

Тип
Рад у часопису
Верзија рада
објављена верзија
Језик
енглески
Креатор
Branislava Šandrih, Ranka Stanković
Извор
Infotheca
Издавач
Faculty of Philology, University of Belgrade
Датум издавања
2020
Сажетак
U nauci, industriji i mnogim istraživačkim oblastima, terminologija se brzo razvija. Najčešće, jezik koji je „lingua franca“ za većinu ovih oblasti je engleski. Kao posledica toga, za mnoga polja termini domena su koncipirani na engleskom, a kasnije se prevode na druge jezike. U ovom radu predstavljamo pristup za automatsko izdvajanje dvojezične terminologije za englesko-srpski jezički par koji se oslanja na usaglašeni dvojezični korpus domena, ekstraktor terminologije za ciljni jezik i alat za usklađivanje delova. Ispitujemo performanse metode na domenu bibliotekarstva i informacionih nauka. Dobijeni rezultati, kao i aplikacija koja implementira metod, dostupni su on-line.
In science, industry and many research fields, terminology is rapidly developing. Most often, a language that is “lingua franca” for most of these areas is English. As a consequence, for many fields, domain terms are conceived in English, and are later translated to other languages. In this paper, we present an approach for automatic bilingual terminology extraction for English-Serbian language pair that relies on an aligned bilingual domain corpus, a terminology extractor for a target language and a tool for chunk alignment. We examine the performance of the method on a Library and Information Science domain. The obtained results, as well as the application that implements the method, are available on-line.
том
19
Број
2
почетак странице
119
крај странице
138
doi
10.18485/infotheca.2019.19.2.6
issn
1450-9687
Subject
ekstrakcija terminologije, validacija terminologije, GIZA++, grafovi, Unitex, klasifikacija teksta
terminology extraction, terminology validation, GIZA++, graphs, Unitex, text classification
Шира категорија рада
M50
Ужа категорија рада
М53
Права
Отворени приступ
Лиценца
Creative Commons – Attribution-Share Alike 4.0 International
Формат
.pdf
Скупови објеката
Ранка Станковић
Radovi istraživača

Branislava Šandrih, Ranka Stanković. "Extraction of Bilingual Terminology Using Graphs, Dictionaries and GIZA++" in Infotheca, Faculty of Philology, University of Belgrade (2020). https://doi.org/10.18485/infotheca.2019.19.2.6

This item was submitted on 23. новембар 2021. by [anonymous user] using the form “Рад у часопису” on the site “Радови”: http://dr.rgf.bg.ac.rs/s/repo

Click here to view the collected data.