Award for Prof. Vladimir Pericliev - 2016

At the beginning of 2016 Prof. Dr Vladimir Pericliev from the Mathematical Linguistics Department (IMI-BAS) was awarded the prestigious Sejong Prize for academically distinguished papers of Sejong University, South Korea.

 

Most important results from investigations during 2014

I. 1. Издадена монография

Dimitrova, L., Koseska–Toszewa, V. Semantics Properties of Selected Universal Language Categories in Digital Bilingual Resources. Demetra Ltd Publishers, Sofia, 2014, 155 pp. ISBN 978-954-8986-40-3

Монографията [Dimitrova et al., 2014] pредставя резултати от сътрудничеството по съвместен изследователски проект „Семантика и съпоставителна лингвистика, ориентирани към двуезичен електронен речник“ на ИМИ-БАН и Института по славистика на Полска Академия на Науките (АН) в рамката на Спогодбата между БАН и Полската АН. Ръководители на проекта: проф. Людмила Димитрова (ИМИ-БАН) и проф. Виолетта Косеска-Тошева (ИС-ПАН).

На базата на езиков материал, извлечен автоматично от разработения в проекта първи българо-полски електронен паралелен корпус, са разгледани семантични свойства на универсалните езикови категории „определеност/неопределеност“, „време и аспект“, „условна и имперцептивна модалност“. Представена е система за семантична анотация на квантификационни изрази в българо-полския паралелен корпус. Разгледани са класификаторите за описание на заглавните думи в българо-полския електронен речник, като специално внимание е отделено на българския глагол. Описани са лексическа база данни (формален модел за кодиране на двуезичен електронен речник),  структурата на българо-полския електронен речник и алгоритъма за подбор на заглавните думи. В гл. 8 е публикувана част от речника – 1040 речникови статии на най-често използваните в подравнения българо-полски електронен корпус български глаголи. Класифицирани са над 2000 български и полски глаголи.

 

I. 2. Завършено е публикуването в Интернет на българо-словашкия паралелен корпус (тест-версия за свободно ползване с многоезичен интерфейс) - резултат от съвместен изследователски проект „Електронни корпуси – съпоставително изследване с цел проектиране на българо-словашки електронни езикови ресурси“ на ИМИ-БАН и Института по лингвистика „Людовит Щур“ на Словашката Академия на науките (АН) в рамката на Спогодбата между БАН и Словашката АН. Ръководители на проекта: проф. Людмила Димитрова (ИМИ-БАН) и д-р Радован Гарабик (ИЛ-САН).

Тест-версията на българо-словашкия паралелен корпус (par-skbg-free-0.1), реализирана в 2014 г., съдържа 163 милиона единици: 78 милиона в словашките текстове и 85 в българските. Текстовете в българо-словашкия паралелен корпус са автоматично подравнени на ниво „изречение“. Словашките текстове са автоматично морфологично анотирани с тагер Morče – обучен автоматично с tagset, разработен в Словашкия национален корпус. За анотиране на българските текстове е използван тагер TreeTagger.

Търсенето в корпуса – както в българската, така и в словашката част – се изпълнява чрез Web Interface NoSketch Engine на http://korpus.sk/skbg_bg.html (в момента интерфейсът е на английски и български език). Създаден е двуезичен речник на фрази, автоматично извлечени от българо-словашкия подравнен корпус. Експерименталната версия на двуезичния речник съдържа около 290 000 единици, в които българските и словашките словоформи са около 793 000.

 

Most important results from investigations during 2012

Information and communication sciences and technologies

В областта на интелигентното управление на съдържание в цифрови информационни среди са извършени изследвания и са разработени алгоритми, средства и услуги за осигуряване на оперативна съвместимост (на съдържание, потребители, функционалност, политики, качество и архитектури).  Интеграцията между различни мултимедийни информационни среди дори с обща предметна област се явява комплексна задача, свързана с отчитане на  разнообразни схеми и стандарти за описание на техни обекти (хетерогенни и/или комплексни), от различен медиен тип, с различни целеви приложения и групи потребители. За осъществяване на управлението и автоматичния обмен на мултимедийни обекти и знания са изследвани семантични зависимости и съответствия между обектите на две среди и е реализирано свързване на класове от понятия в онтологичните им описателни структури. 

Софтуерната реализация за оперативна съвместимост на мултимедийни цифрови среди е тествана и верифицирана при интегриране на съдържанието на цифровите библиотеки „Виртуална енциклопедия на Българската иконография” (ИМИ-БАН) и „Енциклопедия Slavica Sanctorum”(СУ „Климент Охридски”, ИМИ-БАН), представящи българско културно-историческо наследство.

Получените резултати могат да се прилагат както в областта на информатиката и технологиите за управление и обработка на знания, така и в други области от културно-историческото и научно наследство, история, антропология, агиография, изкуствознание и др.

Проведените изследвания и получените резултати за интелигентно управление на съдържание на интегрирани цифрови среди са рецензирани положително и докладвани на следните представителни международни конференции в областта:

1) Paneva-Marinova, D., Pavlov, R., Goynov, M. (2012), Two Integrated Digital Libraries for Knowledge and Iconography of Orthodox Saints, In: Progress in Cultural Heritage Preservation, 4th International Conference, EuroMed 2012, Lemessos, Cyprus, October 29 -- November 3, 2012, Springer, Heidelberg, Vol. 7616, XXV, pp. 684—691, ISBN: 978-3-642-34233-2.

2) Goynov, M., Paneva-Marinova, D., Pavlov, R. (2012), Content Interoperability between Digital Libraries for Orthodox Heritage,  In: Proceedings of the International Conference on Computer Systems and Technologies, ComSysTech’12, Ruse, Bulgaria, 22-23 June, 2012, ACM ICPS,  pp. 201-207, ISSN: 978-1-4503-1193-9.

Изпълнител от ИМИ–БАН: екип от секция „Математическа лингвистика” с ръководител проф. д-р Радослав Павлов.

 

Grants - 2012

През 2012 година гл.ас. д-р Десислава Панева-Маринова и ас.  Детелин Лучев участваха в конкурс за млади учени и докторанти „Българският принос в съвременното изследователско пространство”, организиран от Българска академия на науките и Център Икуо Хираяма. Те представиха два проекта на тема: „Отворен достъп до научните изследвания в Република България” и „FolkDressCode. Да съхраним миналото за бъдещето” и достигнаха до финален етап на конкурса, за което бяха наградени с грамоти. Проектът „FolkDressCode. Да съхраним миналото за бъдещето” бе отличен като победител в категорията за докторанти.

 

Most important results from investigations during 2011

Information and communication sciences and technologies

Discovery systems in diverse linguistic fields (semantics, typology, historical grammar, etc.) are developed. In typology, the first program is built which describes its discoveries as a whole text in English and two such texts are published in a journal without any further human editing. This is the first computer program to generate a scientific article. In the field of historical grammar,  a computer-generated hypothesis is proposed for the existence of genealogical relationship among a language family in South America, on the Atlantic, and a language family, spoken on most islands in the Pacific. The results obtained are important not only for linguistics and computational linguistics, but also for other scientific disciplines such as genetics, archaeology, anthropology and prehistory. These investigations on machine discovery are positively reviewed in leading journals. (Principal investigator Assoc. Prof. Dr. Vladimir Pericliev)

The result is published in the official report of the Bulgarian Academy of Sciences for 2011, available here.

 

Most important results from investigations during 2010

Information and communication sciences and technologies

A conceptual model of GRID-based European research infrastructure of centers for digital lexicography and their digital language resources is developed. The model covers all types of advanced language technologies and all kinds of digital language resources that should be included in a research infrastructure for Slavic lexicography, namely: grammars, corpora, dictionaries, lexical databases, lexicons, thesauri, ontologies. The concept of the technological platform maintaining such research infrastructure is presented in details.

The conceptual model is developed under the successfully completed 7FP European project MONDILEX, coordinated by IMI of BAS. The partners are research organizations from Bulgaria, Poland, Slovak Republic, Slovenia, Russian Federation and Ukraine. (The leader of the international team is Assoc. Prof. Dr. Ludmila Dimitrova)

The result is published in the official report of the Bulgarian Academy of Sciences for 2010, available here.