Самая ценная часть поискового аппарата в национальном корпусе казахского языка - метаразметка, которая характеризует текст в целом
Аннотация
Система метаразметок, принятая в Национальном корпусе казахского языка, сопровождается метаразмеченной информацией. Здесь мы должны понимать метаразмеченную систему признаков экстралингвистического характера или внешнего аннотирования и технических работ (т. е. служебных), относящихся к тексту. На основе изучения литературы, касающейся корпусной лингвистики, было установлено, что существует несколько видов разметок. Среди них мы рассмотрели так называемую экстралингвистическую разметку или метаязык (метаразметка), который дает представление о текстовых данных.
Об авторе
А. К. ЖубановКазахстан
Главный научный сотрудник Института языкознания им. А. Байтурсынова, доктор филологических наук, профессор.
Список литературы
1. Сичинава Д.В. К задаче создания корпусов русского языка. [электрон ресурс]. http://www.mccme.ru/ling/mitrius/article.html. (жүгіну уақыты: 2.05.2016).
2. Демская-Кульчицкая О.М., Семеренко В.Р., Ющенко Р.А. Методы автоматической разметки текстов Национального корпуса языка // Компьютерная математика. – 2005. № 2. 6 с.
3. Азарова И.В. Морфологическая разметка текстов на русском языке с использованием формальной грамматики AGFL. Кафедра математической лингвистики СПб.: ГУ [электрон ресурс]. // http://www.dialog-21.ru/Archive/2003/AzarovaAGFL.htm. (жүгіну уақыты: 2.05.2016).
4. Национальный корпус русского языка. [электрон ресурс]. // http://www.ruscorpora.ru/. (жүгіну уақыты: 2.05.2016).
5. Дарчук Н.П. Автоматизований морфологічний аналіз тексту. [электрон ресурс]. // http://linguist.univ.kiev.ua/courses_morph.htm. (жүгіну уақыты: 2.05.2016).
Рецензия
Для цитирования:
Жубанов А.К. Самая ценная часть поискового аппарата в национальном корпусе казахского языка - метаразметка, которая характеризует текст в целом. Tiltanym. 2016;(2):3-9.
For citation:
Zhubanov A.K. The most valuable part of the search engine in the national corpus of the Kazakh language is meta-markup, which characterizes the text as a whole. Tiltanym. 2016;(2):3-9. (In Kazakh)