Формировать Национальный корпус казахского языка будут по новым правилам

Казахский язык, государственный язык РК, фото - Новости Zakon.kz от 03.07.2025 11:43 Фото: assembly.kz
Приказом министра науки и высшего образования утверждены Правила формирования и ведения Национального корпуса казахского языка, сообщает Zakon.kz.

Правила устанавливают общие требования и процедуры для создания, пополнения, обработки, хранения и использования Национального корпуса казахского языка, который служит основой для научных, образовательных и практических исследований в области казахского языка и лингвистики.

Указывается, что все работы, связанные с формированием, ведением и использованием Национального корпуса, проводятся в рамках единого национального подхода с обеспечением высокого уровня качества, безопасности и доступности данных.

Формирование Национального корпуса начинается с тщательного сбора и отбора текстов, представляющих все аспекты его функционирования – от письменных источников до устных материалов, которые отражают особенности языка, используемого в различных сферах и временных срезах.

Все материалы Национального корпуса должны соответствовать научным стандартам качества, имеют метаданные и источниковедческую информацию, проходят проверку на грамматические и орфографические ошибки, а также редактируются и упорядочиваются в соответствии с единой системой кодирования и классификации.

Национальный корпус отражает разнообразие языковых практик, включая различные жанры, типы текстов, диалекты и стили, а также учитывает региональные и исторические особенности.

Все собранные тексты систематизируются и аннотируются по жанру, стилю, времени, источнику, по лексическим и грамматическим уровням.

После сбора и аннотирования текстов с учетом энциклопедического и источниковедческого анализа применяются методики лингвистической обработки и анализа данных, что позволяет создавать целевые эмпирические языковые базы для научных исследований и модели языка, используемые для разработки языковых технологий и лексикографических проектов.

Функции Национального корпуса:

  • Метаразметка предоставляет информацию, которая подробно описывает текст и его характеристики, включая автора, название, жанр, источник, дату создания, целевую аудиторию, стиль, размер, формат, структурные особенности.
  • Цифровая структура Национального корпуса обеспечивает систематизацию текстов в цифровом формате, что позволяет использовать современные инструменты автоматизированного анализа.
  • Многофункциональность Национального корпуса позволяет использовать его в различных областях, включая лингвистические исследования, лексикографию, обучение языкам, компьютерную лингвистику и нейролингвистическое программирование.
  • Прикладные задачи Национального корпуса позволяют автоматизировать обработку текстов, улучшать качество языковых моделей, разрабатывать эффективные инструменты для анализа текста, создания приложений для обучения языкам, машинного перевода и разработки искусственного интеллекта.

Ведение Национального корпуса

Национальный корпус непрерывно обновляется и расширяется за счет добавления новых материалов, отражающих изменения в языке и актуальные достижения в различных областях, с обеспечением доступа архивных версий.

Для повышения качества и актуальности базы данных обеспечивается взаимодействие с международными научными и лингвистическими организациями.

Для координации эффективного функционирования Национального корпуса создается рабочая группа, состоящая из профильных специалистов, которые обладают необходимыми знаниями и опытом.

Все материалы, загруженные в Национальный корпус, соответствуют требованиям по форматированию, орфографии, пунктуации, стилю и структуре.

Все участники, предоставляющие материалы для включения в Национальный корпус, обеспечивают их качество, точность, достоверность, актуальность.

Предусматривается, что для обеспечения высокого качества данных регулярно проводится мониторинг.

Указывается, что Национальный корпус служит основой для разработки лексикографических и грамматических проектов, научных и образовательных материалов, а также для создания программных продуктов.

Национальный корпус расширяется с учетом изменений в языке, новых тенденций, а также появления новых жанров, стилей и направлений, что гарантирует его актуальность и соответствие языковым инновациям.

В Национальный корпус могут быть включены материалы из открытых и доступных источников, если их использование не нарушает авторские права и соответствует нормам добросовестного использования.

Национальный корпус, корпусы и подкорпусы общедоступны и предоставляются для использования всем заинтересованным сторонам.

При ведении Национального корпуса учитываются этические принципы, включая исключение дискриминационного контента и обеспечение инклюзивности.

 Приказ вводится в действие со 2 июля 2025 года.

Поделитесь новостью
Поделитесь новостью:
Следите за новостями zakon.kz в:
Если вы видите данное сообщение, значит возникли проблемы с работой системы комментариев. Возможно у вас отключен JavaScript
Сообщите об ошибке на странице
Ошибка в тексте: