Корпуса

список

Корпуса

Добро пожаловать на сайт проекта «Корпуса», созданного в Лаборатории исследования и сохранения малых языков Института языкознания РАН. Сайт представляет собой платформу, на которой размещены языковые корпуса.

Ресурс корпусов представляется как на самостоятельной площадке по данному адресу corpora.iling-ran.ru, так и в рамках сайта «Малые языки России» (также созданного на базе Лаборатории исследования и сохранения малых языков Института языкознания РАН), по адресу minlang.iling-ran.ru/corpora

Основная часть корпусов представлена на программном решении Tsakorpus, но некоторые из представленных корпусов не размещены, а интегрированы в данную среду, поскольку существуют на самостоятельных программных платформах.

Кроме того, в данный момент некоторые корпуса представлены исходными файлами программы SIL FieldWorks или pdf-файлами. Но мы работаем над тем, чтобы и они тоже были представлены на собственных программных платформах, с веб-интерфейсом для работы с ними.

В списке корпусов текстов стоит корпус языка куллуи, распространенного далеко за пределами России (в Индии). Дальнейшее развитие проекта предполагает выход за пределы языков России, так что размещение на нашей платформе этого корпуса — первый шаг в этом направлении.

Если у Вас есть вопросы или предложения по улучшению корпусной платформы, а также если Вы хотели бы разместить у нас Ваш корпус, пожалуйста, напишите нам по адресу: minlanglab@iling-ran.ru

Малые языки России

Корпус горномарийского языка

Материал корпуса собран коллективом экспедиции по изучению горномарийского языка на кафедре теоретической и прикладной лингвистики филологического факультета МГУ имени М. В. Ломоносова. Проект выполнялся при поддержке грантов РГНФ 16-04-18 037е, РФФИ 17-04-18 036е, 16-06-00 536а и 19-012-00 627.

Корпус разработан коллективом экспедиции по изучению горномарийского языка на кафедре теоретической и прикладной лингвистики филологического факультета МГУ имени М. В. Ломоносова.

Ительменский корпус

Корпус состоит из 15 архивных ительменских текстов, записанных В. И. Иохельсоном в 1910–1911 гг. и А. П. Володиным в 1962–1973 гг. Морфологическое аннотирование выполнено К. О. Шейфер, С. К. Ганиевой и М. Р. Плугарёвым.
Программная часть разработана Максимом Бажуковым

Кетский корпус

В корпус входят тексты на трех диалектах кетского языка из мультимедийного архива ЛАЛС НИВЦ МГУ / ЛИСМЯ ИЯз РАН, записанные в 2002–2014 гг. в ходе экспедиций по документации кетского языка под рук. О. А. Казакевич, а также архивные тексты, записанные Г. М. Корсаковым в 1937 г. Морфологическое аннотирование выполнено Ю. Е. Галяминой и Е. М. Будянской.

Корпус северноселькупских письменных текстов (юридические тексты)

Корпус состоит из переводов на верхнетазовский диалект северноселькупского языка ряда юридических текстов: Устава (основного закона) Ямало-Ненецкого автономного округа и федеральных законы и законов Ямало-Ненецкого автономного округа, касающихся коренных малочисленных народов Севера. Переводы выполнены в рамках проекта правительства ЯНАО и опубликованы в двух книгах:

  • Устав (основной закон) Ямало-Ненецкого автономного округа от 28 декабря 1998 г. № 56-зао (На селькупском языке). Салехард, 2008.
  • Федеральные законы и законы Ямало-Ненецкого автономного округа (На селькупском языке). Салехард, 2008.

Эвенкийский корпус

В корпус входят тексты на северных, южных и восточных диалектах эвенкийского языка из мультимедийного архива ЛАЛС НИВЦ МГУ / ЛИСМЯ ИЯз РАН, записанные в 1998–2021 гг. в ходе экспедиций по документации эвенкийского языка под рук. О. А. Казакевич, а также архивные эвенкийские тексты, записанные Г. М. Василевич в 1930-1950е гг. и Е. А. Лебедевой в 1950-1960е гг. Морфологическое аннотирование выполнено в основном Е. Л. Клячко при участии Н. К. Митрофановой.

Корпус создан Е. Л. Клячко на базе платформы Тимофея Архангельского (Tsakorpus).

Малые языки мира

Корпус куллуи

Корпус создан научным коллективом, занимающимся документацией индоарийского языка куллуи (штат Химачал-Прадеш, Индия), в составе Ренковской Е.А. (ИЯз РАН), Мазуровой Ю.В. (ИЯз РАН) и Крыловой А.С. (ИВ РАН). Программная часть корпуса разработана Е. В. Коровиной (ИЯз РАН). На данный момент в корпус входят спонтанно порожденные, а также элицитированные тексты на центральном диалекте куллуи, записанные в 2014—2017 гг. в ходе экспедиций в округ Куллу (дд. Наггар, Башинг, Тхава, Сума). Проект выполнялся при поддержке гранта РФФИ 19-012-00 355 (2019–2021).