Воркшоп по цифровой лексикографии и ее применениям в лингвистических исследованиях

Последнее редактирование: iurmak от 05.08.2025 14:43

Сектор типологии Института языкознания РАН и Отдел корпусной лингвистики и лингвистической поэтики Института русского языка им. В. В. Виноградова РАН приглашают принять участие в воркшопе, посвященном цифровой лексикографии и ее применению в лингвистических исследованиях. В круг обсуждаемых тем входят следующие:

цифровые платформы для публикации и подготовки словарей;
опыт использования лексикографических платформ для создания цифровых словарей для конкретных языков;
способы организации лексикографических данных с целью проведения лингвистических исследований (например, аннотация данных некоторым образом для исследования темы X);
опыт проведения лингвистических исследований (в любой области) с помощью цифровых словарей.

Аннотации докладов (15 + 5 мин.), посвященные перечисленным и смежным темам, просьба направлять на имейл workshop@onlex.online до 1 июля 2025 г. В тексте письма нужно указать название доклада, краткую аннотацию (50–200 слов), полные имена, имейлы и аффилиации докладчиков. При отборе докладов будут учитываться рецензии специалистов ИЯз РАН и ИРЯ РАН.

Цели воркшопа: обмен опытом по разработке и применению цифровых словарей, презентация методов цифровой лексикографии

Дата и место проведения: 28–29 июля 2025 г. в ИРЯ РАН и онлайн

Языки воркшопа: русский и английский

Организационный комитет:
Юрий Юрьевич Макаров
Лариса Леонидовна Шестакова
Анна Сергеевна Кулева

Программный комитет:
Владимир Александрович Плунгян
Лариса Леонидовна Шестакова
Анна Сергеевна Кулева
Юрий Юрьевич Макаров

Контакты: workshop@onlex.online

СМИ о прошедшем воркшопе:

Портал «Грамота.ру»: «28–29 июля в Москве пройдет воркшоп по цифровой лексикографии»
oreluniver.ru: «Лингвисты ОГУ имени И.С. Тургенева выступили с докладом на воркшопе по цифровой лексикографии, организованном Российской академией наук»
BezFormata.Com и narfu.ru: «Сотрудники САФУ приняли участие в Воркшопе по цифровой лексикографии РАН в Москве»

В программе ниже указано московское время.

Программа конференции

День первый. 28 июля 2025 года, понедельник

Секция 1. Председатель — Дмитрий Михайлович Савинов

09:50 – 10:00

Вступительное слово заместителя директора ИРЯ РАН, академика РАН В. А. Плунгяна
10:00 – 10:20
Онлайн

Национальный словарный фонд – старые и новые словари сквозь призму цифровой лексикографии

Автор: Мария Леонидовна Каленчук
Аффилиация: ИРЯ РАН
Показать аннотацию

НСФ представляет собой цифровой ресурс, объединяющий тексты словарей русского языка в единую сеть, действующую в режиме непрерывного развития и представляющую интерактивную динамическую модель лексической системы русского языка. НСФ задуман как единый свод информации о нормах русского языка в их актуальном состоянии и исторической динамике. На данный момент в НСФ предполагается включение 37 словарей русского языка, описывающих состояние его системы от древнерусских времен до наших дней. НСФ должен состоять из шести модулей: основной; расширенный; историко-этимологический; поиск в выбранном словаре; сопоставительный; словари, фиксирующие нормы русского языка при его использовании в качестве государственного. Информация из одних и тех же словарных статей «препарируется» в разных модулях по-разному, демонстрируя различные аспекты функционирования языковых единиц. Решить эту проблему помогает система специально разработанной лингвистической разметки.
10:20 – 10:40

К вопросу разработки словарей русского языка как государственного языка РФ (на примере орфоэпического словаря)

Автор: Дмитрий Михайлович Савинов
Аффилиация: ИРЯ РАН
Показать аннотацию

Доклад посвящен созданию словарей, ориентированных на использование русского языка в качестве государственного языка РФ, что определяет некоторые особенности их словника, а также систему помет. Так, словник подобных словарей формируется за счет стилистически нейтральной лексики, а также слов книжного стиля; в него не включаются разговорная лексика, диалектизмы, жаргонизмы, просторечная и сленговая лексика. При решении о включении в словник новой иноязычной лексики необходимо руководствоваться двумя основными критериями: во-первых, заимствованные слова не должны иметь общеупотребительных русских аналогов, во-вторых, они должны быть широко распространены в современном литературном языке. Тип словарей, фиксирующих нормы русского языка как государственного языка РФ, предопределяет также отсутствие в них ненормативных вариантов и запретительных помет. Основные положения доклада будут проиллюстрированы материалами нового орфоэпического словаря русского языка как государственного языка РФ, подготовленного в отделе фонетики Института русского языка им. В. В. Виноградова РАН.
10:40 – 11:00

Научно-информационный орфографический академический ресурс «Академос» как источник для лингвистических исследований и справок по орфографии

Авторы: Елена Вячеславовна Арутюнова, Елена Виленовна Бешенкова, Ольга Евгеньевна Иванова
Аффилиация: ИРЯ РАН
Показать аннотацию

Ресурс «Академос» (функционирует с 2016 г., https://orfo.ruslang.ru/) является многофункциональным и многоцелевым, что отражено в его структуре. Основная часть – нормативная словарная база, корректируемая и непрерывно пополняемая (более 200 000 слов и словосочетаний, в 2025 г. уже добавлено около 650 словарных статей). Она представляет собой первый и пока единственный в отечественной лексикографии электронный нормативный словарь русского языка (не электронную версию бумажного словаря). Со словарной базой можно работать через модули ПОИСК и АЛФАВИТНЫЙ УКАЗАТЕЛЬ. Показываются актуальные датированные дополнения и изменения, внесенные в первоначальную базу.

О функциях ресурса в рамках электронного словаря. Констатация письменной формы слова или словосочетания дает возможность получать грамматическую, орфоэпическую (нормативную, не только ударения) и лексическую информацию о слове и группах слов по определенным признакам, отражаемым на письме. Предоставляется опция формировать выборки для работы.

О функциях ресурса за пределами словаря. «Академос» имеет модули различного назначения, дающие метасведения о словах (КОММЕНТАРИИ), о закономерностях передачи на письме единиц разных типов (АКАДЕМИЧЕСКИЕ ПРАВИЛА), о научных интерпретациях и взглядах на устройство письменной системы русского языка (НАУЧНАЯ БИБЛИОГРАФИЯ).

Предполагается расширение ресурса специализированными базами употребления прописной или строчной букв, личных имен, графических сокращений русского языка. Особенно плодотворным представляется объединение словарной базы с орфографическим справочником (отработано на системе «Орфографическое комментирование русского словаря», функционирующей с 2015 г., https://oross.ruslang.ru/).
11:00 – 11:20
Онлайн

Цифровая лексикография в ИЛИ РАН: обзор проектов

Авторы: Марина Николаевна Приемышева, Роман Игоревич Воронцов
Аффилиация: ИЛИ РАН
Показать аннотацию

В докладе будут кратко представлены современные цифровые словарные проекты, отражающие основные направления лексикографической деятельности ИЛИ РАН (в области толковой, исторической, неологической лексикографии), а также описан ресурс «Русская академическая лексикография» (lexicographia.ru), в котором представления словарных источников (традиционных и цифровых) интегрированы в единую информационно-справочную систему по теории и истории словарного дела. «Семейство» цифровых словарных проектов ИЛИ РАН включает в себя целый ряд ресурсов, с одной стороны, являющихся электронными представлениями традиционных словарей (1 издание «Словаря современного русского литературного языка», «Словарь обиходно-разговорного языка Московской Руси XVI–XVII вв.», «Словарь русского языка XVIII в.»), а с другой — изначально разрабатывающихся в цифровой среде: «Словарь русского языка XIX в.», «Новое в русской лексике», «Аффиксоиды русского языка», справочно-библиографическая база данных «История слов русского языка», «Индекс русской лексики». Все эти ресурсы, будучи самостоятельными словарными базами данных, одновременно интегрированы в архитектуру «головного» проекта lexicographia.ru. Онлайн-проект «Русская академическая лексикография» (lexicographia.ru) представляет собой, во-первых, источник словарных данных (осуществляется генерализованный поиск по всем словарным ресурсам Института), а во-вторых, своеобразную лексикографическую энциклопедию, содержащую три взаимосвязанных через систему отсылок содержательных блока, посвященных: 1) толковым и историческим словарям русского языка, 2) лексикографам, 3) научной литературе по лексикографии. Информационно-справочная среда, реализованная в рамках проекта, представляет собой удобный интерфейс для поиска энциклопедической и научно-методологической информации по широкому кругу лексикографических вопросов.

11:20 – 11:40

Перерыв на кофе

Секция 2. Председатель — Олег Игоревич Беляев

11:40 – 12:00

Платформа для цифровой лексикографии OnLex

Автор: Юрий Юрьевич Макаров
Аффилиация: ИРЯ РАН
Показать аннотацию

В докладе будет описан и продемонстрирован базовый функционал онлайн-платформы для цифровой лексикографии OnLex. После введения, обозревающего базовые установки проекта, внимание будет уделено возможностям платформы для пользователей и для лексикографов. Поисковые возможности включают в себя функции гибкой настройки (игнорирование регистра и/или диакритик, (не)полнословный поиск) и фильтрации выдачи по различным параметрам (наличие помет, принадлежность языку или источнику, нахождение в той или иной зоне вокабулы). Отображение страницы статьи включает в себя систему навигации и гиперссылок (для каждой статьи автоматически генерируется «содержание»), а также сбора пользовательских отзывов. В кабинете редактора доступны интерфейсы для детального редактирования каждой словарной зоны, а именно: раздел «Основы», «Зависимые», «Подзначения», «Примеры», «Комментарии», «Ссылки», а также «Медиа». Администраторам доступна гибкая настройка аспектов словарной системы, например, уровней доступа редакторов к различным словарям на сайте, списка языков, источников и помет, а также контроль за функциями, доступными незарегистрированным пользователям.
12:00 – 12:20
Онлайн

Цифровая лексикография в ИЛИ РАН: техническое решение

Авторы: Игорь Михайлович Егоров, Александр Владимирович Костяников
Аффилиация: ИЛИ РАН
Показать аннотацию

Цель доклада: обзор технического решения реализации цифровых словарных проектов ИЛИ РАН и их интеграции в единую информационно-справочную систему под названием «Русская академическая лексикография» (lexicographia.ru). Мы рассмотрим текущую архитектуру; расскажем о выбранной технологии, на базе которой строятся сайты; поговорим о ее гибкости с точки зрения проектирования структуры данных и их представлений. Коротко коснемся того, из каких этапов состоит рабочий процесс создания подобных систем; поделимся опытом совместной работы, поясняя, чем выбранный подход удобен как программистам, так и научным сотрудникам.
12:20 – 12:40

Технологии XML в лексикографии на примере цифровой версии ИЭСОЯ В.И. Абаева

Автор: Олег Игоревич Беляев
Аффилиация: ИЯз РАН; МГУ им. М.В. Ломоносова
Показать аннотацию

Большинство современных лексикографических баз данных и систем --- как конкретно-языковых, так и типологических --- основаны на реляционной модели данных: лексический материал представлен в виде системы таблиц, связанных друг с другом через уникальные идентификаторы. Так, словарь может состоять из таблиц лексем (лемм); таблицы форм и таблицы значений, привязанных к леммам; наконец, таблицы примеров, привязанных к значениям. Реляционная модель данных широко применяется в индустрии благодаря ряду привлекательных черт, прежде всего простоте структуры. Из этой простоты следует высокая надёжность и быстродействие таких систем. Несмотря на то, что реляционные базы данных были разработаны не для научных, а для практических целей, они хорошо подходят для многих лингвистических задач: табличная модель представления материала для лингвистов вполне привычна. Тем не менее, для многих типов лингвистических данных табличный формат не является оптимальным. Наиболее очевидно это для предложений и текстов, для которых скорее адекватно древесное и/или линейное представление. Но и для словаря реляционный формат может быть не оптимален. Сложности возникают, прежде всего, в тех случаях, когда для разных типов лемм предусмотрен различный набор информации. Так, для имён могут быть релевантны столбцы "род" и "одушевлённость", которые у глаголов заполняться не будут; у последних, напротив, может указываться вид и переходность. Набор опорных форм у разных частей речи будет также, очевидно, различным. Эти проблемы имеют в реляционных моделях свои решения разной степени сложности; однако сама необходимость поиска таких решений, как кажется, несколько снижает привлекательность табличной модели данных. Кроме того, сам словарь по своей структуре может в большей степени напоминать текст, чем таблицу. Так, в этимологических словарях информация о происхождении слова редко имеет строгую структуру; обычно они содержат предположения, высказываемые с разной степенью уверенности в виде текста свободной формы. Эта информация, с одной стороны, нуждается в структурированном представлении; с другой стороны, это представление, очевидно, не может иметь табличный формат. Историко-этимологический словарь осетинского языка В.И. Абаева (ИЭСОЯ) является замечательным примером сочетания обоих выделенных выше проблемных моментов. С одной стороны, он включает достаточно подробную описательную часть, в рамках которой даются толкования значений, примеры употребления, опорные или нерегулярные формы, дериваты и идиомы и т.д. С другой стороны, этимологии в ИЭСОЯ отличаются достаточно вольной структурой, включая при этом большое число цитируемых форм из различных индоевропейских и иных языков. Табличное представление такого словаря неизбежно либо будет неполным, либо будет предполагать вторичную интерпретацию данных ИЭСОЯ, т.е. фактически новый, отдельный ресурс. В ходе работы над оцифровкой и переводом ИЭСОЯ в 2020--2025 гг. было принято решение максимально точно передать структуру словаря в том виде, в котором он был изначально опубликован. Для этой цели идеально подходит формат TEI, созданный на базе XML для цифрового представления текстовых источников. В частности, этот формат включает в себя и словарный модуль, который, после некоторой адаптации под нужды проекта, оказался вполне адекватен для структуры ИЭСОЯ. В докладе я разберу преимущества и недостатки использования XML в лексикографии на примере опыта создания электронной версии ИЭСОЯ.
12:40 – 13:00
Онлайн

Метасловарь Грамоты.ру

Авторы: Анастасия Александровна Бонч-Осмоловская
Аффилиации: ИРЯ РАН, портал «Грамота.ру»
Показать аннотацию

Доклад будет посвящен представлению идеи и реализации Метасловаря Грамоты. В основе концепции Метасловаря лежит идея агрегатора словарной информации. Русская лексикографическая традиция (в отличие от западной) ориентирована в большей степени на множество специальных словарей, чем на один общий словарь, содержащий все уровни информации о слове. В результате, пользователь, который, часто не имеет лингвистического образования и хочет получить исчерпывающую лингвистическую справку, должен, во-первых, понимать, как называется словарь, в котором находится та информация, которую он ищет, а во-вторых, должен уметь понимать разные подходы к представлению лексикографических данных. Это распределенность информации между разными источниками особенно заметна при переходе от бумажного представления к электронному, поскольку в этом случае снимается проблема объема данных. Следует также отметить, что современные подходы к представлению словарных данных в электронном формате для широкого круга пользователей, например словарь DWDS https://www.dwds.de/ для немецкого языка или например, словарь Merriam Webster https://www.merriam-webster.com/ для английского языка не только объединяют всю информацию о слове на одном экране, но и обогащают эту информацию дополнительной корпусной статистикой.
Таким образом, в основе Метасловаря Грамоты лежит идея дать пользователю возможность получить информацию разного уровня из разных лексикографических источников.

В основе архитектуры Метасловаря лежит семантическая разметка универсального стандарта TEI LEX-0. Эта машиночитаемая разметка обеспечивает надежное сохранение словарных данных, гибкую настройку и расширение выдаваемой пользователю информации. В докладе будут описаны основные принципы разметки, лингвистические проблемы,с которыми сталкиваются разработчики словаря, и принимаемые решения на уровне разметки, а также будут проиллюстрированы возможности добавления нового словарного контента.

13:00 – 13:40

Перерыв на обед

Секция 3. Председатель — Павел Валерьевич Гращенков

13:40 – 14:00
Онлайн

Опыт и перспективы развития электронных словарей языков коренных народов Сибири

Авторы: Наталья Борисовна Кошкарёва, Илья Михайлович Плотников
Аффилиация: Институт филологии СО РАН
Показать аннотацию

В докладе представлен опыт разработки и использования цифровых лексикографических платформ на материале языков коренных народов Сибири (ресурсы «Электронный диалектологический атлас уральских языков, распространенных на территории Ямало-Ненецкого автономного округа» и «Словарь лексики духовной культуры»). Описаны принципы, заложенные в основу этих ресурсов и применяемые при их наполнении. Проведен обзор задач системного компьютерного представления лексикографической информации и проблем их реализации, выявленных при работе с рассматриваемыми ресурсами, в частности связанных с интеграцией материалов из источников с различающимися принципами формирования и форматами описания словарных единиц, а также обусловленных необходимостью репрезентации их графико-фонетического и лексико-семантического варьирования. В заключительной части рассмотрены потенциальные решения этих проблем и новые задачи, составляющие перспективу развития этих ресурсов.
14:00 – 14:20
Онлайн

Озвученные словники как основа для лексикографической базы данных

Авторы: Елена Леонидовна Клячко, Ольга Анатольевна Казакевич
Аффилиация: ИЯз РАН
Показать аннотацию

Полевые записи произнесения слов и фраз, представленные в виде онлайн-ресурса, полезны для теоретических лингвистов, педагогов (как аудиоматериал к курсу), компьютерных лингвистов (как обучающие данные для систем обработки речи). В ходе полевых исследований (2001—2024 гг.) мы записали большие объемы лексических данных для малоресурсных языков: ≈ 110 часов селькупских словников (> 50 индивидуальных озвученных словарей, ≈ 50000 записей слов и фраз); ≈ 147 часов эвенкийских (> 80 словарей, ≈ 95000 записей); ≈ 60 часов кетских (> 30 словарей, ≈ 30000 записей). Эти словники ограниченно использовались при создании обучающих игр, однако полноценная публикация аудиоданных вызывает трудности. Необходимо: сегментировать записи, отделив вопросы лингвистов от ответов информантов; транскрибировать записи; проверить корректность переводов; разработать структуру хранения, создав из индивидуальных произнесений базу данных в идеологии LLOD [Chiarcos et al. 2017]. Указанные шаги выполнены в пилотном проекте для эвенкийских словников. Сегментация сделана вручную. Используя размеченный корпус (≈8 часов), мы дообучили модель MMS [Pratap et al. 2024], которую применили для предварительного автоматического транскрибирования записей. Разработана система хранения и представления данных, позволяющая искать записи по совокупности параметров и сигнализировать об ошибках, тем самым помогая валидировать переводы и транскрипции. Демо-версия системы доступна по ссылке: https://evenki-dictionary.online. В докладе мы предполагаем обсудить работу с большим объемом полевых аудиоданных и возможности частичной автоматизации этой работы.
14:20 – 14:40

Разработка цифрового словаря для тундрового ненецкого языка

Авторы: Елена Сергеевна Коканова, Павел Евгеньевич Шняков, Александра Сергеевна Епимахова
Аффилиация: Северный (Арктический) федеральный университет им. М.В. Ломоносова
Показать аннотацию

В 2024 г. развернут онлайн-словарь для тундрового ненецкого и русского языков, находящийся сейчас в стадии наполнения и тестирования (https://nenrusdict.narfu.ru/). В настоящий момент он содержит 7413 лексических единиц на тундровом ненецком языке и 3542 единиц на русском языке. В основе разработки лежат методологические принципы, включающие поддержку уникальных символов ненецкого языка; представление лексической информации, позволяющее учитывать контекст; внедрение алгоритмов динамического автодополнения и обработки запросов с учетом возможных ошибок пользователя; интеграцию современных нейросетевых моделей для создания визуальных элементов, повышающую интерактивность ресурса; адаптацию ресурса под различные устройства для повышения доступности. Разработанный цифровой словарь интегрирует 4860 сегментов и 285 новостных статей на ненецком и русском языках с автоматическим дополнением лексических единиц примерами употребления.
14:40 – 15:00

Получение структурированной словарной и грамматической информации из полевых данных: нивхский язык

Авторы: Павел Валерьевич Гращенков, Сергей Михайлович Шевелёв
Аффилиация: МГУ им. М.В. Ломоносова
Показать аннотацию

В докладе будет представлен метод составления словников и словарей на основе собранных полевых и других текстовых данных. Такой пайплайн востребован, т.к. позволяет систематизировать и унифицировать лексический и грамматический полевой материал. По сравнению с уже существующими инструментами типа Fieldworks применяемый нами пайплайн гораздо более гибкий и ближе к традиционным методам полевой работы. Он состоит в следующем: 1. Сбор и перевод текста на целевом языке; 2. Унификация средств разметки (грамматических и лексических глосс); 3. Ручная разметка текстов с использованием стандартных межсловных и межморфемных разделителей, а также разделителей предложений; 4. Автоматический разбор структурированного таким образом текста с помощью разработанных nlp-инструментов; 5. Финальный ручной анализ полученного лексикограмматического словника. Разработанный метод будет продемонстрирован на материале одного из малых языков России – нивхского. Наш фреймворк позволит обновить и дополнить уже существующие словари нивхского. Кроме того, лексикограмматический словник будет полезен при обучении нейросетевых моделей, призванных, например, решать задачи автоматического перевода и глоссирования текстов на нивхском языке.

15:00 – 15:20

Перерыв на кофе

Секция 4. Председатель — Наталья Вадимовна Сердобольская

15:20 – 15:40

Создание базы данных по словарям служебных слов

Авторы: Наталья Вадимовна Сердобольская¹, Олег Игоревич Беляев^1,2
Аффилиации: ¹ИЯз РАН; ²МГУ им. М.В. Ломоносова
Показать аннотацию

В работе рассматриваются проблемы перехода к цифровому формату представления данных в ходе проекта создания базы данных коннекторов русского языка (Рускон, https://ruscon.iling-ran.ru/units?linker=%25D0%25B0). Проект опирается на инвентарь коннекторов, представленный в ряде академических словарей и словарей служебных слов. При описании коннекторов составители словарей используются различные ярлыки как при выборе частеречного статуса, так и при описании значений коннектора. Анализируются следующие проблемы: проблема объединения/разделения лексических входов и значений коннекторов в свете терминологических различий между словарями; перенос данных в электронный формат; представление лексических входов на сайте. Мы рассмотрим использование облачной системы реляционных таблиц с открытым исходным кодом Grist в качестве внутреннего представления данных ("бэкенда"), которое позволяет также редактировать эти данные в режиме онлайн при помощи удобного интерфейса. Использование этой системы позволяет значительно ускорить и упростить процесс разработки лингвистических баз данных.
15:40 – 16:00

База данных коннекторов татышлинского удмуртского: сочетание корпусных и полевых данных

Авторы: Анастасия Игоревна Крюкова^1,2,3, Татьяна Игоревна Давидюк^1,3, Анна Алексеевна Данилова⁴
Аффилиации: ¹ИЯз РАН; ²ИРЯ РАН; ³МГУ им. М.В. Ломоносова; ⁴Кембриджский университет
Показать аннотацию

В докладе мы расскажем об опыте создания базы данных коннекторов татышлинского говора удмуртского языка, где описываются различные средства связи пропозиций, их семантика, происхождение и синтаксические свойства. Предварительная работа над базой проводилась на основании существующих описаний коннекторов литературного и татышлинского удмуртского; впоследствии данные уточнялись по корпусу татышлинского удмуртского; лакуны были заполнены в ходе полевой работы методом элицитации.
16:00 – 16:20

Лексикографический портрет вепсского языка (на основе электронного словаря вепсского языка)

Автор: Виктория Сергеевна Соковая, Игорь Вадимович Бродский
Аффилиация: Институт народов Севера РГПУ им. Герцена
Показать аннотацию

В докладе представлены результаты работы по созданию электронного словаря вепсского языка с подробной аннотацией, включающей систематизацию лексических единиц по смысловым категориям, говорам и способам словообразования. Проект сочетает традиционные методы лексикографии с цифровыми технологиями обработки языковых данных, предлагая новые возможности для документации и исследования языка. На основе собранных данных по морфологии, диалектологии, паттернам словообразования составлен лексикографический портрет вепсского языка. Словарь составлен на платформе FieldWorks Language Explorer (FLEx) с возможностью конвертации в другие форматы и способы представления. Разработка представляет интерес для исследователей уральских языков и цифровых лексикографов. Проект вносит вклад в цифровую документацию уральских языков и предлагает модель для аналогичных словарей младописьменных и миноритарных языков.
16:20 – 16:40

Этимологический словарь онлайн: случай языков майя

Автор: Евгения Владимировна Коровина
Аффилиация: ИЯз РАН
Показать аннотацию

Помимо относительно традиционных двуязычных цифровых словарей, возможно помещение в онлайн или формат базы данных и словарей других типов, в частности этимологических и сравнительных словарей. Потенциальные возможности и проблемы такой разработки я хотела бы показать на примере создания этимологического словаря языков майя. В частности, предлагаются к обсуждению следующие темы: как должен быть организован поиск в таких словарях и как объединять данные большого количества в том числе разновременных источников.

День второй. 29 июля 2025 года, вторник

Секция 1. Председатель — Лариса Леонидовна Шестакова

10:00 – 10:20

Авторская лексикография на путях цифровизации

Авторы: Лариса Леонидовна Шестакова, Анна Сергеевна Кулева
Аффилиация: ИРЯ РАН
Показать аннотацию

В докладе будет представлен обзор авторских (писательских) словарей, созданных и создаваемых с использованием цифровых технологий. Это, с одной стороны, авторские конкордансы, информационные возможности которых заметно расширились с применением нового технологического инструментария, с другой – сложные виды лексикографического продукта, сочетающие в себе словарь, корпус текстов, программное средство и руководство для пользователя. Специальное внимание будет уделено онлайн-ресурсам ИРЯ РАН, созданным в рамках авторской лексикографии.
10:20 – 10:40
Онлайн

Словарь языка пьес А.В. Вампилова: от концепции к разработке

Авторы: Анастасия Васильевна Суманеева, Ахмед Алипашевич Мамедов
Аффилиация: Иркутский государственный университет
Показать аннотацию

В докладе представляется опыт разработки электронного авторского словаря-конкорданса на материале первой многоактной пьесы А.В. Вампилова «Прощание в июне» с применением языка программирования Python в облачной среде Google Colab. Излагается концепция словаря и модель словарной статьи, обосновывается выбор написания авторского кода вместо использования существующих конкордансеров, а также описывается цифровой этап в процессе создания словаря.
10:40 – 11:00

База данных Словаря языка Пушкина как инструмент исследования творчества поэта

Авторы: Наталия Александровна Ребецкая
Аффилиация: ИРЯ РАН
Показать аннотацию

Основной задачей проекта «Электронизация Словаря языка Пушкина», реализуемого в Институте русского языка им. В. В. Виноградова, является создание на основе лемматизированного конкорданса полноценных словарных статей для всех словоформ (за исключением самых частых слов), входящих в Полное собрание сочинений А. С. Пушкина в 16 томах. Для этих целей конкорданс был преобразован в базу данных, поля таблиц которой соответствуют разделам словарной статьи в печатном издании. Инструментарий базы данных позволяет осуществлять поиск по лексеме или ее части, отбирать фразеологические сочетания, а также контексты, где слова употреблены в переносном значении или имеют стилистические пометы. Жанрово-хронологическое структурирование таблиц базы данных дает возможность осуществлять корпусные исследования элементов словарной статьи. На основе сформированного корпуса, включающего подкорпусы поэзии, драмы, прозы, публицистики и писем, было проведено несколько исследований, выявляющих художественные особенности различных жанров и периодов творчества поэта.
11:00 – 11:20

Лексикографическая организация материала для исследования глагольных конструкций в славянской Библии

Автор: Иван Сергеевич Добровольский
Аффилиация: ИРЯ РАН
Показать аннотацию

В докладе излагается модель лексикографического описания Елизаветинской библии, которая состоит в указании всех значений некоторого церковнославянского слова для всех его вхождений в библейский корпус. Фактическим базисом для реализации такой модели является конкорданс, позволяющий, в отличие от традиционного толкового словаря, составить исчерпывающее описание библейской лексики. Словарь, построенный по предлагаемой модели, обеспечит исследователя ответами на ряд специальных вопросов, в частности: 1) В каких библейских стихах представлено то или иное значение данного церковнославянского слова? 2) В каких стихах и в каких значениях церковнославянскому слову соответствует та или иная греческая параллель? 3) В каких стихах представлено несколько вхождений церковнославянского слова? Выступает ли оно в каждом своем вхождении в одном и том же значении или в разных? 4) Какие значения церковнославянского слова являются наиболее частотными, какие – наименее? какова точная статистика? 5) Как значения церковнославянского слова распределяются по библейским книгам? имеется ли корреляция между определенной книгой и определенным значением? и нек. др. Частным применением описываемой модели является исследование библейских глагольных конструкций.

11:20 – 11:40

Перерыв на кофе

Секция 2. Председатель — Никита Владимирович Никитин

11:40 – 12:00

К вопросу лексикографической фиксации ассимиляции по мягкости в орфоэпических словарях СРЛЯ и причинах ее сохранения в речи жителей г. Саратова

Автор: Анна Андреевна Соловьева
Аффилиация: Лаборатория филологических исследований Государственного института русского языка им. А.С. Пушкина
Показать аннотацию

На фоне общей тенденции к его утрате в современном русском литературном языке существовавшего в старшей орфоэпической норме смягчения губных и губно-зубных перед заднеязычными данный тип ассимиляции был выявлен в речи современных жителей г. Саратова. Для уточнения и фиксации данного явления было проведено невключенное наблюдение за их речью. Для выявления разницы между локальной языковой нормой и СРЛЯ было решено сопоставить полевые данные с данными бумажных и электронных орфоэпических словарей (под ред. Р. И. Аванесова; под ред. М. Л. Каленчук). При этом в электронной версии словаря под ред. М. Л. Каленчук был обнаружен ряд помет, объясняющий колебания по ассимиляции временным характером. Однако, имеет место противоречие с результатами полевого исследования, где данная ассимиляция является частью языковой нормы независимо от возраста и носит, скорее, региональный характер, что не отмечено в орфоэпическом словаре. Обнаруженные противоречия между словарями и живой разговорной речью внутри языковой нормы требуют объяснений с точки зрения внеязыковых (в т.ч. социолингвистических) факторов.
12:00 – 12:20

Потенциал цифровизации словаря социолингвистических терминов

Автор: Светлана Владимировна Кириленко
Аффилиация: ИЯз РАН
Показать аннотацию

В докладе рассматриваются перспективы цифровизации нового издания Словаря социолингвистических терминов, разрабатываемого в настоящее время в НИЦ НЯО Института языкознания РАН в традиционном текстовом формате. Словарная статья нового словаря строится по принципу аналитического обзора термина: дефиниции, теоретические подходы, ссылки на ключевую литературу, контекст исследуемого термина и его связи с родовидовыми понятиями и оппозициями. Данная структура создаст основу для семантической разметки и представления данных в цифровом виде с последующим переходом от текстовой модели к лексикографической платформе, где будет возможна быстрая навигация по терминосистеме, включающей перекрестные ссылки, тематические теги и визуализацию концептуальных социолингвистических связей. Доклад рассматривает словарный проект в контексте задач цифровой лексикографии, в части структурирования терминологических данных и подбора технических решений. Будут обозначены возможные направления адаптации: выбор платформы (например, Lexonomy, собственный сайт), форматы представления и разметки (в том числе TEI), и потенциальный исследовательский сценарий: использование словаря не как справочника, а как инструмента для социолингвистического анализа.
12:20 – 12:40
Онлайн

Из опыта проведения социолингвистического исследования посредством цифровых словарей

Авторы: Татьяна Ивановна Ретинская, Наталья Анатольевна Кудрявцева
Аффилиации: Орловский государственный университет им. И.С. Тургенева; Рязанский государственный медицинский университет имени И.П. Павлова
Показать аннотацию

Доклад посвящен особенностям использования цифровых словарей при реализации социолингвистического исследования. В фокусе работы находится специфика сбора фактического материала для его инвентаризации и проведения комплексного анализа французского молодежного социолекта. Особое внимание уделяется нюансам представления неконвенционального лексического континуума в цифровой лексикографии. Метод сплошной выборки является основным методом обработки данных, представленных в интернет-словарях. Актуальность проекта обусловлена активным пополнением французского молодежного вокабуляра в настоящее время, а также фактом отражения актуальной языковой ситуации в онлайн-глоссариях.
12:40 – 13:00
Онлайн

Теория и практика применения цифровых словарей в качестве источников для лингвоэкспертных исследований

Автор: Кристина Сергеевна Кочергина
Аффилиация: Томский государственный университет
Показать аннотацию

Проведённым на материале 6 методических изданий по судебной лингвистической экспертизе и 183 текстов реальных заключений лингвистов-экспертов (специалистов) исследованием получены следующие результаты в части, касающейся теоретических рекомендаций и сложившейся практики применения цифровых словарей в качестве лингвоэкспертных источников. Если все 87 рекомендуемых наименований различных словарей представлены только в традиционном бумажном формате, то в числе применяемых есть словари различных типов и в электронном формате. Всего в текстах встретилось 147 наименований различных словарей, из которых 15 – цифровые, причём как собственно электронные словари, так и онлайн-словари, а также электронные версии «бумажных» словарей, а именно: – 1 электронный словарь «ABBYY Lingvo 11»; – 11 онлайн-словарей: «Гуманитарный словарь» (slovari.yandex.ru/%D0% B4%D0%B5%), «Общий толковый словарь русского языка» (tolkslovar.ru), «Словарь воровского жаргона» (mirslovarei.com/content_jar/vasvas-632.html), «Словарь жаргона» (f-death.narod.ru), «Словарь жаргонов» (gramota.ru/forum/read.Php), «Словарь растаманов», «Словарь рейдера» (zahvat.ru), «Словарь рекламных терминов» (advesti.ru/glossary), «Словарь ругательств» (chudakov.net.ru), «Финансовый словарь проекта “Финам”» (finam.ru/dictionary), «Электронный словарь крылатых слов и выражений» (krylslova.ru/index.php?a=term&d=1&t=3986); – 3 электронные версии бумажных словарей: словаря жаргонной лексики «Словарь русского арго» В. С. Елистратова (dic.academic.ru), терминологического словаря «Современный экономический словарь» (1999) Б. А. Райзберга, Л. Ш. Лозовского, Е. Б. Стародубцевой (consultant.ru/document/cons_doc_LAW_67315), толкового словаря «Толковый словарь Ефремовой» (aggregateria.com). Также определено то, в каком количестве текстов они встречены и сколько раз, а также в каких именно случаях применены.

13:00 – 14:00

Перерыв на обед

Секция 3. Председатель — Владимир Александрович Плунгян

14:00 – 14:20

Двуязычный словарь и параллельный корпус: возможности интеграции

Авторы: Александр Анатольевич Гончаров¹, Дмитрий Олегович Добровольский^1,2,3, Анна Андреевна Зализняк^1,3
Аффилиации: ¹Федеральный исследовательский центр «Информатика и управление» РАН; ²ИРЯ РАН; ³ИЯз РАН
Показать аннотацию

В докладе будут изложены принципы построения лексикографической информационной системы, обеспечивающей возможность взаимодействия двуязычного словаря и параллельного корпуса. В рамках данного проекта исследование проводится на материале немецкого и русского языков. Лексикографическая система включает три компонента: (1) двуязычный электронный словарь, (2) хранилище параллельных текстов и (3) базу данных аннотированных переводных соответствий. Третий компонент – база данных, в которой в структурированной форме содержатся результаты анализа переводных соответствий, – выполняет функцию интерфейса между первыми двумя. На данном этапе исследование проводится на примере двух категорий единиц: модальных глаголов и устойчивых конструкций. Для единиц этих категорий связь между словарем и корпусом обеспечивается на уровне значений; для прочих единиц – на уровне лемм.
14:20 – 14:40
Онлайн

Documenting loanwords and grammatical gender patterns through naturalistic speech

Автор: Clint Parker
Аффилиация: Nazarbayev University
Показать аннотацию

This talk presents a project at the intersection of lexicography, corpus linguistics, and linguistic typological research on grammatical gender. We recorded and transcribed conversations and other naturalistic speech of several native speakers of Shughni (Eastern Iranian; Afghanistan and Tajikistan), and we then annotated the data with an eye toward facilitating research on Shughni gender – for example, by noting each instance in which a noun's gender can be unequivocally seen on an agreement target. At the same time, because our current typological project involves gender in loanwords, we set up situations for recordings which we knew would elicit many loanwords – for instance, by asking speakers to describe how certain technological items work. And finally, we used the dictionary platform OnLex (Makarov 2025) to organize and store the observations of loanwords in naturalistic speech, an endeavor which we hope will contribute to the overall documentation of Shughni lexicon. In this talk, we present preliminary results of our project, as well as challenges and advantages of working with naturalistic data in lexicographic and typological research.
14:40 – 15:00
Онлайн

Причинные послелоги осетинского языка: данные историко-этимологического словаря В.И. Абаева и Осетинского Национального корпуса

Автор: Анна Александровна Осипова
Аффилиации: МГУ им. М.В. Ломоносова; ИЯз РАН
Показать аннотацию

Настоящий доклад посвящен анализу семантики и дистрибуции причинных послелогов осетинского языка (иронский диалект) на основе данных цифровой версии историко-этимологического словаря осетинского языка (ИЭСОЯ) В.И. Абаева (https://abaev.iling-ran.ru/ru/home) и Осетинского национального корпуса, ОНК (http://corpus.ossetic-studies.org/). Мы рассмотрели следующий список лексем, сформированный на основе поиска по полю Значение в электронном словаре В.И. Абаева: фӕрцы 'благодаря', руаджы 'благодаря', фӕдыл 'вследствие', фыдӕй 'из-за', охыл 'по причине', сӕраппонд 'из-за', тыххӕй 'из-за', ӕфсонӕй 'под предлогом', аххосӕй 'из-за'. Наличие столь обширного инвентаря послелогов с семантикой причины делает поиск противопоставлений внутри системы причинных маркеров особенно нетривиальным. В докладе на материале контекстов из ИЭСОЯ В.И. Абаева и ОНК будут обсуждаться особенности семантики перечисленных причинных послелогов (модальный компонент оценки, значение мнимой причины), а также другие значения данных единиц в их связи с причинным (ср. значение инструмента/средства, значения цели и повода). Будет представлен анализ сочетаемости послелогов с проклитическими и полными формами личных местоимений. Кроме того, реализованный в цифровой версии ИЭСОЯ В.И. Абаева поиск по примерам дает возможность сопоставить данные о семантике и сочетаемости выбранных послелогов в более ранний период использования осетинского языка (большинство рассмотренных примеров из словаря представляют собой отрывки из памятников народного творчества и произведений авторов конца XIX — начала XX вв.) с синхронными данными ОНК (тексты конца XX — начала XXI вв.).
15:00 – 15:20

К вопросу о глагольной таксономии: глаголы ‘брать’ и их семантические соседи в типологической перспективе

Авторы: Дарья Александровна Рыжова, Арина Витальевна Овчинникова
Аффилиация: НИУ ВШЭ
Показать аннотацию

Доклад будет посвящен способам репрезентации значения 'брать / взять' (ср. взять ручку со стола) и его различных семантических модификаций (ср. 'браться (за поручень)', 'брать с собой', 'получать', 'покупать', 'собирать' и др.). Мы представим попытку организовать значения внутри этой семантической зоны в виде онтологической сети (фрагмента тезауруса) на основе данных о лексикализации этих значений в разных языках и обсудим теоретические проблемы, с этим связанные.
15:20 – 15:40

Современная конструкциография

Автор: Екатерина Владимировна Рахилина
Аффилиации: НИУ ВШЭ; ИРЯ РАН
Показать аннотацию

Прототипическим объектом лексикографического описания являются лексические единицы, слова. Между тем современные лингвистические теории и их компьютерные приложения убеждают в том, что у каждого слова есть относительно немногочисленный набор высокочастотных контекстов, а у каждого из таких контекстов — (тоже не бесконечный) набор высокочастотных лексических заполнителей имеющегося слота (слотов). Такие контексты теоретики часто называют конструкциями. В докладе обсуждается, почему именно конструкции стали вызовом традиционной словарной практике и благодатным материалом для новых лексикографических технологий.
15:40 – 15:50

Подведение итогов

Event details

Дата и время: 28.07.2025 09:50
End time: 29.07.2025 18:00
Location: Институт русского языка им. В. В. Виноградова РАН (Москва, ул. Волхонка, д. 18/2)
Тип: конференция

СМИ о прошедшем воркшопе:

Программа конференции

День первый. 28 июля 2025 года, понедельник

Секция 1. Председатель — Дмитрий Михайлович Савинов

Вступительное слово заместителя директора ИРЯ РАН, академика РАН В. А. Плунгяна

Национальный словарный фонд – старые и новые словари сквозь призму цифровой лексикографии

К вопросу разработки словарей русского языка как государственного языка РФ (на примере орфоэпического словаря)

Научно-информационный орфографический академический ресурс «Академос» как источник для лингвистических исследований и справок по орфографии

Цифровая лексикография в ИЛИ РАН: обзор проектов

Перерыв на кофе

Секция 2. Председатель — Олег Игоревич Беляев

Платформа для цифровой лексикографии OnLex

Цифровая лексикография в ИЛИ РАН: техническое решение

Технологии XML в лексикографии на примере цифровой версии ИЭСОЯ В.И. Абаева

Метасловарь Грамоты.ру

Перерыв на обед

Секция 3. Председатель — Павел Валерьевич Гращенков

Опыт и перспективы развития электронных словарей языков коренных народов Сибири

Озвученные словники как основа для лексикографической базы данных

Разработка цифрового словаря для тундрового ненецкого языка

Получение структурированной словарной и грамматической информации из полевых данных: нивхский язык

Перерыв на кофе

Секция 4. Председатель — Наталья Вадимовна Сердобольская

Создание базы данных по словарям служебных слов

База данных коннекторов татышлинского удмуртского: сочетание корпусных и полевых данных

Лексикографический портрет вепсского языка (на основе электронного словаря вепсского языка)

Этимологический словарь онлайн: случай языков майя

День второй. 29 июля 2025 года, вторник

Секция 1. Председатель — Лариса Леонидовна Шестакова

Авторская лексикография на путях цифровизации

Словарь языка пьес А.В. Вампилова: от концепции к разработке

База данных Словаря языка Пушкина как инструмент исследования творчества поэта

Лексикографическая организация материала для исследования глагольных конструкций в славянской Библии

Перерыв на кофе

Секция 2. Председатель — Никита Владимирович Никитин

К вопросу лексикографической фиксации ассимиляции по мягкости в орфоэпических словарях СРЛЯ и причинах ее сохранения в речи жителей г. Саратова

Потенциал цифровизации словаря социолингвистических терминов

Из опыта проведения социолингвистического исследования посредством цифровых словарей

Теория и практика применения цифровых словарей в качестве источников для лингвоэкспертных исследований

Перерыв на обед

Секция 3. Председатель — Владимир Александрович Плунгян

Двуязычный словарь и параллельный корпус: возможности интеграции

Documenting loanwords and grammatical gender patterns through naturalistic speech

Причинные послелоги осетинского языка: данные историко-этимологического словаря В.И. Абаева и Осетинского Национального корпуса

К вопросу о глагольной таксономии: глаголы ‘брать’ и их семантические соседи в типологической перспективе

Современная конструкциография

Подведение итогов