Воронежский государственный педагогический университет, Россия, Воронеж, centr_rus_yaz@mail.ru
Тематическое моделирование относится к одному из видов методов исследования семантической организации текста и широко используется как для решения различных прикладных задач, так и для теоретических изысканий в области социологии, психологии, наукометрии и др. Однако в собственно лингвистических и социолингвистических исследованиях методы тематического моделирования используются не столь широко. Кроме того, классическое тематическое моделирование основано на анализе встречаемости слов в рамках документа и не учитывает локальную сочетаемость слов. В работе представлены результаты сравнительного исследования текстов блогов на русском языке с использованием метода латентного размещения Дирихле, примененного к матрицам двух видов: терм-документной (модель «Текст») и матрице совместной встречаемости слов в рамках контекстного окна (модель «Контекст»), с учетом гендера авторов, а также результаты эксперимента по классификации текстов по гендеру их авторов на основе вероятностей распределения тем. Были получены более высокие значения метрик качества тематического моделирования для моделей, построенных на матрицах совместной встречаемости слов («контекстах»). Высокая точность классификации текстов по гендеру второв указывает на то, что в текстах жанра «блог», предполагающего активное конструирование авторской идентичности, в том числе гендерной, присутствует ярко выраженный гендерный сигнал. Сравнение набора тем, вероятности распределения которых в текстах вносят наибольший вклад в классификацию, показало, что тематическое моделирование, выполненное на матрицах совместной встречаемости слов, позволяет выявить особенности семантической организации текстов, дополняющие результаты, полученные при традиционном тематическом моделировании.
семантика текста; компьютерная семантика; тематическое моделирование; гендерная атрибуция; блоги; русскоязычные корпусы текстов
Скачать текст статьиДля цитирования: Литвинова Т.А. Тематическое моделирование корпуса блогов на русском языке с учетом гендера автора: текст и контекст // Этнопсихолингвистика. Москва: ИНИОН РАН, 2022. № 2 (9). С. 7-23. DOI: 10.31249/epl/2022.02.01