Д.ф.-м.н., профессор РАН, научный руководитель Центра исследования больших данных
Направления работы
09.06.01 Информатика и вычислительная техника
Профиль
Системный анализ, управление и обработка информации
Область научных интересов (научная тематика)
«наука о данных» (data science), «интеллектуальный анализ данных» (data mining) и «машинное обучение» (machine learning): распознавание образов, прогнозирование, математическая статистика, дискретная математика, численные методы оптимизации, аналитика больших данных, а также практический анализ данных в разнообразных областях (медицина, техника, биоинформатика, экономика, лингвистика, интернет).
Основные исследовательские проекты:
- теория и методы аддитивной регуляризации тематических моделей (ARTM);
- разработка BigARTM — библиотеки с открытым кодом для тематического моделирования больших коллекций;
- автоматическое выделения терминов-словосочетаний в текстах;
- тематические модели последовательного текста, тематической структуры и сегментации текстов;
- мультимодальные тематические модели, классификация и регрессия с текстовыми и разреженными признаками;
- иерархические тематические модели и категоризация текстов;
- методы визуализации тематических моделей;
- методы автоматического именования тем;
- проблемы сходимости и устойчивости численных методов матричных и тензорных разложений;
- проблемы интерпретируемости тем;
- мультиязычные тематические модели;
- тематические модели транзакционных данных или гиперграфов;
- анализ тональности и разделение тем на полярные мнения;
- динамические тематические модели;
- тематические модели, учитывающие авторство и ссылки;
Научное признание, экспертиза, исследования
- Преподаватель Школы анализа данных Яндекс, зам. директора по науке ЗАО «Форексис», один из идеологов и Администраторов ресурса MachineLearning.RU.
- Автор более 157 статей из них более 30 статей в зарубежных научных журналах.
- Индекс Хирша — 10
Научное руководство :
Выпустил 14 кадидатов наук:
- Андрей Ивахненко. Комбинаторные оценки вероятности переобучения и их применение в логических алгоритмах классификации. МФТИ. 2010.
- Иван Гуз. Комбинаторные оценки полного скользящего контроля и методы обучения монотонных классификаторов. ВЦ РАН. 2011.
- Денис Кочедыков. Оценки обобщающей способности на основе характеристик расслоения и связности семейств функций. ВЦ РАН. 2011.
- Павел Ботов. Оценки вероятности переобучения многомерных семейств алгоритмов классификации. ВЦ РАН. 2011.
- Василий Лексин. Вероятностные модели в анализе клиентских сред. ВЦ РАН. 2011.
- Павел Кудинов. Адаптивные методы извлечения информации из статистических таблиц, представленных в текстовом виде. ВЦ РАН. 2012.
- Кирилл Чувилин. Автоматический синтез правил коррекции текстовых документов формата LaTeX. ВЦ РАН. 2013.
- Александр Фрей. Теоретико-групповой подход в комбинаторной теории переобучения. ВЦ РАН. 2013.
- Илья Толстихин. Неравенства концентрации вероятностной меры в трансдуктивном обучении и PAC-Байесовском анализе. ВЦ РАН. 2014.
- Евгений Рябенко. Выбор функций потерь в задачах неотрицательного матричного разложения. ВЦ РАН. 2014.
- Никита Животовский. Минимаксные оценки риска в задачах статистического обучения. МФТИ, ИППИ РАН. 2018.
- Анастасия Зухба. Оценка вычислительной сложности задач отбора эталонных объектов и признаков. МФТИ. 2018.
- Илья Трофимов. Разработка и обоснование методов параллельного покоординатного спуска для обучения обобщённых линейных моделей с регуляризацией. ФИЦ ИУ РАН. 2019.
- Анна Потапенко. Семантические векторные представления текста на основе вероятностного тематического моделирования. ФИЦ ИУ РАН. 2019.