Воронцов Константин Вячеславович — Ученые

Д.ф.-м.н., профессор РАН, научный руководитель Центра исследования больших данных

k.vorontsov@misis.ru

Направления работы

09.06.01 Информатика и вычислительная техника

Профиль

Системный анализ, управление и обработка информации

Область научных интересов (научная тематика)

«наука о данных» (data science), «интеллектуальный анализ данных» (data mining) и «машинное обучение» (machine learning): распознавание образов, прогнозирование, математическая статистика, дискретная математика, численные методы оптимизации, аналитика больших данных, а также практический анализ данных в разнообразных областях (медицина, техника, биоинформатика, экономика, лингвистика, интернет).

Основные исследовательские проекты:

теория и методы аддитивной регуляризации тематических моделей (ARTM);
разработка BigARTM — библиотеки с открытым кодом для тематического моделирования больших коллекций;
автоматическое выделения терминов-словосочетаний в текстах;
тематические модели последовательного текста, тематической структуры и сегментации текстов;
мультимодальные тематические модели, классификация и регрессия с текстовыми и разреженными признаками;
иерархические тематические модели и категоризация текстов;
методы визуализации тематических моделей;
методы автоматического именования тем;
проблемы сходимости и устойчивости численных методов матричных и тензорных разложений;
проблемы интерпретируемости тем;
мультиязычные тематические модели;
тематические модели транзакционных данных или гиперграфов;
анализ тональности и разделение тем на полярные мнения;
динамические тематические модели;
тематические модели, учитывающие авторство и ссылки;

Научное признание, экспертиза, исследования

Преподаватель Школы анализа данных Яндекс, зам. директора по науке ЗАО «Форексис», один из идеологов и Администраторов ресурса MachineLearning.RU.
Автор более 157 статей из них более 30 статей в зарубежных научных журналах.
Индекс Хирша — 10

Научное руководство :

Выпустил 14 кадидатов наук:

Андрей Ивахненко. Комбинаторные оценки вероятности переобучения и их применение в логических алгоритмах классификации. МФТИ. 2010.
Иван Гуз. Комбинаторные оценки полного скользящего контроля и методы обучения монотонных классификаторов. ВЦ РАН. 2011.
Денис Кочедыков. Оценки обобщающей способности на основе характеристик расслоения и связности семейств функций. ВЦ РАН. 2011.
Павел Ботов. Оценки вероятности переобучения многомерных семейств алгоритмов классификации. ВЦ РАН. 2011.
Василий Лексин. Вероятностные модели в анализе клиентских сред. ВЦ РАН. 2011.
Павел Кудинов. Адаптивные методы извлечения информации из статистических таблиц, представленных в текстовом виде. ВЦ РАН. 2012.
Кирилл Чувилин. Автоматический синтез правил коррекции текстовых документов формата LaTeX. ВЦ РАН. 2013.
Александр Фрей. Теоретико-групповой подход в комбинаторной теории переобучения. ВЦ РАН. 2013.
Илья Толстихин. Неравенства концентрации вероятностной меры в трансдуктивном обучении и PAC-Байесовском анализе. ВЦ РАН. 2014.
Евгений Рябенко. Выбор функций потерь в задачах неотрицательного матричного разложения. ВЦ РАН. 2014.
Никита Животовский. Минимаксные оценки риска в задачах статистического обучения. МФТИ, ИППИ РАН. 2018.
Анастасия Зухба. Оценка вычислительной сложности задач отбора эталонных объектов и признаков. МФТИ. 2018.
Илья Трофимов. Разработка и обоснование методов параллельного покоординатного спуска для обучения обобщённых линейных моделей с регуляризацией. ФИЦ ИУ РАН. 2019.
Анна Потапенко. Семантические векторные представления текста на основе вероятностного тематического моделирования. ФИЦ ИУ РАН. 2019.

Публикации в СМИ (примеры):

15 тезисов о машинном обучении. Новая газета, 25 февраля 2019