10.06.2024 в 13:45 Общество 742

Денис Димитров: «Для меня важно быть полезным своей стране»

Руководитель разработки моделей генерации изображений и видео Kandinsky Денис Димитров стал героем выставки ведущих ученых страны в рамках Петербургского международного экономического форума 2024.

В экспозиции были представлены фотопортреты 24 героев из 14 регионов России – ученых, инженеров, конструкторов, авторов высокотехнологичных разработок, технологических предпринимателей, лауреатов премии Президента Российской̆ Федерации в области науки и инноваций для молодых ученых.

Напомним, что Денис Димитров был удостоен места в рейтинге Forbes в категории «30 до 30». Мы связались с Денисом Димитровым, и он поделился своими комментариями на этот счет.

О впечатлениях после попадания в рейтинг Forbes:

– Меня номинировали коллеги из Института искусственного интеллекта AIRI. Из большого количества номинантов редакция Forbes сначала выбрала лонг-лист кандидатов, затем было запущено голосование — по результатам которого я вошёл в шорт-лист рейтинга Forbes «30 до 30» в категории «Наука и технологии», где и победил. Для меня это было неожиданно, благодарен коллегам из AIRI и всем, кто был причастен, особенно родителям, бабушке, супруге, сёстрам. У меня исключительно положительные эмоции по этому поводу. Я рад, что мои заслуги отметили в действительно престижном рейтинге!

О разработке, которую отметил Forbes:

– Мое основное место работы — это Sber AI, где я руковожу научной командой Sber AI Research. Мы разрабатываем системы искусственного интеллекта: создаём языковые, мультимодальные и генеративные модели, которые учатся на больших объёмах данных (тексты, изображения, видео, звуки и т. д.). Иногда такие модели ещё называют фундаментальными, потому что после обучения они становятся универсальными источниками знаний, ассистентами. С 2017 года создание и совершенствование таких моделей является одним из лидирующих направлений исследований и разработок в сфере искусственного интеллекта и машинного обучения. Кроме этого, безусловно, это очень важное направление с точки зрения глобальной мировой конкуренции. Все участники процесса разработки таких моделей стремятся создать универсального помощника, который один закроет множество потребностей человека: от общения, консультирования, любой помощи с текстом до синтеза, например, картинок или видео по тексту. Действительно, после обучения, с такими фундаментальными моделями можно общаться, давать задания на естественном языке, задавать вопросы по изображению или аудио (так, например, можно загрузить фото достопримечательности города и задать любой интересующий вопрос), генерировать изображения, видео и звуки. Эти же модели можно использовать в качестве «мозга» для роботов: они смогут передвигаться в физическом мире и что-то делать, исходя из ваших инструкций, анализируя при этом внешнюю информацию (видеопоток, данные с датчиков). Мы занимаемся развитием такого рода моделей и делаем так, чтобы Россия занимала лидирующее положение в этой технологической гонке. Так, у нас в Сбере есть линейка моделей для генерации мультимедийного контента (изображения, видео, 3D) по тексту — это нейросеть Kandinsky, разработкой которой я руковожу, а также линейка языковых моделей GigaChat, в разработке которой я также принимаю активное участие.

Также Денис Димитров рассказал про нейросеть «Digital Пётр», которая распознает документы, написанные императором Петром I:

– У Петра I в 2022 году был юбилей — 350 лет со дня его рождения. Император очень много писал от руки, при этом у него был очень непонятный почерк. Для историков было очень сложной задачей распознавать всё рукописное наследие нашего императора, и чуть больше, чем за 150 лет была распознана лишь половина того, что написал император. Оставшаяся половина просто лежала в архивах и никогда до этого не была «прочитана» (то есть переведена в печатный вид). Это было удивительно для меня. Совместно с РИО, СПбИИ РАН мы задались целью — ко Дню рождения Петра I сделать модель, которая автоматизирует работу разбора почерка. И мы это сделали. Мы сделали модель, которая распознает с почти 98% точностью текст рукописей императора. Это круто, и мы этот проект продолжаем. Мы замахнулись на распознавание произвольного скорописного текста с XVII по XIX век. Это очень большое количество действительно важных текстов и информации — и это всё нужно распознать, оцифровать и внести в единый реестр или базу для удобного обращения к ней наших граждан. И даже в таких задачах последнее время на помощь приходят мультимодальные модели.

О планах на будущее:

– Мы постоянно совершенствуем модель Kandinsky. Это процесс, который будет продолжаться ещё долгое время, потому что нет предела совершенству. Генерация фотореалистичного видео – следующий уровень и вызов, и мы уже начали развивать это направление. Так, уже сейчас у нас есть 2 модели генерации полноценного видео по тексту — Kandinsky Video 1.0 и Kandinsky Video 1.1. Даже с текущим уровнем качества эти модели применяются в совместных проектах, например, с Союзмультфильмом. Мы будем улучшать и совершенствовать модель Kandinsky до тех пор, пока генерируемое ей видео не будем таким, как будто его сняли на камеру. Совершенно очевидно, что областей применения таких моделей очень много (и в будущем будет только расти): от киноиндустрии до персонализированной рекламы.

Программист подчеркнул, что все разработки его команды не заменят человека, а будут служить ему помощниками.

О развитии ИИ в России:

— Условия работы в России в IT-сфере значительно улучшились за последние годы. Компании, такие как Сбер, предоставляют отличные возможности для профессионального роста: привлекают молодых и талантливых специалистов, создают комфортные условия для их работы. Очень важным моментом, без которого невозможно развитие искусственного интеллекта в современном мире, — это наличие вычислительных мощностей (то есть суперкомпьютеров) для обучения больших фундаментальных моделей. У Сбера есть целая линейка суперкомпьютеров Кристофари, которая каждый год развивается и совершенствуется. Для меня важно быть полезным своей стране и видеть результаты своей работы здесь, я чувствую, что могу внести и вношу значительный вклад в развитие отечественной науки и технологий. Я уверен, что Россия имеет все шансы стать мировым лидером в области искусственного интеллекта. Очень важно то, что у нас есть поддержка со стороны государства и крупных корпораций, которые инвестируют в развитие IT-инфраструктуры и создают благоприятные условия для работы специалистов.