Сбер сделал открытым инструмент – программнуюбиблиотеку PyTorch-LifeStream, содержащую несколько алгоритмов построения эмбеддингов* событийных данных. Инструмент может быть использован для подготовки различных массивов обезличенных данных (датасетов).
Событийные данные могут представлять собой самые разные последовательности – истории посещений сайтов, истории покупок, событий в онлайн-играх и так далее. При этом, сгенерированный на основе алгоритмов библиотеки эмбеддинг такой последовательности не будет содержать каких-либо персональных данных.
В библиотеке реализован уникальный алгоритм применения нейросетевого контрастного обучения к событийным данным, созданный и запатентованный в Лаборатории по искусственному интеллекту Сбера. Кроме того, в библиотеке реализованы методы на основе сторонних научных публикаций, но адаптированные Сбером к событийным данным.
Александр Ведяхин,первый заместитель Председателя ПравленияСбербанка:
«Недостаток очищенных,обезличенных и размеченныхданных– это один из главных барьеров для дальнейшегоразвития искусственного интеллекта, для создания новых продуктов и сервисов, которые смогут решать важнейшие научные и социально значимые задачи.Но существуют инструменты,которые позволяют готовитьтакие данные. Свободный доступ к этим инструментам – важное условие для преодоления барьера. Уверен,чтовыводнашейбиблиотеки в пабликускорит разработку и внедрение систем искусственного интеллекта в России и, как следствие, будет содействовать конкуренции и экономическому развитию нашей страны».
Сбер уже давно делится результатами своих исследований в области искусственного интеллекта со всеми желающими. В частности, ранее компания вывела в открытый доступ такие библиотеки, как ruGPT-3, LAMA, RePlay, ruDALL-E.
* Термин «эмбеддинг» (от англ.Embedding – вложение) означает результат преобразованиясложно-структурированныхданных(например, слов,текстов, атрибутов событий, событий и их последовательностей) в машинно-читаемыйнабор чисел– числовой вектор