Microsoft Research VinVL совершает прорыв в Vision-Language – Tehnografi.com – Технологические новости, обзоры и советы

Исследования Microsoft в области искусственного интеллекта (ИИ) и машинного обучения (МО) широко распространены, таков интерес компании к этой технологии. В своем последнем прорыве Microsoft Research демонстрирует новую систему языка Vision (VL) под названием VinVL.

VinVL (Visual features in Vision-Language) — это модель обнаружения атрибутов объекта, которая специализируется на кодировании изображений.

Если вы не знакомы с системами VL, они основаны на машинном обучении и предоставляют способ поиска изображений для текстового запроса или поиска текста для соответствующего изображения. Эти системы дают описания содержимого изображения на естественном языке.

Системы VL обычно сочетают кодирование изображений и слияние языков изображений. Microsoft Research сообщает, что VinVL — это модель кодирования изображений, которая работает вместе с существующими модулями слияния VL для получения точных результатов сопоставления изображения и текста.

Прорвать

Например, он возглавил списки лидеров по целому ряду сервисов тестирования корпоративной лицензии, таких как собственный COCO Image Captioning от Microsoft, Novel Object Captioning и Visual Question Answering (VQA). Кроме того, новая модель способна значительно улучшить человеческую производительность в таблице лидеров nocaps.

«VinVL продемонстрировал большой потенциал в улучшении кодирования изображений для понимания VL. Наша недавно разработанная модель кодирования изображений может принести пользу широкому кругу задач VL, как показано на примерах в этой статье. Несмотря на многообещающие результаты, которые мы получили, такие как превосходство человека в тестах на субтитры изображений, наша модель ни в коем случае не достигает интеллекта человеческого уровня понимания VL.

«Интересные направления будущих работ включают: (1) дальнейшее расширение предварительного обучения обнаружению атрибутов объекта за счет использования массивных данных классификации/маркировки изображений и (2) расширение методов кросс-модального обучения представлению VL для построения языковых моделей, основанных на восприятии. которые могут обосновывать визуальные концепции на естественном языке и наоборот, как это делают люди».

Microsoft заявляет, что объединит VinVL с Azure Cognitive Services. Это означает, что он будет доступен для клиентов платформы, которая работает в таких службах, как LinkedIn и Office 365. Кроме того, проект будет с открытым исходным кодом и доступен для всех разработчиков.

Совет дня:

Знаете ли вы, что как администратор Windows 10 вы можете ограничить учетные записи пользователей, отключив настройки или панель управления? В нашем руководстве показано, как отключить и включить их с помощью групповой политики и реестра.