Производительность компьютера основана на помеченных данных обучения — качестве, разнообразии и объеме данных обучения. Но сбор данных соизмеримого качества — это крепкий орешек, и он включает жесткое кодирование симметрии изображений в архитектуру нейронных сетей для повышения производительности. Другой способ — заставить экспертов вручную разрабатывать методы увеличения данных, такие как переворот и вращение, которые являются важными элементами обучения качественных моделей зрения. В последнее время поиску новых способов использования машинного обучения для автоматического улучшения существующих данных не уделялось внимания. Но результаты усилий AutoML ставят вопрос о возможности автоматизации и процедуры увеличения данных.
В статье «AutoAugment: Learning Policies Augmentation Policies from Data» исследуется алгоритм обучения с подкреплением, который увеличивает объем и разнообразие данных в заданном наборе данных. Функции увеличения данных позволяют обучать модель зрения инвариантности изображений в наборе данных таким образом, чтобы нейронная сеть была инвариантна к этим симметриям для повышения производительности. В прежних высокотехнологичных моделях глубокого обучения использовались политики увеличения данных, разработанные вручную, но AutoAugment использует обучение с подкреплением для поиска политик преобразования изображений из существующего набора данных, что приводит к повышению производительности моделей компьютерного зрения без необходимости зависеть от вновь разработанных наборов данных.
Так как же пополняются данные обучения?
Увеличение данных включает в себя простую процедуру. Изображения могут содержать множество симметрий, которые не меняют информацию изображения; например, зеркальное отражение предмета или, скажем, собаки — это еще тот предмет или собака, но все инварианты явно не воспринимаются человеком. Примером может служить смешанный метод увеличения данных, при котором изображения помещаются поверх других во время обучения, тем самым улучшая производительность нейронной сети.
В этом контексте AutoAugment гарантирует, что автоматически разрабатываются пользовательские политики увеличения данных для наборов данных компьютерного зрения, такие как выбор простых базовых операций преобразования изображения, таких как вращение изображения, изменение его цвета и т. д. AutoAugment прогнозирует комбинацию преобразований изображения, вероятность изображения и величина преобразования, чтобы изображение не преобразовывалось таким же образом. AutoAugment позволяет легко выбрать оптимальную политику из огромного пространства поиска размером 2,9 x 1032 изображений возможностей трансформации.
Для этого он изучает различные возможные преобразования на основе набора данных, на котором он работает. Например, он фокусируется на геометрических преобразованиях, таких как перевод и сдвиг для изображений, включающих просмотр улиц с номерами домов (SVHN), включая изображения цифр в естественной сцене. Эти геометрические преобразования представляют собой распространенное искажение в наборе данных. Кроме того, AutoAugment может полностью инвертировать цвета, которые естественным образом встречаются в исходном наборе данных SVHN.
Однако глубокое обучение с AutoAugment не использует сдвиг в CIFAR-10 и ImageNet, поскольку эти наборы данных обычно не содержат изображений сдвинутых объектов. Кроме того, он не инвертирует цвета полностью, чтобы избежать нереалистичных изображений из-за трансформации. Вместо этого AutoAugment слегка корректирует распределение цвета и оттенков, сохраняя при этом общие свойства цвета. Это указывает на то, что реальные цвета объектов в CIFAR-10 и ImageNet важны, тогда как для SVHN важны только относительные цвета.
Полученные результаты:
Алгоритм AutoAugment достиг впечатляющей точности top1 в 83,54% для данных ImageNet путем увеличения и ошибки в 1,48% только для CIFAR10, что предполагает улучшение на 0,83% по сравнению с увеличением данных, разработанным по умолчанию и вручную учеными. Уровень ошибок на SVHN улучшился с 1,30% до 1,02%. Важно отметить, что политики AutoAugment можно переносить, поэтому политику, найденную для набора данных ImageNet, можно также перенести в другие наборы данных машинного зрения, такие как FGVC-Aircraft, что повышает производительность нейронной сети.
Благодаря этому алгоритму и его результатам в повышении производительности многих конкурирующих наборов данных компьютерного зрения будущее применения этой технологии, охватывающей больше задач компьютерного зрения и в других областях, таких как языковые модели или обработка звука, выглядит светлым.