Генерация изображений цветов.

Description

Создание и экспериментирование с изображениями искусственных цветов с использованием глубоких сверточных сетей GAN.
В 2014 году Ян Гудфеллоу представил генеративно-состязательную сеть (GAN) как новый метод создания выборок из целевого распределения вероятностей, набор данных из которого уже доступен. GAN работает на основе состязательного процесса, в котором два модуля, называемые генератором и дискриминатором, противопоставляются друг другу в минимаксной теоретико-игровой обстановке, при этом генератор создает выборки «фальшивых» данных, а дискриминатор различает их. реальные и поддельные данные. На каждом шаге генератор обновляет свои образцы таким образом, чтобы он мог «обмануть» дискриминатор, классифицируя их как подлинные. После достаточного количества шагов, если предоставленный набор данных достаточно велик и архитектуры в обоих блоках подходят, выборки, сгенерированные генератором, начинают напоминать реальные данные,

Гудфеллоу доказал, что в идеальных условиях (бесконечное количество реальных данных) игра сходится, при этом генератор генерирует выборки, неотличимые от реальных выборок, а дискриминатор полностью путается между двумя классами данных. Хотя игра редко сходится в практических ситуациях, было показано, что GAN и их модификации являются эффективными моделями генерации данных, а их образцы с достаточной точностью напоминают реальность.

DCGAN (Deep Convolutional GAN), разработанный Алеком Рэдфордом, Люком Метцем и Сумитом Чинтала (2016), широко использовался для создания изображений. В этой модели каждый из генератора и дискриминатора представляет собой нейронную сеть глубокой свертки (CNN). В DCGAN было включено несколько архитектур, дополнительных функций и модификаций, и было обнаружено, что он хорошо работает с большинством популярных наборов данных изображений.

В этой статье мы поэкспериментируем с двумя версиями архитектуры DCGAN и двумя разными версиями набора данных, состоящего из изображений разных видов цветов. Первый набор данных (цветы-17) состоит всего из 1360 изображений 17 разновидностей цветов, а второй набор данных (цветы-102) состоит из 8189 изображений 102 разновидностей цветов. Таким образом, помимо эмпирического изучения эффектов настройки гиперпараметров и изменения архитектуры, мы также увидим уровень различий в производительности, вызванный расширением набора обучающих данных.

Файлы загружаются как файлы .tgz tar и должны быть выгружены как изображения. Это делается с помощью библиотеки tarfile Python. Затем изображения считываются как массивы пикселей с помощью библиотеки OpenCV2 , изменяются и объединяются в единый тензор, который можно легко передать в нейронные сети.

Обратите внимание, что для работы кода в рабочем каталоге должен быть создан необходимый пустой текстовый файл «flowers102.txt».

Как только изображения подготовлены в виде тензоров, мы можем начать экспериментировать с архитектурой. Во-первых, мы делаем краткий обзор двух архитектур. Ясно, что основные отличия заключаются в отсутствии одностороннего сглаживания меток и групповой дискриминации во второй архитектуре и отсева в первой. Генератор первой архитектуры также является слоем глубже, чем генератор второй.

Начнем с рассмотрения результатов архитектуры 2 в наборе данных с 17 метками. Поскольку исходный набор данных содержит большинство желтых и фиолетовых цветов, GAN перешел в режим коллапса, сгенерировав только эти цвета. Ниже приведены результаты в конце 10000-й эпохи.

Сравните это с результатами, когда в качестве входных данных использовалась только выбранная партия набора данных. В таком случае в выходных изображениях получается больше цветов.