Description
Генеративно-состязательная сеть (GAN), получившая широкое признание благодаря своим выдающимся способностям генерировать данные, является одной из самых интригующих областей изучения искусственного интеллекта. Для разработки обобщенных моделей глубокого обучения требуются большие объемы данных. GAN — это очень сильный класс сетей, способных создавать правдоподобные новые изображения из немаркированных исходных отпечатков, а помеченные данные медицинских изображений являются дефицитными и дорогостоящими в производстве. Несмотря на замечательные результаты GAN, постоянное обучение остается проблемой. Цель этого исследования — провести полную оценку литературы, связанной с GAN, и представить краткий обзор существующих знаний о GAN, включая следующую за ней теорию, ее предполагаемую цель, возможные изменения базовой модели и последние достижения в этой области. . Эта статья поможет вам получить всестороннее представление о GAN и предоставит обзор GAN и его многочисленных типов моделей, а также общие реализации, рекомендации по параметрам измерения и приложения GAN при обработке изображений. Также будут рассмотрены несколько приложений GAN в обработке изображений, а также их преимущества и ограничения, а также их предполагаемый охват.
Способность компьютерных систем вести себя, думать и делать выбор, как люди, была одним из самых значительных и замечательных достижений в области компьютерных наук, и это называется технологией машинного обучения. Со временем были созданы различные алгоритмы для создания машин и компьютерных систем, которые могут имитировать человеческий мозг, и для реализации этих алгоритмов использовались различные языки программирования.
Многие достижения в области машинного обучения, особенно глубокого обучения, были обнаружены, когда стало доступно больше вычислительных или вычислительных мощностей. Глубокое обучение упрощает извлечение релевантных, абстрактных и высокоуровневых признаков из входных данных для использования в качестве классификаторов и детекторов. Эту методологию часто называют обучением через представление, и она интерпретируется на основе того, как мыслит и работает человеческий разум. Принцип генеративной модели (модели, основанные на глубоком обучении) находится в центре внимания генеративно-состязательных сетей (или GAN). Тема синтеза изображений привлекла большое внимание. Это фраза для процесса создания изображения с использованием скрытых и открытых характеристик изображения. GAN обычно применяются в области алгоритмов обработки изображений в целом из-за их продемонстрированной способности эффективно работать с изображениями. GAN состоят из двух моделей, которые одновременно обучаются друг против друга. Исторически сложилось так, что цепи Маркова и оценка наибольшей вероятности использовались для построения моделей GAN, таких как ограниченная система Больцмана (Фишер и Игель).2012 ) и вариационный автоматический кодировщик (Kingma and Welling 2013 ). Они моделируются на основе распределения входных данных, что приводит к оценке сгенерированных данных, но их вывод и результаты страдают из-за их низкой способности к обобщению. Чтобы решить эту проблему, в 2014 году Goodfellow et al. ( 2014 ) предложили GAN, новую теорию в области генеративных моделей. Он состоит из генератора и сети дискриминатора, которые являются соперниками, которые всегда пытаются превзойти друг друга, улучшая себя. GAN был создан, чтобы помочь людям понять совместное распределение вероятностей.
Задача Генератора состоит в том, чтобы генерировать новые точки данных в зависимости от распределения существующих входных точек выборки данных, с обманом, что сгенерированные точки выборки верны. Задача Дискриминатора состоит в том, чтобы разоблачить блеф Генератора, обнаружив выборочные данные как искусственно созданные или полученные из реальных данных. Это эквивалент двух соперников, играющих в игру с нулевой суммой. Обратное распространение (Румельхарт и др., 1986 г.).) используется для обучения моделей, а отсева удаляются (во избежание переобучения). Основная идея GAN является производной от игры двух человек с нулевой суммой, в которой выигрыш или проигрыш одного человека идеально соответствует выигрышу или проигрышу другого человека. GAN похожи в том аспекте, что генератор и дискриминатор обучаются одновременно. Генератор создает свежие выборки данных при попытке зафиксировать вероятное распределение фактических выборок. Дискриминатор обычно представляет собой бинарный классификатор, который точно отделяет отдельные образцы от изготовленных образцов. Кроме того, генератор и дискриминатор будут построены с использованием традиционной архитектуры глубокой нейронной сети (Гудфеллоу и др. , 2016 ; Рэдфорд и др., 2015 ).). Лучшая стратегия для GAN — играть в минимаксную игру для достижения равновесия Нэша (Ratliff et al. 2013 ), когда генератор оптимально фиксирует выборочное распределение реальных данных. В этой статье обсуждаются исторические перспективы обработки изображений на основе GAN. Раздел 2 : Обзор GAN. Многочисленные типы моделей GAN обсуждаются в разд. 3 . В разделе 4 рассматриваются некоторые из наиболее распространенных приложений GAN для обработки изображений, а в разделе 5 рассматриваются некоторые из наиболее продвинутых приложений GAN. Достоинства и недостатки GAN обсуждаются в разд. 6 . Раздел 7 дает ограничение GAN. Заключение и возможные замечания по объему включены в разд. 8 . Фигура 1отображает весь анализ опроса.
Схема опроса. Он состоит из трех важных частей, таких как генеративно-состязательная сеть, а также различные типы моделей GAN, а также применение GAN.
GAN — это своего рода архитектура, в которой два нейронных слоя противостоят друг другу для создания новых синтетических выборочных данных, которые очень точно отражают реальные данные выборки и имеют высокую вероятность того, что они будут приняты в качестве реальных входных данных. Неоднократно используется при формировании изображений, видео и речи. GAN особенно хорошо подходят для обработки изображений из-за их отличной производительности в задачах с изображениями. Они считаются наиболее эффективной процедурой создания изображений и используются в самых разных приложениях (Кумар и Дхаван , 2020 г.; Пан и др., 2019 г.).). В этом разделе рассматриваются основы архитектуры GAN, целевые функции, скрытое пространство и проблемы GAN. Игра с нулевой суммой для двух человек с наименьшей максимальной суммой является ключевой характеристикой GAN. В этой игре один человек получает компенсацию за счет проигрыша другого участника. Участники игры представляют сети дискриминатора и генератора. Одной из основных целей дискриминатора является определение принадлежности выборки к истинному или ложному распределению (Гудфеллоу и др. , 2014 ; Кумар и Дхаван, 2020 ).). Тем временем генератор пытается обмануть дискриминатор, создавая неверное пробное распределение. Дискриминатор оценивает, насколько вероятно или маловероятно, что конкретный образец является подлинным образцом. Выборка с большей вероятностью будет репрезентативной для генеральной совокупности, если значение правдоподобия выше. Образец является мошенническим, если значение близко к нулю. Значение вероятности, близкое к 0,5, указывает на то, что сгенерировано наилучшее решение, и отображает отсутствие различия между реальными и синтезированными выборочными данными.
Общая архитектура GAN изображена на рис.Рис.2.2. Как видно, двойная сеть генератора и дискриминатора составляет GAN. Со временем создания генератора его способность производить достоверные данные быстро увеличивается. Произведенные экземпляры используются дискриминатором в качестве отрицательных обучающих примеров, и со временем дискриминатор хорошо разбирается в различении фиктивных и подлинных данных от генератора. Если генератор выдает невероятные результаты, дискриминатор наказывает его.
общая архитектура GAN
Для создания графики настоятельно рекомендуется использовать случайный шум. Z — символ случайного шума. Изображения, созданные шумом, сохраняются в формате G (z). Гауссовский шум с его нормальным распределением является наиболее распространенным входным сигналом. Обе сети в GAN необходимо рекурсивно корректировать при обучении и постепенно обновлять. Вымышленный характер дискриминатора может оценить исходное распределение любого данного изображения. Для данного изображения X D(X) представляет единичную вероятность подлинности и нулевую вероятность подделки. Целью генеративного моделирования является согласование реальных распределений данных pdata(x) и pg(x). В результате для обучения генеративных моделей крайне важно свести к минимуму расхождения между двумя распределениями (Гудфеллоу и др., 2014 г.).). JSD (pdata ||pg), рассчитанный дискриминатором, сокращается обычным GAN (Hong et al. 2019 ). Исследователи недавно обнаружили, что вместо JSD для повышения точности GAN можно использовать различные измерения расстояний или расхождений. В этой части мы рассмотрим, как использовать различные расстояния и целевые функции для расчета различий, существующих между реальными распределениями данных. Скрытое пространство, также известное как пространство встраивания, хранит компактное представление данных. Если бы мы попытались изменить или описать какие-либо особенности изображения, такие как поза, возраст, внешний вид или объект изображения, все в пространственной области, это могло бы быть сложно из-за высокой размерности и пространства распределения (Lin et al. 2018 ).). Поскольку такое участие в скрытом пространстве является гораздо более осуществимым вариантом, поскольку скрытое представление компактно передает основные свойства входного изображения. В этом разделе рассматривается, как GAN выражает целевые качества в скрытом пространстве и как система GAN может извлечь выгоду из вариационной стратегии. Даже при обучении на мультимодельных данных у GAN есть недостаток, заключающийся в создании однородных выборок. Например, когда GAN обучаются на данных рукописных десятирежимных цифр, G может оказаться неспособным производить какие-либо цифры (Goodfellow 2016 ).). Это называется проблемой коллапса мод, и для преодоления этой проблемы было предложено много литературы. Кроме того, вместо сходимости с фиксированной точкой G и D могут колебаться во время планирования. Когда один игрок становится более эффективным, чем другой, система может стать нестабильной из-за исчезающих градиентов. D быстро развивает способность различать подлинные и сфабрикованные образцы, хотя созданные образцы изначально имеют низкое качество. В результате вероятность продуктивной выборки будет ближе к нулю, что приведет к очень небольшому градиенту log(1–D(G(z)) (Zhu et al. 2017 ).). Это демонстрирует, что G не будет обновляться, если в D отсутствуют градиенты. Кроме того, очень важно тщательно выбирать гиперпараметры, включая импульс, размер пакета и скорость обучения, чтобы обеспечить сходимость обучения GAN.
Применение ГАН
Поскольку GAN способна генерировать реалистичные выборки из заданного входного скрытого пространства, ее можно считать чрезвычайно эффективной и полезной генеративной моделью. От нас не требуется знать точное распределение реальных данных или делать какие-либо дополнительные статистические выводы (Alqahtani et al. 2021 ). Эти преимущества привели к широкому использованию GAN в нескольких академических и технологических областях (You et al. 2022 ).). Мы рассмотрим несколько приложений компьютерного зрения, которые были опубликованы и усовершенствованы в литературе. Эти примеры были выбраны для демонстрации нескольких методов обработки, интерпретации и характеристики изображений с использованием представлений на основе GAN и не отражают весь спектр приложений GAN. В этом разделе подробно обсуждаются приложения GAN (Aggarwal et al. 2021 ) в обработке изображений.
Генерация изображений с улучшенным качеством
Большая часть текущих исследований GAN была посвящена улучшению качества и полезности навыков создания изображений. В целях улучшения модель LAPGAN была расширена каскадом CNN для создания изображений в структуре пирамиды Лапласа (Donahue et al. 2016 ). Чжан и др. ( 2019) разработали GAN на основе собственного внимания (SAGAN) для задач создания изображений, который позволяет моделировать долгосрочные зависимости посредством внимания. В отличие от стандартных сверточных GAN, которые создают информацию с высоким разрешением только из локально распределенных точек на карте объектов с более низким разрешением. SAGAN, с другой стороны, очарован информацией, которую можно почерпнуть из смеси стимулов со всех мест размещения признаков. На сложном наборе данных ImageNet система SAGAN смогла продемонстрировать высочайшую производительность, превысив наивысший начальный балл с 36,8 до 52,52 и сократив начальный балл Фреше с 27,62 до 18,65. Хуанг и др. ( 2017) вместо использования изображений с более низким разрешением, GAN используют промежуточные представления. Этот метод доказал свою эффективность, и в настоящее время он широко используется для повышения качества изображения. Предоставляя дополнительную информацию о метках в качестве входных данных как для сетей G, так и для сетей D, LAPGAN расширила условную версию модели GAN; этот метод оказался полезным и в настоящее время является обычной практикой для повышения качества изображения. Техника кондиционирования GAN позже была расширена, чтобы охватить естественный язык.
Как показано Nguyen et al. ( 2016 ), увеличение градиента в скрытом пространстве генераторных сетей усиливает активацию нескольких нейронов в отдельном методе возбуждения классификатора для синтеза свежих изображений. Этот подход получил дальнейшее развитие в Nguyen et al. ( 2017 ) путем включения скрытого кода, который повысил согласованность, точность и разнообразие образцов, в результате чего появилась новая генеративная модель, которая создает изображения с разрешением 227 × 227, что превосходит предыдущие генеративные модели. Это верно для каждой из 1000 форм ImageNet.
Для генеративно-состязательных сетей Salimans et al. ( 2016 ) предоставил набор инновационных структурных свойств и стратегий планирования (GAN). Акцент авторов делается на двух приложениях GAN: обучении с полуучителем и создании визуально реалистичных изображений. Они не хотели создавать модель, приписывающую максимальную вероятность, и они не хотели, чтобы она обучалась без меток. В MNIST, CIFAR-10 и SVHN (номера домов с видом на улицу) авторы применили уникальные методологии для получения современных результатов полуконтролируемой классификации. Исключительное качество полученных изображений было подтверждено визуальным тестом Тьюринга. Предложенная модель сгенерировала набор данных MNIST, который никто не может отличить, кроме реальных данных, а также выборки CIFAR-10 с коэффициентом человеческих ошибок 21,3 процента.
Супер разрешение изображения
Термин «сверхвысокое разрешение» относится к множеству методов масштабирования видео и изображений. Обученная модель содержит реальные данные изображения во время выборки, что приводит к созданию изображения с высоким разрешением из изображения с более низким разрешением (Wang et al. 2019 ). Ван и др. ( 2018) обнаружили, что визуальная эффективность SRGAN повышается за счет объединения трех основных аспектов SRGAN — структуры структурной сети, антагонистических и перцептивных потерь — для создания расширенного SRGAN (ESRGAN). Остаточный плотный блок (RRDB) был основной единицей, используемой для создания сетей без пакетной нормализации. Они также скорректировали релятивистский принцип GAN таким образом, чтобы дискриминатор мог предсказывать относительную реальность вместо абсолютного значения. В конце концов, потеря восприятия усугубляется активацией функций до восстановления текстуры и согласованности яркости, что рекомендует лучшую реструктуризацию текстуры и мониторинга согласованности. Предлагаемый ESRGAN обеспечивает постоянную визуальную согласованность с более практичными и реалистичными текстурами, чем SRGAN, и занял первое место в конкурсе PIRM 2018-SR Challenge с самым высоким индексом восприятия (область 3).
Каррас и др. ( 2017 ) предложили новый подход к генеративно-состязательным сетям. Основная идея этого исследования заключается в постепенном повышении точности как генератора, так и дискриминатора: мы начинаем с низкого разрешения и постепенно добавляем больше слоев, которые моделируют все более и более точную информацию по мере обучения. Это ускоряет и стабилизирует процесс планирования, позволяя нам создавать графические изображения исключительного качества.
Изображение в живописи
Визуальное закрашивание — это стратегия реорганизации отсутствующих разделов данных изображения, чтобы наблюдатели не могли определить, что они были восстановлены. Он часто используется для устранения нежелательных артефактов с изображений или для восстановления испорченных областей исторических или артефактных изображений. Edge Connect, предложенный Nazeri et al. ( 2019 ) представляет собой двухэтапную парадигму злоумышленника, которая включает в себя сеть завершения изображений и генераторы краев. Генератор краев подготавливает краевые галлюцинации (как нормальные, так и нерегулярные), а сеть завершения изображения использует эти галлюцинированные края в качестве приоритета для заполнения недостающих областей. Мы тестируем нашу модель от начала до конца, используя общедоступные наборы данных, такие как CelebA, Places2 и Paris Street View. Ю и др. ( 2018) разработали генеративный метод на основе глубокой модели, который не только синтезирует отдельные структуры изображения/изображения, но также использует атрибуты изображения вокруг него для улучшения прогнозов в качестве эталона во время обучения сетей. Во время эксперимента подход представляет собой канал CNN (сверточная нейронная сеть), который может обрабатывать изображения в случайных местах переменного размера с множеством отверстий. Йе и др. предложил новый подход к рисованию семантических изображений (Yeh et al. 2017 ). Исследователи рассматривали семантическое рисование как ограниченную проблему создания изображения с существующими разработками в области генеративного моделирования. В этой ситуации сеть оппонента (Гудфеллоу и др. , 2014 ; Рэдфорд и др., 2015 )) разработал глубокую генеративную модель и теперь пытается закодировать искаженное изображение, которое «наиболее близко» к изображению в скрытом пространстве. Затем сигнал воспроизводится с кодировкой генератором. Взвешенная потеря фона используется, чтобы сделать поврежденное изображение условным, а более ранняя потеря используется для наказания нелогичных изображений.
Распознавание объектов
Обнаружение объектов — это метод обнаружения реальных объектов, таких как лица, велосипеды и здания, на изображениях или в фильмах. Алгоритмы идентификации объектов обычно используют извлеченные функции и методы обучения для идентификации отдельных экземпляров типа объекта. Все системы помощи водителю (ADAS) используют восстановление изображений, безопасность, мониторинг и сложную помощь водителю. Как правило, мелкие объекты трудно обнаружить из-за их низкого разрешения и яркого изображения. Ли и др. ( 2017) разрабатывают современную Perceptual Generative Adversarial Network (Perceptual GAN) для улучшения распознавания мелких объектов, сводя к минимуму репрезентативный разрыв между маленькими и большими вещами. Его генератор учится обманывать конкурента посредством воспринимаемых слабых представлений о маленьких предметах, которые достаточно близки к настоящим огромным предметам. Тем временем дискриминатор конкурирует с генератором за оценку созданного представления и накладывает на генератор визуальный критерий, который важен для обнаружения представлений крошечных объектов.
Генерация и предсказание видео
Компьютерное зрение — большая проблема для понимания движения объектов и динамики сцены. Модель преобразования сцен включает как распознавание видео (например, классификацию действий), так и генерацию видео (например, предсказание будущего). С другой стороны, построение динамической модели затруднено из-за большого разнообразия форм, которые могут принимать объекты и окружение. Матье и др. ( 2015 г.) использовали сверточную сеть, обученную на входной последовательности, для построения вероятных фреймворков. Чтобы устранить внутренние предубеждения стандартных многомасштабных функций (MSF), были разработаны три отдельных и дополняющих друг друга метода изучения функций: междисциплинарный структурный дизайн, неблагоприятный подход к обучению и функция дифференциального градиента изображения. Для преодоления ошибочных прогнозов традиционной MSF учитываются. Они сравнивают прогнозы со многими ранее опубликованными результатами, используя повторяющиеся нейронные сети и набор данных UCF101.
Если у Вас появилась заинтересованность в данной нейронной сети, и она может помочь Вам в реализации Ваших бизнес и других технических задачах, пожалуйста отправьте заявку на email info@ai2b.ru , или позвоните по телефону 8(495)661-61-09
Reviews
There are no reviews yet.