Распознавание эмоций по голосу.

Два подхода к
распознаванию
эмоций в человеческой
речи: как задачи
регрессии и задачи
классификации.

Description

Как видно из названия, Speech Emotion Recognition (SER) — это система, которая может идентифицировать эмоции различных аудиосэмплов. Судя по описанию, эта задача похожа на анализ тональности текста, и оба они также имеют некоторые общие приложения, поскольку отличаются только модальностью данных — текст против аудио. Подобно анализу настроений, вы можете использовать распознавание речевых эмоций, чтобы найти эмоциональный диапазон или сентиментальную ценность в различных аудиозаписях, таких как собеседования при приеме на работу, звонки оператору, потоковое видео и песни. Более того, даже системы музыкальных рекомендаций или классификации могут группировать песни в зависимости от их настроения и рекомендовать пользователю подобранные плейлисты. Можно с уверенностью предположить, что сложные алгоритмы Spotify и YouTube также имеют компонент SER, который помогает в музыкальных рекомендациях.

С точки зрения машинного обучения распознавание речевых эмоций — это проблема классификации , когда входной образец (аудио) необходимо разделить на несколько предопределенных эмоций. Конечно, проблема в этой проблеме выходит за рамки технических — как вообще определить эмоцию и последовательно определить класс, учитывая звуковой образец, который может быть неоднозначным даже для людей?

Эта проблема более актуальна для создателей наборов данных, но она также становится важной при оценке обученной модели. Ниже мы увидим, что наш набор данных содержит две схожие по звучанию эмоции, «спокойную» и «нейтральную», которые даже людям может быть сложно определить в неоднозначных случаях. Между тем, «сердитый» и «счастливый» имеют заметные различия, которые модель может быстро усвоить.

 

Таким образом, становится ясно, что модели машинного обучения должны глубже изучать извлечение признаков и нелинейность звуковых сигналов, чтобы эффективно фиксировать нюансы речи, которые люди могут обнаружить интуитивно. В настоящее время исследователи работают со звуковыми сигналами, обрабатывая их либо как данные временных рядов , либо используя спектрограммы для создания числовых и графических форм звука. Все эти методы включают в себя тот или иной вид преобразования исходных данных, что повышает вероятность потери признаков. По-прежнему необходимо сделать модели машинного обучения надежными при изучении функций из аудиоданных — за этим последует надежность в задачах классификации или генерации.

Что такое распознавание эмоций речи?

Человеческая речь содержит несколько особенностей, которые слушатель интерпретирует, чтобы распаковать богатую информацию, передаваемую говорящим. Говорящий также непреднамеренно разделяет тон, энергию, скорость и другие акустические свойства, что помогает уловить подтекст или намерение и буквальные слова.

 

Распознавание речи

Работа в области распознавания речи началась с преобразования речи в текст (или создания расшифровки). При этом был зафиксирован первый уровень информации (слова или буквальное значение речи). В более продвинутых приложениях контекст и сопереживание говорящему становятся жизненно важными для распознавания речевых эмоций. Это также то, чем анализ тональности текста отличается от распознавания речевых эмоций. При анализе настроений эмоции передаются в тексте буквально (с использованием отрицательных или положительных слов), что облегчает понимание предполагаемого значения (например, положительного или отрицательного, гневного или грустного). Однако в SER вся эта информация скрыта под первым слоем информации.

Как работает распознавание речи и эмоций?
Ученые применяют различные методы обработки звука, чтобы захватить этот скрытый слой информации, который может усиливать и извлекать из речи тональные и акустические характеристики.

Преобразование аудиосигналов в числовой или векторный формат не так просто, как изображения. Метод преобразования определит, сколько ключевой информации будет сохранено, когда мы откажемся от «аудио» формата. Если конкретное преобразование данных не может отразить мягкость и спокойствие, моделям будет сложно изучить эмоцию и классифицировать образец.

Некоторые методы преобразования аудиоданных в числовые включают спектрограммы Мела, которые визуализируют аудиосигналы на основе их частотных компонентов, которые можно изобразить в виде звуковой волны и передать для обучения CNN в качестве классификатора изображений. Мы можем зафиксировать это, используя кепстральные коэффициенты Mel-частоты (MFCC). Каждый из этих форматов данных имеет свои преимущества и недостатки в зависимости от приложения.

Прямое распознавание речи, преобразование речи в текст, представляет собой более сложную проблему, поскольку оно включает в себя сопоставление произносимых слов и предложений с их текстовыми аналогами. Первоначально модели LSTM, а теперь и модели Transformer продвинули исследования в этой области к невероятному успеху, поскольку субтитры или аудиозаписи доступны почти на каждом сервисе потокового видео.

Приложения для распознавания речи
Приложения простого распознавания речи широко распространены — автоматически генерируемые YouTube субтитры, расшифровки живых выступлений, расшифровки онлайн-курсов и интеллектуальные голосовые чат-боты, такие как Alexa и Siri. Благодаря этому тщательные исследования дали прибыльные и плодотворные результаты — автоматически генерируемые субтитры YouTube улучшаются с каждым годом. Однако приложения распознавания речевых эмоций более тонкие и добавляют новое измерение к использованию ИИ и тому, как он может облегчить нашу жизнь, чтобы улучшить их.

 

Очень недавнее применение SER появилось в результате внезапного роста онлайн-обучения, когда преподаватели могут наблюдать за реакцией учащегося в классе и выделять указатели, которые могут помочь им в обучении учащегося. Еще одно перспективное использование — оценка кандидатов, претендующих на руководящие должности, путем анализа их ответов во время аудио- или видеоинтервью. Их уверенность или опасения могут быть впервые количественно измерены с помощью SER, и, таким образом, менеджеры по найму могут выбрать идеально подходящего кандидата.

С другой стороны, SER может помочь оценить работу существующих сотрудников, особенно в индустрии колл-центров, где некорректный разговор с клиентом может иметь катастрофические последствия для имиджа компании. Такие системы могут также способствовать более эффективному и даже автоматическому рассмотрению жалоб клиентов. Точно так же можно отслеживать и заботиться об эмоциональном здоровье сотрудника.

Обычно используемые алгоритмы/модели распознавания речи и эмоций
После извлечения функций из аудио популярный выбор архитектуры модели со временем изменился. Вот некоторые из часто используемых:

 

RNN/LSTM: модели выполняют вычисления в последовательности временных шагов, что означает, что они могут запоминать прошлые данные из той же выборки при обработке следующей временной метки. Числовые признаки передаются в нейронную сеть, которая генерирует выходной логит-вектор. Выходные функции могут быть сопоставлены с текстовыми данными с использованием метода декодирования, такого как HMM или временная классификация Connectionist (CTC).

Модели, основанные на внимании: в настоящее время это наиболее часто используемые модели для любой задачи, включающей сопоставление двух форматов данных. Модель, основанная на внимании, может использовать ранее предсказанные последовательности и изучать сопоставление новых, используя подход кодировщик-декодер.

Listen-Attend-Spell (LAS): это был один из первых подходов к объединению двух вышеупомянутых методов путем создания кодировщика, который изучает функции с использованием двунаправленных LSTM. Далее, декодер разработан как блок, основанный на внимании, который учится на изученном представлении кодировщика, чтобы произвести выходную вероятность для следующей последовательности символов.

Для проблемы классификации распознавания речи и эмоций используются LSTM или их более сложные версии при работе с MFCC как с данными временного ряда. Они фиксируют изменения характеристик с течением времени для данного образца речи и моделируют поведение, чтобы предсказать класс эмоций.

CNN могут работать с MFCC в одномерной форме или учиться классифицировать спектрограммы Mel с помощью 2D-фильтров.

Если у Вас появилась заинтересованность в данной нейронной сети, и она может помочь Вам в реализации Ваших бизнес и других технических задачах, пожалуйста отправьте заявку на email info@ai2b.ru , или позвоните по телефону 8(495)661-61-09

 

Reviews

There are no reviews yet.

Be the first to review “Распознавание эмоций по голосу.”

Ваш адрес email не будет опубликован. Обязательные поля помечены *