H Рекуррентные нейронные сети. Рекуррентная нейронная сеть решает задачу поддержания равновесия

авторитет 7 января 2016 в 15:24

Рекуррентная нейронная сеть решает задачу поддержания равновесия

Искусственный интеллект

Сразу постановка задачи.

Дано:
Примитивное виртуальное пространство для проведения эксперимента:
1. Аквариум высотой 1000 мм.
2. Дырявое дно аквариума. Уровень воды уменьшается на 1 мм за такт.
3. Стакан с водой, доливка которой в аквариум повышает уровень воды на 6 мм.

Также имеется заготовка нейронной сети, состоящая из:
1. 1000 рецепторов. По 1 рецептору на миллиметр.
2. 1 эффектор. Возбужденный в текущем такте, дает команду вылить стакан воды в аквариум.

Хотелось бы:
1. Добиться поддержания определенного нами уровня воды в аквариуме. Ну, или близко к нему. В текущем примере 500 мм.

Результат эксперимента:
На графике показан уровень воды с течением времени.

Укрупненный масштаб на старте эксперимента:

1. Стартуем со 100 мм уровня. Видно, что уровень воды неуклонно падает. Необученная заготовка нейросети просто не знает, что делать.
2. Достигнув нуля, т.е. иссушив аквариум, сеть запускает рефлекторную реакцию выливания порции воды.
3. Далее происходит рост уровня воды. Сеть получает поощрение, если уровень приблизился к требуемому. В противном случае - наказание.

Случайные дестабилизирующие воздействия:

4. Один раз в 1000 тактов происходит мощное дестабилизирующее воздействие на систему. Доливаем (выливаем) случайное количество воды.
5. Уровень воды в аквариуме стабилизируется.

Что происходит с сетью в процессе эксперимента:
1. Разрастается, создаются новые нейроны.
2. Синапсы обучаются.

Характеристики сети и ее структурных элементов:
1. Сеть - рекуррентная, возможны связи «на себя».
2. Синапсы, нейроны не удаляются.
3. Использовалось около 10000 нейронов и 500000 синапсов.
4. Сеть не использует математических функций над вещественным переменным. Из математики используется только суммирование целочисленных величин.

Что, собственно, предложено инновационного:
1. Способ обучения синапсов (остался за кадром, простите) .
2. Механизм добавления/удаления структурных элементов (за кадром) .
3. Ну и, в целом, не использующая математику, рекуррентная нейронная сеть.

Что еще необходимо реализовать:
1. Механизм уничтожения «бесполезных» синапсов и нейронов. В текущей реализации они вреда не приносят, но отнимают много времени на обсчет.
2. Визуализация нейросети была бы не лишней.
3. И все остальное… Пока не понятно, т.к. приходится быть последовательным.

Буду рад здоровой критике и вопросам!

Замечания:
1. Тема - хобби для меня.
2. Написано самостоятельно на C++.
3. ИИ будет чуть позже.

Спасибо!

Теги: нейронные сети, рекуррентная нейросеть, нейрон, синапс, пид-регулятор, искусственный интеллект

связь может исходить либо из выходного, либо из скрытого слоя нейронов. В каждом контуре такой связи присутствует элемент единичной задержки, благодаря которому поток сигналов может считаться однонаправленным (выходной сигнал предыдущего временного цикла рассматривается как априори заданный, который просто увеличивает размерность входного вектора сети). Представленная подобным образом рекуррентная сеть , с учетом способа формирования выходного сигнала, функционирует как однонаправленная персептронная сеть . Тем не менее, алгоритм обучения такой сети, адаптирующий значения синаптических весов, является более сложным из-за зависимости сигналов в момент времени от их значений в предыдущие моменты и соответственно из-за более громоздкой формулы для расчета вектора градиента.

При обсуждении рекуррентных сетей , в которых в качестве выходного элемента используется многослойный персептрон , рассмотрим наиболее известные структуры сетей RMLP , RTRN , Эльмана.

Персептронная сеть с обратной связью

Один из простейших способов построения рекуррентной сети на базе однонаправленной HC состоит во введении в персептронную сеть обратной связи. В дальнейшем мы будем сокращенно называть такую сеть RMLP (англ.: Recurrent MultiLayer Perceptron - рекуррентный многослойный персептрон ). Ее обобщенная структура представлена на рис. 1 ( - единичные элементы запаздывания ).

Это динамическая сеть , которая характеризуется запаздыванием входных и выходных сигналов, объединяемых во входной вектор сети. Рассуждения будут касаться только одного входного узла и одного выходного нейрона, а также одного скрытого слоя. Такая система реализует отображение :

(1)

где - количество задержек входного сигнала, а - количество задержек выходного сигнала. Обозначим количество нейронов в скрытом слое. В этом случае сеть RMLP можно характеризовать тройкой чисел . Подаваемый на вход сети вектор имеет вид:

Допустим, что все нейроны имеют сигмоидальную функцию активации. Обозначим взвешенную сумму сигналов -го нейрона скрытого слоя, a - взвешенную сумму сигналов выходного нейрона . При введенных обозначениях выходные сигналы конкретных нейронов описываются зависимостями

Сеть RMLP повсеместно применяется для моделирования динамических процессов в режиме " онлайн ". Типичным примером ее приложения может служить имитация нелинейных динамических объектов, для которых сеть

(Recurrent Neural Networks, RNNs) - популярные модели, используемые в обработке естественного языка (NLP). Во-первых, они оценивают произвольные предложения на основе того, насколько часто они встречались в текстах. Это дает нам меру грамматической и семантической корректности. Такие модели используются в машинном переводе. Во-вторых, языковые модели генерируют новый текст. Обучение модели на поэмах Шекспира позволит генерировать новый текст, похожий на Шекспира.

Что такое рекуррентные нейронные сети?

Идея RNN заключается в последовательном использовании информации. В традиционных нейронных сетях подразумевается, что все входы и выходы независимы. Но для многих задач это не подходит. Если вы хотите предсказать следующее слово в предложении, лучше учитывать предшествующие ему слова. RNN называются рекуррентными, потому что они выполняют одну и ту же задачу для каждого элемента последовательности, причем выход зависит от предыдущих вычислений. Еще одна интерпретация RNN: это сети, у которых есть «память», которая учитывает предшествующую информацию. Теоретически RNN могут использовать информацию в произвольно длинных последовательностях, но на практике они ограничены лишь несколькими шагами (подробнее об этом позже).

На диаграмме выше показано, что RNN разворачивается в полную сеть. Разверткой мы просто выписываем сеть для полной последовательности. Например, если последовательность представляет собой предложение из 5 слов, развертка будет состоять из 5 слоев, по слою на каждое слово. Формулы, задающие вычисления в RNN следующие:

x_t - вход на временном шаге t. Например x_1 может быть вектором с одним горячим состоянием (one-hot vector), соответствующим второму слову предложения.
s_t - это скрытое состояние на шаге t. Это «память» сети. s_t зависит, как функция, от предыдущих состояний и текущего входа x_t: s_t=f(Ux_t+Ws_{t-1}). Функция f обычно нелинейная, например tanh или ReLU . s_{-1}, которое требуется для вычисление первого скрытого состояния, обычно инициализируется нулем (нулевым вектором).
o_t - выход на шаге t. Например, если мы хотим предсказать слово в предложении, выход может быть вектором вероятностей в нашем словаре. o_t = softmax(Vs_t)

Несколько заметок:

Можно интерпретировать s_t как память сети. s_t содержит информацию о том, что произошло на предыдущих шагах времени. Выход o_t вычисляется исключительно на основе «памяти» s_t. На практике все немного сложнее: s_t не может содержать информацию слишком большого количества предшествующих шагов;
В отличие от традиционной глубокой , которая использует разные параметры на каждом слое, RNN имеет одинаковые (U, V, W) на всех этапах. Это отражает тот факт, что мы выполняем одну и ту же задачу на каждом шаге, используя только разные входы. Это значительно уменьшает общее количество параметров, которые нам нужно подобрать;
Диаграмма выше имеет выходы на каждом шаге, но, в зависимости от задачи, они могут не понадобиться. Например при определении эмоциональной окраски предложения, целесообразно заботиться только о конечном результате, а не о окраске после каждого слова. Аналогично, нам может не потребоваться ввод данных на каждом шаге. Основной особенностью RNN является скрытое состояние, которое содержит некоторую информацию о последовательности.

Где используют рекуррентные нейросети?

Рекуррентные нейронные сети продемонстрировали большой успех во многих задачах NLP. На этом этапе нужно упомянуть, что наиболее часто используемым типом RNN являются LSTM, которые намного лучше захватывают (хранят) долгосрочные зависимости, чем RNN. Но не волнуйтесь, - это, по сути, то же самое, что и RNN, которые мы разберем в этом уроке, у них просто есть другой способ вычисления скрытого состояния. Более подробно мы рассмотрим LSTM в другом посте. Вот некоторые примеры приложений RNN в NLP (без ссылок на исчерпывающий список).

Языковое моделирование и генерация текстов

Учитывая последовательность слов, мы хотим предсказать вероятность каждого слова (в словаре). Языковые модели позволяют нам измерить вероятность выбора, что является важным вкладом в машинный перевод (поскольку предложения с большой вероятностью правильны). Побочным эффектом такой способности является возможность генерировать новые тексты путем выбора из выходных вероятностей. Мы можем генерировать и другие вещи , в зависимости от того, что из себя представляют наши данные. В языковом моделировании наш вход обычно представляет последовательность слов (например, закодированных как вектор с одним горячим состоянием (one-hot)), а выход - последовательность предсказанных слов. При обучении , мы подаем на вход следующему слою предыдущий выход o_t=x_{t+1}, поскольку хотим, чтобы результат на шаге t был следующим словом.

Исследования по языковому моделированию и генерации текста:

Машинный перевод

Машинный перевод похож на языковое моделирование, поскольку вектор входных параметров представляет собой последовательность слов на исходном языке (например, на немецком). Мы хотим получить последовательность слов на целевом языке (например, на английском). Ключевое различие заключается в том, что мы получим эту последовательность только после того, как увидим все входные параметры, поскольку первое слово переводимого предложения может потребовать информации всей последовательности вводимых слов.

RNN для машинного перевода

Распознавание речи

По входной последовательности акустических сигналов от звуковой волны, мы можем предсказать последовательность фонетических сегментов вместе со своими вероятностями.

Генерация описания изображений

Вместе со RNN использовались как часть модели генерации описаний неразмеченных изображений. Удивительно, насколько хорошо они работают. Комбинированная модель совмещает сгенерированные слова с признаками, найденными на изображениях.

Глубокие визуально-семантические совмещения для генерации описания изображений.

Нейронные сети. Типы НС. Обучение НС. Применение НС.

Лекция 8.

При идентификации X и Y представляют входные и выходные сигналы системы соответственно.

Вообще говоря, большая часть прикладных задач может быть сведена к реализации некоторого сложного функционального многомерного преобразования.

В результате отображения X → Y крайне важно обеспечить формирование правильных выходных сигналов в соответствии:

Со всеми примерами обучающей выборки;

Со всеми возможными входными сигналами, которые не вошли в обучающую выборку.

Второе требование в значительной степени усложняет задачу формирования обучающей выборки. В общем виде эта задача в настоящее время еще не решена, однако во всех известных случаях может быть найдено частное решение.

Рекуррентными нейронными сетями называются такие сети, в которых выходы нейронных элементов последующих слоев имеют синаптические соединения с нейронами предшествующих слоев. Это приводит к возможности учета результатов преобразования нейронной сетью информации на предыдущем этапе для обработки входного вектора на следующем этапе функционирования сети. Рекуррентные сети могут использоваться для решения задач прогнозирования и управления.

Архитектура рекуррентных сетей

Существуют различные варианты архитектур рекуррентных нейронных сетей.

Сеть Джордана: В 1986 ᴦ. Джордан (Jordan) предложил рекуррентную сеть (рис.8.1), в которой выходы нейронных элементов последнего слоя соединены посредством специальных входных нейронов с нейронами промежуточного слоя. Такие входные нейронные элементы называются контекстными нейронами (context units). Οʜᴎ распределяют выходные данные нейронной сети на нейронные элементы промежуточного слоя.

Рис. 8.1 Архитектура рекуррентной нейронной сети с обратными связями от нейронов выходного слоя

Число контекстных нейронов равняется числу выходных нейронных элементов рекуррентной сети. В качестве выходного слоя таких сетей используются нейронные элементы с линейной функцией активации. Тогда выходное значение j -го нейронного элемента последнего слоя определяется по формуле

(8.1)

где v ij - весовой коэффициент между i -м нейроном промежуточного и j -м нейроном выходного слоев; P i (t )- выходное значение i -го нейрона промежуточного слоя; t j - пороговое значение j -го нейрона выходного слоя. Взвешенная сумма i -гo нейронного элемента промежуточного слоя определяется следующим образом:

(8.2)

где w ij – весовой коэффициент между j -м нейроном входного и i -м нейроном промежуточного слоев; р – число нейронов выходного слоя; w ki – весовой коэффициент между k -м контекстным нейроном и i -м нейроном промежуточного слоя; T – пороговое значение i -го нейрона промежуточного слоя; n – размерность входного вектора.

Тогда выходное значение i -го нейрона скрытого слоя:

(8.3)

В качестве функции нелинейного преобразования F обычно используется гиперболический тангенс или сигмоидная функция.

Для обучения рекуррентных нейронных сетей применяется алгоритм обратного распространения ошибки (будет рассмотрен ниже).

Алгоритм обучения рекуррентной нейронной сети в общем случае состоит из следующих шагов:

1. В начальный момент времени t = 1 все контекстные нейроны устанавливаются в нулевое состояние – выходные значения приравниваются нулю.

2. Входной образ подается на сеть и происходит прямое распространение его в нейронной сети.

3. В соответствии с алгоритмом обратного распространения ошибки модифицируются весовые коэффициенты и пороговые значения нейронных элементов.

4. Устанавливается t = t +1 и осуществляется переход к шагу 2. Обучение рекуррентной сети производится до тех пор, пока суммарная среднеквадратичная ошибка сети не станет меньше заданной.

Архитектура рекуррентных сетей

Существуют различные варианты архитектур рекуррентных нейронных сетей.

Сеть Джордана: В 1986 г. Джордан (Jordan) предложил рекуррентную сеть (рис. 6), в которой выходы нейронных элементов последнего слоя соединены посредством специальных входных нейронов с нейронами промежуточного слоя. Такие входные нейронные элементы называются контекстными нейронами (context units). Они распределяют выходные данные нейронной сети на нейронные элементы промежуточного слоя.

Рис. 6 Архитектура рекуррентной нейронной сети с обратными связями от нейронов выходного слоя

где w ij - весовой коэффициент между j -м нейроном входного и i -м нейроном промежуточного слоев; р - число нейронов выходного слоя; w ki - весовой коэффициент между k -м контекстным нейроном и i -м нейроном промежуточного слоя; T - пороговое значение i -го нейрона промежуточного слоя; n - размерность входного вектора.

Тогда выходное значение i -го нейрона скрытого слоя

Для обучения рекуррентных нейронных сетей применяется алгоритм обратного распространения ошибки.