Нейронные сети и дифференциальные уравнения (7 видео)

Краткое содержание статьи: Нейронные обыкновенные дифференциальные уравнения

Дата публикации Dec 27, 2018

NIPS 2018 (Монреаль, Канада) или NeurIPS, как его называют сейчас, закончились, и я хотел бы воспользоваться возможностью, чтобы воспользоваться одним из документов, которые получили награду за лучший документ на этой престижной конференции. Название статьиНейронные обыкновенные дифференциальные уравнения(arXiv ссылка) и его авторы связаны со знаменитым Институтом Векторов в Университете Торонто. В этой статье я попытаюсь объяснить некоторые из основных идей этой статьи, а также обсудить их потенциальные последствия для будущего области глубокого обучения. Так как статья довольно продвинутая и затрагивает такие понятия, какОбыкновенные дифференциальные уравнения(ОДА),Рекуррентные нейронные сети(РНН) илиНормализующие потоки(NF), Я предлагаю вам ознакомиться с этими условиями, если вы не знакомы с ними, так как я не буду вдаваться в подробности по ним. Тем не менее, я постараюсь объяснить идеи статьи настолько интуитивно, насколько это возможно, чтобы вы могли получить основные концепции, не вдаваясь в технические детали. Если вы заинтересованы, вы можете прочитать об этих деталях впоследствии в оригинальном документе. Пост разбит на несколько разделов, каждый из которых объясняет одну или несколько глав в статье.

Содержание

От последовательностей преобразований к нейронно-дифференциальным уравнениям
Вычисление градиентов решателя ODE с помощью сопутствующего метода
Сети ODE для контролируемого обучения
Непрерывные нормализующие потоки
Генеративные модели временных рядов через ODE
Выводы
О применении нейронных сетей для решения дифференциальных уравнений в частных производных Текст научной статьи по специальности « Компьютерные и информационные науки»
Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Коваленко А.Н., Черноморец А.А., Петина М.А.
Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Коваленко А.Н., Черноморец А.А., Петина М.А.
Текст научной работы на тему «О применении нейронных сетей для решения дифференциальных уравнений в частных производных»
Анализ малых данных
КвазиНаучный блог Александра Дьяконова
Нейронные обыкновенные дифференциальные уравнения
Share this:
Понравилось это:
Похожее
Нейронные обыкновенные дифференциальные уравнения : 5 комментариев
🎦 Видео

Видео:Автоматическое решение дифференциальных уравнений с помощью методов оптимизации и нейронных сетейСкачать

От последовательностей преобразований к нейронно-дифференциальным уравнениям

Сегодня множественные архитектуры нейронных сетей, такие как RNN или Остаточные сети, содержат повторяющиеся блоки уровней, которые способны сохранять последовательную информацию, а также изменять ее на каждом этапе с помощью изученной функции. Такие сети в общем случае могут быть описаны уравнением

Таким образом,hₜявляется «скрытой» информацией на временном шагеt и f (hₜ, θₜ)изученная функция текущей скрытой информации и параметровθₜ, Основной вопрос, поставленный в статье, заключается в том, можем ли мы улучшить наши текущие современные результаты с этими сетями, постепенно уменьшая размер шага[т, т + 1], Мы можем представить это как постепенное увеличение количества оценок в RNN или увеличение количества остаточных уровней в остаточной сети. Если мы сделаем это, мы в конечном итоге придем к бесконечно малой (дифференциальной) версии приведенного выше уравнения:

Такое уравнение называетсяОбыкновенное дифференциальное уравнение(ODE), поскольку решение является функцией, а именно функциейч (т), Другими словами, решая уравнение, мы получаем желаемую последовательность скрытых состояний. Нам придется решать уравнение во время каждой оценки, начиная с исходного состояния.h₀.Такая проблема также называется начальная задача проблема.

Видео:Алексей Окунев | Нейронные дифференциальные уравнения для задач с выраженной динамикойСкачать

Вычисление градиентов решателя ODE с помощью сопутствующего метода

Численное решение ODE обычно осуществляется путем интеграции. Множество методов интеграции были изобретены за эти годы, в том числе простой метод Эйлера и более высокие варианты метода Рунге-Кутты. Тем не менее, все это в вычислительном отношении довольно интенсивно. Это особенно актуально во время обучения, которое требует дифференциации шагов интеграции, чтобы иметь возможность суммировать все градиенты параметров сетиθₜ, влечет за собой высокую стоимость памяти.

В статье авторы представляют альтернативный подход к расчету градиентов ОДУ с использованием так называемыхсопряженный методПонтрягин. Этот метод работает путем решенияво-вторых, дополненный ODE назад во времени,может использоваться со всеми интеграторами ODE и имеет небольшой объем памяти. Давайте рассмотрим минимизацию функции стоимости результата решателя ODE, т.е.

(к сожалению, авторы обмениваютсяч (т)пог (т)в этом разделе, но не позволяйте себе смущаться этим). На втором этапе используется определение решения ODE, а на третьем этапеODESolveОперация вводится в качестве оператора для решения ODE. Как я упоминал ранее, этот оператор зависит от начального состоянияг (t₀), функцияе, начальное и конечное времяt₀а такжеt₁а также параметры поискаθ, Сопряженный метод теперь определяет градиент функции потерь w.r.t. скрытое состояние:

Это количество теперь следует за расширенным ODE

Расчет градиента∂L / dz (t₀)(первый градиент, требуемый вышеприведенным уравнением) теперь может быть достигнут путем решения расширенного ODE назад во времени. Для полноты в приведенном ниже уравнении указано, как рассчитать градиенты w.r.t. к параметрам функции нейронной сети:

Весь алгоритм вычисления градиента, представленный авторами, в псевдокоде выглядит следующим образом:

Если вас интересуют дальнейшие математические детали этого сложного вычисления, пожалуйста, вернитесь к исходной статье или даже к исходной статье о сопряженном методе. Авторы представленной статьи даже предоставляют код Python для простого вычисления производных от решателя ODE.

Видео:Применение нейронных сетей для решения дифференциальных уравнений в частных производныхСкачать

Сети ODE для контролируемого обучения

Теперь перейдем к самой интересной части статьи: приложения. Первое приложение, которое авторы упоминают в своей статье, относится к области контролируемого обучения, а именно к классификации письменных цифр MNIST. Цель состоит в том, чтобы показать, что метод ODESolve может обеспечить сопоставимую производительность с остаточной сетью с гораздо меньшими параметрами. Сеть, используемая для оценки в статье, дважды отбирает входное изображение, а затем применяет 6 остаточных блоков. В целом сеть содержит ок. Параметры 0.6M. Сеть ODESolve заменяет 6 уровней одним модулем ODESolve. Кроме того, авторы тестируют RK-сеть, которая аналогична, за исключением того, что она распространяет ошибку напрямую, используя метод Рунге-Кутты. Как упомянуто выше, вы можете связать количество уровней в традиционной нейронной сети с количеством оценок в ODE-Net. Количество параметров этих двух сетей составляет 0,22М. Важным результатом является то, что с примерно 1/3 параметров RK-Network и ODE-Net достигают примерно той же производительности, что и остаточная сеть. Кроме того, сложность памяти ODE-Net является постоянной (сравните следующий рисунок).

Кроме того, точность решения ODE может быть настроена для максимизации производительности вычислений. Например, можно проводить обучение с высокой точностью и снизить точность во время оценки (более подробную информацию см. В документе).

Видео:18+ Математика без Ху!ни. Дифференциальные уравнения.Скачать

Непрерывные нормализующие потоки

Поскольку я подозреваю, что многие читатели не знакомы с концепцией нормализации потоков, я приведу здесь очень краткое введение. Нормализующие потоки являются обратимыми преобразованиями распределений. Они позволяют преобразовывать простые плотности вероятности в сложные с помощью ряда нелинейных преобразований, как в нейронной сети. Таким образом, они используют формулу для обмена переменных в распределении:

, гдед0 (г0)это начальное распределение иQk (Zk)является преобразованным распределением, с преобразованиямиfk, k = 0..K.Определитель Якоби в приведенной выше сумме гарантирует, что интеграл от функции распределения остается 1 на протяжении преобразования. К сожалению, вычислить этот детерминант для всех, кроме некоторых простых преобразований, довольно дорого.

Одним из популярных приложений нормализации потоков является вариационный автоэнкодер (VAE), который обычно предполагает, что скрытые переменные распределены как гауссиан. Это предположение ухудшает вывод VAE, потому что оно не позволяет сети изучать желаемое распределение. При нормализации потоков параметры гауссовского сигнала могут быть преобразованы в широкий спектр распределений перед их «декодированием» и, таким образом, могут улучшить возможности генерации VAE.Этот пост в блогеобъясняет нормализацию потоков подробнее.

Обсуждаемая нами статья представляет собой продолжение нормализации потоков в непрерывную область. Интересно, что это упрощает вычисление нормализующей константы. Если мы сделаем случайную переменную непрерывной и зависимой от времени, с динамикой времени, описываемой функциейе(если f непрерывна по Липшицу), то изменение логарифмической вероятности следует простому дифференциальному уравнению

Таким образом, вычисление определителя здесь заменяется простой операцией трассировки. Кроме того, если мы используем сумму преобразований, то нам нужно только суммировать следы:

Авторы также вводят стробирование для различных преобразований:

Они называют такую сумму преобразованийнепрерывный нормализующий поток(УТС).

Чтобы показать эффективность CNF, в статье проверяется преобразование плотности вероятности из гауссовского распределения в два целевых распределения, как показано на рисунке ниже.

Как CNF, так и NF были обучены с использованием оценки максимального правдоподобия для максимизации ожидаемого значения при целевом распределении вероятностей и последующего обращения модели к выборке из изученного распределения.

Видео:Обыкновенные дифференциальные уравнения в не очень обыкновенных нейронных сетяхСкачать

Генеративные модели временных рядов через ODE

Третье приложение, упомянутое в статье, и, возможно, самое значительное, — это моделирование временных рядов с помощью ODE. Одним из мотивов авторов начать эту работу является их интерес к нерегулярным данным, таким как медицинские записи или сетевой трафик. Дискретность таких данных часто плохо определена, что приводит к проблемам с отсутствием данных в некоторых временных интервалах или просто неточным скрытым переменным. Существуют подходы, объединяющие информацию о времени с входом RNN, но они не представляют фундаментального решения проблем, стоящих перед нами.

Решением этого, основанного на модуле ODESolve, является генерирующая модель с непрерывным временем, которая при заданном начальном состоянии zₜ₀ и времени наблюдения t0… tN рассчитывает скрытые состояния z_t1… z_tN и выходные данные x_t1… x_tN:

Функцияе(функция нейронной сети) отвечает за расчет скрытого состоянияZв любое времяTначиная с текущего временного шага. Модель представляет собой вариационный автоэнкодер, который кодирует прошлую траекторию (зеленая на рисунке ниже) в начальном скрытом состоянии zₜ₀ с использованием RNN. Как и во всех вариационных автоэнкодерах, распределение латентного состояния тем самым фиксируется с помощью параметров распределения (в данном примере гауссиана со средним значением μ и стандартным отклонением σ). Из этого распределения берется образец и проходит через ODESolve.

Архитектура протестирована на синтетическом наборе данных двунаправленных двумерных спиралей, отобранных в нерегулярные моменты времени и искаженных гауссовским шумом. На следующем рисунке качественно показаны превосходные характеристики моделирования в модели скрытого нейронного ODE:

Видео:Нейронные сети за 10 минутСкачать

Выводы

В статье был представлен очень интересный и новый подход к мышлению о нейронных сетях. Это может быть знаковым документом, начинающим новую эволюцию в глубоком обучении. Я надеюсь, что с течением времени все больше и больше исследователей начнут думать о нейронных сетях с принципиально иной точки зрения, как и в этой статье.

Осталось посмотреть, действительно ли представленный подход работает на большом разнообразии существующих моделей и будет ли он доказан временем, чтобы быть эффективным. Авторы упоминают пару ограничений своего подхода:

Мини-пакетирование может вызвать проблемы с этим подходом, поскольку пакетирование нескольких образцов требует одновременного решения системы ODE. Это может значительно увеличить количество необходимых оценок. Тем не менее, авторы отмечают, что количество оценок оставалось управляемым даже при миниатчировании в течение всего эксперимента.
Уникальность решения ODE гарантируется только в том случае, если сеть имеет конечные веса и использует липшицевые нелинейности, такие как tanh или relu (например, не пошаговая функция).
Обратимость прямой траектории может быть затруднена путем сложения неточностей, вносимых числовой ошибкой в решателе прямого ODE, числовой ошибкой в обратном решателе ODE и потерей информации из-за множественных начальных значений, отображаемых в одно и то же конечное состояние.

Авторы также упоминают, что их подход не уникален, и идея остаточных сетей в качестве приближенных решателей ODE уже устарела. Кроме того, существуют документы, которые пытаются выучить различные уравнения с помощью нейронных сетей, а также процессов Гаусса.

Важным преимуществом метода, представленного в статье, является то, что можно свободно выбирать баланс между быстрым и точным решением, влияя на точность численного интегрирования во время оценки и / или обучения. Кроме того, метод очень широко применим (требующий только того, чтобы нелинейности нейронной сети были липшицевыми) и может применяться для моделирования временных рядов, контролируемого обучения, оценки плотности или других последовательных процессов.

Видео:Откуда появляются дифференциальные уравнения и как их решатьСкачать

О применении нейронных сетей для решения дифференциальных уравнений в частных производных Текст научной статьи по специальности « Компьютерные и информационные науки»

Видео:Дифференциальные уравнения, 1 урок, Дифференциальные уравнения. Основные понятияСкачать

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Коваленко А.Н., Черноморец А.А., Петина М.А.

В работе рассматриваются методы решения дифференциальных уравнений в частных производных (ДУЧП) с использованием радиально-базисных нейронных сетей (RBF-сети), сетей прямого распространения и модифицированной нейронной сети . Проанализированы точность полученныхрезультатов, простота реализации и эффективность нейронных сетей различного типа.I

Видео:Линейное неоднородное дифференциальное уравнение второго порядка с постоянными коэффициентамиСкачать

Текст научной работы на тему «О применении нейронных сетей для решения дифференциальных уравнений в частных производных»

О ПРИМЕНЕНИИ НЕЙРОННЫХ СЕТЕЙ ДЛЯ РЕШЕНИЯ ДИФФЕРЕНЦИАЛЬНЫХ

УРАВНЕНИЙ В ЧАСТНЫХ ПРОИЗВОДНЫХ

ON THE NEURAL NETWORKS APPLICATION FOR SOLVING OF PARTIAL

А.Н. Коваленко, А.А. Черноморец, М.А. Петина A.N. Kovalenko, A.A. Chernomorets, M.A. Petina

Белгородский государственный национальный исследовательский университет, Россия, 308015, Белгород, ул. Победы, 85

Belgorod State National Research University, 85 Pobeda St, Belgorod, 308015, Russia

В работе рассматриваются методы решения дифференциальных уравнений в частных производных (ДУЧП) с использованием радиально-базисных нейронных сетей (RBF-сети), сетей прямого распространения и модифицированной нейронной сети. Проанализированы точность полученных результатов, простота реализации и эффективность нейронных сетей различного типа.

In this paper, we consider the methods of solving of the partial differential equations (PDE) using radialbasic neural networks (RBF-networks), networks of direct propagation and a modified neural network are considered. The accuracy of the results obtained, the ease of implementation and efficiency of neural networks of various types are analyzed.

Ключевые слова: дифференциальные уравнения в частных производных, нейронные сети, радиально-базисные функции, персептрон, рекуррентная нейронная сеть.

Keywords: partial differential equations, neural networks, radial basis functions, perceptron, feed-forward neural network.

Применение дифференциальных уравнений играет важную роль в различных областях техники и науки. Традиционные численные алгоритмы решения дифференциальных уравнений либо не позволяют достичь необходимой точности результата, либо требуют большого времени для своей работы. Поэтому, в настоящее время разрабатываются новые методы решения дифференциальных уравнений. Особый интерес представляет применение нейросетевого подхода. Эффективность использования нейронных сетей для решения дифференциальных уравнений основана на ряде свойств нейросетей [Корсунов НИ. 2014; Васильев А.Н. 2009].

Важной особенностью нейросетевого подхода является устойчивость нейросетевой модели по отношению к ошибкам в данных, а именно неточностям в задании коэффициентов уравнений, граничных и начальных условий, возмущениям границы, погрешностям вычислений [Васильев А.Н. 2015].

Другим важным моментом является возможность распараллеливания решения задачи и возможность использования набора сетей, в том числе сетей разного типа.

В настоящее время одними из наиболее распространенных типов нейронных сетей, используемых для решения дифференциальных уравнений в частных производных (ДУЧП) являются радиально-базисные нейронные сети (RBF-сети), сети прямого распространения (многослойный персептрон) и модифицированные нейронные сети.

Выбор типа сети, ее структуры и методов обучения определяется свойствами коэффициентов рассматриваемой задачи решения ДУЧП. В задачах с гладкими коэффициентами успешно применяются RBF-сети, в задачах с негладкими коэффициентами, разрывными решениями более предпочтительным является использование персептрона. В нестационарных задачах могут использоваться рекуррентные сети, они могут применяться и в стационарной ситуации для составных областей сложной формы с алгоритмами обучения сети типа альтернирующего метода Шварца [Васильев А.Н. 2004].

В настоящее время получили распространение методы решения ДУЧП с применением радиально-базисных функций (RBF) [Яничкина Е.В. 2006]. Эти методы могут быть эффективно реализованы в радиально-базисных нейронных сетях (RBFNN).

Радиально-базисная нейронная сеть состоит из трёх слоёв: входной слой, на который подаётся входной сигнал — вектор X = (х1,х2. хп), скрытый слой, состоящий из нейронов радиального типа и выходной слой, осуществляющий взвешенное суммирование результата работы скрытого слоя. Структура радиальной нейронной сети представлена на рисунке 1.

Рис. 1. Структура радиально-базисной нейронной сети Fig. 1. Structure of radial-basic neural network

Скрытый слой преобразует входной вектор X, используя различные радиально-базисные функции. Для создания эффективно функционирующей сети используют различные виды радиально-базисных функций RBF, наиболее часто используемыми являются мультиквадрик (MQ)

ф = (r2 + a2)n/2, n = -1,1,2,3. и функция Гаусса, имеющая для к-го нейрона следующий вид:

срк (X )= exp(- r-7 al ), (1)

X — входной вектор; rk — радиус, Ck — вектор координат центра RBF; a — параметр функции, называемый шириной.

Выходной слой сети представляет линейный сумматор — значение выхода сети u определяется соотношением:

где Wk — вес, связывающий выходной нейрон с k-м нейроном скрытого слоя.

Выражение (2) соответствует применению метода коллокации для аппроксимации функций и решения дифференциальных уравнений.

При решении ДУЧП нейронная сеть RBFNN реализуется следующим образом.

На вход сети подаются координаты точек области (точек коллокации) X = (x1, x2. xN), N — размерность пространства. При этом часть точек располагается внутри области, а часть на ее границе.

Радиальная функция каждого нейрона характеризуется следующими параметрами: центром с’ = (cj,c2. 0, которые уточняются в процессе обучения. Центры в общем случае могут не совпадать с точками коллокации.

Каждый нейрон радиально-базисного слоя выполняет нелинейное преобразование ф(г), аргументом которого является расстояние от точки x до соответствующего центра с’.

Обучение сети сводится к нахождению неизвестных параметров w, a, с .

При решении дифференциальных уравнений в частных производных возникает вопрос о расстановке центров ck радиально-базисных функций RBF. Местоположение точек коллокации может отличаться от местоположения центров RBF, для регулярной области удобно располагать центры в узлах сетки или распределять случайным образом. Один из вариантов — расположение основного количества нейронов на границе области, и некоторого количества — внутри и вне области. Вариант корректировки расположения центров во время обучения сети дает лучшие результаты.

Вопрос о количестве нейронов можно решать экспериментально, либо производить постепенное наращивание сети (неоднократно вставляя узел в той точке области, компонент функционала ошибки которой наибольший). Рекомендуется использовать RBF-сети с различными типами функций активации нейронов. Следует указать отсутствие строгих рекомендаций, определяющих выбор типа RBF при добавлении нового узла. Выбор таких функций требует наличия опыта. При этом следует в максимальной степени учитывать особенности данной задачи, моделирующей конкретный физический процесс [Горбаченко В.И. 2007].

Задача обучения радиальной сети ставится как задача аппроксимации некоторой функции g : X^ Y , которая задана обучающей выборкой (Xk,dk),k = 1,2. p.

Как правило, процесс обучения радиально-базисной нейронной сети состоит из двух

— поиск весов нейрона выходного слоя;

— подбор координат центров и весовых матриц для базисных функций.

Каждый из этапов обучения проводится при фиксированных значениях параметров сети, модифицируемых на другом этапе, поэтому обычно рассматриваются различные комбинации использования алгоритмов поиска для разных этапов.

Для радиально-базисных нейронных сетей в большинстве случаев используют градиентный и гибридный алгоритмы обучения сети [Горбаченко В. И. 2007].

Достоинством применения радиально-базисных нейронных сетей является возможность эффективной реализации не только на специальных параллельных вычислительных структурах, но и на компьютерах традиционной архитектуры.

Для решения ДУЧП также используется нейронная сеть прямого распространения, для обучения которой обычно применяют метод обратного распространения ошибок для минимизации функции ошибки и модификации параметров (весов и смещений) [Mall S., Chakraverty S., 2013]. На рисунке 2 представлена трехслойная архитектура нейронной сети прямого распространения.

Число нейронов в скрытом слое определяется экспериментальным путем. На рисунке 2 показана нейросетевая модель, в которой входной слой состоит из одного элемента, выходной слой также состоит из одного выходного элемента.

Количество элементов в скрытом слое фиксируется в зависимости от степени полинома, который необходимо учитывать. Если рассматривается полином n-й степени, то число узлов в скрытом слое будет п + 1, а коэффициенты многочлена можно рассматривать

как начальные веса от входа до скрытого слоя, а также от скрытого до выходного слоя или как произвольную комбинацию случайных и регрессионных весов.

Архитектура сети, основанная на использовании полинома пятой степени, показана на рисунке 2, шесть коэффициентов принимаются в качестве начальных весов в два этапа: от входа до скрытого слоя и от скрытого слоя до выходного слоя. Константы многочлена берутся в качестве начальных весов для шести узлов в скрытом слое.

Функция активации нейронов скрытого слоя — сигмоидальная функция следующего вида:

Рис. 2. Трехслойная архитектура нейронной сети прямого распространения Fig. 2. Three-layer architecture of a Feed-forward neural network

Для обучения нейронной сети прямого распространения используется алгоритм обратного распространения ошибки. Веса принимаются как произвольные, так и регрессионные для сравнения метода обучения.

В качестве примера использования нейронной сети прямого распространения для решения ДУЧП рассмотрим решение дифференциального уравнения второго порядка [Mall S., Chakraverty S., 2013]:

4гт = f x 6 [a, b]

с начальными условиями

Решение искусственной нейронной сети (ANN) можно представить как:

(х,р) = А + А'(х — а)+(х — а)2N(х, р), (5)

где N (х, р) — нейронный выход сети прямого распространения с одним входным элементом х с параметрами р, ^ (х, р) — пробное решение, которое удовлетворяет начальным условиям.

Функция минимума ошибок для обыкновенного дифференциального уравнения второго порядка имеет вид

Etp)=i f — f f x, , p),df

Применим следующее правило обновления весов от входного до скрытого слоя:

В качестве примера рассмотрим обыкновенное дифференциальное уравнение первого порядка [Mall S., Chakraverty S., Г013]:

dw ( 1 + 3×2 I 3 „ 2 — +1 x +— w = x + 2 x + x

dx ^ 1 + x + x3 J ^ 1 + x + x3 J (9)

с начальным условием w(o) = 1.

Пробное решение записывается так:

W (x, p) = 1 + xN (x, p). (10)

Для решения уравнения (9) используем нейронную сеть (рис. 2) для 20 равноудаленных точек на отрезке [0,1] и сравним результаты, полученные аналитическим способом с вычислениями, полученными с помощью нейросети с произвольными и регрессионными весами с четырьмя, пятью и шестью нейронами в скрытом слое.

Сравнение аналитических и нейронных результатов с произвольными и регрессионными весовыми коэффициентами приведено в таблице 1 [Mall S., Chakraverty S., 2013]. Результаты аналитического решения приведены во второй колонке. Результаты, полученные с помощью нейросети для произвольных весов w(A) (от входа до скрытого слоя) и v (Л) (от скрытого до выходного слоя) с четырьмя, пятью и шестью нейронами приведены в третьем, пятом и седьмом столбцах. Аналогично, результаты нейронов с весами регрессии w (R) (от входа до скрытого слоя) и v (R) (от скрытого до выходного слоя) с четырьмя, пятью и шестью узлами приведены в четвертом, шестом и девятом столбцах.

Таблица 1 Table 1

Результаты аналитического решения и с использованием нейронной сети с произвольными

и регрессионными весами The results of the analytical solution and using a neural network with arbitrary and regression scales

Входные данные Аналитическое решение Результаты нейросети

w(A), v(A) (четыре) w(R), v(R) (четыре) w(A), v(A) (пять) w(R), v(R) (пять) w(A), v(A) (шесть) Отклонение % w(R), v(R) (шесть) Отклонение %

0 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.00 1.0000 0.00

0.05 0.9536 1.0015 0.9998 1.0002 0.9768 0.9886 3.67 0.9677 1.47

0.10 0.9137 0.9867 0.9593 0.9498 0.9203 0.9084 0.58 0.9159 0.24

0.15 0.8798 0.9248 0.8986 0.8906 0.8802 0.8906 1.22 0.8815 0.19

0.20 0.8514 0.9088 0.8869 0.8564 0.8666 0.8587 0.85 0.8531 0.19

0.25 0.8283 0.8749 0.8630 0.8509 0.8494 0.8309 0.31 0.8264 0.22

0.30 0.8104 0.8516 0.8481 0.8213 0.9289 0.8013 1.12 0.8114 0.12

0.35 0.7978 0.8264 0.8030 0.8186 0.8051 0.7999 0.26 0.7953 0.31

0.40 0.7905 0.8137 0.7910 0.8108 0.8083 0.7918 0.16 0.7894 0.13

0.45 0.7889 0.7951 0.7908 0.8028 0.7948 0.7828 0.77 0.7845 0.55

0.50 07931 0.8074 0.8063 0.8007 0.7960 0.8047 1.46 0.7957 0.32

0.55 0.8033 0.8177 0.8137 0.8276 0.8102 0.8076 0.53 0.8041 0.09

0.60 0.8200 0.8211 0.8190 0.8362 0.8246 0.8152 0.58 0.8204 0.04

0.65 0.8431 0.8617 0.8578 0.8519 0.8501 0.8319 1.32 0.8399 0.37

0.70 0.8731 0.8896 0.8755 0.8685 0.8794 0.8592 1.59 0.8711 0.22

0.75 0.9101 0.9281 0.9231 0.9229 0.9139 0.9129 0.31 0.9151 0.54

0.80 0.9541 0.9777 0.9613 0.9897 0.9603 0.9755 2.24 0.9555 0.14

0.85 1.0053 1.0819 0.9930 0.9956 1.0058 1.0056 0.03 0.9948 1.04

0.90 1.0637 1.0849 1.1020 1.0714 1.0663 1.0714 0.72 1.0662 0.23

0.95 1.1293 1.2011 1.1300 1.1588 1.1307 1.1281 0.11 1.1306 0.11

1.00 1.2022 1.2690 1.2195 1.2806 1.2139 1.2108 0.71 1.2058 0.29

Результаты, приведенные в таблице 1, показывают, что увеличение количества нейронов в скрытом слое с 4 до 6 позволяет улучшить результаты вычислений. Дальнейшее увеличение количества нейронов нейросети не улучшает полученных результатов [Mall S., Chakraverty S., 2013].

Для решения дифференциальных уравнений в частных производных также используется подход, основанный на модифицированной искусственной нейронной сети и методе оптимизации [Еман А. Хуссиан, 2015].

Использование модифицированной искусственной нейронной сети позволяет выбирать точки обучения на открытом интервале без обучения сети в диапазоне начальных и конечных точек.

Таким образом, объем вычислений, включающий вычислительную ошибку, уменьшается. Учебные точки в зависимости от расстояния, выбранного для обучения нейронной сети, преобразуются в аналогичные точки в открытом интервале с использованием подхода на основе модифицированной искусственной нейронной сети, затем сеть обучается в этих похожих областях.

Рассматриваемый метод основан на замене каждого x во входном векторе

(обучающий набор) x = (x1,x2. xn),xj e[a,b] многочленом первой степени. Для этого

Q(x) = s(x + 1),££ (0,1) (11)

Тогда входным вектором будет следующий вектор (Q(x1),Q(x2). Q(xn)),Q(x) e (a,b).

Использование модифицированной искусственной нейронной сети позволяет выбирать точки обучения на открытом интервале (a, b) без обучения нейронной сети в диапазоне первой и конечной точек.

Для заданного входного вектора (x1,x2. xn),xj e [a,b] выход модифицированной

искусственной нейронной сети равен:

N = ZH=1 vts(zt), (12)

z = X»J=1WijQ(xJ) + b и Q(xi) = e(x, + 1),s e (0,1) иxt e [a,b], тогда Q(x,) e (a,b)

dN = s(WQ( xj)+b) = s(s( x> + 1)Wj + b)

dN = vs’ (WijQ( x) + bi = vis’ (s( xj + 1)Wj + bi) (13)

— = vQ( x )s’ (WjQ( xj + b,) = Q( xj )s’ (e( xj + 1)W + b,)

На рисунке 3 представлена архитектура модифицированной нейронной сети. Нейросетевая архитектура представляет собой нейронную сеть прямого распространения с двумя входами (принимающими координаты x и y каждой точки), 10 элементами на скрытом слое и одним линейным выходным элементом [Еман А. Хуссиан, 2015].

Входной сигнал в скрытый слой равен:

Netj = xwj1 + ywj 2 + Bj, j = 1,2. m (14)

где wj1 и wj2 — весовые коэффициенты от входного слоя до элемента j в скрытом слое, Bj — j-е смещение для j-го элемента в скрытом слое. Выходной сигнал скрытого слоя равен:

Zj = s(netj), j = 1,2. m. (15)

Выходной сигнал выходного нейрона равен выходу:

Для модифицированной нейронной сети (MANN) уравнение (14) будет иметь вид:

netj = Q( x)wn + Q(y)wj 2 + Bj = s( x + 1)wn + s(y +1) wj 2 + Bj (17)

Zj = s(e( x + 1)wj1 + S(y + 1)wj 2 + Bj) (18)

N = Zm=1Vjs(s( x + 1)wj1 + s(y + 1)wj 2 + Bj (19)

где j = 1,2. m,s e (0,1) иQ(x),Q(y) e (a,b).

Далее рассматриваются некоторые численные результаты решения ряда модельных задач. Используется нейронная сеть с архитектурой, приведенной на рисунке 3. Функцией активации является гиперболический тангенс:

Рис. 3. Архитектура модифицированной нейронной сети прямого распространения Fig. 3. The architecture of the modified Feed-forward neural network

Для каждой тестовой задачи аналитическое решение ua (X) было известно заранее, поэтому проверить точность полученных результатов можно при помощи вычисления отклонения: Au(X) = |u((X)-ua(X) |.

Для минимизации функции ошибки использован квазиньютоновский метод. Проведено [Еман А. Хуссиан, 2015] сравнение между обычной искусственной нейронной сетью (UANN) и модифицированной искусственной нейронной сетью (MANN) на основе числовых результатов, полученных ранее. Результаты решения представлены в таблице 2 [Еман А. Хуссиан, 2015].

Таблица 2 Table 2

Результаты решения, полученные обычной искусственной нейронной сетью (UANN) и модифицированной искусственной нейронной сетью (MANN) Solution results obtained by a conventional artificial neural network (UANN) and a modified artificial

neural network (MANN)

x y ua(x,y) UANN ut(x,y) ошибка MANN ut(x,y) ошибка

0.1 0.1 0.008537828 0.008525483 0.000012345 0.008537786 0.000000042

0.2 0.2 0.034097183 0.034074725 0.000022458 0.034097144 0.000000039

0.3 0.3 0.076183058 0.076231065 0.000048007 0.076183619 0.000000561

0.4 0.4 0.132865960 0.132947134 0.000081174 0.132866552 0.000000592

0.5 0.5 0.199152886 0.198921655 0.000231231 0.199153514 0.000000628

0.6 0.6 0.264808483 0.264353083 0.000455400 0.264809191 0.000000708

0.7 0.7 0.311834910 0.311176780 0.00065813 0.311835847 0.000000937

0.8 0.8 0.312025528 0.312814326 0.000788798 0.312019907 0.000005621

0.9 0.9 0.225309818 0.225765479 0.000455661 0.225305948 0.000003870

Из представленных результатов видно, что модифицированная искусственная нейронная сеть дает лучшие результаты и лучшую точность по сравнению с обычной искусственной нейронной сетью. Данный метод может эффективно обрабатывать все типы дифференциальных уравнений с частными производными и обеспечивать точное приближенное решение во всей области, а не только на обучающем множестве [Еман А. Хуссиан, 2015].

Радиально-базисные нейронные сети в отличие от сигмоидальных (многослойный персептрон) обладают большей простотой и эффективностью. Важное достоинство радиальных НС — более простой алгоритм обучения. При наличии только одного скрытого слоя и тесной связи активности нейрона с соответствующей областью пространства обучающих данных точка обучения оказывается гораздо ближе к оптимальному решению, чем это имеет место в многослойных сетях.

Также для радиально-базисных сетей формирование оптимальной структуры сети оказывается естественным этапом процесса обучения, не требующим дополнительных усилий.

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 16-07-00451.

Список литературы References

1. Mall S., Chakraverty S., Г013. Comparison of Artificial Neural Network Architecture in Solving Ordinary Differential Equations. Hindawi Publishing Corporation Advances in Artificial Neural Systems Volume Г013: Г-1Г.

Г. Eman A. Hussian, Mazin H. Suhhiem., Г015. Numerical Solution of Partial Differential Equations by using Modified Artificial Neural Network. Network and Complex Systems. 5(6): 11-Г1

3. Горбаченко В.И. Артюхина Е.В., Г007. Два подхода к обучению радиально-базисных нейронных сетей при решении дифференциальных уравнений в частных производных. Известия высших учебных заведений. Поволжский регион. Технические науки 2: 56-66.

Gorbachenko V.I. Artyuhina E.V., Г007. Two approaches to the training of radial-basic neural networks in the solution of partial differential equations. Izvestiya vyisshih uchebnyih zavedeniy. Povolzhskiy region. Tehnicheskie nauki [News of higher educational institutions. The Volga region. Technical science] Г: 56-66.

4. Васильев А.Н., Тархов Д.А., Г004. Нейросетевые подходы к решению краевых задач в многомерных составных областях. Известия Южного федерального университета. Технические науки. 44 (9): 80-89.

Vasilev A.N., Tarhov D.A. Г004. Neural network approaches to solving boundary value problems in multidimensional composite domains. Izvestiya Yuzhnogo federalnogo universiteta. Tehnicheskie nauki [Izvestiya Southern Federal University. Technical science] 44 (9): 80-89.

5. Васильев А.Н., Тархов Д.А., Г009. Нейросетевое моделирование. Принципы. Алгоритмы. Приложения. СПб: Издательство Политехнического университет, 527.

Vasilev A.N., Tarhov D.A., Г009. Neural network modeling. Printsipyi. Algoritmyi. Prilozheniya. SPb: Izdatelstvo Politehnicheskogo universitet [Principles. Algorithms. Applications. St. Petersburg: Publishing house of Polytechnic University], 5Г7.

6. Васильев А.Н., Тархов Д.А., Г015. Нейросетевой подход к задачам математической физики. СПб: Нестор-История, г59.

Vasilev A.N., Tarhov D.A., Г015. Neural network approach to problems of mathematical physics SPb: Nestor-Istoriya [St. Petersburg: Nestor-History], Г59.

7. Корсунов Н.И., Ломакин А.В., 2014. Моделирование процессов, описываемых волновым дифференциальным уравнением, с использованием ячеистых нейронных сетей. Научные ведомости БелГУ. Сер. История. Политология. Экономика. Информатика. 15(186): 103-107.

Korsunov N.I., Lomakin A.V. Г014. Modeling of processes described by the wave differential equation, using cellular neural networks. Nauchnye vedomosti BelGU. Istorija. Politologija. Jekonomika. Informatika [Belgorod State University Scientific Bulletin. History Political science Economics Information technologies] 15(186): 103-107.

8. Яничкина Е.В., Горбаченко В.И., Г006. Решение эллиптических дифференциальных уравнений в частных производных с использованием радиально-базисных нейронных сетей. Научная сессия МИФИ-2006. Нейроинформатика. Часть 3. Теория нейронных сетей. Применение нейронных сетей. Нейронные сети и когнитивные системы: 15-г1.

Видео:Матан за час. Шпаргалка для первокурсника. Высшая математикаСкачать

Анализ малых данных

Видео:Математика это не ИсламСкачать

КвазиНаучный блог Александра Дьяконова

Видео:Как распознать талантливого математикаСкачать

Нейронные обыкновенные дифференциальные уравнения

На конференции NeurIPS 2018 одной из лучших работ была признана статья «Neural Ordinary Differential Equations». Это нестандартный пост для блога, который, впрочем, может положить начало традиции… я выкладываю несколько обзоров на русском языке этой статьи и прошу читателей помочь выбрать мне лучшие.

Сразу оговорюсь: составление этих обзоров — одно из заданий для моих потенциальных магистров на факультете ВМК МГУ. Все делали обзор одной и той же работы, некоторые мягкие требования:

понятность, простое объяснение всего-всего (м.б., в том числе, и доказательств),
оригинальные примеры,
небольшой объём,
иллюстрации и код.

Анонимные обзоры (читайте в произвольном порядке):

Большая просьба читателям, как минимум, заполнить совсем небольшую анкету. Комментарии к посту, как всегда, приветствуются: может подробно описать плюсы и/или минусы конкретных эссе. Нужно ли выкладывать в этом блоге подобные обзоры?

Понравилось это:

Похожее

Видео:Обучение и использование нейронной сети при помощи Neural network toolbox в среде MatlabСкачать

Нейронные обыкновенные дифференциальные уравнения : 5 комментариев

Какая крутая идея, делать обзор статьи! А сколько времени даётся студентам на написание обзора? Вы на основании этих обзоров отбираете студентов для научного руководства?
К сожалению, просмотрела обзоры достаточно бегло, но в целом качество работы впечатляет. У меня есть два фаворита, интересно, совпадают ли они с Вашими…

История такая: ко мне много желающих в магистратуру, причём не только ММПшников, но и ребят с 3 потока. У меня всего один бакалавр-выпускник (да и того не я в своё время взял, он просто остался без научника), поэтому даже при квоте 3 чел на научного руководителя места есть (мой бакалавр тоже участвует в отборе).
Пришлось придумывать, как отобрать лучших. Первое задание (этот обзор) сделали 8 человек. Где-то половина желающих ничего не сделала, что уже немного упростило ситуацию (интересно, что как раз ребята с 3 потока не сделали обзор). Я давал на обзор больше 2х недель (но там было наслоение на их защиты). Один из критериев — время выполнения задания (поэтому даже, не смотря на то, что некоторые обзоры хуже, они сделаны быстрее).
Я наверное потом в комментариях напишу свой фидбек по отзывам. Сейчас все 8 человек участвуют в соревновании по ML…

Александр, спасибо за обзоры в открытом доступе, изучил несколько — весьма необычно и интересно.
Вопрос: а можно будет как-то попробовать поделать Late Submit’ы в соревновании, про которое вы писали в ответе на комментарий выше?

🎦 Видео

Лекция. Сверточные нейронные сетиСкачать

Свёрточные нейронные сетиСкачать

Нейронные сети и дифференциальные уравнения