Концепция структурного моделирования нейронных сетей - pismo.netnado.ru o_O
Главная
Поиск по ключевым словам:
страница 1
Похожие работы
Название работы Кол-во страниц Размер
11. Метод частотного мультиплексирования канала тч. Принцип и общая... 1 57.68kb.
Возможности социальных сетей – развитие духа и потребности тела 1 182.81kb.
«Передача информации в компьютерных сетях» Урок-лекция (8 класс) 1 164.79kb.
История возникновения и развития компьютерных сетей 1 341.65kb.
Возможности социальных сетей – развитие духа и потребности тела 1 113.92kb.
Рассказать о современных технологиях беспроводных сетей; изложить... 1 412.61kb.
Ethernet это самый распространенный на сегодняшний день стандарт... 1 155.05kb.
Табарданова Т. Б., Шустова Л. П. Образ выпускника общеобразовательного... 4 682.7kb.
Зав кафедрой проф. В. К. Викторов Ethernet пример стандартного решения... 1 82.25kb.
Концепция федерального закона о раскрытии и регулировании лоббистской... 1 152.67kb.
Основы современной тарифной политики были заложены в условиях структурного... 1 61.36kb.
Небесный реквием коэволюционному развитию России? Открытое письмо... 1 201.31kb.
Урок литературы «Война глазами детей» 1 78.68kb.
Концепция структурного моделирования нейронных сетей - страница №1/1

КОНЦЕПЦИЯ СТРУКТУРНОГО МОДЕЛИРОВАНИЯ НЕЙРОННЫХ СЕТЕЙ

А.Ю. Дорогов, А.А. Алексеев, Д.А.Буторин

Государственный электротехнический университет (СПбГЭТУ)

197376 г. Санкт-Петербург ул. Проф. Попова, 5 кафедра автоматики и процессов управления

E-mail: alfa@rex.telegraph.spb.ru
Существуют две альтернативные парадигмы структурного строения мозга:

  • Информационная структура внешнего сигнала первична и поэтому необходима для выработки кодированной мозговой структуры (инструкционная теория).

  • Перед лицом неизвестного будущего основным условием успешного приспособления является предсуществующая структурная организация мозга. Здесь первичным является структура мозга, а вторичным сигнал (селективная теория).

В нейрофизиологии ведутся активные исследования по структурной организации мозга. Накопилось ряд экспериментальных фактов представляющих значительный интерес для технических приложений. В 80-х годах нейрофизиологи пришли к выводу, что основным организующим принципом мозга является модульное строение и распределенная обработка информации [1]. Наиболее выраженная модульная организация обнаружена в новой коре головного мозга, которая главным образом ответственна за мышление, речь и другие формы высшей нервной деятельности. Развитие новой коры происходило стремительным образом (в масштабах эволюции) по заключениям нейрофизиологов такой процесс был возможен только за счет многократного повторения модульной структуры. Экспериментальные исследования установили поразительное постоянство размеров нейронного модуля (примерно 110 нейронов), который получил название кортикальной колонки. Связи между колонками объединяют их в компактные группы (макроколонки) с сохранением определенного топологического порядка. Принцип топологического порядка сохраняется и на более высоких уровнях структурной организации. В целом нейронная сеть новой коры состоит из множества модульных элементов (примерно 600 млн. колонок), связанных между собой в «эшелонированные» параллельно - последовательные объединения.

Модульная организация мозга не противоречит обеим точкам зрения, но повторение топологической структуры и явно выраженный порядок в организации связей невозможно объяснить, исходя из парадигмы первичности сигнала над структурой мозга. Бесспорно, что структура мозга сложилось в результате онтогенеза и на первых этапах развития, первичность сигнала имела определяющее значение, однако в дальнейшем под действием естественной мутации процесс развивался подобно стохастической оптимизации: оптимальные структуры сохранялись в генетической памяти, а неудачные постепенно исчезали. Инструктивная модель для описания развитого мозга наталкивается на ряд логических трудностей. Так, например, в соответствии с этой моделью новые сенсорные события, в которых участвуют некоторые элементы предыдущих событий, должны содержать компоненты предыдущих структур или же закладывать совершенно новые структуры. В первом случае последовательно приобретаемый опыт потребует наличия механизма высшего порядка, чтобы отличать старые элементы от новых, а во втором случае будет велик риск истощения информационного потенциала системы. Инструктивная теория не создает основы таких проявлений высшего порядка как сознательное восприятие и творческое программирование будущих событий. В некотором смысле такая теория отдает мозг «на милость» окружающего мира.

Не отрицая в целом ценность инструктивной модели, которая нашла применение в технических приложениях [2], остановимся подробней на селективной теории. Нейрофизиолог Дж. Эдельман [3], поддержавший в 1975 году эту теорию, выделяет следующие свойства селективных структур:


  1. Вырожденность (терминология Эдельмана). Это свойство предполагает, что селективная структура обеспечивает более одного способа удовлетворительного распознавания данного входного сигнала. Иными словами должно быть несколько нейронных групп, функционально дублирующих распознавание, но различающихся системой признаков.

  2. Избыточность. Это свойство предполагает наличие повторяющихся нейронных групп одинакового строения, т.е. работающих с одной и той же системой признаков.

  3. Дистрибутивность. В селективной структуре нет никакой необходимости в том, чтобы выбранные изофункциональные группы были смежными, напротив рецепторные поля должны занимать некоторое общее положение в пространстве признаков, для того чтобы обеспечить распределенную обработку и надежность функционирования при локальных повреждениях.

На основе изложенных принципов рассмотрим концепцию структурного моделирования многослойных нейронных сетей. Реализуя принцип модульности, определим в качестве структурно-образующего элемента группу нейронов в пределах слоя, имеющих общее рецепторное поле. Эту группу в дальнейшем будем называть нейронным ядром. Будем полагать, что рецепторные поля нейронных ядер не пересекаются. В этом случае очевидно, что каждое нейронное ядро моделирует свойство избыточности селективной структуры, а множество ядер в каждом слое моделирует свойство вырожденности. Ядра смежных слоев связаны между собой и при моделировании будем полагать, что связи заданы проектирующими операторами, осуществляющими не более чем перестановку координат вектора признаков. На рис.1 приведено графическое представление нейронной сети с ядерной организацией.



Каждая вершина графа соответствует нейронному ядру, а дуги определяют связи между ядрами. Для численной оценки и сравнения различных структур целесообразно на графе определить весовые функции вершин и дуг. Под весом вершины будем понимать пару чисел (p,g), где первое определяет размерность рецепторного поля ядра, а второе - число нейронов в ядре. Вес дуги будем считать равным рангу проектирующего оператора. Подобного рода взвешенный граф был назван авторами структурной моделью нейронной сети [4].

Структурная модель не содержит информацию о размещении рецепторных полей нейронных ядер. Привязку структурной модели к данным можно рассматривать как топологическое моделирование нейронной сети. Структурная модель является описанием целого класса эквивалентных топологических реализаций ядерной нейронной сети. Можно сказать, что множество топологий формирует орбиту структурной модели в пространстве признаков.

Топология ядра определяется числовыми частичными отображениями:

, ,





где - размер рецепторного поля ядра i слоя m, - число нейронов в ядре, u - номер базисного вектора в рецепторном пространстве слоя, v - номер базисного вектора в аксоновом пространстве. Частичные отображения задают размещение рецепторных полей в признаковом пространстве. Свойство дистрибутивности селективной структуры реализуется целесообразным выбором топологии нейронной сети. На рис.2,3 приведены две возможные топологические реализации нейронной сети рис.1 в форме топологических матриц. В работе [5] подробно рассмотрен алгоритм топологического проектирования нейронной сети.
Цель структурного моделирования состоит в том, чтобы определить оптимальную структуру нейронной сети. К настоящему времени и в нейрофизиологии, и в технических приложениях нет ответа на вопрос, какую структуру следует считать оптимальной? Предложенная в данной работе концепция структурного моделирования соответствует экспериментальным результатам и может служить основой для целенаправленного поиска оптимальных структур.
СПИСОК ЛИТЕРАТУРЫ

1.Маункасл В. Организующий принцип функции мозга – элементарный модуль и распределенная система // Дж. Эдельман, В.Маункасл Разумный мозг: М.:- Мир, 1981.

2.Горбань А.Н. Обучение нейронных сетей. М.: изд. СССР-США СП "ParaGraph", 1990. 160 с. (English Translation: AMSE Transaction, Scientific Siberian, A, 1993, Vol. 6. Neurocomputing, РP. 1-134).

3.Edelman G.M. Molecular recognition in the immune and nervous systems. In: The Neurosciences: Path of Discovery, F.G. Worden, F.G. Swarey and G. Edelman, eds., New York, The Rockfeller University Press, 1975, pp. 65-74.

4.Дорогов А.Ю., Алексеев А.А. Структурные модели быстрых нейронных сетей. В сб. «Интеллектуальные системы» /Труды II-го Международного симпозиума, под ред. К.А.Пупкова, т.2 - М.: Из-во ПАИМС. 1996, с.138-143.

5.Дорогов А.Ю. Структурные модели и топологическое проектирование быстрых нейронных сетей // Доклады международной конференции "Информационные средства и технологии" 21-23 октября 1997г. г.Москва, т1, с264-269.

Опубликована: Управление в социальных, экономических и технических системах. Кн.3. Управление в технических системах: Труды Межреспубликанской научной конференции Г.Кисловодск 28июня-2июля 1998г

с.81-84.
УДК 007:159.955:519.72

А.Ю. Дорогов, А.А. Алексеев
ОБРАБОТКА ДАННЫХ В НЕЙРОННЫХ СЕТЯХ С ЯДЕРНОЙ ОРГАНИЗАЦИЕЙ
Рассматривается класс многослойных нейронных сетей, наделенных структурной организацией. Образующими элементами сети являются функциональные группы нейронов, имеющих общее рецепторное поле. Предложены математические модели, отражающие структуру нейронной сети, и приведены алгоритмы нейрообработки данных.
Нейронные сети с ядерной организацией являются структурным расширением класса многослойных сетей прямого распространения. Наполнение нового класса осуществляется за счет целенаправленного ограничения связей между нейронами. Концепция структурной организации ядерных сетей основана на понятии нейронного ядра, т.е. подмножества нейронов, которые имеют общее рецепторное поле. При этом постулируется, что рецепторные поля нейронных ядер не пересекаются. Нейронное ядро на структурном уровне определяется парой чисел: размерностью рецепторного поля и числом нейронов в ядре.

В многослойных сетях нейронные ядра связаны между собой проектирующими операторами перехода, для которых структурной характеристикой является ранг оператора. Поставив в соответствие каждому ядру вершину направленного графа, а каждому проектирующему оператору направленную дугу, получим новое графическое отображение нейронной сети, названное в работе [1] структурной моделью. На рис.1 показан пример двухслойной сети с ядерной организацией в классическом представлении, где каждая вершина соответствует одному нейрону, а дуги определяют связи между нейронами. На рис.2 приведена структурная модель, соответствующая приведенному примеру, где вершинам графа соответствуют уже нейронные ядра.

Обработка данных в каждом ядре i слоя m определяется нелинейным оператором так, что



. (1)

Передача между ядрами задается проектирующими операторами . Поскольку рецепторные поля нейронных ядер не пересекаются, то полный оператор нейронного слоя можно представить прямой суммой операторов ядер



,

при этом межслойные передачи реализуются ортогональными проектирующими операторами, причем



. (2)

Последнее выражение по форме совпадает с правилом умножения вектора на матрицу с элементами , где координатами "вектора" являются компоненты . Аналогично можно считать, что выражение (1) представляет собой умножение "вектора" на диагональную матрицу с элементами .Формально, следуя правилу умножения вектора на матрицы, из (1) и (2) нетрудно получить символическое выражение для преобразования данных в n-слойной нейронной сети :



. (3)

В нелинейных системах принцип суперпозиции не выполняется и операторные произведения не ассоциативны. В последнем выражении скобки, определяющие последовательность операций, не расставлены, но предполагается, что все операции над входным вектором выполняются строго в порядке следования нейронных слоев, начиная с первого.

Операторы нейронного слоя осуществляют отображение вектора из пространства рецепторов в пространство аксонов. Эту пару пространств в дальнейшем будем называть собственными пространствами нейронного слоя. Для перехода к матричной форме необходимо выбрать базисы в собственных пространствах. В большой степени этот выбор уже предопределен условиями ортогональности проектирующих операторов, которые вводят градуировку [2] в собственных пространствах. Целесообразно выбрать предельный случай градуировки, когда собственные пространства разбиваются в прямую сумму одномерных подпространств (базовых направлений). Такой вариант приемлем для любых структурных моделей ядерных сетей. При наличии градуировки базисные векторы всегда выбираются так, чтобы они принадлежали базовым направлениям. Принятый подход естественным образом приводит к понятию топологии нейронного ядра и топологии межъядерных связей [3]. Топология ядра определяется числовыми частичными отображениями:

, ,

где - размер рецепторного поля ядра i слоя m, - число нейронов в ядре, u - номер базисного вектора в рецепторном пространстве слоя, v - номер базисного вектора в аксоновом пространстве. Следуя формализму линейных представлений групп [4], выделение векторных компонент будем рассматривать как действие частичных подстановок на векторы и записывать эту операцию в виде:



, . (4)

Поскольку рецепторные поля ядер не пересекаются, то:



для любых ij. (5)

При выбранной градуировке смежные нейронные слои связаны между собой перестановочным оператором, действие которого определено подстановкой qm:



. (6)

Операторы межслойного перехода индуцируют локальные операторы связи между нейронными ядрами так, что



, (7)

где - частичная подстановка, соответствующая операторам проектирования . Символ  обозначает в данном случае прямую сумму векторов. Из выражений (4), (6) и (7) при условии (5) следует



.

В матричном представлении действие оператора нейронного ядра можно записать в виде:



,

где - синаптическая карта ядра, - многомерная функция активации. В координатной форме последние выражения можно представить следующим образом:



, (8)

, (9)

где a,b - индексы локальных координат. Передача данных между ядрами в координатной форме в соответствии с (7) определяется правилом:



. (10)

Выражения (8), (9), (10) полностью определяют алгоритм обработки данных в нейронной сети с ядерной организацией.

Данная работа поддержана грантом Минобразования РФ.
Список литературы.

1. Дорогов А.Ю., Алексеев А.А. Математические модели быстрых нейронных сетей. В сб. научн. тр. СПбГЭТУ "Системы управления и обработки информации". Вып.490, 1996.

2.А.И. Кострикин, Ю.М. Манин. Линейная алгебра и геометрия. М.:- «Наука» - 1986.

3.Дорогов А.Ю. Структурные модели и топологическое проектирование быстрых нейронных сетей // Доклады международной конференции "Информационные средства и технологии" 21-23 октября 1997г. г.Москва, т1, с264-269.

4.Кострикин А.И. Введение в алгебру. Основы алгебры. - М.: Физматлит. 1994, -320с.
Аннотация

к статье


А.Ю. Дорогов, А.А. Алексеев
ОБРАБОТКА ДАННЫХ В НЕЙРОННЫХ СЕТЯХ С ЯДЕРНОЙ ОРГАНИЗАЦИЕЙ
В работе рассматривается класс многослойных нейронных сетей, наделенных структурной организацией. Структурно-образующим элементом является нейронное ядро, представляющее собой группу нейронов, имеющих общее рецепторное поле. При этом постулируется, что рецепторные поля нейронных ядер не пересекаются. Нейронное ядро на структурном уровне определяется парой чисел: размерностью рецепторного поля и числом нейронов в ядре. Ядра связаны между собой проектирующими операторами перехода, для которых структурной характеристикой является ранг оператора. Нейронные сети с ядерной организацией являются структурным расширением класса многослойных нейронных сетей прямого распространения. Наполнение нового класса осуществляется за счет целенаправленного ограничения связей между нейронами, что позволяет строить нейронные сети, обладающие высокой вычислительной эффективностью и учитывающие структурные свойства обрабатываемых данных. В работе предложены математические модели, отражающие структуру нейронной сети. Приведены алгоритмы обработки данных, представленные в операторной и матричной формах.

ЗАЯВКА

на участие в Межреспубликанской научной конференции



"Управление в социальных, экологических системах"
Прошу принять тезисы доклада

А.Ю. Дорогов, А.А. Алексеев


"ОБРАБОТКА ДАННЫХ В НЕЙРОННЫХ СЕТЯХ С ЯДЕРНОЙ ОРГАНИЗАЦИЕЙ"
по теме: Управление в технических системах
АВТОРСКАЯ СПРАВКА
Дорогов Александр Юрьевич.

1. Домашний адрес: 195320, г. Санкт-Петербург,

пр. Наставников д.47к2 кв135.

Телефон: (81276)-74-230.

Электронная почта alfa@rex.telegraph.spb.ru

2. Год рождения: 1952.

3. Место работы: Санкт-Петербургский государственный

электротехнический университет,

кафедра автоматики и процессов управления.

Адрес: 197376, г. Санкт-Петербург, ул.Проф. Попова, 5.

Служебный телефон: (812) 234-37-98.

4. Должность - доцент

5. Степень - канд. техн. наук.

ЗАЯВКА

на участие в Межреспубликанской научной конференции



"Управление в социальных, экологических системах"
Прошу принять тезисы доклада

А.Ю. Дорогов, А.А. Алексеев


"ОБРАБОТКА ДАННЫХ В НЕЙРОННЫХ СЕТЯХ С ЯДЕРНОЙ ОРГАНИЗАЦИЕЙ"
по теме: Управление в технических системах
АВТОРСКАЯ СПРАВКА
Алексеев Алексей Александрович.

1. Домашний адрес: 194352, г. Санкт-Петербург,

Сиреневый бульв., д.16, кв.16.

Телефон: (812) 516-20-18.

2. Год рождения: 1941.

3. Место работы: Санкт-Петербургский государственный

электротехнический университет,

кафедра автоматики и процессов управления.

Адрес: 197376, г. Санкт-Петербург, ул.Проф. Попова, 5.

Служебный телефон: (812) 234-37-98.

4. Должность - доцент.

5. Звание - доцент.

6. Степень - канд. техн. наук.

УДК 007:159.955:519.72

Дорогов А.Ю. Алексеев А.А.

Санкт-Петербургский государственный электротехнический университет (СПГЭТУ)

Известия вузов. ”Приборостроение”

т.41, 1998г. №4 с.36-41.



ПЛАСТИЧНОСТЬ МНОГОСЛОЙНЫХ НЕЙРОННЫХ СЕТЕЙ
В работе выполнен анализ пластичности многослойных нейронных сетей. Получены точные формулы расчета степени пластичности по структурным характеристикам нейронной сети. Введено понятие структурной модели нейронной сети. Приведены примеры.

1.ВВЕДЕНИЕ

Многослойные сети прямого распространения широко используются в задачах распознавания образов, аппроксимации функций, системах адаптивного управления [1,2]. Для сетей подобного вида предложен ряд эффективных алгоритмов обучения; наибольшую известность получил алгоритм Errorback Propogation [3], основанный на рекуррентном использовании градиентного метода поиска экстремума. При практическом использовании нейронных сетей, неизбежно, возникает вопрос выбора структуры сети. Для многослойных сетей прямого распространения необходимо определить количество слоев в сети и количество нейронов в каждом слое. Существует ряд рекомендаций по выбору структуры, основанных на эмпирическом исследовании сетей. Но любое экспериментальное исследование неразрывно связано с конкретной задачей, поэтому трудно ожидать, что рекомендации будут пригодными как для задач распознавания, так и, например, для задач аппроксимации функций. По-видимому, для каждой прикладной области существует свой набор критериев которые следует использовать при выборе структуры. Тем не менее, можно выделить критерии, общие для различных приложений. Одним из таких критериев может служить способность нейронной сети к обучению. Интуиция подсказывает, что чем больше “знаний” способна поглотить сеть, тем лучшими свойствами она будет обладать при использовании в конкретной задаче. Способность к обучению (в литературе часто используется удачный термин “пластичность” ) целесообразно оценивать числом независимых настроек, существующих в сети. Это значение, как правило, меньше чем полное количество синаптических весов, подвергающихся изменению в процессе обучения сети. Исключением является однослойный персептрон, для которого соблюдается равенство. В механике для оценки числа независимых координат используется понятие “число степеней свободы”. Близкую аналогию можно провести и для нейронных сетей. В самом деле, нейронную сеть можно представить как нелинейный оператор, осуществляющий преобразование входного вектора в выходной. Полное множество операторов образует многомерное пространство, в котором каждый оператор можно рассматривать как некоторую материальную точку. Изменение синаптических весов нейронной сети приводит к перемещению точки-оператора в пространстве операторов. Следуя далее механической аналогии, будем называть число независимых координат, необходимое и достаточное для однозначного определения местоположения точки-оператора в пространстве операторов, числом степеней свободы нейронной сети. Класс операторов, порождаемых изменением синаптических весов образует некоторую поверхность (многообразие) в пространстве операторов. Число степеней свободы, по существу, определяется размерностью минимального линейного пространства в которое можно погрузить некоторую малую окрестность любой точки многообразия операторов.

На этапе обучения нейронная сеть обычно линеаризуется в окрестности некоторых точек нелинейных функций активации нейронов. В пределах этой окрестности все операторы можно рассматривать как линейные. Поэтому задача вычисления степеней свободы состоит в том, чтобы определить размерность линейной оболочки класса операторов, порождаемого нейронной сетью. Решению поставленной задачи и будет посвящена данная работа.
2.СТРУКТУРНАЯ МОДЕЛЬ НЕЙРОННОЙ СЕТИ




На рис.1 показана полносвязанная нейронная сеть прямого распространения.  В полносвязанной сети каждый из нейронов fi связан со всеми нейронами предшествующего слоя. Пусть размерность входного вектора для данной сети равна N, а выходного M.

Поставим в соответствие каждому i-му нейронному слою пару векторных градуированных [4] пространств (Ei,Di ) с размерностями (pi,gi). Условие градуировки задается фиксированным разложением каждого пространства в прямую сумму одномерных подпространств, которые назовем базовыми направлениями.Тогда каждый нейронный слой можно описать оператором Ai. Изменение синаптических весов в слое i порождает класс операторов Ai , осуществляющих отображение пространств (Ei )Ai Di . Как уже было отмечено, для задачи оценки пластичности можно считать, что класс Ai состоит из линейных операторов. Связь между смежными слоями определим операторами проектирования Pi,i+1 так , что (Di)Pi,i+1Ei+1. Операторы Pi,i+1 будем считать фиксированными операторами, осуществляющими не более чем перестановку базисных векторов в смежных пространствах, размерности которых, очевидно, совпадают. Базисные вектора всегда будем выбирать так, чтобы они принадлежали базовым направлениями. С учетом введенных определений класс операторов, соответствующий всей нейронной сети будет определяться произведением:



W=A1P12A2P23 . . . An-1Pn-1,nAn . (1)

Выражению (1) соответствует линейный граф показанный на рис.2.



Каждой вершине графа отвечает класс операторов одного нейронного слоя, а дуги соответствуют операторам проектирования Pij . На данном графе определены функции весов вершин и дуг. Весом i-ой вершины будем считать пару чисел (pi,gi), а весом дуги ранг оператора rij = rank Pij . Максимальный ранг операторов в классе Ai назовем рангом класса и обозначим ri. Очевидно,

ri = rank Ai = min(pi,gi) = pi gi.

Вычисление минимума в многозначной логике [5] рассматривается как операция логического умножения, в последнем выражении и далее для обозначения этой операции используется символ “ “.

Поскольку gi=pi+1, то ri,i+1= gi, и нетрудно показать, что в этом случае

ri,i+1 min(ri,ri+1) = ri ri+1. (2)

Взвешенный граф, приведенный на рис.2, отражает структурные свойства нейронной сети. В дальнейшем такой граф будем называть структурной моделью нейронной сети.

3.РАЗМЕРНОСТЬ ПРОСТРАНСТВА ОПЕРАТОРОВ

Будем считать класс операторов Ai полным, т.е. образующим пространство операторов. Последнее означает, что полный класс операторов изоморфен тензорному произведению [6] пространств Ei,Di и, следовательно, его размерность равна dimAi= dim(EiDi)=pigi. Обозначим через Wi подкласс операторов класса W, который порождается классом операторов Ai в произведении (1), при фиксированных в общем положении операторов для остальных классов Aj ji. Легко проверить, что класс Wi будет линейным подпространством. Условие “общее положение” [4] означает, что фиксация операторов в классах Aj осуществляется таким образом, чтобы обеспечить наибольшую размерность подпространства Wi. Для класса операторов W, определяемых произведением (1), линейной оболочкой будет объединение операторных подпространств Wi , т.е.:

L(W) = W1 W2 W3  . . .  Wn-1 Wn (3)

Размерность этого пространства равна числу степеней свободы, которое будем обозначать S, полагая

S = dim (L(W) ) = dim W.

Размерность объединения любой пары пространств B’ и B” определяется [4] следующим выражением:

dim(B’  B”) = dim(B’) + dim(B”) - dim(B’  B”).

Можно показать, что градуированные подпространства образуют дистрибутивную решетку по операциям ‘ ‘ и ‘’ в этом случае допустимо к выражению (3) многократно применить последнею формулу, в результате получим:

dim W = dim W1 + dim W2 + dim W3 + . . . + dim Wn-1 + dim Wn -

dim W1  ( W2 W3  . . .  Wn-1 Wn) - dim W2  ( W3 W4  . . .  Wn-1 Wn) -

- . . . - dim Wn-2 (Wn-1 Wn) - dim ( Wn-1 Wn) .

В этом выражении обозначим через все положительные компоненты, а через все отрицательные, тогда

dim W = - .

Рассмотрим компоненту . Обозначим через ранг произведения последовательности операторов, предшествующих классу Ai в выражении (1), а через ранг произведения последовательности операторов следующих за этим классом. Поскольку ранг произведения операторов не превосходит минимального ранга сомножителей, то учитывая условие (2) и следуя принципу “общего положения”, можно записать:



=min( r1,r2, …ri-1) = r1 r2 , … , ri-1, где r0 = N, (4)

= min( ri+1,ri+2, …rn) = ri+1 ri+2 ,… , rn, где rn+1 = M. (5)

Величину будем называть входным рангом для класса Ai , а величину выходным рангом. По теореме о структуре линейного отображения [4], для цепочки операторов, предшествующих Ai , существуют такие прямые разложения пространств E1 и Ei,



,
что изоморфно и имеет размерность , а составляет нулевое пространство (ядро линейного отображения). Аналогично, для цепочки операторов, следующих за Ai существуют прямые разложения

такие, что изоморфно и имеет размерность , а составляет нулевое пространство.

Нулевое пространство при отображении переходит в нулевой вектор, поэтому операторное подпространство Wi изоморфно тензорному произведению . Обозначим изоморфное отображение символом ““ , тогда можно записать



Wi = , (6)

откуда следует, что

dim Wi = и, .

Рассмотрим теперь компоненту . Общий член для имеет вид:

dim Wi  ( Wi+1 Wi+2  . . .  Wn-1 Wn) . (7)

Для цепочки операторов, предшествующих классу Ai+1 существуют прямые разложения пространств



.

Подпространства изоморфны и имеют размерность , а составляет нулевое пространство. Класс операторов, образованных объединением Wi+1 Wi+2  . . .  Wn-1 Wn ­­, осуществляет отображение пространства в , при этом пространство переходит в нулевой вектор. Таким образом существует изоморфизм:



Wi+1 Wi+2  . . .  Wn-1 Wn (8)

Подставляя (6) и (8) в (7) ) и учитывая, что получим

dim Wi  ( Wi+1 Wi+2  . . .  Wn-1 Wn) = dim [()()] =

= dim [()()] = dim() = .

В итоге получим , и окончательно

(9)
4.ПРИМЕРЫ

Рассмотрим двухслойную нейронную сеть с параметрами

n=2, p1=N, g1=p2=D, g2 =M.

На основании (9) можно записать

S = + - .

Из выражений (4) и (5) получим



= N, = = N g1 = N D, = = p2 M = D M, =M.

S =N(D M) + (N D)M - (N D)(D M). (10)

Рассмотрим различные варианты.

1) Пусть D < min(N,M), тогда

S = ND + DM - D2. (11)

Из этой формулы, очевидно, что наихудшей пластичностью обладает сеть со структурой типа “двхсторонний узел” (рис.5а). Для этого типа сети значение D=1 и, следовательно, S= N+M.



2) Пусть D  max(N,M), тогда из формулы (10) следует S=NM + NM - NM= NM. Это значение является максимально возможным для класса операторов, действующих из пространства размерности N в пространство размерности M, поэтому с точки зрения пластичности сети нет смысла увеличивать число нейронов в первом слое больше, чем max(N,M). Нетрудно показать, что этот вывод справедлив для всех скрытых слоев в многослойных сетях. Отметим, что значение NM совпадает с числом степеней свободы однослойного персептрона.

3) Структуры типа “односторонний узел” (рис.5б)) часто используются для реализации аппроксиматоров функций. Рассмотрим число степеней свободы для такой сети. Из формулы (10) при условии M=1, следует

S =N + (N D) - (N D) = N,

т.е. пластичность данной сети не зависит от числа нейронов в первом слое, вполне достаточно наличие только одного нейрона. Но с другой стороны для задач аппроксимации нелинейных функций необходимо обеспечить достаточный “запас” по элементарным нелинейностям [7], реализуемым функциями активации нейронов. Это еще раз подтверждает предположение, что для каждой задачи существуют собственные критерии качества нейронной сети, определяющие ее структуру, и в целом задача синтеза структуры является многокритериальной.

5.ЗАКЛЮЧЕНИЕ

Пластичность нейронных сетей характеризует дифференциальную способность нейронной сети к обучению. Можно сказать, что качество одной нейронной сети лучше другой, если первая при прочих равных условиях обладает лучшей пластичностью. В данной работе получены формулы расчета степени пластичности многослойных сетей прямого распространения. Приведенные выражения доказывают, что пластичность многослойных сетей не может быть выше, чем пластичность однослойного персептрона. Этот вывод не отрицает целесообразности использования многослойных сетей, а напротив подтверждает необходимость многокритериального подхода к задаче структурного синтеза.



6.ЛИТЕРАТУРА

1.Peter M. Mills, Albert Y. Zomaya, Moses O. Tade / Neuro-Adaptive Process Control. Practical Approach. - England, JOHN WILEY&SONS,- 1995, -212p.

2.A. Cichocki, R. Unbernhauen. / Neural Networks for optimization and signal processing. - Stuttgart, - JOHN WILEY&SONS,- 1994, -526p.

3.Ф. Уоссерман. Нейрокомпъютерная техника. Теория и практика. М.: - “Мир”, 1992,-240с.

4.А.И. Кострикин, Ю.М. Манин. Линейная алгебра и геометрия.- М.:- “Наука” - 1986.-304с.

5.С.В.Яблонский. Введение в дискретную математику. - М:. - “Наука”. - 1986. -384с.

6. Н.В Ефимов, Э.Р. Розендорн. Линейная алгебра и многомерная геометрия. - М.: - “Наука” - 1970. - 528с.

7.Fundamentals of neural Networks, Architectures algorithms and application. Lourence Fauselt, USA, Florida, 1994. -461p.

8.Л.А. Скорняков. Элементы теории структур. М.: “Наука”,-1982,-160с.

7.ПРИЛОЖЕНИЕ 1

ГРАДУИРОВАННЫЕ МОДУЛЯРНЫЕ РЕШЕТКИ


Пусть E конечномерное пространство размерности N. Как известно [8], совокупность всех подпространств пространства E образует модулярную решетку U по включению с операциями обеъдинения и пересечения. Если A,B,C ­подпространства пространства E, тогда для модулярной решетки имеет место

A  ((A B) C) = (A B) (A C )

Откуда следует



A  ( B C) (A B) (A C )

Условие градуировки в терминологии теории решеток означает, что фиксируется множество независимых элементов ei E, образующих прямое разложение пространства E.



E=e1e2 ...eN (П1)

Если независимые элементы неразложимы то они называются атомами. В решетке подпространств атомы, по существу, предоставляют одномерные подпространства пространства E. Среди всех подпространств выделим подмножество подпространств которые имеют атомные разложения в системе атомов (П1). Такие подпространства будем называть градуированными с условиями градуировки (П1). Множество градуированных поддпространств замкнуто относительно объединений и пересечений и образуют подрешетку W модулярной решетки U. Покажем, что эта решетка дистрибутивна. Пусть A,B,C градуированные подпространства, тогда

где I,J,K - множества индексов. Поскольку элементы ei независимы то

ei  ej = 0 если i  j и напротив ei  ei = ei , кроме того ei  ei = ei. Учитывая эти условия, получим:

о


ткуда следует

Дистрибутивность решетки W следует из дистрибутивности операций “ и ” над множествами I,J,K.




Реферат

В статье рассматриваются многослойные нейронные сети прямого распространения. Пластичность нейронной сети оценивается числом степеней свободы нелинейного оператора. Вводиться понятие структурной модели сети, как ориентированного графа, для которого определены весовые функции вершин и дуг. На основе структурной модели получены аналитические выражения для расчета числа степеней свободы. Приведены примеры расчета степени пластичности для двухслойных нейронных сетей.


Plastisity of multiplayer neural nets

Dorogov A. Ju.



Abstract

Multilayer feedforward neural nets are researched on the paper. Plasticity of neural net is estimated by freedom degrees of non-linear operator. Structure models of neural net are suggested. Model is represented by oriented graph with weighted arcs and nodes. Analytic expressions for calculation of freedom degrees are resulted on base of structure model. Examples of two-layers neural nets are given.



УДК 681.322:517.444

Дорогов А.Ю. Алексеев А.А.


СТРУКТУРНЫЕ МОДЕЛИ И ТОПОЛОГИЧЕСКОЕ ПРОЕКТИРОВАНИЕ БЫСТРЫХ НЕЙРОННЫХ СЕТЕЙ.

Рассматривается структурные и топологические модели многослойных быстрых нейронных сетей (БНС). Используется математический аппарат отображений числовых множеств и теории линейных представлений. Предложен алгоритм проектирования топологий БНС.


КЛЮЧЕВЫЕ СЛОВА: НЕЙРОННАЯ СЕТЬ, БЫСТРЫЙ АЛГОРИТМ, ТОПОЛОГИЯ СЕТИ, ЧАСТИЧНЫЕ ОТОБРАЖЕНИЯ, ПОДСТАНОВКИ, СТРУКТУРНАЯ МОДЕЛЬ.

Быстрые нейронные сети [1] являются разновидностью многослойных нейронных сетей прямого распространения. БНС сопоставимы с обычными нейронными сетями примерно в том же отношении как алгоритмы быстрого преобразования Фурье (БПФ) с прямым дискретным преобразованием Фурье. Высокая вычислительная эффективность БНС достигается за счет разумных ограничений на структурную организацию нейронной сети.


Структура БНС в какой-то мере повторяет структуру нейронных сетей живой природы, для которых всегда существуют ограничения на размерности рецепторных полей и на связи между нейронами. В работе [2] было показано что вопросы структурной организации БНС следует рассматривать на двух уровнях: уровне структурной модели БНС и уровне топологической реализации БНС. Если уровень структурной модели определяет общие свойства БНС по размерностям рецепторных полей и структуре межслойных связей, то уровень топологии определяет конкретную аппаратную или программную реализацию нейронной сети. Оба эти уровня рассмотрения неразрывно связаны между собой.

На рис.1 показан пример БНС в классическом представлении где каждая вершина соответствует одному нейрону, а дуги определяют связи между нейронами. Такое представление в дальнейшем будем называть топологической реализацией структурной модели. На рис.2 приведена структурная модель, построенная для данной сети. Каждой вершине структурной модели соответствует группа нейронов, имеющих общее рецепторное поле. Эти группы нейронов были названы нейронными ядрами. На структурном уровне каждое нейронное ядро характеризуется размерностью рецепторного поля и числом входящих в него нейронов. Эта пара чисел задает вес вершины структурной модели. Нейронное ядро j в слое m описывается оператором Amj, осуществляющего преобразования входного вектора собственного рецепторного поля:

Ymj = (Xmj)Amj.

В матричном представлении оператор нейронного ядра можно записать в виде:

Smj = XmjWmj, Ymj = F(Smj),

где Wmj- матрица синаптических весов ядра, F( ) - многомерная функция активации, компонентами которой являются функции активации отдельных нейронов ядра.

Действие оператора нейронного ядра определено на паре градуированных [3] векторных пространств: пространстве рецепторов и пространстве нейронов слоя. Связи между слоями задаются проектирующими операторами, сохраняющими условия градуировки. Ранг проектирующего оператора определяет вес дуги структурной модели. Принципиальной особенностью построения БНС является независимость рецепторных полей ядер, т.е. рецепторные поля нейронных ядер не пересекаются.

Структурная модель является по существу описанием целого класса эквивалентных топологических реализаций БНС. Можно сказать, что множество топологий формирует орбиту структурной модели на множестве матричных представлений. Топология БНС задается числовыми частичными отображениями (частичными подстановками) [4]:



, ,

где Nxmj- размер рецепторного поля ядра j в слое m, Nymj- число нейронов в ядре j слоя m. u - номер базисного вектора в пространстве рецепторов, v - номер базисного вектора в пространстве нейронов.


Действие частичных подстановок определено на входном и выходном векторах нейронного слоя, частичная подстановка mj выделяет рецепторное поля ядра, а подстановка mj нейронное поле. Формально действие частичных подстановок записывается в виде:


Xmj = Xm*mj,

Ymj = Ymmj. (1)

Комбинации символов *mj, и mj можно рассматривать и как символическое обозначение проектирующих операторов, однако запись в виде формального произведения дает ряд преимуществ при математических выкладках. По принципу построения БНС проектирующие операторы не пересекаются, поэтому m  mj = 0, m  mj = 0 для любых   j.

Смежные нейронные слои связаны между собой перестановочными операторами перехода, действие которых определено подстановками qm:

Xm+1 = Ym*qm. (2)

Операторы межслойного перехода индуцируют локальные операторы связи между нейронными ядрами, так что



, (3)

где mij- частичные подстановки соответствующие локальному оператору,  - символ прямой суммы векторов.

На уровне структурной модели каждая локальная связь характеризуется рангом проектирующего оператора. Числовое значение ранга определяет вес соответствующей дуги структурной модели (рис 2). Из выражений (1)-(3) следует:

(4)

Это выражение определяет рекуррентный алгоритм построения топологии нейронной сети.

Топологию нейронной сети компактно можно представить в виде произведения матиц смежности графа топологической реализации. Например, топологии нейронной сети, показанной на рис.1 отвечает произведение матриц вида:

(5)

Такие матрицы будем называть топологическими. Позиции ненулевых элементов в данных матрицах определяются частичными подстановками mj , mj . Нетрудно заметить, что при произвольной перестановке элементов в любой строке частичных подстановок mj , mj топологические матрицы не изменяются. Неоднозначность в выборе частичных подстановок можно устранить если ограничиться множеством подстановок в которых отсутствуют инверсии [5]. при этом элементы строк будут всегда упорядочены по возрастанию.

При отсутствии инверсий отпадает необходимость в отображении вторых строк подстановок поскольку они всегда будут упорядочены по возрастанию. Таким образом расположение нейронного ядра в топологической матрице достаточно задать парой упорядоченных множеств Umj,Vmj, образующих верхние строки частичных подстановок mj ,mj. Введенные множества будем называть топологическими. Учитывая сказанное, построим удобный для программной реализации алгоритм построения топологии БНС. Приведем вначале описание алгоритма, а затем покажем, что он удовлетворяет общему соотношению (4).

Пусть для вершин Amj топология задается парами (Umj,Vmj ), а для вершин слоя m+1 парами (Um+1j,Vm+1j). Структурные связи между двумя смежными слоями запишем в виде ранговой матрицы:



где rij - ранги проектирующих операторов межслойных связей. Каждой вершине слоя m соответствует строка ранговой матрицы, а каждой вершине слоя m+1 столбец матрицы. Сумма элементов строки i равна порядку множества Vmi, а столбца j - порядку множества Um+1j. Введем в рассмотрение числовое множество Tm={1,2,...,Nm}, где Nm=card(Tm) = . (Нетрудно проверить, что значение Nm равно числу нейронов в слое m и совпадает с размерностью рецепторного поля слоя m+1. Разместим элементы множества Tm в виде матрицы (рис 3.), подобной по структуре матрице Rm, причем размещение выполним так чтобы выполнялось условие . Подмножество элементов принадлежащих i-ой строке обозначим , а j-ому столбцу . Введем две произвольные подстановки на множестве Tm которые обозначим qa и qB. Тогда алгоритм построения топологических множеств будет определяться правилом:



Графически алгоритм можно представить схемой, показанной на рис.3.




Покажем теперь, что данный алгоритм удовлетворяет соотношению (4). Из схемы рис. 3 следует:

. (6)

Поскольку , а также



, то из (6) получим

Обращение последнего выражения, очевидно, приводит к (4). Использование двух подстановок qa и qB вместо одной qm делает алгоритм симметричным и более удобным при реализации.

Если где е - тождественная подстановка.

Будем называть топологию для которой последнее равенство выполнено компактной и расширенной в противном случае. Для расширенной топологии между топологическими матрицами смежных слоев необходимо вводить перестановочную матрицу, соответствующую подстановке qm. В общем случае для задания топологии необходимо фиксировать подстановки qa , qB и размещение множества Tm. При хранении топологии можно без потери информации сократить объем данных, если предварительно произвести «нормализацию» размещения множества Tm, следуя одному из ниже приведенных правил:

a) ,

b) (7)

Здесь символ «*» указывает значение после нормализации, а символы «a,b» варианты нормализации. Если топология компактная тогда нормализация любого типа приводит к равенству . Таким образом для компактной топологии достаточно хранить только размещение множества Tm , а для расширенной - размещение Tm и подстановку qm Покажем, что оба варианта нормализации эквивалентны, для этого выполним над нормализованным представлением по типу «*a» выполним нормализацию типа «*b»

.

Таким образом, мы приходим к нормализованному представлению типа «*b», определяемом правилом (7). Повторение нормализации типа «a» возвращает нас к исходному состоянию.

В качестве примера рассмотрим построение топологий для структурной модели показанной на рис.2. Ниже приведены ранговая матрица и схемы построения двух вариантов топологии:

, . ,

Подмножества можно выбрать произвольно. Выберем их равными , , в этом случае топологические матрицы первого варианта точно соответствуют представлению (5). Для второго варианта выбрано qa = e, и сохранены прежние значения . Расширенная топология для этого случая имеет следующее матричное преставление:



От расширенной топологии всегда можно перейти к компактной, выполнив умножение левой или правой смежной топологической матрицы на перестановочную, очевидно, что при этом информация о подстановке qm теряется и поэтому обратный переход будет неопределен.

В данной работе представлены два уровня структурного описания БНС: структурная модель и топологическая реализация. Показано, что адекватным инструментом проектирования топологий является математический аппарат числовых частичных отображений. На основе этого аппарата предложен машинно-ориентированный алгоритм построения топологий БНС. Топологическое проектирование позволяет оптимальным образом выбрать программную или аппаратную реализацию БНС из класса эквивалентных.

Литература

[1] Дорогов А.Ю., Алексеев А.А. Структурные модели быстрых нейронных сетей. В сб. «Интеллектуальные системы» /Труды II-го Международного симпозиума, под ред. К.А.Пупкова, т.2 - М.: Из-во ПАИМС. 1996, с.138-143.

[2] Дорогов А.Ю., Алексеев А.А. Математические модели быстрых нейронных сетей. В сб. научн. тр. СПбГЭТУ «Системы управления и обработки информации». Вып.490, 1996, с.79-84.

[3].А.И. Кострикин, Ю.М. Манин. Линейная алгебра и геометрия.- М.:- “Наука” - 1986.-304с.



[4] Мальцев А.И. Алгебраические системы.- М.: Наука, 1970.

[5] Кострикин А.И. Введение в алгебру. Основы алгебры. - М.: Физматлит. 1994, -320с.