Персептрон розенблатта что это
Перейти к содержимому

Персептрон розенблатта что это

  • автор:

The Rosenblatt’s Perceptron

Maël Fabien

In this series of articles, I am going to focus on the basis of Deep Learning, and progressively move toward recent research papers and more advanced techniques. As I am particularly interested in computer vision, I will explore some examples applied to object detection or emotion recognition for example.

History of Deep Learning

Favio Vázquez has created a great summary of the deep learning timeline :

image

Among the most important events on this timeline, I would highlight :

  • 1958: the Rosenblatt’s Perceptron
  • 1974: Backpropagation
  • 1985: Boltzmann Machines
  • 1986: MLP, RNN
  • 2012: Dropout
  • 2014: GANs

Why neurons?

Neuronal networks have been at the core of the development of Deep Learning these past years. But what is the link between a neuron biologically speaking and a deep learning algorithm?

Neural networks are a set of algorithms that have been developed imitate the human brain in the way we identify patterns. In neurology, researchers study the way we process information. We have outstanding abilities to process information quickly and extract patterns.

Take a quick example: we can process information pre-attentively. Indeed, in less time than an eye blink (200ms), we can identify elements that pop out from an image. On the other hand, if the element does not pop out enough, we need to make a sequential search, which is much longer.

image

The information that we process in this example allows us to make a binary classification (major class vs the outlier we’re trying to identify). To understand what’s going on, I’ll make a brief introduction (to the extent of my limited knowledge in this field) to the architecture of a neuron biologically speaking.

image

Here’s what the different components are made for :

  • Dendrite: Receives signals from other neurons
  • Soma: Processes the information
  • Axon: Transmits the output of a neuron
  • Synapse: Point of connection to other neurons

A neuron takes an input signal (dendrite), processes the information (soma) and passes the output to other connected neurons (axon to synapse to other neuron’s dendrite).

Now, this might be biologically inaccurate as there is a lot more going on out there but on a higher level, this is what is going on with a neuron in our brain — takes an input, processes it, throws out an output.

Suppose that you are walking on a crosswalk and want to determine whether there is a dangerous situation or not. The information to process might be :

  • visual, e.g. a car is close
  • audio, e.g. the sound of the car, a klaxon…

A series of neurons will process the information. Intrinsically, using both channels, you will :

  • determine how close the car is
  • and how fast the car is going

The neurons are activated depending on the given criteria. This will eventually lead to some sort of binary classification: Is there a danger or not? During the information processing, a large number of neurons will activate sequentially, and eventually lead to a single output.

image

This is an overly simplified representation, and I don’t have sufficient knowledge to expand this section.

The McCulloch-Pitts Neuron (1943)

The first computational model of a neuron was proposed by Warren McCulloch and Walter Pitts in 1943. We’ll cover this first simple model as an introduction to the Rosenblatt’s Perceptron.

How does the McCulloch-Pitts neuron work?

image

The first part is to process a series of boolean inputs (just like dendrites). If an input takes the value 1, we say that neuron fires.

We then process the information into an aggregative function g (can be compared to Soma) that performs a simple aggregation of the values of each input. Then, the function f compares the output of g to a threshold or a condition.

We can make several algorithms with this :

  • OR: the f function checks if the sum g is equal to 1
  • AND: the f function checks if the sum g is equal to the number of inputs
  • GREATER THAN: the f function checks if the sum g is equal to a threshold \(\theta\)

The simplest binary classification can be achieved the following way :

\(y = 1\) if \(\sum_i x_i ≥ 0\), else \(y = 0\)

There are however several limitations to McCulloch-Pitts Neurons :

  • it cannot process non-boolean inputs
  • it gives equal weights to each input
  • the threshold \(\theta\) much be chosen by hand
  • it implies a linearly separable underlying distribution of the data

For all these reasons, a necessary upgrade was required.

The Rosenblatt’s Perceptron (1957)

The classic model

The Rosenblatt’s Perceptron was designed to overcome most issues of the McCulloch-Pitts neuron :

  • it can process non-boolean inputs
  • and it can assign different weights to each input automatically
  • the threshold \(\theta\) is computed automatically

A perceptron is a single layer Neural Network. A perceptron can simply be seen as a set of inputs, that are weighted and to which we apply an activation function. This produces sort of a weighted sum of inputs, resulting in an output. This is typically used for classification problems, but can also be used for regression problems.

The perceptron was first introduced in 1957 by Franck Rosenblatt. Since then, it has been the core of Deep Learning. We can represent schematically a perceptron as :

image

We attach to each input a weight ( \(w_i\)) and notice how we add an input of value 1 with a weight of \(- \theta\). This is called bias. What we are doing is instead of having only the inputs and the weight and compare them to a threshold, we also learn the threshold as a weight for a standard input of value 1.

The inputs can be seen as neurons and will be called the input layer. Altogether, these neurons and the function (which we’ll cover in a minute) form a perceptron.

How do we make classification using a perceptron then?

\(y = 1\) if \(\sum_i w_i x_i ≥ 0\), else \(y = 0\)

One limitation remains: the inputs need to be linearly separable since we split the input space into two halves.

Minsky and Papert (1969)

The version of Perceptron we use nowadays was introduced by Minsky and Papert in 1969. They bring a major improvement to the classic model: they introduced an activation function. The activation function might take several forms and should “send” the weighted sum into a smaller set of possible values that allows us to classify the output. It’s a smoother version than the thresholding applied before.

image

In the classical Rosenblatt’s perceptron, we split the space into two halves using a HeavySide function (sign function) where the vertical split occurs at the threshold \(\theta\) :

This is harsh (since an outcome of 0.49 and 0.51 lead to different values), and we cannot apply gradient descent on this function. For this reason, for binary classification, for example, we’ll tend to use a sigmoid activation function. Using a sigmoid activation will assign the value of a neuron to either 0 if the output is smaller than 0.5, or 1 if the neuron is larger than 0.5. The sigmoid function is defined by : \(f(x) = \frac <1><1 + e^<-u>>\)

image

This activation function is smooth, differentiable (allows back-propagation) and continuous. We don’t have to output a 0 or a 1, but we can output probabilities to belong to a class instead. If you’re familiar with it, this version of the perceptron is a logistic regression with 0 hidden layers.

Some details

A given observation can be either well classified, or in the wrong class. As in most optimization problems, we want to minimize the cost, i.e the sum of the individual losses on each training observation. A pseudo-code corresponding to our problem is :

image

In the most basic framework of Minsky and Papert perceptron, we consider essentially a classification rule than can be represented as :

  • the bias term is \(<\alpha>\)
  • the weights on each neuron is \(<\beta>\)
  • the activation function is sigmoid, denoted as \(sig\).

We need to apply a stochastic gradient descent. The perceptron “learns” how to adapt the weights using backpropagation. The weights and bias are firstly set randomly, and we compute an error rate. Then, we proceed to backpropagation to adjust the parameters that we did not correctly identify, and we start all over again for a given number of epochs.

We will further detail the concepts of stochastic gradient descent and backpropagation in the context of Multilayer Perceptron.

Even the Minsky and Papert perceptron has a major drawback. If the categories are linearly separable for example, it identifies a single separating hyper-plane without taking into account the notion of margin we would like to maximize. This problem is solved by the Support Vector Machine (SVM) algorithm.

Logical operators

Perceptron can be used to represent logical operators. For example, one can represent the perceptron as an “AND” operator.

image

A simple “AND” perceptron can be built in the following way :

Where input_0 and input_1 represent the two feature inputs. We are shifting the bias by 1.2 to isolate the positive case where both inputs are 1.

image

However, solving the XOR problem is impossible :

image

This is why Multi-layer perceptrons were introduced.

Implementation in Keras

In Keras, it is extremely easy to build a Perceptron :

Implementation in Tensorflow

Using the famous MNIST database as an example, a perceptron can be built the following way in Tensorflow. This simple application heads an accuracy of around 80 percents. This example is taken from the book: “Deep Learning for Computer Vision” by Dr. Stephen Moore, which I recommend. The following code is in Tensorflow 1 :

Then create and run the training session :

And compute the accuracy on the test images :

This heads an accuracy of around 80% which can be largely improved by the next techniques we are going to cover.

Conclusion : Next step, we are going to explore the Multilayer Perceptron!

Лекция 8. Персептрон Розенблатта

Известно, что человек, сталкиваясь с новыми явления­ми или предметами, очень часто их узнает, т. е. без особых затруднений относит к тому или иному понятию (клас­су). Так, впервые увидев лошадь незнакомой масти или собаку необычной породы, человек определяет в них уже известных ему животных. Человек может читать рукописи, написанные разными людьми, хотя каж­дый почерк имеет свои особенности. Каждый из нас легко узнает своих знакомых, даже если они изменили прическу или одежду. Эта особенность человека называется феноме­ном восприятия.

Феномен восприятия проявляется во всех сферах чело­веческой деятельности, а многие профессии связаны исклю­чительно с умением правильно классифицировать ситуации. Так врачи умеют диагностировать заболевания, экспер­ты-криминалисты различают сходные почерки, ар­хеологи устанавливают принадлежность найденных пред­метов определенной эпохе, геологи по косвенным дан­ным определяют характер месторождения и т. д.

Всюду здесь проявляется умение человека правильно относить наблюдаемый объект к тому или иному понятию, к тому или иному классу.

Человек умеет вырабатывать на основе опыта и новые понятия, обучаться новой системе классификации.

Существуют два различных метода обучения: один из них — объяснение, другой, более интересный,— обучение на примерах. Первый метод предполагает существование достаточно простых правил, простых настолько, что их можно изложить так, чтобы, действуя сообразно этим правилам, каждый раз получать требуемый результат.

Однако во многих случаях учитель, проводящий обучение, не может сформулировать правило, по кото­рому он действует, и тогда первый способ обучения неприменим и обучение проводят на примерах. Так, нельзя указать четких правил для такого, казалось бы, простого случая, как различение рукописных знаков.

В этом случае при обучении пользуются вторым ме­тодом. Обучающемуся показывают рукописные знаки и сооб­щают, какие это буквы, т. е. к каким классам данные знаки относятся. В результате у ученика вырабатываются нуж­ные понятия, он приобретает умение правильно относить каждую новую букву к тому или иному классу. Точно так же студентов-медиков учат диагностировать заболевания.

Возможность использования такого метода обучения определяется заложенным в человеке внутренним меха­низмом построения правила, позволяющего распознавать нужные понятия.

В 1957 году американский физиолог Ф. Розенблатт предпринял попытку технически реализовать физиологи­ческую модель восприятия. Он исходил из предположения, что восприятие осуществляется сетью нейронов. Модель восприя­тия состоит из рецепторного слоя S, слоя преобразующих нейронов А и слоя реагирующих нейронов R (рис. 8.1).

Рис. 8.1. Модель восприя­тия.

Внешнее раздражение воспринимается рецепторами. Каждый рецептор связан с одним или несколькими ней­ронами преобразующего слоя, при этом каждый нейрон преобразующего слоя может быть связан с несколькими рецепторами.

Выходы преобразующих (ассоциативных) нейронов в свою очередь соединяются с входами нейронов третьего слоя. Нейроны этого слоя — реагирующие — тоже имеют несколько входов (дендритов) и один выход (аксон), кото­рый возбуждается, если суммарная величина входных сиг­налов превосходит порог срабатывания. Но в отличие от нейронов второго слоя, где суммируются сигналы с одним и тем же коэффициентом усиления (но, возможно, разными знаками), для реагирующих нейронов коэффициенты сум­мирования различны по величине и, возможно, по знаку.

Каждый рецептор может находиться в одном из двух состояний: возбужденном или невозбужденном. В зависи­мости от характера внешнего раздражения в рецепторном слое образуется тот или иной набор импульсов, который, распространяясь по нервным путям, достигает слоя преоб­разующих нейронов. Здесь в соответствии с набором при­шедших импульсов образуется набор импульсов второго слоя, который поступает на входы реагирующих нейронов.

Восприятие какого-либо объекта определяется воз­буждением соответствующего нейрона третьего слоя, при­чем различным наборам импульсов рецепторного слоя мо­жет соответствовать возбуждение одного и того же реаги­рующего нейрона. Гипотеза как раз и состоит в том, что коэффициенты усиления реагирующего нейрона подобра­ны так, чтобы в случае, когда объекты принадлежат к од­ному классу, отвечающие им наборы импульсов возбуж­дали бы один и тот же нейрон реагирующего слоя. Напри­мер, наблюдая какой-нибудь предмет в разных ракурсах человек отождествляет увиденное, так как каждый раз на различные внешние раздражения реагирует один и тот же нейрон, ответственный за узнавание этого предмета.

Среди огромного числа (порядка 10 10 ) нейронов чело­века, обеспечивающих восприятие, лишь некоторая часть занята сформированными уже понятиями, другая служит для образования новых. Формирование нового понятия, по существу, заключается в установлении коэффициентов усиления реагирующего нейрона. Процесс установления коэффициентов усиления реагирующих нейронов в схеме описывается Розенблаттом в терминах поощрения и нака­зания.

Предположим, что появился набор импульсов, соответ­ствующий вновь вырабатываемому понятию. Если при его появлении нужный реагирующий нейрон не возбудился (пришедший сигнал не отнесен к данному понятию), то реагирующий нейрон «штрафуется»: коэффициенты усиле­ния тех его входов, по которым проходил импульс, увели­чиваются на единицу. Если нейрон правильно реагировал на пришедшие импульсы, то коэффициенты усиления не меняются. Если же окажется, что некоторый набор сигна­лов будет ошибочно отнесен к данному понятию, то нейрон тоже «штрафуется»: в этом случае коэффициенты усиления тех входов, по которым пришел импульс, уменьшаются на единицу. Такая модель восприятия проста и может быть реализована на однородных элементах — пороговых эле­ментах.

Пороговым называется элемент, имеющий п входов: , и один выход у, причем сигнал на выходе у мо­жет принимать только два значения, 0 и 1, и связан с вхо­дами соотношением

где — коэффициенты усиления сигналов, а— величина порога срабатывания элемента.

Моделью преобразующего нейрона может служить по­роговый элемент, у которого , а моделью реаги­рующего нейрона служит пороговый элемент, у которого коэффициенты— некоторые настраиваемые числа.

Техническую модель зрительного анализатора Розенблатт назвал персептроном (от слова «персепция» — восприятие). Первый, рецепторный слой S модели Розенблатта состоял из набора 400 фотоэлементов, которые образовывали поле рецепторов (20×20). Сигнал с фотоэле­ментов поступал на входы пороговых элементов—нейронов преобразующего слоя (элементов А). Всего в модели Ро­зенблатта было 512 элементов. Каждый элемент А имел 10 входов, которые случайным образом были соединены с ре­цепторами — фотоэлементами. Половина входов считалась тормозящими и имела коэффициент усиления -1, а другая половина – возбуждающими с коэффициентом усиления +1. Порог срабатывания нейрона принимался равным нулю. Наконец, сигналы с выходов элементов А поступали на входы реагирующего нейрона — элемента R (см. рис. 8.1).

Персептрон предназначался для работы в двух режи­мах: в режиме обучения и в режиме эксплуатации. В режи­ме обучения у персептрона по описанному выше прин­ципу вырабатывались величины коэффициентов реагирующих нейронов. В ходе эксплуатации персептрон классифицировал предъявленные ему ситуации: если воз­буждалсяр-й реагирующий элемент и не возбуждались остальные R-элементы, то ситуация относилась к p-му классу.

Появление машины, способной образовывать новые понятия, оказалось чрезвычайно интересным не только для физиологов, но и для представителей других областей зна­ний и в первую очередь для математиков. Ведь как только стала ясна схема будущей экспериментальной установки, персептрон перестал быть только техническим аналогом физиологического феномена, он стал математической мо­делью процесса восприятия.

Определение закона образования нового понятия — вы­работка коэффициентов усиления каждого из элементов R — означало задание алгоритма, решающего некоторую формальную задачу.

Рассмотрим математическую модель персептрона:

1. В рецепторном поле образуется сигнал, соответству­ющий внешнему раздражителю, который изображается некоторым вектором х. Розенблатт отмечает, что каждое нервное окончание передает достаточно простой сигнал — либо посылает импульс, либо не посылает его. Это означа­ет, что вектор х бинарный, т. е. его координаты могут принимать только два значения: 0 и 1.

2. Набор импульсов распространяется до тех пор, пока с помощью нейронов второго слоя не будет преобразован в новый набор импульсов (бинарный вектор x преобразуется в бинарный вектор y). Розенблатт уточняет характер пре­образований у =f(x):

а) преобразование осуществляется пороговыми элемен­тами;

б) входы преобразующих пороговых элементов соеди­нены с рецепторами случайно.

3. Считается, что персептрон относит входной вектор к p-му понятию, если возбуждается pй реагирующий нейрон и не возбуждаются другие реагирующие нейроны. Фор­мально это означает, что для вектора вы­полняется система неравенств:

В этих неравенствах коэффициенты усиле­ния t-го реагирующего нейрона.

4. Формирование понятий в схеме Розенблатта сводится к образованию коэффициентов (весов) каждого из элемен­тов R. Процедура построения весов элементов R такова.

Пусть к данному моменту существуют некоторые веса элементов R и весар-го элемента . В момент времени для классификации на вход персептрона посту­пает сигнал, описываемый вектором. Векторможет либо соответствовать понятиюp, либо не соответствовать ему. Рассмотрим оба этих случая.

Случай первый. Вектор х соответствует по­нятию р. Тогда правильной реакцией элемента на сиг­налх должно быть возбуждение, т. е. должно выполнять­ся неравенство

.

Если веса элемента обеспечивают правильную реак­цию на векторx, то они не меняются. Если же веса не обес­печивают правильной реакции элемента , т. е. они тако­вы, что

то веса элемента изменяются по правилу

Случай второй. Вектор х не соответствует по­нятию р. Тогда элемент не должен возбудиться, т. е. должно выполниться неравенство

Если веса элемента обеспечивают правильную реак­цию этого элемента на векторх, то они не меняются. Если же веса элемента не обеспечивают правильной реакции, т.е.

то веса изменяются по правилу

При обучении аналогично меняются веса всех элементов R персептрона.

Розенблатт надеялся, что его персептрон моделирует существенные черты человеческого восприятия, в осо­бенности восприятия зрительных образов. Он полагал, что персептрон легко можно будет обучить узнаванию одного и того же изображения независимо от масштаба изображе­ния, существенных сдвигов его в рецепторном поле и дру­гих преобразований, при которых человек относит изобра­жение к одному и тому же понятию. Иными словами, пред­полагалось, что персептрон будет узнавать предметы инвариантно по отношению к определенным группам преобразований.

В действительности же теоретические и эксперименталь­ные исследования персептрона Ф. Розенблатта показали его неспособность к такому обобщению.

Последовали всевозможные усложнения схемы пер­септрона. Строились персептроны с большим числом ней­ронных слоев, допускалась настройка коэффициентов уси­ления не только на верхнем слое, но и на промежуточных уровнях, предлагалось вводить перекрестные и обратные связи.

Теоретическое исследование таких сложных персептронных схем чрезвычайно затруднительно. На практике же при распознавании зрительных образов эти модели ока­зались малоэффективными, в конце концов, от них пришлось отказаться и пойти другим путем.

Основная идея нового направления состоит в том, что­бы, опираясь на известные свойства зрительных образов, найти такую систему признаков или, общее, такой язык описания изображения, которые уже сами по себе обеспе­чивают инвариантность по отношению к требуемым преоб­разованиям. Таким образом, при построении обучающего­ся устройства закладываются априорные сведения отно­сительно того, по каким именно преобразованиям должна достигаться инвариантность.

Если предположить, что физиологическая модель чело­веческого восприятия действительно аналогична персептрону, то следует допустить, что связи преобразующих 4-элементов с рецепторами (а вероятнее, нескольких слоев таких элементов) отнюдь неслучайны, а построены именно так, чтобы обеспечить новое описание изображения, содержащее уже требуемые инварианты. Математически это означает, что преобразование

таково, что среди координат вектора у есть такие, которые не меняются при определенных преобразованиях век­тора х.

Возможно, что человек вовсе и не учится находить эти инварианты. Способность использовать их дана ему от рождения и заложена в «схеме» зрительного анализатора, возникшего в процессе эволюции. Во всяком случае экспе­рименты с персептронами, где в процессе обучения выби­ралось и отображение , не доказали способности персептрона к выработке такого рода инвариантов.

Поэтому, оставляя в стороне вопрос о том, как устроено отображение, будем рассматривать более общую схему персептрона. Будем считать, что дано некоторое преобра­зование или, в координатной форме,

.

Здесь х — входной вектор, соответствующий исходному описанию объекта. Преобразование ставит ему в соответствие некоторое новое описаниеу. Это преобразование выбирается до начала обучения и может быть построено на основании известных сведений о природе данной задачи распознавания.

Координаты вектора у теперь в общем случае — дейст­вительные числа, не обязательно 0 или 1.

Для простоты будем считать, что различаются всего два понятия. Тогда персептрон отнесет вектор х к первому понятию, если выполнится неравенство

а в противном случае — ко второму.

Такая схема имеет простую геометрическую интерпре­тацию: в пространстве Х задана гиперповерхность

которая делит пространство на два полупространства. Счи­тается, что если вектор х находится по одну сторону от по­верхности (это значит, что для него выполняется неравен­ство (8.2)), то он соответст­вует первому понятию, если же по другую от нее сторону, то второму. Та­кие гиперповерхности на­зываются разделяющими (рис. 8.2).

Для образования ново­го понятия надо построить соответствующую разделя­ющую гиперповерхность. Каждой гиперповерхности (8.3) пространства Х в пространстве Y с координатами соответствует гиперплоскость

Введение пространства Y позволяет заменять рассмот­рение разделяющих гиперповерхностей (8.3) разделяющи­ми гиперплоскостями (8.4). Поэтому пространство векто­ров Y получило название спрямляющего. В спрямляющем пространстве изучается следующая схема. Каждому объ­екту ставится в соответствие вектор. Этот вектор относится к первому классу, если он лежит по одну сторону от разделяющей гиперплоскости

,

ПЕРСЕПТРОН Розенблатта

Автор: Сергей А. Терехов sta@nine.ch70.chel.su
Источник: http://alife.narod.ru/lectures/neural/Neu_index.htm
Дата: 1998
Учебное заведение: Лаборатотория Искусственных Нейрон ных Сетей НТО-2, ВНИИТФ, Снежинск
Web-страница заведния: http://www.vniitf.ru/

Простейшая нейрон ная сеть — ПЕРСЕПТРОН Розенблатта. Линейная разделимость и теор ема об обучении персептрона.

В этой и последующих лекциях мы приступаем к непосредственному рассмотрению основных, описанных в литературе, моделей искусственных нейрон ных сетей и решаемых ими задач. Исходным будет изложение ПЕРСЕПТРОНА — первой нейросетевой парадигмы, доведенной до кибернетической реализации.

ПЕРСЕПТРОН Розенблатта.

Одной из первых искусственных сетей, способных к перцепции (восприятию) и формированию реакции на воспринятый стимул, явился PERCEPTRON Розенблатта (F.Rosenblatt, 1957). Персептрон рассматривался его автором не как конкретное техническое вычислительное устройство, а как модель работы мозга. Нужно заметить, что после нескольких десятилетий исследований современные работы по искусственным нейрон ным сетям редко преследуют такую цель.

Рис. 4.1. Элементарный персептрон Розенблатта.

Простейший классический персептрон содержит нейрободобные элементы трех типов (см. Рис. 4.1), назначение которых в целом соответствует нейрон ам рефлекторной нейрон ной сети, рассмотренной в предыдущей лекции. S-элементы формируют сетчатку сенсорных клеток, принимающих двоичные сигналы от внешнего мира. Далее сигналы поступают в слой ассоциативных или A-элементов (для упрощения изображения часть связей от входных S-клеток к A-клеткам не показана). Только ассоциативные элементы, представляющие собой формальные нейрон ы, выполняют нелинейную обработку информации и имеют изменяемые веса связей. R-элементы с фиксированными весами формируют сигнал реакции персептрона на входной стимул.

Розенблатт называл такую нейрон ную сеть трехслойной, однако по современной терминологии, используемой в этой книге, представленная сеть обычно называется однослойной, так как имеет только один слой нейропроцессорных элементов. Однослойный персептрон характеризуется матрицей синаптических связей W от S- к A-элементам. Элемент матрицы отвечает связи, ведущей от i-го S-элемента к j-му A-элементу.

В Корнельской авиационной лаборатории была разработана электротехническая модель персептрона MARK-1, которая содержала 8 выходных R-элементов и 512 A-элементов, которые можно было соединять в различных комбинациях. На этом персептроне была проведена серия экспериментов по распознаванию букв алфавита и геометрических образов.

В работах Розенблатта был сделано заключение о том, что нейрон ная сеть рассмотренной архитектуры будет способна к воспроизведению любой логической функции, однако, как было показано позднее М.Минским и С.Пейпертом (M.Minsky, S.Papert, 1969), этот вывод оказался неточным. Были выявлены принципиальные неустранимые ограничения однослойных персептронов, и в последствии стал в основном рассматриваться многослойный вариант персептрона, в котором имеются несколько слоев процессорных элементов.

С сегодняшних позиций однослойный персептрон представляет скорее исторический интерес, однако на его примере могут быть изучены основные понятия и простые алгоритм ы обучения нейрон ных сетей.

Теорема об обучении персептрона.

Обучение сети состоит в подстройке весовых коэффициентов каждого нейрон а. Пусть имеется набор пар векторов (x a , y a ), a = 1..p, называемый обучающей выборкой. Будем называть нейрон ную сеть обученной на данной обучающей выборке, если при подаче на входы сети каждого вектора x a на выходах всякий раз получается соответсвующий вектор y a

Предложенный Ф.Розенблаттом метод обучения состоит в итерационной подстройке матрицы весов, последовательно уменьшающей ошибку в выходных векторах. Алгоритм включает несколько шагов:

Начальные значения весов всех нейрон ов полагаются случайными.

Сети предъявляется входной образ x a , в результате формируется выходной образ

Вычисляется вектор ошибки , делаемой сетью на выходе. Дальнейшая идея состоит в том, что изменение вектора весовых коэффициентов в области малых ошибок должно быть пропорционально ошибке на выходе, и равно нулю если ошибка равна нулю.

Вектор весов модифицируется по следующей формуле: . Здесь — темп обучения.

Шаги 1-3 повторяются для всех обучающих векторов. Один цикл последовательного предъявления всей выборки называется эпохой. Обучение завершается по истечении нескольких эпох, а) когда итерации сойдутся, т.е. вектор весов перестает измеяться, или б) когда полная просуммированная по всем векторам абсолютная ошибка станет меньше некоторого малого значения.

Используемая на шаге 3 формула учитывает следующие обстоятельства: а) модифицируются только компоненты матрицы весов, отвечающие ненулевым значениям входов; б) знак приращения веса соответствует знаку ошибки, т.е. положительная ощибка ( d > 0, значение выхода меньше требуемого) проводит к усилению связи; в) обучение каждого нейрон а происходит независимо от обучения остальных нейрон ов, что соответсвует важному с биологической точки зрения, принципу локальности обучения.

Данный метод обучения был назван Ф.Розенблаттом “методом коррекции с обратной передачей сигнала ошибки”. Позднее более широко стало известно название “ d -правило”. Представленный алгоритм относится к широкому классу алгоритм ов обучения с учителем, поскольку известны как входные вектора, так и требуемые значения выходных векторов (имеется учитель, способный оценить правильность ответа ученика).

Доказанная Розенблаттом теор ема о сходимости обучения по d -правилу говорит о том, что персептрон способен обучится любому обучающему набору, который он способен представить. Ниже мы более подробно обсудим возможности персептрона по представлению информации.

Линейная разделимость и персептронная представляемость

Каждый нейрон персептрона является формальным пороговым элементом, принимающим единичные значения в случае, если суммарный взвешенный вход больше некоторого порогового значения:

Таким образом, при заданных значениях весов и порогов, нейрон имеет определенное значение выходной активности для каждого возможного вектора входов. Множество входных векторов, при которых нейрон активен (y=1), отделено от множества векторов, на которых нейрон пассивен (y=0) гиперплоскостью, уравнение которой есть, суть:

Следовательно, нейрон способен отделить (иметь различный выход) только такие два множества векторов входов, для которых имеется гиперплоскость, отсекающая одно множество от другого. Такие множества называют линейно разделимыми. Проиллюстрируем это понятие на примере.

Пусть имеется нейрон , для которого входной вектор содержит только две булевые компоненты , определяющие плоскость. На данной плоскости возможные значения векторов отвечают вершинам единичного квадрата. В каждой вершине определено требуемое значение активности нейрон а 0 (на рис. 4.2 — белая точка) или 1 (черная точка). Требуется определить, существует ли такое такой набор весов и порогов нейрон а, при котором этот нейрон сможет отделить точки разного цвета?

На рис 4.2 представлена одна из ситуаций, когда этого сделать нельзя вследствие линейной неразделимости множеств белых и черных точек.

Рис. 4.2. Белые точки не могут быть отделены одной прямой от черных.

Требуемая активность нейрон а для этого рисунка определяется таблицей, в которой не трудно узнать задание логической функции “ислючающее или”.

Перцептрон

На фоне «романтизма» нейронных сетей, в 1969 году вышла книга С. Паперта , которая показала принципиальные ограничения перцептронов. Это привело к смещению интереса исследователей искусственного интеллекта в противоположную от нейросетей область — символьных вычислений. Кроме того, из-за сложности

Содержание

Появление перцептрона [ ]

Схема искусственного нейрона — базового элемента любой нейронной сети.

Фрэнк Розенблатт со своим творением — «Марк-1».

В 1943 году в своей статье «Логическое исчисление идей, относящихся к нервной активности» У. Мак-Каллок и У. Питтс предложили понятие искусственной нейронной сети. В частности, ими была предложена модель искусственного нейрона. Д. Хебб в работе «Организация поведения» [4] 1949 года описал основные принципы обучения нейронов.

Чтобы «научить» перцептрон классифицировать образы, был разработан специальный итерационный метод обучения проб и ошибок, напоминающий процесс обучения человека. Кроме того, при распознании той или иной буквы перцептрон мог выделять характерные особенности буквы, статистически чаще встречающиеся, чем малозначимые отличия в индивидуальных случаях. Тем самым перцептрон был способен обобщать буквы, написанные различным образом (почерком), в один обобщённый образ. Однако возможности перцептрона были ограниченными: машина не могла надежно распознавать частично закрытые буквы, а также буквы иного размера, расположенные со сдвигом или поворотом, нежели те, которые использовались на этапе ее обучения. [7]

Отчёт по первым результатам появился ещё в 1958 году — тогда Розенблаттом была опубликована статья «Перцептрон: Вероятная модель хранения и организации информации в головном мозге». [8] Но подробнее свои теории и предположения относительно процессов восприятия и перцептронов он описывает 1962 году, в книге «Принципы нейродинамики: Перцептроны и теория механизмов мозга». В книге он рассматривает не только уже готовые модели перцептрона с одним скрытым слоем, но и многослойных перцептронов с перекрёстными (третья глава) и обратными (четвёртая глава) связями. В книге также вводится ряд важных идей и теорем, например, доказывается теорема сходимости перцептрона. [9]

Так же Розенблатт Ф. в предисловии к книге «Принципы нейродинамики: Перцептроны и теория механизмов мозга», отметил три важных момента о теории перцептронов, отвечая на критику:

Во-первых, следует признать, что ранее опубликованные работы страдали недостаточной математической строгостью. Во-вторых, после первых сообщений, появившихся в широкой печати в 1958 г. журналисты взялись за дело, проявив рвение и чувство меры, присущие спущенной с цепи своре гончих. Вряд ли заголовки вроде «Робот BMC, который способен мыслить, намерен создать чудовище Франкенштейна (Тулса, «Оклахома Таймс») продиктованы намеринием укрепить доверие к науке. В-третьих, пожалуй, самым важным является недопонимание разницы между задачами программы по исследованию перцептрона и задачами различных технических проектов, связанных с созданием автоматов, способных распозновать образы, систем, обладающих «искусственным интеллектом», и более совершенных электронных вычислительных машин. По мнению автора, программа по исследованию перцептрона связана главным образом не с изобретением устройств, обладающих «искусственным интеллектом», а с изучением физических структур и нейродинамических принципов, которые лежат в основе «естественного интеллекта». Перцептрон является прежде всего моделью мозга, а не устройством для распознования образов. . Он ни в коей мере не является «полной» моделью, и мы ясно сознаем те упрощения по сравнению с биологическими системами. . Такой подход уже дал существенные результаты: установлен целый ряд фундаментальных принципов . и эти принципы могут быть применены к системам с «искусственной способностью мыслить» там, где они окажутся плодотворными.»

Сеймур Паперт опубликовали в 1969 году книгу «Перцептроны», где математически показали, что перцептроны, подобные розенблаттовским, принципиально не в состоянии выполнять многие из тех функций, которые хотели получить от перцептронов. Эта книга существенно повлияла на пути развития науки об искусственном интеллекте, так как переместила научный интерес и субсидии правительственных организаций США на другое направление исследований — символьный подход в ИИ.

В 80-х годах интерес к кибернетике возродился, так как сторонники символьного подхода в ИИ так и не смогли подобраться к решению вопросов о «Понимании» и «Значении», из-за чего машинный перевод и техническое распознавание образов до сих пор обладает неустранимыми недостатками. Сам Минский публично выразил сожаление, что его выступление нанесло урон концепции перцептронов, хотя книга лишь показывала недостатки отдельно взятого устройства и некоторых его вариаций. Но в основном ИИ стал синонимом символьного подхода, который выражался в составлении все более сложных программ для компьютеров, моделирующих сложную деятельность человеческого мозга.

Описание элементарного перцептрона [ ]

Поступление сигналов с сенсорного поля в решающие блоки элементарного перцептрона в его физическом воплощении.

Элементарный перцептрон состоит из элементов 3-х типов: S-элементов, A-элементов и одного R-элемента. S-элементы это — слой рецепторов. Эти рецепторы соединены с A-элементами с помощью возбуждающих связей. Каждый рецептор может находиться в одном из двух состояний — покоя или возбуждения. A-элементы представляют собой сумматоры с порогом (то есть формальные нейроны). Это означает, что A-элемент возбуждается, если алгебраическая сумма возбуждений, приходящих к нему от рецепторов, превышает определённую величину — его порог. Сигналы от возбудившихся A-элементов передаются в сумматор R, причём сигнал от i-го ассоциативного элемента передаётся с коэффициентом <\displaystyle w_<i>>» width=»» height=»» />. [10] </p>
<p>А- или R-элементы (которые является пороговыми) подсчитывают некоторую входов, то в нем должны быть заданы <img decoding= Файл:Logo arte.jpg Системой подкрепления называется любой набор правил, на основании которых можно изменять с течением времени матрицу взаимодействия (или состояние памяти) перцептрона.

Кроме классического метода обучения перцептрона Розенблатт также ввёл понятие об обучении без учителя, предложив следующий способ обучения:

Файл:Logo arte.jpg Альфа-системой подкрепления называется система подкрепления, при которой веса всех активных связей alt=»<\displaystyle c_>» width=»» height=»» />, которые ведут к элементу alt=»<\displaystyle u_>» width=»» height=»» />, изменяются на одинаковую величину r, а веса неактивных связей за это время не изменяются.

Описывая эти системы подкрепления Розенблатт основывался на идеях Хебба об обучении, уточняя различные возможные виды. Затем с разработкой понятия многослойного перцептрона альфа-система была модифицирована и её стали называть дельта-правило. Модификация была проведена с целью сделать функцию обучения Традиционные заблуждения [ ]

В результате популяризации искусственных нейронных сетей (ИНС) журналистами и маркетологами был допущен ряд неточностей, которые, при недостаточном изучении оригинальных работ по этой тематике, неверно истолковывались молодыми (на то время) учёными. В результате по сей день можно встретиться с недостаточно глубокой трактовкой функциональных возможностей перцептрона по сравнению с другими ИНС, разработанными в последующие годы.

Терминологические неточности [ ]

Неточность № 1. Перцептрон — нейронная сеть без скрытых слоев.

Уоссерменом [23] была сделана попытка определенным образом классифицировать различные виды нейронных сетей:

Как видно из публикаций, нет общепринятого способа подсчёта числа слоев в сети. Многослойная сеть состоит из чередующихся множеств нейронов и весов. Входной слой не выполняет суммирования. Эти нейроны служат лишь в качестве разветвлений для первого множества весов и не влияют на вычислительные возможности сети. По этой причине первый слой не принимается во внимание при подсчёте слоев, и сеть считается двухслойной, так как только два слоя выполняют вычисления. Далее, веса слоя считаются связанными со следующими за ними нейронами. Следовательно, слой состоит из множества весов со следующими за ними нейронами, суммирующими взвешенные сигналы.

В результате такого представления перцептрон попал под определение однослойная нейронная сеть. При этом когда говорят, что перцептрон не имеет скрытых слоев, имеют в виду, что у него нет скрытых слоев обучающихся нейронов (веса которых адаптируются к задаче). Поэтому всю совокупность тех выходов системы из S- и A-элементов, которые достигают R-элемента (единственного обучающегося) просто логически заменяют набором (модифицированных по жёсткому правилу) новых входов.

Но обычное игнорирование необучаемых слоев с фиксированными связями (такой имеется в элементарном перцептроне между S- и А-элементами) позволяет делать неправильные выводы о возможностях ИНС. Так, например, Минский поступил очень корректно, переформулировав А-элемент как Функциональные заблуждения [ ]

Решение элементарным перцептроном «задачи XOR»

Большинство функциональных заблуждений сводятся к якобы невозможности решения перцептроном не линейно разделяемой задачи. Но вариаций на это тему достаточно много, рассмотрим главные их них.

№ 1. Перцептрон не способен решить « выше), а именно, предикаты приравнивают входам (параметрам), хотя это разные вещи. Предикат эквивалентен входу только если предикат зависит от одного аргумента. Другая причина возникает из-за того, что перцептрон путают с пороговым элементом Маккалока — Питса.

№ 2. Выбором случайных весов можно достигнуть обучения и линейно неразделимым (вообще, любым) задачам, но только если повезет, и в новых переменных (выходах A-нейронов) задача окажется линейно разделимой. Но может и не повезти.

Теорема сходимости перцептрона [9] доказывает, что нет и не может быть никакого «может и не повезти»; при равенстве А-элементов числу стимулов и не особенной SA-матрице — вероятность решения равна 100 %. То есть при

Дана цепочка из 2·N единиц или нулей. Если эта цепочка является зеркально симметричной относительно центра, то на выходе +1, иначе 0. Обучающие примеры — все (это важно) <\displaystyle 2^<N>>» width=»» height=»» /> цепочек.</p>
<p>Могут быть вариации данной задачи, например:</p>
<ol>
<li>у Розенблатта число А-элементов равно числу стимулов (обучающих примеров), а не числу входов;</li>
<li>сходимость по Розенблатту, это не стабилизация весов, а наличие всех требуемых классификаций, то есть по сути отсутствие ошибок.</li>
</ol>
<p>Кроме того, Минский исследовал и другие предикаты, например «равенство». Но все эти предикаты представляют собой достаточно специфическую задачу на обобщение, а не на распознавание или прогнозирование. Так, например, чтобы перцептрон мог бы выполнять предикат четность — он должен был бы сказать четно или нет число черных точек на черно-белом изображении, а для выполнения предиката равенство — сказать равна ли правая часть изображения левой. Ясно, что такие задачи выходят за рамки задач распознавания и прогнозирования, и представляют собой задачи на обобщение или просто на подсчет определенных характеристик. Это и было убедительно показано Минским и является ограничением не только перцептронов, но и всех параллельных алгоритмов, которые не способны быстрее последовательных алгоритмов вычислить такие предикаты.</p>
<p>Поэтому такие задачи ограничивают возможности всех нейронных сетей и перцептронов в частности, но это никак не связанно с фиксированными связями первого слоя. Так как во-первых, речь шла о величине коэффициентов связей второго слоя, а во-вторых, вопрос только в эффективности, а не принципиальной возможности. Т.е. перцептрон можно обучить и этой задаче, но емкость памяти и скорость обучения требуемые для этого, будет больше и длительнее, чем при применении простого последовательного алгоритма. Введение же обучаемых весовых коэффициентов в первом слое, лишь ухудшит положение дел, т.к. в этих задачах потребует большего времени обучения, т.к. переменные связи между S и A скорее препятствуют чем способствуют процессу обучения [26] , и нужны особые условия стохастического обучения, чтобы это было бы полезно при подготовке перцептрона к задаче распознавания стимулов особого типа [27] . Это и было показано Розенблаттом в экспериментах с перцептроном с переменными S-A связями.</p>
<h3>Ограничения модели [ ]</h3>
<p>Первые успехи исследований перцептронов и других нейросетей вызвал взрыв активности и энтузиазма. В течение некоторого времени казалось, что ключ к интеллекту найден, и воспроизведение человеческого мозга является лишь вопросом конструирования достаточно большой сети.</p>
<p>Но эта иллюзия вскоре рассеялась. Возможности перцептронов оказались довольно ограниченными, точнее в приделах модели мозга, а ни как популяризировала пресса — для воссоздания человеческого мозга. Серьёзный математический анализ перцептронов был проведён М. Минским и С. Пейпертом (подробнее см. ниже). Впоследствии работа Уоссермена вызвала новый всплеск активности в области искусственных нейронных сетей и применения идей теории перцептронов — на новый лад, с образованием собственной новой терминологии и становлением науки о нейросетях, — но с точки зрения технического их приложения, в противовес построению моделей мозга. К сожалению, некоторые неточности в его работе (основанные на неточностях самих авторов различных модификаций перцептрона, например, Румельхарда) привели к ряду недоразумений. Так, например, Уоссерменом была предложена классификация искусственных нейронных сетей на основе подсчёта числа обучаемых слоев связей, а не по числу структурных элементов сети. Но такая классификация проблематична, так как не позволяет говорить об особенностях определённого вида нейросетей. Это вызвало ряд недоразумений в последующие годы при определении перцептрона, так как сам автор всегда говорил о нем, как о трёхслойном, а классификация по числу обучаемых слоёв предполагала называть его однослойным. Но к сожалению, это сказалось не только на терминологии, но и не верном представлении о перцептроне как простейшем пороговом элементе. Так как была не учтена роль первого не обучаемого слоя.</p>
<p>Сам Розенблатт выделил несколько фундаментальных ограничений для трёхслойных перцептронов (состоящих из одного S-слоя, одного A-слоя и R-слоя):</p>
<table align= Файл:Logo arte.jpg Ограничения для трёхслойных перцептронов
Основные недостатки таких перцептронов состоят в отсутствии у них способности к обобщению своих характеристик на новые стимулы или новые ситуации, не совпадающие в точности с теми, которые имели место при обучении, а также в неспособности анализировать сложные ситуации во внешней среде путём расчленения их на более простые. [28]

Ограничения перцептрона, описанные Минским [ ]

Марвин Минский, 2006 год.

Действительно, Минским, после серьёзных экспериментов с перцептроном и его всестороннего анализа, была предпринята Ограничения, связанные с инвариантным представлением [ ]

Минский описывал специальные задачи такие как «четность» [24] и «один в блоке», [24] которые показывают ограничения перцептрона в том, что он не может распознавать [29] . Итак, более точно первую задачу можно определить как нахождение геометрического свойства. Вот как описывает Минский понятие геометрического свойства:

Когда мы говорим геометрическое свойство, мы имеем в виду что-то инвариантное относительно переноса, или вращения, или растяжения. Сочетание первых инвариантностей определяет конгруэнтную группу преобразований, а наличие всех трёх даёт фигуры подобные в евклидовой геометрии. [30]

Типовая задача № 2. Ряд подзадач могут формулироваться различно, например:

  1. определить, одна или более фигур находятся в видимом пространстве;
  2. плотная ли видимая фигура или же в ней находится отдельная фигура и т. д.

Независимо от этого они имеют общую суть — нахождение признака, связана ли фигура, то есть предиката «связанность» [31] .

Типовая задача № 3. Распознавание фигур в контексте, то есть, например, содержит ли данная фигура прямоугольник или, быть может, что-то еще [32] .

Приведённые здесь три типа задач распознавания не рекомендуется решать с помощью параллельных способов вычислений, в том числе и с помощью перцептрона. [33] Более того, проблема не в конкретной архитектуре перцептрона, а в необходимости знания всего глобального контекста. Поэтому как перцептрон, так и любые другие виды нейронных сетей неспособны полноценно решить представленные здесь задачи. Мы не приводим здесь довольно сложные доказательства Минского, важно лишь, что они основываются на том, что перцептрон (равно как и любая другая нейронная сеть) не справляется с распознаванием инвариантных входных данных.

Ограничения, связанные с возможностью прогнозирования [ ]

Способности ИНС, и в частности перцептрона, не столь велики, как это рекламируется. И это связано даже не с устройством, или алгоритмом, осуществляющим прогноз, а с самим происходящим [34] . И, если рассматривать конечный результат, он полностью прав. Единственно, разницу составляет то, что классические статистические методы требуют расчёта многих сложных уравнений, а перцептрон более естественно решает требуемые уравнения, что связано с его устройством. Если на перцептрон посмотреть глазами математика, то окажется, что перцептрон — это по сути способ решения Технические ограничения по скорости и объему используемой памяти [ ]

Минский показал, что задачи, которые в принципе могут быть решены перцептроном, могут потребовать нереально больших времён [35] или нереально большой [36] . Например, для различения некоторых классов объектов коэффициенты части ассоциативных элементов должны быть столь велики, что для хранения их в вычислительной машине потребовался бы больший объём памяти, чем для того, чтобы просто запомнить все конкретные объекты этих двух классов. [37]

Возможности модели [ ]

Исследования перцептронов показали, что перцептроны способны обучаться. Справедлива теорема о сходимости перцептрона, [9] согласно которой не зависимо от начальных значений коэффициентов и порядка показа образцов при обучении, перцептрон за конечное число шагов научится различать два класса объектов, если только существует такая классификация.

Структура, состоящая более чем из одного слоя A-элементов (скрытого слоя), называется многослойным перцептроном. Такой термин предложил ещё Розенблатт [38] , но про этот факт почти забыли. Со временем вопросом нейронных сетей заинтересовались математики и на основе поиска градиента разработали метод обратного распространения ошибки. Для них это была задача поиска градиента функций многих переменных. Раньше считалось, что вычислительные затраты на поиск градиента (gradH) составляют: alt=»<\displaystyle T_\thicksim nT_>» width=»» height=»» />, где — функции n переменных H(x1 . xn), а T — вычислительные затраты на вычисление одного значения функции n переменных H(x1 . xn). А теперь стало понятно, что достаточно на порядок меньших вычислительных затрат: alt=»<\displaystyle T_\thicksim CT_>» width=»» height=»» />, где C — константа, не зависящая от размерности n (в большинстве случаев C

3). Таким образом, исследование искусственных нейронных сетей, побудило обратится к работам Лагранжа и взглянуть на них с другой точки зрения [39] .

После выхода книги Румельхарта с 1986 года, многослойный перцептрон используется уже в другом смысле, его называют многослойными именно потому, что там один алгоритм обратного распространения ошибки учит все слои, а не потому, что там несколько слоев (так как, несколько слоев было и у Розенблатта). Но перцептрон Розенблатта и многослойный перцептрон (обучаемый по алгоритму обратного распространения ошибки) достаточно разные модели нейросетей, которые специфичны для разного рода задач. Различие задач хорошо видно с математической точки зрения. Требование безошибочности разделяющего правила на обучающей выборке в случае с перцептроном Розенблатта принципиально отличается от критериев оптимальности в случае многослойного перцептрона. Если взять за основу при построении гиперплоскости, разделяющей классы, отсутствие ошибок на обучающей выборке, то чтобы удовлетворить этому условию, придется решать систему линейных неравенств [40] .

Но уже с 2000 года начинают обращать внимание именно на оригинальную версию перцептрона, т.к. обучение многослойного перцептрона с помощью метода обратного распространения ошибки выявило существенные ограничения на скорость обучения. А скорость обучения стало одним из главных критериев пригодности нейронной сети, наравне и даже более важным, чем критерий точности сделанных прогнозов. Поэтому далее будет показано как с помощью перцептрона можно построить систему с достаточно точным прогнозом, и отдельно какими модификациями можно увеличить скорость обучения перцептрона.

Практическое применение перцептрона [ ]

Здесь будет показаны только основы практического применения перцептрона, на двух различных задачах. Задача прогнозирования требует высокой точности, а задача управления агентами высокой скорости обучения. Поэтому рассматривая эти задачи можно полноценно ознакомится с возможностями перцептрона, но этим далеко не исчерпываются варианты использования перцептрона.

Любое практическое применение перцептрона предполагает введение больше одного R — элемента. И как показано Розенблаттом [41] характеристики таких систем не отличаются существенно от характеристик элементарного перцептрона, за тем исключением, что теперь оказывается возможным простыми R — элементами вырабатывать классификации, состоящие более, чем из двух классов, или обучать перцептрон реагировать одновременно на несколько различных признаков, принадлежащих возбуждающему образу (стимулу).

Прогнозирование [ ]

На практике для прогнозирования важно оптимальное кодирование классов распознаваемых образов. Для этого могут использоваться два вида кодирования реакций — конфигурационное и позиционное кодирование. Позиционное кодирование является предпочтительным, и с его помощью можно добится хорошего качества прогнозирования. Так, например, в статье [42] авторы решают задачу распознования рукописных цифр. Для обучения имеется 60000 цифр, а для проверки 10000 цифр. При этом авторы обеспечивают позиционное кодирование, чем добиваются 99.2% качества распознования на тесте, что является одной из лучших характеристик по сравнению со всем другими способами распознавания. Позиционное кодирование как правило обеспечивается по принципу конкуренции, когда берется во внимание только один R — элемент с самой большой степенью возбуждения, а остальные несмотря на то, что они преодолели порог во внимание не берутся.

Но обеспечить позиционное кодирование можно лишь при сравнительно не большом числе классов, например, как в упомянутой выше работе, где число классов 10 (число цифр), несмотря на то, что самих разнообразных примеров 60000. Если же число возможных объектов составляет несколько тысяч, то позиционное кодирование применять становится не оптимально, т.к. требует большое число R-элементов. Поэтому может применяться комбинация конфигурационного и позиционного кодирования, как это было сделанно в работе [43] . Так, например, в этой статье объекты кодируются конфигурационно, т.е. например, для 256 изображений нужно всего 8 бит (а не 256, как это было бы необходиом при позиционном кодировании). Но число самих перцептронов 16, где каждый из них следит только за 1/16 области видимости, поэтому число связей здесь даже меньше, чем это был бы один перцептрон, но следящий за всей областью видимости. Позицонность же здесь проявляется в том, что за правильный ответ считается только тот ответ, который подтверждается большим числом перцептронов. Т.е. конфигурационно определяется наиболее затранные признаки — принадлежность каждой части изображения определенному объекту, и позиционно уже по 16 признакам решается какой из объектов наблюдается в данный момент.

Управление агентами [ ]

Задача управления интеллектуальными агентами может быть решена на базе перцептрона. Конечно, в искусственном интеллекте с точки зрения перцептронов с обратной связью. Самим Розенблаттом такие перцептроны были исследованы лишь поверхностно, что не позволяло их применять практически. В то же время известные рекуррентные нейронные сети, такие как Нейронная сеть Джордана использовали для обучения метод обратного распространения ошибки, что делало их очень медленными и не гарантировало сходимости. Поэтому в последствии были предложены сети объединяющие характеристики быстрого обучения методом коррекции ошибки и возможности обратных связей с внутреними контекстными элементами как у сети Джордана. Примером такой сети является рекуррентный перцептрон Yak-1 [1].

Теоритические возможности перцептрона [ ]

Задача теоритической модели мозга (которой является перцептрон) состоит в том, чтобы показать, как в некоторой физической системе, структура и функциональные свойства которой известны, могут возникать психологические явления. Розенблатт предлагал следующие виды психологических тестов: эксперитменты по различению, обобщению, обнаружению геометрических фигур, эксперименты по количественным оценкам, по распознованию последовательностей, по распознованию отношений, обучению программам, избирательному вспоминанию, образованию абстрактных понятий, формироваию и свойствам «самосознания», творческого воображения. Ряд из этих экспериментов далеки от современных возможностей перцептронов, поэтому их развитие происходит больше философски в приделах направления Классифицирование [ ]

Файл:Logo arte.jpg Сеть с одним скрытым слоем (слоем A-элементов), содержащим <\displaystyle N_>» width=»» height=»» /> нейронов с пороговой функцией активации, способна осуществить произвольную классификацию n примеров (пар стимул-реакция). [44] </td>
</tr>
</tbody>
</table>
<h5>Аппроксимация [ ]</h5>
<table align=
Файл:Logo arte.jpg Одного скрытого слоя нейронов с сигмоидной функцией активации теоритически достаточно для аппроксимации любой границы между классами со сколь угодно высокой точностью. [44]

Выбор непрерывной (монотонной) функции активации (например, сигмоидальной) не влияет на достижение решения. Единственный смысл для которого имеет смысл усложять функция активации по сравнению с пороговой (которая является самой наипростейшей) это возможность интерпретации выходов нейронов как вероятностей принадлежности к соответствующему классу. Что в свою очередь может повлиять на качество прогноза.

Но это имеет проблемы (например, в многослойном перцептроне Румельхарта с алгоритмом обратного распространения ошибки) при сходимости (достижения решения) и существенно понижает скорость обучения, т.е. такие методы как метод обратного распространения ошибки не гарантирует достижение решения, что было доказано Розенблаттом (см. Детерминистические методы обучения).

См. также [ ]

Примечания [ ]

  1. ↑ Искажение в результате перевода с английского.
  2. ↑ «Марк-1», в частности, был системой, имитирующей ↑ «Трёхслойные» по классификации, принятой у Розенблатта, и «двухслойные» по современной системе обозначений — с той особенностью, что первый слой не обучаемый.
  3. Hebb, D. O. The organization of behavior, 1949.
  4. ↑Perceptrons: An Associative Learning Network
  5. ↑Появление перцептрона
  6. ↑Системы распознавания образов
  7. ↑The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain
  8. ↑ 9,09,19,29,3 Розенблатт Ф., с. 102.
  9. Фомин, С. В., Беркинблит, М. Б.Математические проблемы в биологии
  10. ↑ Розенблатт, Ф., с. 158—162.
  11. ↑ Розенблатт, Ф., с. 162—163.
  12. Брюхомицкий Ю. А. Нейросетевые модели для систем информационной безопасности, 2005.
  13. ↑ 14,014,114,2 Розенблатт Ф., с. 81.
  14. ↑ 15,015,115,2 Розенблатт, Ф., с. 200.
  15. ↑ 16,016,116,216,3 Розенблатт Ф., с. 82.
  16. ↑ Розенблатт Ф., с. 83.
  17. ↑ Розенблатт Ф., с. 93.
  18. ↑ Изложение в этом разделе несколько упрощено из-за сложности анализа на основе предикатов.
  19. ↑ Минский, Пейперт, с. 11—18.
  20. ↑ Минский, Пейперт, с. 18.
  21. ↑ Розенблатт, Ф., с. 85—88.
  22. Уоссермен, Ф. Нейрокомпьютерная техника: Теория и практика, 1992.
  23. ↑ 24,024,124,2 Минский М., Пейперт С., с. 59. Ошибка цитирования Неверный тег <ref> : название «chetnost» определено несколько раз для различного содержимого
  24. ↑ Розенблатт, Ф., с. 101.
  25. ↑ Розенблатт, стр. 239
  26. ↑ Розенблатт, стр. 242
  27. ↑ Розенблатт Ф., с. 93.
  28. ↑ Минский М., Пейперт С., с. 50.
  29. ↑ Минский М., Пейперт С., с. 102.
  30. ↑ Минский М., Пейперт С., с. 76—98.
  31. ↑ Минский М., Пейперт С., с. 113—116.
  32. ↑ Минский М., Пейперт С., с. 22—23, с. 99—102, с. 226—227, с. 231—233.
  33. ↑ Минский М., Пейперт С., с. 192—214.
  34. ↑ Минский, Пейперт, с. 163—187
  35. ↑ Минский, Пейперт, с. 153—162
  36. ↑ Минский, Пейперт, с. 152.
  37. ↑ Розенблатт, Ф., с. 251.
  38. ↑ Горбань, А.Н. Быстрое дифференцирование, двойственность и обратное распространение ошибки, глава 3, В кн.: Нейроинформатика / А. Н. Горбань, В. Л. Дунин-Барковский, А. Н. Кирдин и др. — Новосибирск: Наука. Сибирское предприятие РАН, 1998. — 296 с.
  39. ↑ Горбань, А.Н. Решение задач нейронными сетями, глава 2, В кн.: Нейроинформатика / А. Н. Горбань, В. Л. Дунин-Барковский, А. Н. Кирдин и др. — Новосибирск: Наука. Сибирское предприятие РАН, 1998. — 296 с.
  40. ↑ Розенблатт Ф., с. стр. 219-224.
  41. ↑ E. Kussul, T. Baidyk, L. Kasatkina, V. Lukovich Rosenblatt Perceptrons for Handwritten Digit Recognition // IEEE 0-7803-7044-9. — 2001. — С. 1516 – 1520
  42. ↑ С. Яковлев Система распознования движущихся объектов на базе искусственных нейронных сетей // ИТК НАНБ. — Минск: 2004. — С. 230-234.
  43. ↑ 44,044,1 А.А. Ежов, С.А. Шумский (2008) «Нейрокомпьютинг и его применения в экономике и бизнесе» Курсы для ВУЗОВ

Литература [ ]

  • Брюхомицкий, Ю. А.Нейросетевые модели для систем информационной безопасности: Учебное пособие. — Таганрог: Изд-во ТРТУ, 2005. — 160 с.
  • Мак-Каллок, У. С., Питтс, В. Логическое исчисление идей, относящихся к нервной активности = A logical calculus of the ideas immanent in nervous activity // Автоматы : Сб.. — М.: 1956. — С. 363—384.
  • Минский М., Пейперт С.Персептроны = Perceptrons. — М.: Мир, 1971. — 261 с.
  • Розенблатт, Ф.Принципы нейродинамики: Перцептроны и теория механизмов мозга = Principles of Neurodynamic: Perceptrons and the Theory of Brain Mechanisms. — М.: Мир, 1965. — 480 с.
  • Уоссермен, Ф.Нейрокомпьютерная техника: Теория и практика = Neural Computing. Theory and Practice. — М.: Мир, 1992. — 240 с. — ISBN 5-03-002115-9
  • Хайкин, С. Нейронные сети: Полный курс = Neural Networks: A Comprehensive Foundation. — 2-е изд. — М.: ISBN 0-13-273350-1
  • E. Kussul, T. Baidyk, L. Kasatkina, V. Lukovich Rosenblatt Perceptrons for Handwritten Digit Recognition // IEEE 0-7803-7044-9. — 2001. — С. 1516 – 1520.
  • E.Kussul, T. Baidyk Improved method of handwritten digit recognition tested on MNIST database // Image and Vision Computing. — 2004. — С. 971–981.
  • С. Яковлев Система распознования движущихся объектов на базе искусственных нейронных сетей // ИТК НАНБ. — Минск: 2004. — С. 230-234.

Внешние ссылки [ ]

    . Проверено 3 мая 2008.
  • Редько В. Г. Искусственные нейронные сети (1999). Проверено 1 мая 2008.
  • Яковлев С. С. Линейность и инвариантность в искусственных нейронных сетях (pdf) (2006). Проверено 1 мая 2008.
  • Estebon, M. D., Tech, V. Perceptrons: An Associative Learning Network (англ.) (1997). Проверено 3 мая 2008.
  • А.Н.Горбань, В.Л.Дунин-Барковский, А.Н.Кирдин, НЕЙРОИНФОРМАТИКА. — Новосибирск: Наука. — 296 с. ISBN 5020314102 (1998). Проверено 15 октября 2008.
  • А.А. Ежов, С.А. Шумский »Нейрокомпьютинг и его применения в экономике и бизнесе» Курсы для ВУЗОВ (2008). Проверено 13 декабря 2008.

Основополагающая статья была написана Сергеем Яковлевым и была первоначально размещена в Википедии на условиях GFDL. Впоследствии статья была значительно уточнена автором и предоставлена на тех же условиях данному проекту. Так же, как и в этом проекте, текст этой статьи, размещённый в Википедии, доступен на условиях GNU FDL. Статью, размещенную в Википедии можно найти по адресу: Перцептрон.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *