Основные принципы оптимального поведения. Результаты поиска по \"оптимальное поведение\" Оптимальное поведение системы

Поведение, которое кажется явно адаптивным, или хорошо спланированным, может быть либо результатом использования животным простейших эмпирических правил поведения, либо представлять собой когнитивное, или намеренное, поведение (см. разд. 26.7). Например, ребенок может пересечь улицу в соответствии со строгими правилами уличного движения. Если ребенка хорошо обучили, то его поведение при переходе дороги будет автоматизированным. Взрослый же человек, который не обучался этим правилам, например иностранец, будет обдумывать, как перейти улицу, оценивать скорость и характер движения приближающегося транспорта и т. д. Внешняя картина поведения ребенка и взрослого при переходе через улицу может быть практически неотличимой, но в одном случае это поведение осуществляется на основе простейших эмпирических правил, а в другом - на основе познавания.

Можно обеспечить оптимальность поведения посредством простого набора правил. Пример такого рода мы находим в работе Грина (Green, 1983), проанализировавшего правила остановки, которые должны обеспечивать оптимальность пищедобывательного поведения. В своей работе Грин предположил, что животные-жертвы распределены по различным участкам земли, которые различаются по качеству, и на лучших из них хищники гораздо быстрее ловят свою добычу. В разных условиях среды распределение участков по качеству будет различным. Предполагается, что хищник в состоянии различать типы кормных участков, только оценивая свой успех на каждом из них. Хищник не возвращается на тот участок, где он уже побывал, и систематически обследует каждый участок до тех пор, пока не решит оставить его и перебраться на другой.

Оптимальную стратегию пищедобывания можно охарактеризовать правилом остановки, которое определяет, когда именно хищнику следует оставить данный участок. В любое время хищник может решить, уйти или остаться на данном участке, чтобы продолжать поиски жертвы. Грин показывает, что наилучшее правило остановки - это то, в основу которого положено количество добычи как функция времени, потраченного на обследование данного участка. Альтернативные правила остановки включают в себя: наивную стратегию, при которой хищник полагается на знание средней вероятности обнаружения жертвы на каждом участке; всеведущую стратегию, при которой хищник может оценить качество каждого участка, не обследуя его, и таким путем может избежать бедных добычей участков, и, наконец, стратегию учета мгновенной скорости пищедобывания. При этой стратегии хищник покидает участок охоты, когда эта скорость падает ниже критического уровня. Наилучшая стратегия, по Грину, подразумевает оценку качества участка по мере его обследования. Эта стратегия продуктивнее, чем наивная стратегия и стратегия учета мгновенной скорости пищедобыва-


ния. Она также более продуктивна, чем всеведущая стратегия, потому что предъявляет меньше требований к способности отдельного животного производить расчеты. Стратегию Грина можно представить в виде простого правила: оставаться на участке столько времени, пока больше половины обследованных мест приносит добычу, в противном случае - уходить. Эта стратегия может быть осуществлена посредством простого механизма.

Модели Грина (Green, 1980; 1983) и Вааге (Waage, 1979) дают сходные результаты. Однако при этом важно помнить, что у Грина это функциональная модель, которая точно определяет, что именно животному следует делать, чтобы достигнуть наилучшего результата. Модель Вааге механистическая, и она построена на основе представлений о непосредственных причинах возникновения поведения.

Один из методов, с помощью которого можно определить, следует ли животное в выборе своего решения тем или иным фиксированным правилам, состоит в том, чтобы каким-то образом избирательно вмешиваться в его поведение. Например, при исследовании поведения роющих ос (Ammophila campestris) Берендс (Baerends, 1941) обнаружил, что перед тем, как отложить яйцо, самка роет норку, убивает или парализует гусеницу бабочки, несет ее к норке, откладывает на гусеницу яйцо и прячет ее в норке. Эту процедуру самка осы повторяет затем при откладывании второго и каждого последующего яйца. Тем временем созревает первое яйцо, и личинка начинает пожирать гусеницу. Теперь оса возвращается к первой норке и добавляет в нее новых гусениц. После этого в зависимости от обстоятельств она может приступить к изготовлению новой норки или будет снабжать гусеницами вторую норку. Таким образом самка осы может обслуживать до пяти гнезд одновременно (рис. 25.16).

Берендс обнаружил, что осы каждое утро проверяют все норки, прежде чем отправиться в свои «охотничьи угодья». Забирая гусениц из норки, Берендс мог заставить осу приносить больше пищи, чем обычно; добавляя гусениц, он мог заставить ее приносить меньше пищи. Однако он мог таким образом управлять поведением осы только в том случае, если производил изменения в гнезде перед первым ежедневным посещением норки осой. Если же такие изменения совершались в течение дня после этого момента, они не вызывали никакого эффекта. По-видимому, самка осы руководствуется какими-то простыми правилами. Существует стандартный порядок действий, необходимых для откладывания яйца, который предусматривает рытье норки и заготовку гусеницы. Кроме того, имеется стандартный распорядок проверки ранним утром всех норок, в ходе которого обычно устанавливается, в какое гнездо в течение дня необходимо принести пищу. И наконец, существует стандартный порядок прекращения этой деятельности, в соответствии с которым оса закрывает гнездовую норку, когда в ней окажется достаточное число гусениц. Хотя она и способна при посещении гнезда оценить количество запасенной в нем пищи, она не всегда использует эту способность. Более того, каждая из стандартных последовательностей действий, будучи начата, продолжается до полного завершения. Так, например, оса будет приносить и прино-


Рис. 25.16. Диаграмма гнездового поведения роющей осы (Ammophila). (По Baerends, 1941.)

сить в гнездо гусениц, если их систематически каждый раз удалять из гнезда, как только оса их принесет. Этот пример показывает, что сложное поведение может быть запрограммировано в виде набора жестких правил. Оса ведет себя наподобие автомата, хотя у нее и есть некоторые стандартные программы поведения, позволяющие ей выходить из затруднительного положения, например удалять из норки какие-то препятствия.

Как мы уже видели ранее, прерывание поведения животного при определенных обстоятельствах маскирует поведение, которое должно было бы проявиться, если бы не было этого перерыва. Такая ситуация разделения времени предполагает, что животное следует определенным правилам, которые определяют организацию и приоритетность поведенческих актов в общей картине поведения. Рассмотрим конкретный пример. Когда голодная горлица (Streptopelia) ест, либо выбирая зерна из кучи, либо получая пищу в камере Скиннера, в ее поведении можно наблюдать типичные паузы длительностью в несколько минут (см. рис. 25.11). Что будет делать горлица во время этих пауз, зависит от обстоятельств. Если птица имеет доступ к воде, она будет пить. В противном случае она может чистить перья или просто неподвижно стоять. В экспериментальных условиях было показано, что на время возникновения этих пауз никакого влияния не оказывает манипулирование мотивационными факторами вторичного приоритета, например изменением уровня жажды. В одном из экспериментов голодным горлицам к каждому крылу прикрепили по канцелярской скрепке. Во время еды горлицы не обращали на скрепки никакого внимания, тогда как во время пауз они пытались от них отделаться. Однако наличие канцелярских скрепок не оказывало влияния на характер пищевого поведения и не меняло временного распределения пауз (McFarland, 1970b). Создается впечатление, что в пищевом поведении горлицы как бы запрограммированы на строго определенное время паузы и что правила, которые регулируют пищевое поведение горлиц, не находятся под каким бы то ни было влиянием со стороны других мотивационных факторов, например жажды или стремления чистить перья, если только эти тенденции не станут сильнее, чем пищевая. Это типичный случай явления разделения времени.


Рис. 25.17. Граница между состояниями животного, в которых доминируют голод и жажда.

Если каким-то путем прервать пищевое поведение голодной горлицы, то обычно после перерыва она продолжит это поведение. Но если прервать процесс питья воды, то, как правило, он будет маскироваться, если перерыв будет достаточно большим (McFarland, Lloyd, 1973). В экспериментальной ситуации с инструментальным поведением, где горлицы для получения пищи и воды должны клевать светящиеся клавиши, прерывания текущей деятельности можно добиться простым выключением подсветки клавиши. Птицы быстро научатся прекращать клевание, когда эти клавиши не светятся. В условиях свободного пищевого и питьевого поведения прерывания поведения можно достигнуть, если экспериментальную комнату примерно на минуту погрузить в темноту. При сравнении оказалось, что эти два типа прерывания деятельности горлиц оказывают одинаковый эффект (Larkin, McFarland, 1978).

Разделение времени при пищевом и питьевом поведении горлиц послужило объектом многочисленных экспериментов, целью которых было обнаружить правила, на основе которых птица принимает решение, есть ей или пить. Результаты показывают, что, во-первых, в экспериментах может доминировать либо питьевая, либо пищевая деятельность (McFarland, Lloyd, 1973; McFarland, 1974). Во-вторых, линия, отражающая границу (рис. 25.17) между доминированием голода и доминированием жажды, не меняет своего положения ни при повторных опытах, ни при различных начальных уровнях голода и жажды животного, ни при изменении результатов пищевого и питьевого поведения (Sibly, McCleery, 1976). Однако если в ходе эксперимента изменять мотивационное состояние птицы, то может показаться, что произойдет поворот графика, отражающего границу между доминирующими состояниями (рис. 25.18). Теоретический анализ этой ситуации показывает, что никакого реального изменения в положении границы доминирующих состояний не происходит. Это кажущееся изменение обусловлено используемой экспериментатором системой координат, потому что мотивационное состояние животного обычно изображается в двух измерениях, тогда как здесь необходимо учитывать и другие измерения (McFarland, Sibly, 1975). Величина этого кажущегося поворота границы доминирующих состояний оказалась полезным показателем для измерения силы мотивационных факторов, таких, как величины привлекательности пищевого и питьевого подкреплений (Sibly, 1975), эффективность внешних стимулов, которые сиг-


нализируют о доступности пищи и воды (McFarland, Sibly, 1975; Beardsley, 1983), и затраты (оцениваемые самой птицей) на смену пищевого поведения на питьевое и наоборот (Larkin, McFarland, 1978). В целом создается впечатление, что и внутренние, и внешние факторы оказывают какое-то влияние на. тенденции пищевого и питьевого поведения и что эти тенденции конкурируют за доминирование (McFarland, 1974). Заняв доминирующее положение, победившая система периодически предоставляет время для осуществления другой (субдоминантной) деятельности. Почему поведение организовано именно таким образом, остается загадкой.

Вполне возможно, что в пищевом поведении горлиц паузы представляют собой часть стратегии поведения, направленной на обнаружение хищников. Находясь в стае, отдельные птицы имеют возможность тратить больше времени на добывание пищи и меньше - на то, чтобы следить, не появится ли хищник (Barnard, 1980; Bertram, 1980; Elgar, Catterall, 1981). Лендрем (Lendrem, 1983) обнаружил, что горлицы, питаясь в одиночку, тратят около 25% времени из двухминутного периода пищевого поведения на то, что оглядываются по сторонам, а когда рядом есть другие птицы - около 20%. Однако эта разница была гораздо более выраженной, если горлицы незадолго до этого видели поблизости хищника (хорька). В этой ситуации одинокие горлицы тратят около половины времени на то, чтобы осматриваться вокруг, тогда как в присутствии двух других птиц у них уходит на это только 25% времени. Время, затрачиваемое не на добывание пищи, уменьшалось еще больше, когда число птиц в стае возрастало. По мере увеличения размера стаи горлицы получали пищу быстрее, в то же время общая скорость добывания пищи снижалась, если они недавно видели хищника. Как показывает детальный анализ пищевого поведения горлиц, в ситуациях риска у них снижается скорость добывания пищи, тогда как паузы между приемами пищи увеличиваются. Таким образом, они питаются медленнее, когда находятся одни в незнакомом окружении и вскоре после того, как видели хищника. Особенно увеличивается при этом период времени после каждого клевка, когда горлица стоит с поднятой головой; возможно, что это повышает способность птицы заметить хищников.

Скорость добывания пищи снижается также и в том случае, когда горлицам приходится отличать пригодную пищу от непригодной. Добавляя хлорид лития к пище горлиц в сочетании с определенными условиями кормления, можно научить этих птиц, как и многих других животных, избегать пшеничных зерен, окрашенных в определенный цвет (Lendrem, McFarland, 1985). Наученные птицы ведут себя таким образом, как если бы зерна этого цвета были ядовитыми. Например, одни птицы избегают желтых зерен, а другие - красных. Когда таким горлицам дают смесь красных и желтых зерен, им приходится различать эти два типа зерен, чтобы избежать зерен того цвета, к которому у них образовалось отвращение. Птицы, которые добывают пищу из смеси «ядовитых» и безвредных зерен, питаются медленнее, чем птицы, которым дается смесь из «неядовитых» зерен различного цвета (Lendrem, McFarland, 1985).


Если горлица питается медленнее обычного, поскольку ей приходится отличать безвредные зерна от ядовитых, то можно думать, что у нее ослаблена способность обнаруживать хищников, поскольку она обращает больше внимания на пищу. На самом же деле скорость реагирования горлиц на пролетающую над их головой модель ястреба повышается, если горлицам дают смесь ядовитых и безвредных зерен (Lendrem, McFarland, 1985). Птицы, которым предварительно показали хищника (и которые поэтому клюют зерна с пониженной скоростью), быстрее реагируют на модель ястреба, чем птицы, которым приходится отличать безвредную пищу от ядовитой. Таким образом, создается впечатление, что более медленное питание, какой бы причиной оно не вызывалось, увеличивает способность птицы обнаруживать хищников. Эти данные согласуются с представлением о том, что высокая скорость добывания пищи (или другого поведения) связана с большими затратами.

Что же произойдет, если мы еще усложним задачу по различению зерен, положив их на таком фоне, где они будут плохо различимы? Как и следовало ожидать, произойдет дальнейшее снижение скорости пищевого поведения (рис. 25.19). Отчасти это может быть связано с тем, что птицы должны обращать больше внимания на добывание пищи, но это может быть и проявлением активной тактики, направленной на то, чтобы не терять бдительности. Горлицы, которые выбирают безвредные зерна из смеси с ядовитыми на таком фоне, где они плохо различимы, быстрее замечают модель ястреба, чем птицы, выбирающие хорошо различимые зерна (рис. 25.20) (Lendrem, McFarland, 1985). Однако птицы, которые выбирают подходящие зерна в условиях низкой их различимости, совершают больше ошибок (едят больше ядовитых зерен) и реже делают паузы в пищевом поведении, чем птицы, питающиеся хорошо различимыми зернами. Таким образом, совершенно очевидно, что существует определенный баланс между требованиями бдительности и требованиями пищедобывания.

В заключение следует сказать, что, по всей вероятности, горлицы, которые по-

Рис. 25.19. Скорость поглощения пищи горлицами, которым была предложена смесь «ядовитых» и безвредных зерен, в условиях, когда зерна этих двух типов трудно (низкая различимость) или легко (высокая различимость) отличить друг от друга. (Lendrem, McFarland, 1985.)

Рис. 25.20. Латентные периоды реакции на модель ястреба у горлиц, которые питаются в условиях низкой и высокой различимости пищи (рис. 25.19). Обратите внимание на то, что горлицы в условиях низкой различимости зерен хотя и питаются медленнее, зато быстрее реагируют на потенциального хищника. Эти результаты позволяют предположить, что пониженная скорость поглощения пищи при поедании плохо различимого зерна обусловлена не тем, что для различения зерен птица должна сосредоточить на этом все внимание, а скорее тем. что эта ситуация более опасна (вследствие повышенной вероятности проглотить «ядовитое» зерно), и поэтому горлицы обращают больше внимания на окружающую обстановку, в целом. (По Lendrem, McFarland, 1985.)


едают пищу быстро, имеют меньше шансов заметить хищников. Когда горлицы настороженны, т. е. когда они находятся в незнакомой обстановке, или в одиночестве, или в ситуации, где они недавно видели хищника, горлицы поедают пищу медленнее. Однако у горлиц существует целый ряд различных способов, с помощью которых они могут снизить общую скорость поедания пищи. Например, они имеют возможность чаще делать паузы, удлинять их или уменьшать скорость собственно поедания пищи. Эти способы могут увеличить шансы заметить хищника. Есть некоторые указания на то, что эти различные методы компенсируют друг друга (Lendrem, McFarland, 1985). Вполне возможно,

что горлицы полагаются на то, что смогут обнаружить необычное движение во время подъема головы после каждого клевка, а паузы делают, чтобы время от времени оглядеться вокруг. Не исключено, что, делая паузы в клевании, птица может потратить некоторое время на чистку перьев или питье, - это пример феномена, называемого разделением времени. В настоящее время мы не обладаем достаточными знаниями о зрении птиц, чтобы подтвердить эти гипотезы. Мы также не знаем, используют ли птицы какой-то сложный набор правил принятия решений или же их поведение регулируется посредством когнитивных процессов.

ДЛЯ ЗАПОМИНАНИЯ

1. Животные могут принимать решения на основе простых эмпирических правил, которые помогают им приспособиться к конкретным особенностям окружающей среды.

2. Если при манипулировании второй по приоритету активностью изменяется распределение во времени переключений животного с одной деятельности на другую, то можно сделать вывод, что эти переключения обусловлены конкуренцией мотиваций. Если же это распределение не меняется, то такие переключения вызваны растормаживанием.

3. В том случае, когда момент начала и продолжительность проявления какой-то деятельности регулируются другой деятельностью, можно говорить, что поведение организовано в режиме разделения времени.

4. Принятие оптимального решения животным реализуется в последовательности поведенческих актов, которая максимизирует некоторый показатель приспособленности организма при существующих условиях. Любое нарушение взаимного соответствия между животным и его средой обитания будет приводить к тому, что такая максимальная приспособленность будет редко достигаться. Однако животные могут использовать такие правила принятия решения, что их поведение будет близким к оптимальному.

Krebs J. R., McCleery R. //., 1984. Optimisation in behavioural ecology. In: Krebs J. R., Davies N. B. (eds), Behavioural Ecology, 2nd edn, Oxford, Blackwell Scientific Publications.


Метод динамического программирования, разработанный в 50-х годах американским математиком Р.Беллманом, представляет собой новый подход к решению вариационных задач. Идея этого подхода состоит в том, что оптимальное поведение рассматривается как функция состояния системы, описываемого с помощью значения фазовых координат в текущий момент времени t . Беллман очень точно подметил связь между причинностью и оптимальностью для динамических систем в том смысле, что если изменение состояния любой динамической системы под воздействием входного управляющего сигнала можно описать функциональным уравнением, характеризующим причинность

то у оптимальной системы для описания изменения ее состояния, характеризуемого некоторой функцией как степень достижения подавленной цели, существует по аналогии такого же типа функциональной уравнение лишь с той разницей, что достигается минимум или максимум целевой функции при выборе управления:

При этом выбор управления на отдельном шаге производится с точки зрения интересов не только данного шага, но и всего процесса в целом, как на текущем, так и на всех последующих шагах.

Исходя из этого, Беллманом был сформулирован принцип оптимальности, каковы бы ни были начальное состояние и начальное управление, последующие управления должны быть оптимальными относительно состояния, являющегося результатом применения первого управления. Принцип оптимальности можно также сформулировать следующим образом: оптимальное поведение не зависит от предыстории системы, а определяется только начальным (к данному моменту времени) условием и конечной целью, и текущее управление должно выбираться с учетом последствий в будущем. Классическим примером оптимального поведения является стратегия бегуна на дальнюю дистанцию. На старте бегун составляет график своего бега так, чтобы пройти дистанцию за минимальное время. Это не значит, что каждый участок он должен бежать как можно быстрее. Наоборот, находясь на дистанции, он в каждый момент времени должен распределять свои силы так, чтобы с учетом своего состояния пробежать оставшийся участок за минимальное время, чему может соответствовать и бурный финиш в конце дистанции.

Динамическому программированию органически присуще решение задач, дискретных по своей природе в силу рекуррентности последовательного выбора управления в многошаговой процедуре оптимизации. Заметим, что принцип оптимальности справедлив как для непрерывных детерминированных, так и для стохастических процессов управления, благодаря чему динамическое программирование может широко применяться в ряде кибернетических задач.

Несмотря на кажущуюся простоту принципа оптимальности из него можно вывести ряд нетривиальных условий оптимальной траектории.

Дискретная форма динамического программирования.

Изучение метода начнем с решения одномерной задачи, когда управляемый автономный одномерный объект описывается либо в дискретной форме

либо в дифференциальной формекоторой соответствует разностное уравнение

где u - ограниченное в общем случае управление, т.е.

;-- Дискрет времени, равный.

При заданном начальном состояний объекта и свободном правом конце необходимо за фиксированное время обеспечить минимум заданного функционала

или в виде аддитивной целевой функции

Таким образом, J есть функция (к + 1) выбираемых переменных, присутствующих в (к +1) уравнениях связи, т.е. можно попытаться решить задачу с помощью множителей Лагранжа. Однако это сложно из-за большой размерности задачи, поэтому применим иной подход.

Выведем сначала функциональное уравнение Беллмана , рассуждая следующим образом. Пусть минимизируемое значение функционала J в начальный момент времени определенным образом зависит от начального состояния системы, т.е. от и х (). Обозначим эту зависимость через, называемую функцией Беллмана, понимая под этим не любое значение функционала, а его минимум при оптимальном поведении системы.

Представим теперь, что система функционировала некоторое время, в результате чего к моменту она пришла в новое состояние. Тогда, согласно принципу оптимальности, оставшееся значение минимизируемого функционала

как результат последующих оптимальных действий есть также функция Беллмана, но уже зависящая от новых значений и. Теперь осталось связать функции и, друг с другом, представив последствия от выбираемого управления в промежуток времени в виде двух слагаемых -- потерь внутри данного шага и потерь на всех последующих шагах вплоть до конца решения задачи, зависящих от и, потому что последствия в будущем определяются новым состоянием, которое согласно формуле (3.1) описывается выражением

Поэтому, преследуя цель минимизации суммарных потерь, как текущих так и последующих, можно записать

Рассуждая аналогичным образом при переходе к следующему шагу от момента к моменту и т.д. к моменту, можно записать следующее функциональное уравнение:

Развивая этот же подход применительно к многомерному неавтономному объекту, можно получить функциональное уравнение Беллмана:

Пошаговый выбор управления с помощью уравнения (1.5) удобен для расчетов на ЭВМ. В этом случае численное решение обычно осуществляют с правого конца задари. Поскольку краевые условия на правом конце не определены однозначно, то расчеты начинают, задавшись множеством значений вектора, разбивая, например, диапазон возможных значений на R- 1 участков. В результате для каждого из вариантов конечного состояния определяется единственное управление на последнем шаге (в предположении, что управления на остальных шагах будут найдены позже), поскольку при заданном только от него зависит последнее слагаемое в функции (1.3):

Эта операция проводится также численно, например путем разбиения каждого из диапазонов возможных значений и на (М-1) участков, что образует вариантов управления. Результаты наилучшего варианта запоминаются, а именно для каждого из вариантов фиксируются три величины -- вектор состояния, оптимальное управление и минимум целевой функции. Таким образом, в памяти ЭВМ хранится чисел.

На следующем шаге, являющемся уже типичным для расчетов, снова формируются варианты состояния, а затем для каждого из них численно определяется управление, но уже исходя из минимума суммы двух слагаемых, причем второе слагаемое отыскивается в памяти ЭВМ в соответствии с переходом из B ;

Результаты расчета для нового шага также запоминаются в ЭВМ. Эта процедура повторяется, двигаясь от конца к началу для всех шагов, кроме первого. При этом необходимый объем памяти непрерывно растет. Наконец на первом шаге, воспользовавшись единственным вариантом заданного начального состояния, численно определяют оптимальное управление, но именно ради этого необходимо было запомнить итоги оптимизации на втором шаге, а это приводит к необходимости помнить результаты на предыдущих шагах.

Теперь, поскольку управление найдено и, значит, определено значение, представляющее собой минимизируемое значение функционала, осталось выявить конкретные значения, соответствующие данной оптимальной траектории. Для этого на основании уравнения (1.7) и известного управления определяется состояние, которому соответствует свое запомненное управление. Продолжая теперь движение слева направо, последовательно восстанавливают всю программу управления и оптимальную траекторию за все к шагов.

Рис.2.

Рассмотренным методом решаются задачи, когда на правом конце часть фазовых координат закреплена. Например, на рис.2 представлен случай перехода из точки А в точку В с произвольной конечной скоростью; Тогда движение справа налево, как это показано на рис.2, при к=3 требует переменного объема запоминаемых результатов, поскольку по координатам и вначале оценивается малое число вариантов, а потом число растет, вплоть до момента достижения точки А. При этом основное содержание расчета на каждом шаге остается прежним.

Нужно отметить, что, несмотря на определенную утомительность рассмотренной вычислительной процедуры, метод динамического программирования сводит задачу минимизации функции переменных отдельным шагам расчетами минимизации функции Беллмана, зависящей только от г переменных. Это экономит время расчета, требуя, правда, значительного объема памяти ЭВМ. Достоинством метода при численных расчетах является также и снижение объема вычислений при сужении области допустимых управлений или допустимого множества значений. Однако с увеличением размерности задачи дискретизация увеличивает число вариантов расчета запоминаемых результатов в степени п, что известно как «проклятие размерности», и требует иных подходов к применению динамического программирования.

Непрерывная форма динамического программирования

Принцип оптимальности Беллмана дает достаточно общее условие, которое можно применять как для дискретных, так и для непрерывных систем управления.

Рассмотрим следующий предельный случай, когда дискретность времени бесконечно мало, т.е. . Обратимся к функциональному уравнению Беллмана для одномерного объекта, заменив в нем дискретный момент времени (на текущее время) и согласно (1.2) и (1.3) функции и соответственно на и. Тогда можно получить выражение

При этом функция S во втором слагаемом правой части уравнения также имеет бесконечно малые приращения. Допустим, что функция Беллмана S непрерывна и, кроме того, существуют частные производные. Тогда можно разложить функцию ряд Тейлора в точке (х,t) и, пренебрегая членами второго порядка малости, получить

Заметим, что последнее слагаемое может быть учтено, если переменная х (t) есть случайный процесс, в котором присутствует составляющая типа белого шума с бесконечно большой дисперсией D, равной где -- коэффициент диффузии. Подставим полученный результат в правую часть уравнения (1.8). С учетом того, что функции и от управления на зависят как результаты уже проведенной оптимизации и могут быть вынесены за фигурные скобки, уравнение (3.8) можно представить в виде


Перенеся первые два члена в левую часть, разделим уравнение на:

Последними двумя слагаемыми при можно пренебречь из-за их малости. Тогда с учетом случайного характера оптимизируемого процесса получим уравнение.

Если рассматривать детерминированный случай при и, наконец, исследовать поведение системы с п координатами и r управлениями,то можно получить известное уравнение Беллмана в частных производных

Очень важно подчеркнуть, что уравнение Беллмана (1.10) является нелинейным дифференциальным уравнением, поскольку в нем присутствует операция минимизации. В векторной форме его можно записать так:

Поясним теперь смысл слагаемых, входящих в правую часть уравнения (1.10). Первое слагаемое характеризует потери на текущем шаге, второе слагаемое в виде суммы членов оценивает последствия от принятого решения в будущем. Причем каждый член учитывает изменение текущего состояния по координате, возникающее за счет управления, с помощью производной, которая умножается на свой весовой коэффициент. Таким образом, производные есть своего рода «коэффициенты чувствительности» оставшегося значения минимизируемого функционала к изменениям текущих значений фазовых координат. Это соображение иллюстрирует дальновидность метода и оживляет представление о функции Беллмана как о некоторой функции отклика критерия оптимальности на измененные вектора состояния. Часто в технических задачах можно физически уяснить себе характер зависимости функции S от фазовых координат системы. Поэтому удается найти управление в функции от состояния фазовых координата, что позволяет прийти к замкнутой системе управления с обратной связью и тем самым ускорить решение задачи, что будет показано ниже в примерах.

С помощью динамического программирования можно решать задачи и с незакрепленным временем управления. В частности, для автономных систем можно получить уравнение Беллмана в виде

где функция от времени не зависит. Для задач максимального быстродействия в уравнении (1.11) нужно ввести замену.

В заключение отметим, что вывод уравнений (1.10) и (1.11) требовал дифференцируемости функции S. Однако существуют задачи, где эта функция не является дифференцируемой, а оптимальное управление существует. Поясним на примере, что на линии переключения функция S всегда не дифференцируема.

Связь динамического программирования с вариационным исчислением и принципом максимума

Метод динамического программирования носит более универсальный характер, чем методы, основанные на принципе максимума и вариационном исчислении, поскольку он был разработан для оптимального управления процессами, не обязательно описываемыми системой дифференциальных уравнений. Вместе с тем этот метод не имеет строгого обоснования в ряде случаев по сравнению с принципом максимума и вариационным исчислением, хотя и тесно связан с ними.

Связь метода динамического программирования с вариационным исчислением. Пусть целевая функция зависит от скорости изменения фазовых координат. Тогда уравнение (3.10) можно записать в виде

Продифференцируем уравнение (1.12) по с учетом того, что функция Беллмана от не зависит:

Затем запишем полную производную по t:

Продифференцируем теперь уравнение (1.14) по;

Вычитая из полученного результата предыдущее уравнение, приходим к уравнению Эйлера в вариационном исчислении

Заметим это соотношение было получено в предположении о непрерывности частных производных второго порядка.

Пусть теперь граничное условие задачи в конечный момент времени есть соотношение

Тогда с учетом равенства (1.13) получим из (1.12) следующее соотношение, идентичное условию задачи с подвижным концом в вариационном исчислении:

Кроме того, можно убедиться, что уравнение (1.13) есть необходимое условие минимума для выражения в правой части (1.13), поскольку, во-первых, уравнение (1.13) есть частная производная от этого выражения по, приравненная к нулю. Во-вторых, дифференцируя по уравнение (1.13) вторично и учитывая равенство нулю производной от первого слагаемого, получаем еще одно необходимое условие минимума, состоящее в положительной определенности матрицы частных производных второго порядка, что совпадает с условием Лежандра в вариационном исчислении.

Можно также показать , что если экстремум в точке совпадает с абсолютным минимумом, т.е.

то это соответствует известному условию Вейерштрасса.

Связь метода динамического программирования с принципом максимума. Геометрическая интерпретация динамического программирования. Связь с функцией Ляпунова. Классическое описание данной взаимосвязи строится на том, что из уравнений динамического программирования при определенных допущениях выводятся результат ты, соответствующие принципу максимума . Основной смысл этих сопоставлений состоит в том, чтобы показать, что для применения динамического программирования нужны излишне жесткие требования, связанные с существованием непрерывных частных производных. Действительно, если для задачи с закрепленным временем ввести (п + 2)-мерную вектор-функцию

то уравнение Беллмана (1.10) можно записать в виде

или тах, что соответствует принципу максимума, если ввести функцию.

Если рассмотреть задачу максимального быстродействия, то, воспользовавшись уравнением (1.14) для автономных систем и продифференцировав его по, получим

Первое слагаемое можно преобразовать, учитывая очевидное соотношение

откуда получаем следующий результат:

Видно, что в оба слагаемых входят одни и те же функции которые мы теперь «обозначим через.

Тогда условие (1.14) для оптимального процесса приобретет вид,

что сразу же позволяет левую часть этого равенства обозначить через гамильтониан Н, а из соотношения (1.15) получить используемую в принципе максимума систему дифференциальных уравнений относительно вспомогательных переменных

Таким образом, результаты динамического программирования и принципа максимума совпадают, если ввести обозначения

или в векторной форме.


Рис. 3.

Это позволяет дать следующую геометрическую интерпретацию динамического программирования. На рис. 3 представлены поверхности изохрон S = const для задачи максимального быстродействия, причем величина S, по смыслу равная оставшемуся минимизируемому времени убывает по мере приближения к конечной точке, т.е.

При этом движение должно осуществляться в направлении убывания функции S, т.е. в направлении, противоположном ее градиенту внутрь изоповерхностей S = const. Из физических соображений очевидно, что движение вдоль нормали -- самое быстрое по времени, так как движение вдоль изоповерхности не дает приближения к конечной точке.

С помощью функции Беллмана S можно дать и другую трактовку процессу ее убывания, связав ее с функцией Ляпунова.

Действительно, если целевая функция положительно определена,

то, выразив уравнение (1.12) в виде

видим, что функция S есть функция Ляпунова.

Значит, если функция S положительно определена, то оптимальная система обладает еще одним замечательным свойством -- она асимптотически устойчива, что особенно важно для нелинейных систем.

Отличие динамического программирования от других методов состоит в том, что если принцип максимума есть необходимое условие оптимальности, то уравнения динамического программирования при соблюдении всех требуемых допущений понимаются как достаточное условие. Необходимо также подчеркнуть, что в принципе максимума переменные мыслятся как функции времени, а в динамическом программировании это функции от фазовых координат, характеризующие чувствительность минимизируемого значения функционала к изменению текущего состояния.

Формально это требует решения нелинейных дифференциальных уравнений вида (1.9) или (1.10) в частных производных, что так же сложно, как и решение краевых задач в принципе максимума.

Аналитическое конструирование регуляторов и применение для их синтеза динамического программирования

Поскольку динамическое программирование наиболее близко к получению оптимального управления в замкнутой форме, нужно подробнее остановиться на задаче синтеза систем автоматического управления, удовлетворяющего при существующих ограничениях требуемому качеству. Одним из направлений в этой области является разработанный у нас в стране А.М.Летовым подход, названый аналитическим конструированием регуляторов [З1], когда алгоритм управляющего устройства замкнутой системы находится аналитически в соответствии с определенным функционалом качества, соответствующим квадратическому критерию вида

Минимизация функционала (1.16) соответствует задаче о регуляторе состояния, когда важно удерживать около нуля все компоненты вектора состояния. Возможны другие варианты удержания около нуля некоторой ошибки, представляющей собой разность между желаемым и выходным сигналами в задачах слежения , но смысловое содержания структуры критерия остается неизменным. Первое слагаемое характеризует терминальную ошибку в конечный момент, второе слагаемое преследует цель обеспечить малость ошибки при удерживании системы в заданном положении. Последнее слагаемое представляет «штраф за большие управления» и оценивает затрачиваемую на управление энергию.

Соответственно положительно полуопределенные матрицы М, Р и положительно определенная матрица R выбираются с учетом значимости указанных факторов, преимущественно с ненулевыми диагональными элементами, либо, по желанию проектировщика, можно положить некоторые из матриц нулевыми.

При этом, как правило, рассматривается линейный нестационарный объект, описываемый уравнениями

где на управление никаких прямых ограничений не наложено. В связи с этим для аналитического решения можно применять как вариационное исчисление, так и принцип максимума, но для получения решения в замкнутой форме воспользуемся методом динамического программирования. С учетом терминального члена функцией Беллмана S является функция

которая при не равна нулю.

С учетом (1.16) и (1.17) уравнение Беллмана имеет вид

При отсутствии ограничений на оптимальное управление вычислим производную от выражения в фигурных скобках и, приравняв ее нулю, получим

Поскольку матрица Д положительно определена, можно найти, во-первых, оптимальное управление

и, во-вторых, записать уравнение Беллмана без операции минимизации:

Уравнение (3.20) можно решить при условии.Можно показать , что уравнение (3.20) имеет точное аналитическое решение, которое представляет собой квадратичную форму

Где К(t) - симметричная нестационарная матрица с искомыми элементами.

Вычислив частные производные

подставим их в уравнение (1.20):

Учитывая, что, уравнение (1.22) можно преобразовать к виду

что соответствует равенству нулю выражения в квадратных скобках, имеющего вид системы линейных неоднородных дифференциальных уравнений с граничным условием:

Уравнение (1.23) называется матричным уравнение Риккати, решение которого обычно находят численно на ЭВМ до начала работы системы. Оптимальному управлению соответствует в общем случае линейный закон управления с переменным коэффициентом передачи

И снова, возникает закономерный вопрос --- при каких условиях структура и параметры регулятора будут неизменны. В работах Калмана доказывается, что при М= 0 и для стационарных объектов, т.е. при постоянных матрицах А, В, К и Р, решение уравнения Риккати есть постоянная матрица К, соответствующая уравнению

В этом случае оптимальная замкнутая система является стационарной

и асимптотически устойчивой вследствие установившегося поведения при, несмотря на то, что объект управления может быть неустойчив.

Поведение. Закон оптимального поведения  


Часть III. Закон оптимального поведения 135  

Часть III. ЗАКОН ОПТИМАЛЬНОГО ПОВЕДЕНИЯ  

Закон оптимального поведения  

Итак, можно констатировать открытие Закона оптимального поведения, того самого Закона, который и отражает общее начало, присущее поведению любого человека.  

Из Закона оптимального поведения явствует, что человек не способен идти против самого себя, т.е. против своих интересов.  

Казалось бы, человек должен жить в полной гармонии с внешним миром - природой и обществом. Но это далеко не так. По всей видимости, существует некая причина дисгармонии, выявить которую нам и предстоит, учитывая, что поведение людей, являясь следствием их мышления, подчинено объективному Закону - Закону оптимального поведения.  

Иначе и быть не может, ведь поведение людей подчинено Закону оптимального поведения, и управлять им только и возможно посредством введения различных условий.  

Во-первых, очевидно, что регулирующие условия, в рамки которых помещены рядовые работники, не определяют для них всех без исключения благоприятных последствий в случае их хорошей работы и неблагоприятных - в случае плохой, т.е. вносят неопределенность в сферу трудовых отношений . Работники, подчиняясь Закону оптимального поведения, идут по пути наименьшего сопротивления и избирают тот тип поведения, который является для них оптимальным в данный момент, т.е. позволяет им избежать тех неблагоприятных последствий, которые каким-либо образом все же определены существующими условиями . Но несмотря на такое своего рода частичное удовлетворение своих интересов, работники не способны избрать тот тип поведения, который ждет от них администрация, ведь их поведение подчинено не намерениям, не требованиям администрации, а Закону. Безусловно, работники способны дать значительно больше, нежели дают при существующих условиях , и, как правило, прекрасно осознают это. Вся критика работников в адрес администрации есть не что иное, как выражение с их стороны требования дополнить регулирующие условия для наиболее полного удовлетворения своих интересов при производительном труде . Фактически работники неосознанно стремятся к определенности в трудовых отношениях , т.е. к тому, чтобы все благоприятные и неблагоприятные для них последствия от тех или иных их действий были всегда ясны.  

Более того, посредством введения каких-либо регулирующих условий можно в той или иной мере - в зависимости от степени полноты данных условий - управлять человеческим поведением . Фактически, так и происходит во всех сферах общественной жизни, ведь Закон оптимального поведения является всеобщим для человеческого общества.  

Отныне нам известно главное свойство, присущее любому человеку, а значит, и любому работнику организации, - всегда поступать оптимально, с наибольшей выгодой для себя с учетом всех последствий, определяемых регулирующими условиями. Мы также знаем Закон оптимального поведения, который не в силах изменить. Нам остается только одно целенаправленно изменить регулирующие условия, изменить так, чтобы человек естественным образом - именно благодаря своему главному свойству - всегда поступал рационально, с наибольшей пользой для организации. Только в этом случае человек становится качественным трудовым ресурсом , целиком поддающимся управлению. Как объекту управления ему будет выгодно то, что управление всегда направлено на рациональное использование всех имеющихся в наличии ресурсов.  

С другой стороны, эти же люди, будучи подчинены Закону оптимального поведения и совершив поступок, вызвавший в конечном счете их раскаяние, безусловно, столкнулись с серией неблагоприятных последствий - отрицательной реакцией внешней среды . Их оптимальное поведение оказалось неразумным (нерациональным) по отношению к ней.  

Действительно, коль скоро любой человек объективно подчинен Закону оптимального поведения, можно однозначно констатировать, что ни один человек не будет поступать с пользой для внешней среды , пока это не будет приводить его к получению пользы для себя, пока рациональное по отношению к внешней среде не станет для него оптимальным.  

Если всегда R - 1, т.е. начальная степень внутренней рациональности обусловлена действием Закона оптимального поведения, то та или иная фактическая степень общей рациональности (R внешней среде, человек, ежедневно,  

Поведение работника формируется под влиянием Закона оптимального поведения.  

В соответствии с Законом оптимального поведения интеллект каждого индивида неутомимо стоит на страже его собственных интересов. В момент ущемления этих интересов весь его интеллектуальный потенциал объективно направляется на их защиту. И если интересы двух субъектов трудовых отношений - предпринимателя и наемного работника - противоречат друг другу , конструктивную и производительную работу в такой ситуации организовать просто невозможно, да и немыслимо.  

Каждый человек индивидуален, но, независимо от тех или иных черт своего характера, любой всегда склонен оправдывать свои поступки. Если что-то не ладится, человек, как правило, считает свою неудачу следствием ошибочных действий окружающих его людей. И в этом он по-своему прав, ведь его поведение всегда строится с учетом его собственных интересов - оно всегда подчинено Закону оптимального поведения.  

На первый взгляд предложенная ситуация парадоксальна. Совершенно непонятно, кто в действительности прав, а кто виноват. Закон оптимального поведения оправдывает всех.  

Таким образом, ввиду отсутствия критериальных условий проявление Закона оптимального поведения становится негативным, "разрушающим" каждый оправдывает - причем, как ему кажется, вполне обоснованно - только себя и обвиняет -так же обоснованно - других. Нерациональное по отношению к другим в этом случае является оптимальным.  

Причину верно подмеченной Паркинсоном закономерности позволяет понять опять же знание Закона оптимального поведения.  

Итак, только наличие критериальных условий позволяет избежать негативного проявления Закона оптимального поведения, и именно наличие этих условий приводит к тому, что Закон начинает "производить свою созидательную работу" во всех без исключения сферах общественных отношений , где такие условия введены.  

Для того чтобы более наглядно представить себе негативное проявление Закона оптимального поведения в сфере трудовых отношений , рассмотрим отрицательные последствия, порожденные силой этого Закона, на примере самых животрепещущих проблем, существующих сегодня в этой сфере.  

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http :// www . allbest . ru /

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

АстРаханский государственный технический университет

Институт информационных технологий и коммуникаций

Специальность: Автоматизация технологических процессов и производств

Форма обучения: заочная

Реферат

по дисциплине «Системы оптимального управления»

на тему «Оптимальные и адаптивные системы управления»

Исполнитель студент

Преподаватель

Кокуев А.Г.

Астрахань 2016 г

1. Система управления и ее принципы

2. Оптимальное управление

3. Задачи оптимального управления

4. Адаптивное управление

5. Классификация адаптивных систем

6. Адаптация

7. Уровни адаптации

8. Особенности адаптивных систем управления

9. Структура адаптивных систем управления

10. Программное обеспечение систем управления адаптивных роботов

11. Основные функции программного обеспечения

Заключение

Список литературы

1. Система управления и ее принципы

Система - это целое, созданное из частей и элементов, взаимодействующих между собой, для целенаправленной деятельности. Среди её основных признаков следует назвать: множественность элементов, целостность и единство между ними, наличие определённой структуры и т.д. Вместе с тем система имеет свойства, отличные от свойств своих элементов. Всякая система, в общем виде, имеет входное воздействие, систему обработки, конечные результаты и обратную связь.

Управление - это процесс воздействия на систему с целью поддержания заданного или перевода её в новое состояние.

Система управления - совокупность всех элементов, подсистем и коммуникаций между ними, а также процессов, обеспечивающих заданное (целенаправленное) функционирование организации.

Одно из первых определений понятия «система» встречается в работе К. Болдуинга: «система - это совокупность из двух или более элементов, удовлетворяющих следующим условиям:

Поведение каждого элемента влияет на поведение целого;

Поведение элементов и их взаимодействие на целое взаимозависимы;

Если существуют подгруппы элементов, то каждая из них влияет на поведение целого и ни одна из них не оказывает такого влияния независимо».

Из этого следует, что система представляет собой некое единство, а не простую совокупность составляющих ее частей. По этому поводу Р. Акофф отмечает, что, «когда система расчленена, она теряет свои сущностные свойства».

Основными системными принципами являются:

1) целостность - несводимость свойств системы к сумме свойств составляющих ее элементов и невыводимость из последних свойств целого;

2) структурность - возможность описания системы через установление ее структуры, т. е. обусловленность поведения системы не столько поведением ее отдельных элементов, сколько свойствами ее структуры;

3) взаимозависимость структуры и среды - система формирует и проявляет свои свойства в процессе взаимодействия со средой, являясь при этом активным элементом взаимодействия;

4) иерархичность - каждый элемент системы в свою очередь может рассматриваться как система, а исследуемая система представляет собой один из элементов более широкой, глобальной системы;

5) множественность описания каждой системы, дающее макроскопическое, микроскопическое, иерархическое, функциональное и процессуальное представление о системе. В связи с этим задачей системного подхода является идентифицировать целое, объяснить поведение и свойства целого с точки зрения его роли и функции.

Система управления с позиции системного подхода может быть определена как:

Концептуальная, если она рассматривается как модель системы управления;

Эмпирическая, если рассматривается конкретная организация;

Искусственная, поскольку она создана и используется людьми;

- «человекомашинная» («человекокомпьютерная»), поскольку в контур управления включена автоматизированная информационная система;

Замкнутая или открытая в зависимости от решаемых задач и используемой для этого информации - только внутренней или связанной с окружающей средой;

Временная, поскольку она периодически подвергается формальным или неформальным изменениям.

Существуют два основных вида систем: закрытые и открытые. Закрытая система имеет жесткие фиксированные границы, ее действия относительно независимы от среды, окружающей системы. Часы - знакомый пример закрытой системы.

Открытая система характеризуется взаимодействием с внешней средой. Энергия, информация, материалы - это объекты обмена с внешней средой проницаемые границы системы. Такая система не является само обеспечивающейся, она зависит от энергии, информации и материалов, поступающий извне. Кроме того, открытая система имеет способность приспосабливаться к изменениям во внешней среде и должна делать это для того, чтобы продолжить свое функционирование.

Руководители в основном занимаются системами открытыми, потому что все организации являются открытыми системами. Выживание любой организации зависит от внешнего мира.

Принципы управления - не что иное, как исходные, фундаментальные, базовые идеи управленческой деятельности, а так же важнейшие требования, соблюдение которых обеспечивает ее эффективность. Принципы управления являются важнейшим элементом механизма управления, так как произрастают они из законов и закономерностей управления, и тем самым отражают объективную реальность. Вместе с тем, принципы принадлежат субъекту, и в этой связи они имеют субъективный характер. Такая двойственность природы принципов уп¬равления требует определенного, взвешенного отношения к ним как руководству к действиям.

Принципы системы управления весьма разнообразны и они достаточно жестко определяют характер связей в системе, структуру органов управления, принятие и реализацию управленческих решений.

К числу основных принципов системы управления могут быть отнесены:

Принцип научной обоснованности.

Принцип системности и комплексности.

Принцип единоначалия и коллегиальности в управлении.

Принцип демократического централизма.

Принцип единства отраслевого и территориального управления.

Принцип иерархичности и обратной связи.

Основное предназначение системы управления - обеспечение устойчивости и целостности деятельности. Об устойчивости деятельности можно говорить тогда, когда заданное направление выдерживается несмотря на постоянно изменяющиеся обстоятельства. О целостности - когда все органы большого сложного организма действуют как одно целое, только в этом случае и возможно двигаться, не отклоняясь от заданного курса. Чтобы обеспечить устойчивость и целостность деятельности, система управления должна быть адаптивной и управляемой соответственно.

Адаптивность системы управления - это свойство, отражающее её способность быстро и гибко реагировать на любые изменения и вырабатывать адекватные управленческие команды, позволяющие сводить к минимуму действие возмущающих факторов. Адаптивность - основное свойство, обеспечивающее устойчивость деятельности.

В данном случае под адаптивностью понимается способность системы управления не только реагировать на внешние изменения, но также предвидеть их. Дело в том, что изменения, особенно в сфере экономики, не происходят одномоментно, поскольку основаны на предпочтениях множества людей, т.е. речь идет о тенденциях, не явных в самом начале и все более очевидных по мере их проявления. Адаптивность тем выше, чем раньше замечаются и правильно оцениваются эти тенденции. Соответственно, чем выше адаптивность, тем эффективнее система управления самообучается и совершенствуется, тем быстрее и гибче реагирует на внешние изменения.

Адаптивность - это не только способность своевременно реагировать на внешние изменения, это еще и способность учитывать внутренние возможности системы. Что именно изменить в деятельности, чтобы она оставалась устойчивой, как перестроить систему управления, чтобы она соответствовала изменившимся требованиям, кого и чему нужно обучить, чтобы не отставать от жизни - все это и еще многое другое зависит от того, насколько адекватными и приемлемыми в каждый момент времени будут принимаемые управленцами решения. Адаптивность тем выше, чем более точно оцениваются возможности системы к изменению и чем более полно используются эти возможности для изменения деятельности в нужном направлении.

Таким образом, обеспечение высокой адаптивности деятельности предъявляет особые требования к организации управления: ключевые посты в системе должны занимать наиболее способные управленцы. Пост считается ключевым, если полномочия руководителя на этом посту позволяют ему существенно влиять на деятельность предприятия в целом. А способности данного руководителя должны быть такими, чтобы он не зависел от мнения большинства, догм и стереотипов, был способен самостоятельно мыслить и умел принимать оптимальные решения в нестандартных ситуациях, был ответственным и умел вести за собой людей.

Управляемость - это такое свойство системы управления, которое отражает ее способность своевременно и без искажений доводить управленческие команды до каждого работника предприятия. Только в этом случае деятельность всех работников предприятия будет направлена на достижение общего результата, и все они будут действовать согласованно и слаженно. Управляемость - это основное свойство, обеспечивающее целостность деятельности.

Как уже говорилось, при большой численности работников управление выделяется в особую деятельность со своим собственным результатом, с необходимостью согласования усилий управленцев и обеспечения их результативности. В связи с этим становится актуальным, насколько согласованно действуют собственно управленцы: стоит кому-то из них начать действовать самому по себе, в отрыве от всех остальных, реализуя собственные цели, как тут же целостность деятельности начинает разрушаться. Как правило, это происходит в тех случаях, когда такой руководитель ориентирован на достижение личных интересов в противовес производственным, действует своекорыстно и безответственно, не способен справиться со своими настроениями и зависит от своих предпочтений. Возможны также ситуации, когда с ответственностью у руководителя все в порядке и он ориентирован на решение производственных задач, но его способностей не хватает для того, чтобы успешно управлять более способными руководителями, находящимися у него в подчинении. В этом случае у такого руководителя остаются только крайне неэффективные формальные рычаги воздействия.

Фактически, в обоих случаях происходит разрыв одной или нескольких управленческих связей, что означает невозможность в полной мере добиваться согласованности деятельности на отдельных участках производства: управленческие воздействия искажаются или попросту не доходят с верхнего уровня управления на нижний. Это приводит к снижению управляемости, то есть “отрезанная” часть деятельности начинает отклоняться от общего направления движения. В конечном итоге, нарушается целостность деятельности и снижается ее устойчивость.

Таким образом, обеспечение высокой управляемости также предъявляет особые требования к организации системы управления: расстановка руководителей должна осуществляться с учетом их способностей к управлению так, чтобы повсеместно обеспечить целостность управленческих связей. Поэтому минимально необходимое условие для обеспечения управляемости заключается в том, чтобы все руководители были надежными и ответственными, не зависели от своих настроений и предпочтений, были бы ориентированы на интересы производства, а не на удовлетворение собственных потребностей. Только в этом случае можно быть достаточно уверенным, что приказы будут надежно отрабатываться.

2. Оптимальное управление

Оптимальное управление -- это задача проектирования системы, обеспечивающей для заданного объекта управления или процесса закон управления или управляющую последовательность воздействий, обеспечивающих максимум или минимум заданной совокупности критериев качества системы .

Для решения задачи оптимального управления строится математическая модель управляемого объекта или процесса, описывающая его поведение с течением времени под влиянием управляющих воздействий и собственного текущего состояния. Математическая модель для задачи оптимального управления включает в себя: формулировку цели управления, выраженную через критерий качества управления; определение дифференциальных или разностных уравнений, описывающих возможные способы движения объекта управления; определение ограничений на используемые ресурсы в виде уравнений или неравенств

Согласно сложившейся в последнее время точке зрения, оптимальное управление представляет собой определенный раздел теории экстремальных задач (теории оптимизации), посвященный исследованию и решению вопросов максимизации и минимизации функционалов на множествах функций специального вида. С другой стороны, - оптимальное управление тесно связано с выбором наиболее выгодных (оптимальных) режимов управления сложными объектами, которые описываются при помощи систем обыкновенных дифференциальных уравнений. Если первая точка зрения непосредственно согласуется с классификацией, принятой в «классической» матема- тике, то вторая - более прикладная, поскольку ориентирована на решение различного рада задач из экономики и техники. При изложении материала данного пособия предпочтение отдается именно второй точке зрения.

3. Задачи оптимального управления

Задачи оптимального управления относятся к теории экстремальных задач, то есть задач определения максимальных и минимальных значений. Уже то обстоятельство, что в этой фразе встретилось несколько латинских слов (maximum - наибольшее, minimum - наименьшее, extremum - крайнее, optimus - оптимальное), указывает, что теория экстремальных задач была предметом исследования с древних времен. О некоторых таких задачах писали еще Аристотель (384-322 годы до н.э.), Евклид (III в. до н.э.) и Архимед (287-212 годы до н.э.). Основание города Карфагена (825 год до н.э.) легенда ассоциирует с древнейшей задачей определения замкнутой плоской кривой, охватывающей фигуру максимально возможной площади. Подобные задачи именуются изопериметрическими.

Характерной особенностью экстремальных задач является то, что их постановка была порождена актуальными запросами развития общества. Более того, начиная с XVII века доминирующим становится представление о том, что законы окружающего нас мира являются следствием некоторых вариационных принципов. Первым из них был принцип П. Ферма (1660 год), в соответствии с которым траектория света, распространяющегося от одной точки к другой, должна быть такова, чтобы время прохождения света вдоль этой траектории было минимально возможным. Впоследствии были предложены раз- личные широко используемые в естествознании вариационные принципы, например: принцип стационарного действия У.Р. Гамильтона (1834 год), принцип виртуальных перемещений, принцип наименьшего принуждения и др. Параллельно развивались и методы решения экстремальных задач. Около 1630 года Ферма сформулировал метод исследования на экстремум для полиномов, состоящий в том, что в точке экстремума производная равняется нулю. Для общего случая этот метод получен И. Ньютоном (1671) и Г.В. Лейбницем (1684), работы которых знаменуют зарождение математического анализа. Начало развития классического вариационного исчисления датируется появлением в 1696 году статьи И. Бернулли (ученика Лейбница), в которой сформулирована постановка задачи о кривой, соединяющей две точки А и В, двигаясь по которой из точки А в В под действием силы тяжести материальная точка достигнет В за минимально возможное время.

В рамках классического вариационного исчисления в XVIII-XIX веках установлены необходимые условие экстремума первого порядка (Л. Эйлер, Ж.Л. Лагранж), позднее развиты необходимые и достаточные условия второго порядка (К.Т.В. Вейерштрасс, А.М. Лежандр, К.Г.Я. Якоби), построены теория Гамильтона-Якоби и теория поля (Д. Гиль- берт, А. Кнезер). Дальнейшее развитие теории экстремальных задач привело в XX веке к созданию линейного программирования, выпуклого анализа, математического программирования, теории минимакса и некоторых иных разделов, одним из которых является теория оптимального управления.

Эта теория подобно другим направлениям теории экстремальных задач, возникла в связи с актуальными задачами автоматического регулирования в конце 40-х годов (управление лифтом в шахте с целью наискорейшей остановки его, управление движением ракет, стабилизация мощности гидроэлектростанций и др.). Заметим, что постановки отдельных задач, которые могут быть интерпретированы как задачи оптимального управления, встречались и ранее, например в “Математических началах натуральной философии” И. Ньютона (1687). Сюда же относятся и задача Р. Годдарда (1919) о подъеме ракеты на заданную высоту с минимальными затратами топлива и двойственная ей задача о подъеме ракеты на максимальную высоту при заданном количестве топлива. За прошедшее время были установлены фундаментальные принципы теории оптимального управления: принцип максимума и метод динамического программирования.

Указанные принципы представляют собой развитие классического вариационного исчисления для исследования задач, содержащих сложные ограничения на управление.

Сейчас теория оптимального управления переживает период бурного развития как в связи с наличием трудных и интересных математических проблем, так и в связи с обилием приложений, в том числе и в таких областях, как экономика, биология, медицина, ядерная энергетика и др.

Все задачи оптимального управления можно рассматривать как задачи математического программирования и в таком виде решать их численными методами.

При оптимальном управлении иерархическими многоуровневыми системами, например, крупными химическими производствами, металлургическими и энергетическими комплексами, применяются многоцелевые и многоуровневые иерархические системы оптимального управления. В математическую модель вводятся критерии качества управления для каждого уровня управления и для всей системы в целом, а также координация действий между уровнями управления.

Если управляемый объект или процесс является детерминированным, то для его описания используются дифференциальные уравнения. Наиболее часто используются обыкновенные дифференциальные уравнения вида. В более сложных математических моделях (для систем с распределёнными параметрами) для описания объекта используются дифференциальные уравнения в частных производных. Если управляемый объект является стохастическим, то для его описания используются стохастические дифференциальные уравнения.

Если решение поставленной задачи оптимального управления не является непрерывно зависящим от исходных данных (некорректная задача), то такая задача решается специальными численными методами.

Система оптимального управления, способная накапливать опыт и улучшать на этой основе свою работу, называется обучающейся системой оптимального управления.

Реальное поведение объекта или системы всегда отличается от программного вследствие неточности в начальных условиях, неполной информации о внешних возмущениях, действующих на объект, неточности реализации программного управления и т.д. Поэтому для минимизации отклонения поведения объекта от оптимального обычно используется система автоматического регулирования.

Иногда (например, при управлении сложными объектами, такими как доменная печь в металлургии или при анализе экономической информации) в исходных данных и знаниях об управляемом объекте при постановке задачи оптимального управления содержится неопределённая или нечёткая информация, которая не может быть обработана традиционными количественными методами. В таких случаях можно использовать алгоритмы оптимального управления на основе математической теории нечётких множеств (Нечёткое управление). Используемые понятия и знания преобразуются в нечёткую форму, определяются нечёткие правила вывода принимаемых решений, затем производится обратное преобразование нечётких принятых решений в физические управляющие переменные.

4. Адаптивное управление

Адаптивное управление -- совокупность методов теории управления, позволяющих синтезировать системы управления, которые имеют возможность изменять параметры регулятора или структуру регулятора в зависимости от изменения параметров объекта управления или внешних возмущений, действующих на объект управления. Подобные системы управления называются адаптивными.

5. Классификация адаптивных систем

По характеру изменений в управляющем устройстве адаптивные системы делят на две большие группы:

Самонастраивающиеся (изменяются только значения параметров регулятора)

Самоорганизующиеся (изменяется структура самого регулятора).

По способу изучения объекта системы делятся на поисковые и беспоисковые.

В первой группе особенно известны экстремальные системы, целью управления которых является поддержание системы в точке экстремума статических характеристик объекта. В таких системах для определения управляющих воздействий, обеспечивающих движение к экстремуму, к управляющему сигналу добавляется поисковый сигнал. Беспоисковые адаптивные системы управления по способу получения информации для подстройки параметров регулятора делятся на

Системы с эталонной моделью (ЭМ)

Системы с идентификатором, в литературе иногда называют, как системы с настраиваемой моделью (НМ).

Адаптивные системы с ЭМ содержат динамическую модель системы, обладающую требуемым качеством. Адаптивные системы с идентификатором делятся по способу управления на прямой и косвенный(непрямой).

При косвенном адаптивном управлении сначала делается оценка параметров объекта, после чего на основании полученных оценок определяются требуемые значения параметров регулятора и производится их подстройка. При прямом адаптивном управлении благодаря учёту взаимосвязи параметров объекта и регулятора производится непосредственная оценка и подстройка параметров регулятора, чем исключается этап идентификации параметров объекта. По способу достижения эффекта самонастройки системы с моделью делятся на

Системы с сигнальной (пассивной)

Системы с параметрической (активной) адаптацией.

В системах с сигнальной адаптацией эффект самонастройки достигается без изменения параметров управляющего устройства с помощью компенсирующих сигналов. Системы, сочетающие в себе оба вида адаптации называют комбинированными.

Применение

Применяется для управления нелинейной системой, или системой с переменными параметрами. К примерам таких систем относят, например, асинхронные машины, транспортные средства на магнитной подушке, магнитные подшипники и т.п. Среди механических систем можно назвать инверсный маятник, подъемно транспортные машины, роботы, шагающие машины, подводные аппараты, самолеты, ракеты, многие виды управляемого высокоточного оружия и т.п.

6. Адаптация

Адаптация (аккомодация) является основной реакцией живого организма, обеспечивающей ему возможность выживания. Она означает приспособление организма к изменяющимся внешним и внутренним условиям. Реализация этого принципа в технических системах, а именно в робототехнике, по-видимому, имеет много достоинств, а иногда и просто необходима. Понятие адаптации или адаптивности в технике носит очень широкий характер и имеет поэтому много толкований. К сожалению, до сих пор нет точного общепринятого определения адаптивной системы, поэтому попытаемся пояснить смысл этого термина следующими рассуждениями.

Как известно, с помощью разомкнутого управления без обратной связи можно исключить влияние на выходные параметры объекта некоторых предсказуемых внешних возмущений при условии, что характеристики отдельных компонент и элементов системы управления достаточно просты и их свойства не изменяются.

Ликвидировать влияние непредсказуемых внешних возмущений на поведение объекта возможно в рамках традиционной теории управления. Для этого необходимо использовать принцип обратной связи, т.е. организовать замкнутую систему управления, свойства всех элементов которой полагаются известными и не изменяющимися во времени. Иногда может допускаться дрейф некоторых характеристик, но в очень незначительных пределах. Однако на практике часто встречаются такие объекты управления, амплитудные и частотные параметры которых варьируются в широких пределах под действием внешних причин с течением времени и в силу свойств самого объекта. В несколько раз может изменяться момент инерции манипулятора в сложенном состоянии по отношению к полностью вытянутому; вязкость рабочей жидкости в полостях гидроцилиндров подводного робота, работающего на разных глубинах моря при различных глубинах и температуре воды; трение в опорах двигателей в процессе загрязнения и старения смазки и многие другие характеристики. В то же время при управлении сложными объектами - гибкими производственными модулями, линиями или участками, состоящими из многих единиц оборудования, количество внешних и внутренних факторов, оказывающих возмущающее действие на их работу, резко возрастает. Среди них могут быть ошибки позиционирования заготовок или даже их отсутствие в нужный момент, износ обрабатывающего инструмента, отклонение стыка свариваемых деталей от заданной траектории движения электрода сварочного автомата, раскачивание деталей на подвесном конвейере в процессе захвата их роботом и другие подобные факторы, требующие адаптации управляющей системы, т.е. самонастройки и приспособления к реальным условиям эксплуатации. Реакция системы управления проявляется в изменении структуры, параметров, а иногда и алгоритма действий так, чтобы гарантировать достижения поставленной цели.

Существуют общие свойства, характеризующие процесс адаптации:

Выходные параметры объекта регулирования и характеристики возмущающих факторов находятся под постоянным контролем и управлением с помощью устройств, дополнительно включаемых в состав управляющей системы;

Наблюдаемое поведение объекта описывается некоторым показателем качества, оценивающим в количественной форме характер протекания процесса управления;

Отклонение показателя качества за пределы допуска влечет за собой автоматическую настройку параметров регулятора или замену алгоритма управления, результатом которых является достижение желаемого показателя качества или реализации поставленной цели.

Описанные свойства присущи в более или менее ярко выраженной форме всем адаптивным системам управления, всегда являющимися системами с обратной связью.

7. Уровни адаптации

В зависимости от цели управления адаптивные системы в робототехнике можно условно разделить на следующие уровни.

Первый уровень характеризуется способностью самонастройки параметров регулятора на основе информации о состоянии объекта, находящегося под возмущающим действием внешней среды. Оценка состояния объекта может осуществляться либо прямым измерением требуемых параметров, либо путем их идентификации. В последнем случае на объект подаются определенные пробные управляющие воздействия, фиксируется его реакция и на основании анализа поведения объекта дается оценка априорно неизвестным или изменившимся его параметрам. Характерным примером этого уровня адаптации робототехнической системы может служить регулятор, управляющий замкнутым по положению электрогидравлическим приводом манипулятора подводного аппарата. Особенность эксплуатации подводных роботов заключается в необходимости поддержания на заданном уровне статических и динамических параметров гидроприводов в широком диапазоне температур и давлений окружающей среды. Температура слоев воды может значительно отличаться, что может привести к изменению вязкости рабочей жидкости и, как следствие, к непредсказуемому дрейфу характеристик привода. Устранить это неприятное явление способна адаптивная система управления, идентифицирующая изменение характеристик и обеспечивающая соответствующую самонастройку параметров регулятора.

Для второго уровня адаптации робототехнических систем характерно включение в состав управляющего устройства дополнительных информационных средств, обеспечивающих сбор и обработку данных о состоянии внешней среды. На основании анализа изменений внешней среды осуществляется коррекция управляющей программы робота, позволяющая в новых условиях достичь поставленной цели. Хотя на этом уровне адаптации коррекция программных действий допускается лишь в небольших пределах, эффект от применения таких адаптивных систем управления на практике значителен. Примером может служить электродуговая роботизированная сварка крупногабаритных изделий. В этом технологическом процессе трудно обеспечить постоянство пространственного расположения линии стыка свариваемых частей от изделия к изделию. Поэтому сварочный робот должен уметь корректировать программную траекторию движения электрода в соответствии с реальным положением линии стыка, измеряемым специальными датчиками.

Понятие цели управления для адаптивных робототехнических систем третьего уровня вытекает из требования реализации максимальной производительности при обеспечении отсутствия брака. Характерны для этого уровня адаптации развитые средства для сбора информации о внешней среде, самодиагностирования, а, возможно, и саморемонта компонент управляемой производственной системы. Поясним сказанное примерами.

Одной из сложных с точки зрения автоматизации является операция абразивной зачистки литья, особенности которой заключаются в криволинейности формы отливок, отсутствии на них базовых поверхностей, которые можно было бы принять за начало отсчета для последующих точных перемещений и износ абразивного инструмента, поэтому выполнить абразивную зачистку или шлифование изделий, используя робот с программным управлением, практически невозможно. Решение этой задачи можно найти только в классе адаптивных систем, дополнив управляющее устройство робота средствами для контроля качества обработки поверхности отливки, датчиками сил резания и износа абразивного инструмента.

Система управления адаптивного модуля абразивной зачистки, анализируя степень шероховатости поверхности, может принять решение о повторном цикле обработки текущего участка детали или дать команду роботу переместить в зону шлифования следующий ее участок. Одновременно, используя информацию о силах резания и оценивая износ абразивного инструмента, адаптивная система управления может организовывать оптимальные с точки зрения производительности режимы обработки. программный обеспечение адаптивный робот

Другим примером адаптации робототехнической системы, при которой происходит изменение алгоритма управления, служит гибкая производственная система, например, механообработки, включающая в себя несколько единиц или десятков металлорежущих станков, объединенных автоматической транспортной складской системой. Такая система функционирует по заданной программе до тех пор, пока не произойдет какой-либо сбой. Если, например, выйдет из строя один из обрабатывающих центров, то система управления ГПС должна, оперативно оценив обстановку, принять решение о последующих действиях, разработать, возможно ценой снижения производительности, новую технологическую схему последовательной обработки изделий, выпускаемых данной гибкой производственной системой, и обеспечить функционирование станков и транспорта по новой маршрутной схеме до тех пор, пока ремонтная бригада не вернет в строй аварийный станок.

Рассмотренные уровни адаптации робототехнических систем различаются не столько количеством дополнительных устройств, обеспечивающих сбор и обработку информации об изменении параметров оборудования, внешней среды и характере их взаимодействия, сколько возможностью организовывать системы, способные функционировать во все более сложных, непредсказуемых изменениях условий эксплуатации.

8. Особенности адаптивных систем управления

Общие принципы организации адаптивной системы управления можно проследить на примере промышленного робота, осуществляющего съем деталей с подвесного конвейера и укладку их в тару.

Если момент прохождения деталью заданного положения известен, то задание может быть выполнено роботом, управляемым по жесткой программе. Для этого достаточно задать координаты точек позиционирования в исходном положении, положении захвата и положении тары, в которую ориентированно укладываются детали. Алгоритм, лежащий в основе программы действий робота, можно представить в следующем виде:

1 - задать координаты точек позиционирования;

2 - перенести захватное устройство в положение захвата детали;

3 - перейти в положение захвата детали;

4 - включить пневматическое захватное устройство;

5 - перейти в исходное положение;

6 - перенести захватное устройство с деталью к таре;

7 - выключить пневматическое захватное устройство;

8 - повторить с метки 2.

Однако успешная перегрузка деталей с конвейера в тару будет продолжаться, пока не возникнет пусть даже незначительное отклонение положения детали от заданного в программе. Причиной отклонения может быть неравномерность скорости движения конвейера или раскачивание детали. В этом случае деталь будет захвачена роботом неверно или не будет захвачена вовсе. Естественно, робот не заметит подобного сбоя и будет продолжать совершать ошибочные действия, пока не вмешается человек-оператор и не выключит его.

Сбои из-за неравномерности движения конвейера можно исключить, сохранив программный режим работы. Для этого достаточно оснастить конвейер датчиком, срабатывающим в момент прохождения крюком конвейера заданного положения захвата, установив в управляющей программе между метками 2 и 3 условный оператор, разрешающий переход на метку 3 только после получения сигнала датчика. Однако введение в систему управления датчика положения крюка конвейера не исключает сбоев от раскачивания деталей. Кроме того, программное управление оказывается бессильным, если детали неверно подвешены на конвейере. Очевидно, что решить данную задачу под силу только адаптивной системе управления. Для этого существующий робототехнический модуль необходимо оснастить не только датчиком положения крюка, а еще и средствами для распознавания деталей и измерения координат точки для их захвата. В этом случае рассмотренный выше алгоритм действий робота модифицируется в такую последовательность:

1 - задать координаты точек позиционирования: исходной и тары;

2 - перенести захватное устройство в исходное положение;

3 - по сигналу датчика положения крюка произвести распознавание детали, измерить координаты точки захвата и ориентацию детали;

4 - перейти в положение захвата, ориентировать захватное устройство по отношению к оси детали;

5 - включить пневматическое захватное устройство;

6 - перейти в исходное положение;

7 - перенести захватное устройство с деталью к таре;

8 - выключить пневматическое захватное устройство;

9 - повторить с метки 2.

Таким образом, дополнительные устройства, введенные в систему управления, и модификация исходной программы позволяют обслуживать конвейер, перемещающийся с априори неизвестной скоростью и произвольным, в определенных пределах, расположением деталей.

9. Структура адаптивных систем управления

Анализируя функции программной и адаптивной систем управления роботом, решающим рассматриваемую задачу, можно заметить, что они отличаются только устройствами, воспринимающими информацию о внешней среде. Эти устройства обрабатывают эту информацию и выбирают последовательность обхода уже имеющихся в программе робота точек позиционирования.

Компоненты адаптивной и программной среды, отвечающие за исполнение выбранной последовательности обхода заданных точек, оказываются сходными.

Таким образом, основное свойство адаптивных систем - реализация цели управления в условиях недетерминированной внешней среды и дрейфа параметров робота - отражается в структуре двумя новыми элементами: информационной системой, а также устройством для вычисления координат целевых точек и последовательности их обхода, использующим информацию об изменениях, произошедших во внешней среде и компонентах робота.

Функции управления адаптивным роботом выполняет вычислительное устройство, уровень сложности которого определяется уровнем адаптации робота. В простейшем случае это может быть микропроцессор или микроЭВМ, для сложных адаптивных робототехнических систем вычислительное устройство может представлять собой мультимикропроцессорную сеть.

Для современных адаптивных робототехнических систем характерно совмещение в вычислительном устройстве функции адаптации к изменениям внешней среды и параметров приводов робота с широким набором аппаратурных и программных средств самодиагностики и устранения мелких неисправностей в самой системе управления.

Несмотря на то, что микропроцессорные модули имеют одинаковую структуру, они выполняют различные функции. Так, один из них осуществляет сбор и обработку внешней информации, другой обеспечивает связь с терминалом и интерпретирует команды оператора, третий вычисляет управляющие воздействия и контролирует работу приводов робота, а четвертый отвечает за связь с внешним технологическим оборудованием и верхним уровнем управления автоматической линией или участком.

Особенностью данной структуры вычислительного устройства является возможность самодиагностики и саморемонта , которая реализуется с помощью блока контроля магистрали (БКМ). Функции самодиагностики и мелкого саморемонта относятся к одним из важнейших в современных системах управления адаптивным роботам, так как их выполнение обеспечивает безаварийную работу гибкого производственного модуля даже в условиях сбоев и частичного отказа аппаратуры.

Анализируя порядок прохождения сигналов по общей магистрали и их параметры, БКМ оценивает исправность отдельных микропроцессорных модулей и приемопередатчиков, связывающих микропроцессоры с общей магистралью. Если какой-либо микропроцессорный модуль вышел из строя, то наряду с сообщением о замеченной неисправности, передаваемым оператору на верхний уровень управления, блок контроля магистрали формирует команду на отключение аварийного модуля и передачу его функций работоспособным микропроцессорам. Если же вышел из строя только приемопередатчик микропроцессора, то по команде БКМ может измениться структура связей между микропроцессорами. Например, используя резервные каналы ввода-вывода, имеющие, как правило, меньшую пропускную способность, чем общая магистраль, можно осуществлять передачу информации между микропроцессорами, соединив их по принципу «каждый с каждым».

Конечно, саморемонт адаптивной системы является временной, вынужденной мерой, так как при этом несколько снижается производительность вычислительного устройства, однако живучесть робототехнического модуля оказывается очень высокой.

10. Программное обеспечение систем управления адаптивных роботов

Функции программного обеспечения адаптивного робота состоят в обслуживании внешних по отношению к системе управления объектов: человека-оператора, приводов робота, информационной системы, технологического оборудования и вычислительного устройства верхнего уровня управления.

Система управления взаимодействует с человеком-оператором в режиме активного диалога, в процессе которого человек выполняет следующие действия:

Формирует рабочую программу, которая может быть представлена в виде набора данных, описывающих точки позиционирования захватного устройства робота и управляющие сигналы на технологическое оборудование, или в виде набора инструкций на проблемно-ориентированном языке;

Редактирует рабочую программу с помощью программы-редактора данных или редактора текста, поскольку, как было сказано выше, программа может представлять собой либо данные, либо инструкции;

Создает объектный и загрузочный модули рабочей программы, обеспечивает удаление старых файлов, включение новых, переименование и хранение программ в библиотеке;

Отлаживает рабочую программу, т.е. при поддержке программного обеспечения осуществляет ее пошаговое исполнение, анализирует результаты отладки и при удовлетворительном качестве программы дает команду на ее исполнение;

Реализует функции контроля исправности оборудования, в частности, проверяет каналы связи с технологическим оборудованием, калибрует измерительные системы робота и выполняет другие операции диагностирования.

11. Основные функции программного обеспечения

По отношению к исполнительному устройству робота - манипулятору - функции программного обеспечения широки и многообразны. В зависимости от уровня интеллекта робота они могут включать: подробный анализ задания; разбиение его на подзадачи и элементарные действия; планирование движения инструмента или захватного устройства для реализации этих действий; определение последовательности точек позиционирования, обход которых позволит воспроизвести желаемую траекторию и, наконец, преобразование координат точек позиционирования инструмента в требуемые положения сочленений манипулятора и формирование команд управления приводами.

Важной с точки зрения организации взаимодействия гибких производственных модулей, составляющих линии и участки, является поддержка программным обеспечением робота информационного обмена с верхним по отношению к нему уровнем управления.

Конечно, существуют гибкие производственные модули с адаптивными роботами, работающие полностью автономно. Однако в этом случае на плечи системы управления робота и ее программного обеспечения ложатся функции координации действий всех компонент ГПМ. Кроме того, при появлении каких-либо неполадок или сбоев в работе невозможно послать запрос о помощи вышестоящей системе управления.

С другой стороны, если существует канал связи адаптивного робота с ЭВМ верхнего уровня и процесс обмена поддерживается с двух сторон программным обеспечением, появляется уникальная возможность создания иерархии уровней управления с четким разделением задач каждого и сопутствующей унификацией программного обеспечения и языков программирования каждого.

В этом случае ЭВМ, управляющая гибким производственным модулем, который, как правило, является верхним уровнем по отношению к роботу, берет на себя координацию действий оборудования ГПМ, устранение возможности аварийных ситуаций, например столкновения манипулятора с подвижными участками других устройств или столкновения двух манипуляторов, оперирующих в одной зоне, диагностирование оборудования ГПМ и ряд других функций, осуществляемых программным обеспечением адаптивного робота при автономной работе ГПМ под его управлением.

При обслуживании информационных систем функции программного обеспечения адаптивного робота зависят уже от уровня интеллекта его сенсоров. Если обработка информации о внешней среде осуществляется самой сенсорной системой, то программное обеспечение робота должно организовать лишь прием данных. В противном случае в его функции включается также обработка и выделение информации, пригодной для целей управления, а также определение адресата из числа программных модулей, ответственных за управление, которому эта сенсорная информация предназначена.

Кроме перечисленных функций программное обеспечение должно решать общесистемные задачи по обработке сигналов прерываний, по управлению вводом-выводом информации, распределению вычислительных ресурсов и т.д.

Оценивая изложенные выше основные функции программного обеспечения адаптивного робота, можно заметить их сходство с функциями универсальных операционных систем реального времени. Действительно, если сравнивать основные компоненты универсальных операционных систем и систем программирования адаптивных роботов, то прослеживается их аналогия.

Система программирования адаптивного робота:

Команды оператора;

Рабочее задание;

Проблемно-ориентированный язык программирования робота;

Обслуживание внешних устройств;

Обеспечение обмена с верхним уровнем управления.

Операционная система реального времени:

Команды монитора;

Файловая система;

Языки программирования;

Управление вводом-выводом;

Поддержка сетевого обмена.

Такая аналогия позволяет при проектировании систем программирования роботов использовать опыт, накопленный не только в области теории универсальных операционных систем, но и пользоваться самими операционными системами.

Заключение

Развитие теории оптимального управления связано с ростом требований к быстродействию и точности систем регулирования. Увеличение быстродействия возможно лишь при правильном распределении ограниченных ресурсов управления, и поэтому учет ограничений на управление стал одним из центральных в теории оптимального управления. С другой стороны, построение систем регулирования высокой точности привело к необходимости учета при синтезе регуляторов взаимовлияния отдельных частей (каналов) системы. Синтез таких сложных многомерных (многосвязных) систем также составляет предмет теории оптимального управления.

К настоящему времени построена математическая теория оптимального управления. На ее основе разработаны способы построения оптимальных по быстродействию систем и процедуры аналитического конструирования оптимальных регуляторов. Аналитическое конструирование регуляторов вместе с теорией оптимальных наблюдателей оптимальных фильтров) образуют совокупность методов, которые широко используются при проектировании современных сложных систем регулирования.

Сложность задач теории оптимального управления потребовала более широкой математической базы для ее построения. В названной теории используются вариационное исчисление, теория дифференциальных уравнений, теории матриц. Развитие оптимального управления на этой базе привело к пересмотру многих разделов теории автоматического управления, и поэтому теорию оптимального управления иногда называют современной теорией управления. Хотя это и преувеличение роли лишь одного из разделов, однако развитие теории автоматического управления определяется последние десятилетия во многом развитием этого раздела.

В построение теории оптимального управления внесли большой вклад советские ученые А. Н. Колмогоров, Л. С. Понтрягин, Н. Н. Красовский, А. М. Летов и зарубежные -- Н. Винер, Р. Бел- лман, Р. Е. Калман.

Развитие теории адаптивного управления вызвано все нарастающим количеством сложных объектов управления различной физической природы, параметры которых не определены. Причиной этой неопределенности могут являться: множество режимов работы объектов либо невозможность их экспериментального исследования с целью определения параметров без нарушения технологического процесса, наконец, сжатые сроки проектирования, не допускающие временных затрат на исследования и расчеты для определения параметров динамической модели объекта.

Регулятор объекта с неопределенными и изменяющимися параметрами должен изменяться (адаптироваться) так, чтобы работоспособность и точность системы оставались неизменными.

Список литературы

1. Табак Д., Куо Б. Оптимальное управление и математическое программирование. -- М.: Наука, 1975.

2. Тюкин И. Ю., Терехов В. А., Адаптация в нелинейных динамических системах, (Серия: Синергетика: от прошлого к будущему), Санкт-Петербург: ЛКИ, 2008.

3. Александров А. Г. Оптимальные и адаптивные системы. М.: Высшая школа, 1989.

4. Основы робототехники / Под ред. Е.П. Попова и Г.В. Письменного. М., 1990

5. Системы очувствления и адаптивные промышленные роботы / Под ред. Е.П. Попова и В.В. Клюева. М., 1985

6. Управляющие системы промышленных роботов / Под ред. И.М. Макарова и В.А. Чиганова. М., 1984

Размещено на Allbest.ru

...

Подобные документы

    Классификация адаптивных систем. Достоинства и недостатки типов и классов адаптивных, самонастраивающихся систем. Разработка оригинальной схемы адаптивной системы. Системы со стабилизацией основного контура, идентификатором или уточняемой моделью объекта.

    статья , добавлен 24.07.2013

    Кустовая насосная станция как объект программного управления. Основные характеристики микросхем и режимы их работы. Разработка структурной и принципиальной схем микропроцессорной системы программного управления на основе микропроцессора К1821ВМ85.

    курсовая работа , добавлен 03.05.2012

    Основная идея адаптивной обработки сигнала. Алгоритмы адаптивной фильтрации. Детерминированная задача оптимальной фильтрации. Адаптивные фильтры в идентификации систем. Алгоритм RLS с экспоненциальным забыванием. Реализация моделей адаптивных фильтров.

    курсовая работа , добавлен 11.03.2015

    Анализ устойчивости системы автоматического управления (САУ) по критерию Найквиста. Исследование устойчивости САУ по амплитудно-фазочастотной характеристике АФЧХ и по логарифмическим характеристикам. Инструменты управления приборной следящей системы.

    курсовая работа , добавлен 11.11.2009

    Разработка структурной схемы автоматической системы управления на комплекте КР580. Характеристика общих принципов построения устройства. Расчет и выбор элементной базы. Микропроцессор и вспомогательные устройства. Организация ввода-вывода информации.

    курсовая работа , добавлен 02.04.2013

    Рассмотрение основ структурной схемы системы автоматизации. Выбор исполнительных и задающих элементов, микропроцессорного элемента управления. Расчет нагрузочных характеристик. Составление алгоритма управления и написание программного обеспечения.

    курсовая работа , добавлен 06.10.2014

    Функциональная схема замкнутой системы. Анализ устойчивости исходной линеаризованной системы по алгебраическому критерию. Построение среднечастотного и высокочастотного участков. Анализ качества системы в переходном режиме. Отработка входных сигналов.

    дипломная работа , добавлен 15.02.2016

    Синтез пропорционально-интегрально-дифференциального регулятора, обеспечивающего для замкнутой системы показатели точности и качества управления. Амплитудно-частотная характеристика, динамический анализ и переходный процесс скорректированной системы.

    курсовая работа , добавлен 06.08.2013

    Анализ исходной системы автоматического управления, определение передаточной функции и коэффициентов. Анализ устойчивости исходной системы с помощью критериев Рауса, Найквиста. Синтез корректирующих устройств и анализ синтезированных систем управления.

    курсовая работа , добавлен 19.04.2011

    Надежность современных автоматизированных систем управления технологическими процессами как важная составляющая их качества. Взаимосвязь надежности и иных свойств. Оценка надежности программ и оперативного персонала. Показатели надежности функций.

При УСЛОВИИ Cq -^ О

Исследование решения задачи для малых значений весового множителя в функционале (6.6) представляет существенный интерес с точки зрения оценки предельно достижимой точности замкнутой системы при несущественности ограничений на интенсивность (мощность) управления. Кроме того, представляется важным оценить тот максимальный уровень мощности управляющего воздействия, превышение которого не приводит к дальнейшему увеличению точности управления.

Основные положения исследования предельного поведения оптимальной системы при условии с 0 -»0 представим в форме следующего утверждения.

Теорема 6.3. Для замкнутой системы (6.4), (6.7), которая оптимальна в смысле функционала (6.6), справедливы соотношения

Здесь использованы следующие дополнительные обозначения:

причем полином B*(s) является гурвицевым, а комплексные числа (3, Р 2 ,..., Р п -это общие корни полиномов M(s) и B*(-s).

Доказательство. Введем обозначение и по аналогии с формулами (6.26), (6.27) запишем соотношения

где gj (i = l,n) - корни полинома G‘(-s,7.).

С учетом (6.42)-(6.44) формулы (6.13)-(6.15) могут быть представлены в следующем виде:

Очевидно, что рассмотрение предельного поведения замкнутой системы при условии с 0 -> 0 эквивалентно рассмотрению ее предельного поведения при условии X -> сю.

Прежде чем переходить к непосредственному доказательству утверждений теоремы, рассмотрим предельное поведение корней полинома G*(-s,X ) в тождестве (6.43) при указанном условии.

С этой целью воспользуемся известным утверждением, представленным в работе , в соответствии с которым при стремлении X -> 00 m корней полинома G*(-s,X) стремятся к корням полинома B*(-s) -негурвицева результата факторизации:

Остальные (п - т) корней полинома G*(-s,X) при условии X -> °о уходят в бесконечность, асимптотически приближаясь к прямым, пересекающимся в начале координат и образующим с вещественной осью углы, определяемые выражением

причем все эти корни расположены на окружности радиуса

С учетом отмеченных соображений имеем
где использованы обозначения

причем постоянные коэффициенты /с, (/ = ,п-т- ) не зависят от величины X,

Теперь последовательно рассмотрим два возможных варианта по отношению к полиному M pb (-s) в разложении (6.41), соответственно характеризуемых условиями М рЬ =1 и М рЬ Ф 1.

Вариант 1. Предположим, что выполняется условие M p b(~ s) = 1, которое эквивалентно равенству Г) = 0. Это значит, что полином В" (-s) не имеет общих корней с полиномом M(s) = B"(-

Рассмотрим предельное поведение полинома R(s,X) (6.47) при условии X -> °°, предварительно заметив, что

Из (6.50) следует, что т корней полинома lim G f (-s,X) совпадают с корнями (3, (/ = 1,т) полинома B*(-s ), а остальные (п - т)

корней - с корнями р г (г = т + 1,п) полинома P(-s,X) (6.53), которые определяются следующими выражениями:

При этом с очевидностью выполняются соотношения

Учитывая соотношения (6.50) и (6.54)-(6.56), предельный полином R(s, X) можно представить в виде суммы двух предельных полиномов R^SyX) и R 2 (s,X ):

Первый из этих полиномов связан только с корнями (3, а второй - только с корнями р,:

Согласно (6.56) имеем lim Р(-|3-Д) = Игл Х 1 , поэтому выраже-

ние (6.57) можно представить в виде или

поскольку, согласно формулам (6.51), (6.53),

Заметим, что полином B,*(s) имеет конечные коэффициенты, отличные от нуля в силу условия М(Р,.)*0 и не зависящие от X .

Теперь преобразуем соотношение (6.58), напомнив следующие равенства: deg A(s) = п , Sj(s) = N(s)/T(s ), degN(s) = p , degT(s) = q . Кроме того, учтем, что условие degB"(-s) = degB“(s) = т, как нетрудно показать, влечет за собой выполнение соотношения

Тогда имеем

Но из формулы (6.55) с учетом соотношения (6.60) следует: и согласно (6.56), (6.51):

где г* и г** (/ = m + 1,н) - комплексные числа с конечными модулями, отличными от нуля. Тогда получаем

и соответственно

В силу (6.50)-(6.53) и (6.55) имеем:

причем постоянные комплексные числа r ; , r u , r 2i , к и, k 2i , ... , k(n - m - 2 )i (i = + 1,и) не зависят от величины А,.

Тогда, учитывая справедливость неравенства п-т> 1 (иначе Pj(s,X) = const), имеем lim ?)(s,A)/A = 0 и согласно формуле (6.61)

Но тогда в соответствии с тождествами (6.59) и (6.62) получаем

При этом, в соответствии с (6.45) и (6.46), имеем следующие формулы для предельных передаточных матриц оптимальной замкнутой системы:

Вариант 2. Теперь рассмотрим вторую ситуацию, когда тождество М b (-s) = 1 не выполняется, т.е. в данном случае считаем, что полиномы В" (-s) и M(s) = B"(-s)RC(s) имеют Г) общих корней.

При этом полином B-s) представляется произведением где

В отличие от предыдущего случая, при рассмотрении предельного поведения полинома R(s,X) представим его в виде суммы трех слагаемых:

причем первый полином будем строить только с использованием корней (3, (/ = 1,Г)) полинома M pb (-s), второй - корней Р г (I = Т) +1,ш) полинома B" Q (-s ) и третий - корней ц г (i = m + l,n ) полинома P(s).

При этом для второго и третьего полиномов, в полной аналогии с предыдущим вариантом, получим

Для полинома R x имеем

поскольку М(РД = 0 Vie .

Из приведенных формул (6.67)-(6.69) следует тождество lim Kj(s,A,) = B* 2 (s) , и, заменяя в (6.64) полином B[(s) на B* 2 (s ),

получим второй вариант предельных передаточных матриц для оптимальной замкнутой системы. Объединяя оба варианта единой записью, получим соотношения (6.37)-(6.41).

Теорема доказана полностью. ?

Приведем естественное следствие из теоремы 6.3, которое имеет самостоятельное значение.

Теорема 6.4. Если все корни полинома В* (-s) являются одновременно и корнями полинома M(s) = B"(-s)RC(s), и при этом выполняется равенство RyR = 0, то I x0 = Нш 1 х (с 0) = 0, т.е.

при условии, что ограничение на мощность управляющего воздействия не меньше величины 1 и0 = Нш7 1((с 0), определяемой форму-

лой (6.37 а), достижима абсолютная (с нулевой ошибкой) точность управления.

Доказательство. Согласно условию теоремы, на основании тождества (6.41) имеет место соотношение Г) = т, но тогда из формулы (6.40) следует тождество R" (s) = 0 .

При этом выполнение равенства RyR = 0 в соответствии с формулами (6.38), (6.39) и (6.37), (6.37а) и с учетом (6.41) дает

где . Теорема доказана. ?

Рассмотрим следующую частную ситуацию.

Теорема 6.5. Если матрица R является диагональной с единственным отличным от нуля элементом r pp = 1, т. е. точность замкнутой системы определяется дисперсией р-й компоненты вектора х, то имеют место следующие соотношения:

а) если полином В р (s) является гурвицевым или все его «правые» корни входят в спектр корней полинома C p (s), то

б) если полином B p (s) имеет хотя бы один корень в правой полуплоскости, который не является корнем полинома C p (s), то

причем здесь учитываются формулы (6.37а) и (6.39)-(6.41) (в данном случае имеем г

Доказательство. Из формулы (6.18) следует, что матри- ца 7(5) = }