Главная > Разное > Наука об управлении байесовский подход
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава 11. ДИНАМИКА ПОСЛЕДОВАТЕЛЬНО ПРИНИМАЕМЫХ РЕШЕНИЙ

Последовательные решения

В нескольких предыдущих главах упоминались ситуации адаптивного обучения принятию решений, которые фактически включали в себя последовательности решений. Они представляют интерес, поскольку часто создают серьезные трудности для интуитивного подхода. Решение, принимаемое на каком-то этапе последовательности, влияет на то, что можно будет сделать на последующих стадиях, и само зависит от того, что было сделано на предшествующих этапах. При рассмотрении решения, которое надлежит принять на некотором этапе, приходится предвидеть, что может произойти на следующих этапах и какую реакцию следовало бы выбрать перед лицом различных возможных ситуаций. Далее, часто после того, как миновала какая-то стадия процесса, появляются дополнительные информация и опыт, которые могут быть использованы для модификации сложившихся ранее мнений и прогнозов на будущее. С проблемами такого рода приходится сталкиваться, например, при изучении возможных решений в задаче о торгах и при анализе административно-управленческих систем. Анализ методов последовательного принятия решений на основе адаптивного обучения мы в свое время отложили, ограничившись лишь рассмотрением схемы последовательных выборок, кратко описанной в гл. 10. Обратимся теперь к более подробному рассмотрению основных принципов, применяемых при последовательных выборках, и их распространению на ряд других областей, имеющих отношение к управлению.

Поиск

Многообразные виды деятельности можно приблизительно классифицировать как процессы поиска, поскольку они связаны с последовательными решениями о том, надлежит

ли остановиться и принять наиболее удовлетворительное из того, что было предложено до сих пор, или же надо продолжать поиск в надежде найти что-то лучшее. Ситуации, в которых фирма ищет тип машины для выполнения какого-то частного вида работ, выгодные возможности для вложения капитала, новый вид продукции или нового вице-президента, хорошо подходят под случай процессов поиска такого рода. Рассмотрим в качестве примера поиск нового вида продукции, что может включать в себя проведение научных исследований и опытно-конструкторских разработок, анализ рынка и т. п. Допустим, что фирма, о которой идет речь, заинтересована в том, чтобы в конце поиска выбрать определенный новый вид продукции или новый технологический процесс. На каждой стадии процесса поиска она сталкивается с основным вопросом: прекратить ли поиск и удовлетвориться лучшей из выявленных до сих пор возможностей производства нового продукта или же продолжать поиск в надежде отыскать что-то еще более удачное, чем лучшее из найденного до сих пор. Затраты времени и средств на открытие дополнительных возможностей являются типичными объектами неопределенности. То же можно сказать и о потенциальной ценности или прибыльности той или иной из открываемых возможностей. Таким образом, решение остановиться и заняться разработкой лучшей из новых производственных возможностей, которая в данный момент рассматривается, может оказаться нелегким делом. Задача еще более усложняется тем, что каждый раз, когда фирма начинает разработку нового вида продукции, она получает дополнительную информацию относительно стоимости таких разработок и ценности их результатов. Такая информация открывает потенциальную возможность включить в процесс поиска методы адаптивного обучения, чтобы по мере приобретения опыта он использовался при планировании будущих стадий процесса.

Здесь мы всюду предполагаем, что, будучи однажды открыта, некоторая новая производственная возможность в течение разумного периода времени остается для фирмы доступной альтернативой. Процесс поиска может продолжаться без утраты шансов на использование какой бы то ни было из ранее открытых возможностей. Такие возможности мы будем называть стабильными (persistent оррогtunities).

С другой стороны, при рассмотрении инвестиций в создание запасов продукции, цена на которую подвержена изменениям, очевидна необходимость немедленного использования благоприятных возможностей для инвестиции по данной цене, ибо со временем цены могут сильно измениться. Такие возможности, существующие для фирмы, мы будем называть преходящими (transitory), имея в виду, что их нельзя накапливать для последующего отбора. Прежде чем изучать такие преходящие возможности, мы рассмотрим задачу поиска для случая стабильных возможностей.

Стабильные возможности

Рассмотрим процесс поиска в случае стабильных возможностей, но сначала исключим возможность обучения на опыте, приобретаемом в ходе этого процесса. Введем следующие обозначения: — прибыль или полезность, которую сулит определенная возможность; f(x) — плотность распределения вероятностей величины — прибыль или полезность, обеспечиваемая лучшей из открытых до сих пор возможностей; с — затраты на открытие дополнительной возможности (для простоты мы пренебрегаем неопределенностью, существующей относительно этих затрат).

Когда процесс происка начинается, величина X равна нулю, но по мере того как процесс продолжается, значение X будет изменяться. Рассмотрим сперва ситуацию, когда объем поиска или число благоприятных возможностей, которые можно обнаружить, ничем не ограничены. Предположим, что некто рассматривает решение на каком-то этапе как выбор между прекращением поиска с принятием лучшей из открытых до сих пор возможностей и продолжением поиска до тех пор, пока не будет обнаружена еще лучшая возможность. Вероятность обнаружения лучшей, чем прежние, возможности при каждом новом поиске равна

Ожидаемое число возможностей, которое должно быть рассмотрено для отыскания лучшей, чем они, определяется

выражением

Ожидаемая прибыль или полезность определенной возможности при условии, что она лучше имеющихся, равна

Используя эти результаты, можно сказать, что если лучшая из имеющихся возможностей характеризуется величиной X, то ожидаемая ценность продолжения поиска до нахождения еще лучшей возможности равна

Тогда на любом этапе решение прекратить поиск принимается в случае, если

в противном же случае поиск продолжается. Заметим, что если то отсюда следует

Левую часть этого выражения можно интерпретировать как ожидаемый выигрыш от продолжения поиска еще на один этап, в то время как правая часть представляет собой необходимые затраты на подобное продолжение поиска. Таким образом, мы можем сформулировать простое правило:

Поиск следует продолжать, пока ожидаемый выигрыш от его продолжения еще на один этап превышает ожидаемые затраты.

Видоизменим теперь ситуацию, предположив, что ограничения, наложенные на время поиска, или ограниченные ассигнования на исследования и разработки приводят к тому, что может быть дополнительно выявлено не более чем N возможностей. Если в первых этапах была найдена наилучшая возможность, характеризуемая величиной X, то решение продолжать поиск до конца этапа принимается, если

В противном случае поиск прекращается. Определим теперь величину как ожидаемую прибыль или полезность, если лучшая из возможностей, открытых до сих пор, характеризуется величиной X, если остается выполнить лишь этап поиска и если лучшим решением будет одна из двух альтернатив: прекращение поиска или его продолжение. Таким образом,

Возвратимся теперь назад на один этап и предположим, что остается выполнить два этапа поиска: мы можем тогда определить как ожидаемую прибыль в случае, если лучшая из возможностей, открытых до сих пор, характеризуется величиной X и если на каждом из остающихся этапов принимается наилучшее возможное решение:

В общем случае на каждом этапе имеем

Довольно очевидно, что чем больше число оставшихся этапов, тем больше будет ожидаемая прибыль или польза от оптимальной стратегии. Читателю было бы полезно попытаться самостоятельно показать, хотя бы на примере, что это правило принятия решения применимо независимо от того, наложены ли на поиск указанные выше ограничения, т. е. что в любом случае нужно продолжать поиск, когда ожидаемый выигрыш от выполнения еще одного этапа больше нуля, и заканчивать его в противном случае. При такой формулировке задачи поиска необходимость предвидения более чем на один этап фактически очень мала.

Поиск с обучением

В только что описанном процессе поиска без обучения предполагалось, что распределение величины — ценности благоприятной возможности — остается неизменным на всех этапах. Однако каждый раз, когда выявляется новая возможность, появляется дополнительная информация, относящаяся к «пространству возможностей», которая может быть использована для пересмотра выражений неопределенности относительно будущих возможностей. Мы покажем, как это делается, сначала на простом частном примере, а затем перейдем к более общей формулировке.

Предположим, что поиск ограничен не более чем тремя этапами или тремя возможностями. Введем следующие обозначения:

— априорное распределение прибыли от возможности, выявленной на этапе;

- апостериорное распределение прибыли после открытия возможности на этапе 3, если известно, что зозможности, обнаруженные на этапах 1 и 2, приносят

прибыли соответственно, определяется аналогично);

— ожидаемая прибыль в том случае, когда остается выполнить только этап 3 при условии, что лучшая из возможностей, открытая к настоящему моменту, характеризуется прибылью возможности, обнаруженные на первых двух этапах, приносят прибыли соответственно и наилучший возможный выбор делается на этапе определяется аналогично).

Система уравнений, описывающая эту ситуацию, может быть записана в следующем виде:

Отметим, что, если в начале выполнения намеченной программы действий благоприятных возможностей нет, последнее уравнение может быть представлено в виде 00

Чтобы проиллюстрировать некоторые вычислительные аспекты задач такого типа, предположим, что могут принимать только значения 0 пли 1. Пусть рассматриваются две гипотезы о вероятности того, что благоприятная возможность будет приносить прибыль, равную 1:

вероятность того, что данная возможность принесет прибыль, равную 1, равна 0,40;

вероятность того, что данная возможность принесет прибыль, равную 1, равна 0,60.

Предполагается, что на всех этапах может быть использовано следующее априорное распределение:

Апостериорные вероятности таковы:

Далее, решая написанную выше систему уравнений, получаем:

Анализ этих уравнений приводит к следующему выводу: если с больше 0,462, но меньше 0,48, то наилучшей стратегией поиска оказывается его прекращение при условии, что

1) найдена возможность, приносящая прибыль, равную 1, и

2) вторая обнаруженная возможность приносит прибыль, равную 0.

Использование этой стратегии дает ожидаемую прибыль

Сравним этот результат с тем, который был получен при помощи модели, не предусматривающей пересмотра действий на основе накопленного опыта и исходившей из предположения, что всегда справедливы условия

Если предположить, что с лежит в указанных выше границах, при помощи этой модели получаем:

Используя эту модель, находим, что остановка будет наилучшей стратегией только в том случае, когда выявлена возможность, приносящая прибыль, равную 1. Таким образом, наилучшая стратегия, получаемая без учета обучения, отлична от наилучшей при наличии обучения.

Можно подсчитать ценность процесса обучения за счет накопления опыта, вычислив приращение прибыли при замене оптимальной стратегии, соответствующей модели без обучения, на стратегию, отвечающую модели с обучением. В том случае, когда используется правило «остановиться-только при выявлении возможности, приносящей прибыль, равную b, ожидаемая прибыль может быть вычислена следующим образом:

Следует иметь в виду, что этот ожидаемый результат отвечает фактически случаю, когда мы останавливаемся при получении благоприятной возможности, дающей прибыль, равную 1, а не случаю с использованием наилучшей возможной стратегии. Преимущество модели с обучением в этом случае равно

Если с, как предполагалось, лежит в пределах от 0,462 до 0,48, указанная величина действительно будет неотрицательной. Она может рассматриваться как приращение прибыли, обусловленное пересмотром вероятностей на основании опыта, и, следовательно, как мера разумных затрат на построение и эксплуатацию системы, которая указанным способом извлекает пользу из опыта.

Более общая формулировка задачи

Даже только что обсуждавшийся тривиальный пример требует преодоления значительных трудностей, связанных с громоздкостью вычислений. При переходе к более сложным проблемам, приближающимся к тем, с которыми приходится сталкиваться в реальных ситуациях управления, объем вычислений прогрессивно возрастает. Ниже предлагается формулировка задачи поиска для случая стабильных возможностей, использующая теорию нормальных распределений; задача нахождения кратчайшего вычислительного пути при этом не исследуется.

Предположим, что прибыль от возможности, выявленной на этапе, рассматривается как нормально распределенная случайная величина со средним значением и дисперсией v. Средние значения считаются неопределенными, и с каждым из них связывается априорное распределение Таким образом, задано также априорное распределение для каждой из величин Прибыли, которые могли бы быть получены при использовании возможностей, открытых на этапах от 1 до рассматриваются как информация, применяемая для перехода от априорного распределения величины к апостериорному, обозначаемому нами как

Здесь представляет интерес система уравнений, позволяющая вычислить функцию — ожидаемую прибыль для случая, если на каждом из оставшихся этапов от до N применяется наилучшая из стратегий, если лучшая из возможностей, полученных до сих пор, приносит прибыль X и если первые этапов привели к выявлению возможностей, приносящих прибыли Уравнения имеют ту же общую форму, которая уже изучалась выше на примере:

Одним из подходов к численному решению задачи является аппроксимация непрерывных случайных величин, входящих в эту систему, дискретными величинами и применение цифровых вычислительных машин. Позже мы обсудим, как упростить эту задачу, изменяя сам процесс обучения таким образом, что он остается лишь примерно байесовским процессом обучения.

Преходящие возможности

Рассмотрим многоэтапный процесс поиска, при котором благоприятные возможности являются преходящими в том смысле, что они теряются, если их не использовать сразу же после их обнаружения. Возможности, обнаруженные на каком-то этапе, не могут быть сохранены для реализации на каком-либо будущем этапе. Таковы, например, возможности для инвестиций, существующие только в течение ограниченного промежутка времени, или возможности покупки ценных бумаг или товаров, рыночные цены на которые подвержены резким изменениям. Чтобы дать некоторое представление о сути проблемы, рассмотрим пример, в котором игнорируется возможность обучения с использованием опыта.

Предположим, что заданное количество какого-то товара должно быть закуплено в течение ближайших трех дней. Цены на этот товар на открытом рынке неопределенны и могут рассматриваться как случайные переменные. Для простоты примем, что цена назначается один раз каждый день и что по этой цене может быть куплено любое желаемое количество товара. Предположим далее, что нет необходимости учитывать вознаграждение посредникам, плату за хранение или скидки за покупку большой партии товара. Мы будем также предполагать, что спекуляция, т. е. покупка большего, чем необходимо, количества товаров и продажа излишков, не разрешена. Наконец, мы будем считать, что все требуемое количество товара покупается за один раз по данной цене. Кстати, это оказывается наилучшей стратегией, если желательно минимизировать ожидаемые затраты на закупку. Это выгоднее, нежели,

например, закупка части нужного количества товара ежедневно в течение нескольких дней.

При указанных предположениях мы рассмотрим стратегию, целью которой является минимизация ожидаемой цены на единицу товара; это и будет наилучшей стратегией вне зависимости от требуемого количества товара.

Предположим, что цена на товар в каждый из трех ближайших дней рассматривается как равномерно распределенная непрерывная случайная величина с распределением

Если по наступлении третьего дня закупка товара не произведена, то ожидаемая цена на единицу товара станет равной

Если к наступлению второго дня закупка еще не произведена, ожидаемая цена на единицу товара при условии выбора наилучшей стратегии во второй и третий дни будет равна

Это означает, что если ничего не было куплено в течение первого дня, то самое лучшее, что можно сделать, — это купить товар на второй день, если цена, назначенная на этот день, меньше 1 долл. Если последняя цена превышает надо ждать до третьего дня, когда уже, возможно, придется покупать по любой рыночной цене. Возвращаясь к первому дню, получим

Таким образом, эта стратегия подтверждает интуитивное ощущение, что чем больше дней остается до критического

момента, тем меньше ожидаемые затраты на закупку товара. В первый день надо покупать только в том случае, если назначенная на этот день цена ниже на второй день надо покупать, только если цена менее чем 1 долл. Таким образом, как и можно было ожидать, чем больше дней остается до критического момента, тем ниже величина «продажной цены», с которой еще можно согласиться.

Преходящие возможности при наличии обучения

Предположим теперь, что имеет место не только неопределенность в ценах, которые будут иметь место при осуществлении будущих закупок, но что, узнав цены на данный день, мы можем пересмотреть неопределенность относительно будущих цен.

Введем следующие обозначения:

— ожидаемая цена на единицу товара, если остаются этапы с до если цены, назначавшиеся на первых этапах, равны и если на каждом оставшемся этапе будет избираться наилучшая стратегия;

— апостериорная плотность распределения вероятности цены в день, если заданы цены с по день.

Тогда требуемые уравнения имеют вид

Здесь мы снова встречаемся с серьезными вычислительными трудностями в случае сложных задач. Однако полезно будет проиллюстрировать структуру процесса на одном предельно упрощенном примере.

Ситуация сильно упрощается при рассмотрении лишь двух возможных цен, «высокой» и «низкой», значения которых при вычислениях принимаются равными 1 и 0 соответственно. Пусть рассматриваются две гипотезы о вероятности низкой цены для любой благоприятной возможности покупки товара в будущем:

вероятность назначения низкой цены равна 0,40;

вероятность назначения низкой цены равна 0,60.

Априорное распределение описывает неопределенность относительно этих гипотез и приложимо ко всем будущим возможностям вплоть до критического момента, наступающего через три дня:

Необходимые нам апостериорные распределения таковы:

В иллюстративных целях полезно предположить, что если закупки произведены на третий день, то появляются дополнительные затраты на единицу товара, равные с, что отражает необходимость «спешного снабжения» до наступления критического момента. Требуемые вычисления таковы:

Положим теперь (для конкретности) тогда наилучшая стратегия состоит в том, чтобы остановиться и произвести закупку товара тотчас же, как только будет назначена цена 0; в противном случае рекомендуется остановиться во второй день на цене 1. Другими словами, надо остановиться и не ждать дальше, если

Сравним этот результат со случаем, когда при выборе стратегии не используется накопленный опыт для пересмотра неопределенности относительно будущих цен. Считая, что распределение цен имеет вид

независимо от какого бы то ни было опыта, можно было бы показать, что наилучшей стратегией будет не останавливаться, пока не будет назначена цена 0. Таким образом, по крайней мере для стратегия, предписываемая моделью без обучения, отлична от рассчитанной выше.

При выборе стратегии не останавливаться, пока не будет получена цена 0, ожидаемые затраты могут быть рассчитаны следующим образом:

С другой стороны, при оптимальной стратегии, определяемой моделью с обучением, ожидаемые затраты оказываются равными

Таким образом, с помощью процесса пересмотра неопределенности на основе опыта можно снизить ожидаемую стоимость программы приобретения товара на 0,005 за каждую единицу товара.

Динамическая проблема запасов

В предыдущей главе, проводя анализ политики управления запасами, мы предполагали, что принимаемое решение относится только к одному периоду и не имеет последствий для будущих периодов. Теперь это предположение можно ослабить. Рассмотрим ситуацию, при которой запас, остающийся к концу периода, может использоваться для удовлетворения спроса в последующие периоды. Наши рассмотрения относятся к случаю, когда увеличение запаса какого-либо товара может производиться только в определенные моменты времени, принимаемые за начала периодов хранения. Руководство может в начале любого периода заказывать любое желаемое количество материала для пополнения имеющихся на складе запасов. Для простоты предположим, что товар, заказываемый в начале любого периода, оказывается налицо для удовлетворения спроса в течение того же периода. Это означает, что время между заказом и поставкой мало или равно нулю.

Если товары, о которых идет речь, носят сезонный характер или сроки продажи их на рынке относительно коротки, задача имеет естественный горизонт планирования. Избранная стратегия может осуществляться вплоть до конца «сезона» или до конца предвидимого периода обращения товара на рынке. В других случаях для удобства

расчетов может оказаться желательным принять горизонт планирования, ограничивающий сроки выбора стратегии в будущем. Будущие доходы могут дисконтироваться так, чтобы доходы, получаемые в очень отдаленном будущем, оказывали очень малое влияние на планы в настоящем, позволяя пренебрегать отдаленными перспективами без потери эффективности принимаемых решений в настоящем. Как отмечалось выше, часто встречается случай, когда при рассмотрении доходов или спроса во все более отдаленном будущем всё сильнее возрастает и связанная с ними неопределенность. Таким образом, не имеющий склонности к риску руководитель, чья функция полезности возрастает с убывающей скоростью, будет придавать тем меньшее значение доходам, чем более эти доходы удалены во времени и неопределенны. Это фактически будет эквивалентно своеобразному процессу дисконтирования. Таким образом, мы в любом случае предположим, что задан горизонт планирования, используемый для принятия решения об управлении запасами, который разбивается на N периодов времени в будущем. Обозначим стоимость количества товара остающегося в конце последнего периода, через Рассмотрим конкретную задачу. Пусть I — уровень запаса; спрос в период число единиц товара, которое руководство предлагает закупить в начале периода; с — затраты на единицу товара или его закупочная цена; г — доход на единицу товара или его продажная цена.

Вначале величины являются случайными переменными, имеющими, например, нормальные распределения, каждое со средним значением и дисперсией v. Предположим, что дисперсии известны, но средние значения неопределенны. Априорное распределение каждого среднего значения отражает эту неопределенность, и вполне вероятно, что дисперсии их априорного распределения увеличиваются по мере возрастания . Допустим, что можно получить априорное распределение спроса для каждого периода, используя априорные распределения средних в этом периоде. Когда периоды оканчиваются, фактический спрос фиксируется и используется в качестве основы для пересмотра неопределенности спроса в последующие периоды. Таким образом, на каждом этапе мы имеем для оставшихся

периодов последовательность апостериорных распределений типа

представляющих апостериорное распределение спроса в период при заданных спросах в предыдущих периодах. Как и в ранее рассматривавшейся задаче, вводим определение:

— ожидаемая прибыль за периоды от до N при условии, что запас в начале периода равен что спрос в предыдущие периоды принимал значения и что в течение оставшихся периодов будет использоваться наилучшая из возможных стратегий.

На каждом этапе руководство располагает данными о предыдущих величинах спроса; ему известно, каким количеством запасов оно располагает и каково число оставшихся периодов. Оно должно решить, каков будет размер закупок в этот момент. Пусть принято решение закупать единиц товара; тогда наличный запас станет равным Если удовлетворенный спрос в периоде составит доход за период будет равен а количество товара образует начальный запас на следующий период. Если спрос в период достигает размеров наличного запаса, доход за период оказывается равным и на период никакого запаса не остается. Задача состоит в определении закупаемых количеств таким образом, чтобы максимизировать ожидаемую прибыль за оставшиеся периоды. На основе этих рассуждений можно построить нужную нам систему уравнений, общий вид которых таков:

Здесь также возникают вычислительные трудности, но структура проблемы может быть с успехом проиллюстрирована на примере.

Пример задачи на управление запасами

Рассмотрим ситуацию, при которой спрос в любой из периодов может принимать только дискретные значения 0; 1 или 2. Предположим, что существуют два возможных распределения спроса:

Рассматриваются три периода в будущем, причем априорное распределение для каждого из них отражает мнение руководителя о том, что вышеупомянутые гипотезы и Я! имеют одинаковые шансы быть верными. Закупочная и продажная цены равны

Запас, остающийся к концу третьего периода, будем считать бесполезным; таким образом,

для всех значений Рассмотрим теперь пример выполнения вычислений, необходимых для решения этой задачи.

Вступая в третий период с запасом, равным и зная фактически полученные величины спроса в первые два периода, нужно принять решение о количестве товара, закупаемого в этот момент. Учитывая, что оставшийся запас не имеет ценности для решения задачи, нам необходимо найти функцию

Предположим, например, что мы рассматриваем случай

Первый шаг состоит в вычислении величины При помощи обычных методов находим, что величина эта равна 0,80. Далее требуется найти апостериорное распределение величины

Чтобы сделать наилучший выбор количества составим табличку

Используя апостериорное распределение величины подсчитаем ожидаемую прибыль для различных значений количества Наилучший выбор мы получим, если примем что дает ожидаемую прибыль, равную 0,10 долл. Таким образом,

Остальные значения этой функции для всевозможных комбинаций могут быть получены аналогичным образом. Если это выполнено, можно вернуться ко второму периоду и рассмотреть функцию

Покажем, как находится эта функция, на примере вычисления значения Апостериорная вероятность гипотезы Но

Получающееся апостериорное распределение для величины а: таково:

Далее нам нужно принять решение о том, какое из значений является наилучшим. Чтобы сделать такой выбор обратимся к следующей таблице (результаты в долларах):

Используя апостериорное распределение для 2 при подсчете ожидаемой прибыли для различных значений получим, что наилучший выбор получается при Это дает ожидаемую прибыль, равную таким образом,

Аналогичные задачи принятия решения нужно рассмотреть для всех возможных комбинаций Располагая этими результатами, можно исследовать наилучшую стратегию на первом этапе, стремясь максимизировать следующую функцию (мы предполагаем, что в начале первого

периода нет запасов):

Формулируя проблему принятия решения так же, как это было сделано для второго и третьего этапов, находим, что наилучшая стратегия состоит в том, чтобы положить что дает для трехпериодной программы ожидаемую прибыль, равную 2,09 долл. В табл. 11.1 показаны стратегии закупок, которые в условиях нашей задачи будут наилучшими для всех возможных комбинаций значений фактического спроса.

Таблица 11.1

Модифицированные процессы обучения

Вычисления, включенные в пример задачи о запасах, иллюстрируют некоторые из вычислительных трудностей, с которыми приходится сталкиваться в процессе последовательного принятия решения путем обучения на основе накопленного опыта. Подобные задачи легче поддаются решению, если ограничиться выбором коротких горизонтов планирования. Как уже отмечалось, дисконтирование будущих доходов и тенденция к возрастанию неопределенности при продвижении все далее в будущее придают известную логичность такого рода упрощениям.

Можно также избавиться от переменных, которые могут принимать много значений, путем объединения групп этих значений в классы по интервалам. Вместо рассмотрения задачи с конкретными значениями величин, например возможных цен или объемов спроса, можно рассматривать только их диапазоны и анализировать их по средним значениям. Ясно, что чем больше интервалы или диапазоны классов, тем более грубой оказывается аппроксимация. Кроме этих предположений, может возникнуть желание рассмотреть различные модификации самого процесса обучения. Они представляют интерес не только потому, что позволяют несколько сократить усилия, затрачиваемые на вычисления, но также, по-видимому, и потому, что они отражают реальные ситуации, возникающие в административноуправленческих системах.

Например, можно игнорировать накопленные сведения до тех пор, пока какое-то наблюдение не укажет, что замечено такое отклонение от среднего значения априорного распределения, которое выходит за пределы допустимых границ. Это напоминает метод контрольных карт, используемых при статистическом контроле качества. Если наблюдение не вызывает какого-то существенного изменения априорного распределения и если результат не является неожиданным в свете ранее сложившегося мнения, нет необходимости сразу же рассчитывать новое множество апостериорных распределений. Когда значения выходят из этих пределов, можно для расчета новых апостериорных распределений использовать (или не использовать) все сведения, накопленные со времени предыдущего пересмотра. Ясно, что чем дальше от среднего значения отстоят пределы, т. е. чем шире «критическая область», тем реже будут происходить пересмотры и тем менее совершенным будет процесс обучения. Однако с помощью такого рода несовершенного процесса в тестовой задаче можно рассчитать ожидаемую прибыль и сравнить результат со значением ожидаемой прибыли, вычисленным строго по методу Байеса; в результате мы получим оценку того, во сколько обойдется достигнутое упрощение. Тогда приобретает интерес вопрос, как нужно установить пределы или как решить, насколько неожиданной должна быть информация для того, чтобы вызвать пересмотр распределений.

Другой метод может состоять в том, чтобы заранее решить, что сведения не должны использоваться сразу после их получения, а должны накапливаться за несколько этапов. Можно запланировать систему, в которой наблюдения собираются и используются для пересмотра сложившегося представления после каждых k этапов или периодов. В пределах этих k этапов система по существу действует как необучающаяся, но может предусматривать пересмотры в заранее намеченные моменты в будущем.

- Наконец, можно пересматривать выражения для неопределенности по мере накопления опыта, но игнорировать тот факт, что в будущем может появиться новый опыт. Это равносильно предположению, что, как только данные получены, вычисляются новые распределения, но задача последовательного принятия решения на остающихся этапах решается просто как задача без обучения. Это означает, что, хотя используемые распределения отражают накопленный опыт, в анализ не включается прогноз опыта, который может быть приобретен в будущем.

Упражнения

11.1. Показать, что в случае поиска без обучения при стабильных возможностях оптимальным будет следующее правило, независимо от того, накладываются ли на процесс поиска какие-либо ограничения: «Продолжать поиск, если ожидаемый выигрыш от следующего этапа больше нуля, и остановиться в противном случае».

11.2. Для случая ограниченного поиска со стабильными возможностями и без обучения показать, что, если максимально допустимое число этапов увеличивается, ожидаемые прибыли приближаются к ожидаемым прибылям для случая неограниченного поиска.

11.3. В примере с закупками, использованном для иллюстрации задачи о преходящих возможностях при поиске с обучением, было найдено, что лучше всего закупать все требуемое количество товара в один день. Можете ли вы показать, что никакая другая стратегия, например закупка каждый день только части требуемого количества товара, не лучше стратегии одноразовой закупки?

11.4. Обсудите различные возможные толкования понятия полной информации в задаче поиска со стабильными возможностями и обучением на основе опыта. Какова в примере гл. 11 была бы ценность различных типов полной информации?

11.5. Рассмотрите возможность включения следующих усложнений в рассмотренную в этой главе модель закупок:

а) расходы на хранение;

б) вознаграждение посредникам;

в) порча хранящегося материала;

г) скидки на большие партии закупаемого товара.

11.6. В течение двух дней надо закупить определенное количество товара. Для простоты предполагается, что рыночная цена может принимать только три возможных значения, причем можно считать, что они равны —1; 0 и 1. К обоим дням применимо следующее описание неопределенности, с которой имеет дело принимающее решение лицо. Считаются возможными два вероятностных распределения цен, причем сначала они могут рассматриваться как равновозможные:

Покажите, что наилучшей стратегией будет закупать весь товар в первый день, если назначена цена — 1 или в других же случаях — продолжать процесс поиска. Какие преимущества дает обучение в этом примере по сравнению со стратегией, не включающей обучение?

11.7. Сформулируйте рассмотренную в гл. 9 задачу предложения цен на торгах при наличии нескольких возможностей в свете соображений, изложенных в гл. 11.

11.8. Каковы преимущества обучения в примере гл. 11 по сравнению со случаем игнорирования опыта? Какое объяснение можете вы дать этому результату?

11.9. Некий не отличающийся твердыми принципами политический деятель пытается решить, которого из двух кандидатов ему следует поддержать на предстоящих выборах. Если он поддержит того, кто потерпит поражение, его выигрыш пусть будет равен нулю; если же он поддержит будущего победителя, выигрыш его будет тем больше, чем раньше он в ходе избирательной кампании объявит о своей поддержке этой кандидатуры. Промежуток времени между настоящим моментом и началом выборов разделен на три периода, в течение каждого из которых имеется возможность ознакомиться с мнением избирателей, а в конце каждого периода можно, при желании, объявить о сделанном выборе. Выигрыши этого политического деятеля приводятся в следующей табличке:

Затраты на каждый прогноз (в единицах выигрыша) равны 0,25, причем прогнозы рассматриваются политическим деятелем как статистически независимые. Вероятность того, что прогноз окажется правильным, тем больше, чем ближе он ко дню выборов. Это отражается следующими вероятностями:

Содержание прогнозов, подготавливаемых для такого политического деятеля, сводится просто к следующему: «Кандидат X победит». На основе имеющейся у него в данный момент информации он считает, что шансы на избрание кандидата А равны 55%, а кандидата Б - 45%.

Покажите, что наилучшей является следующая стратегия: поддержать кандидата А, если первые два прогноза укажут, что А победит, в противном случае использовать все три прогноза.

11.10. Обсудить основные вопросы, возникающие при проектировании системы контроля и управления производством в следующей ситуации. Процесс производства уже начат, и должно быть произведено к единиц продукции. Имеется некоторая неопределенность относительно процента брака в производственном процессе. После изготовления любой единицы продукции процесс может быть приостановлен, и одна или несколько из произведенных до этого единиц могут быть обследованы и классифицированы как «годная» или «брак». После этого процесс может быть возобновлен по прежней технологии или же могут быть проведены его корректировки. Действие корректировок состоит в возвращении процесса к условиям, существовавшим в начале производства. С каждым таким корректирующим воздействием, а также с каждой единицей брака связаны определенные затраты.

11.11. Мы предложили несколько приближенных моделей обучения, которые могут быть использованы для упрощения вычислений в многошаговых задачах принятия решений. Обсудите каждую из них, показав, как следует выбирать соответствующие критические параметры и как на практике может быть проверена эффективность результатов.

<< Предыдущий параграф Следующий параграф >>
Оглавление