Экстремумы функции

Введение

Во многих областях науки и в практической деятельности часто приходится сталкиваться с задачами поиска экстремума функции. Дело в том, что многие технические, экономические и т.д. процессы моделируются функцией или несколькими функциями, зависящими от переменных – факторов, влияющих на состояние моделируемого явления. Требуется найти экстремумы таких функций для того, чтобы определить оптимальное (рациональное) состояние, управление процессом. Так в экономике, часто решаются задачи минимизации издержек или максимизации прибыли – микроэкономическая задача фирмы. В этой работе мы не рассматриваем вопросы моделирования, а рассматриваем только алгоритмы поиска экстремумов функций в простейшем варианте, когда на переменные не накладываются ограничения (безусловная оптимизация), и экстремум ищется только для одной целевой функции.

ЭКСТРЕМУМЫ ФУНКЦИИ

Рассмотрим график непрерывной функции y=f(x), изображенной на рисунке. Значение функции в точке x_>1> будет больше значений функции во всех соседних точках как слева, так и справа от x_>1>. В этом случае говорят, что функция имеет в точке x_>1> максимум. В точке x_>3> функция, очевидно, также имеет максимум. Если рассмотреть точку x_>2>, то в ней значение функции меньше всех соседних значений. В этом случае говорят, что функция имеет в точке x_>2> минимум. Аналогично для точки x_>4>.

Функция y=f(x) в точке x_>0> имеет максимум, если значение функции в этой точке больше, чем ее значения во всех точках некоторого интервала, содержащего точку x_>0>, т.е. если существует такая окрестность точки x_>0>, что для всех x≠x_>0>, принадлежащих этой окрестности, имеет место неравенство f(x)<f(x_>0>).

Функция y=f(x) имеет минимум в точке x_>0>, если существует такая окрестность точки x_>0>, что для всех x≠x_>0>, принадлежащих этой окрестности, имеет место неравенство f(x)>f(x_>0>.

Точки, в которых функция достигает максимума и минимума, называются точками экстремума, а значения функции в этих точках экстремумами функции.

Обратим внимание на то, что функция, определенная на отрезке, может достигать максимума и минимума только в точках, заключенных внутри рассматриваемого отрезка.

Отмети, что если функция имеет в точке максимум, то это не означает, что в этой точке функция имеет наибольшее значение во всей области определения. На рисунке, рассмотренном выше, функция в точке x_>1> имеет максимум, хотя есть точки, в которых значения функции больше, чем в точке x_>1>. В частности, f(x_>1>) < f(x_>4>) т.е. минимум функции больше максимума. Из определения максимума следует только, что это самое большое значение функции в точках, достаточно близких к точке максимума.

Теорема 1. (Необходимое условие существования экстремума.) Если дифференцируемая функция y=f(x) имеет в точке x= x_>0> экстремум, то ее производная в этой точке обращается в нуль.

Доказательство. Пусть для определенности в точке x_>0> функция имеет максимум. Тогда при достаточно малых приращениях Δx имеем f(x_>0>+ Δx)<f(x_>0>), т.е. Но тогда

Переходя в этих неравенствах к пределу при Δx→ 0 и учитывая, что производная f '(x_>0>) существует, а следовательно предел, стоящий слева, не зависит от того как Δx → 0, получаем: при Δx → 0 – 0 f'(x_>0>) ≥ 0 а при Δx → 0 + 0 f'(x_>0>) ≤ 0. Так как f '(x_>0>) определяет число, то эти два неравенства совместны только в том случае, когда f '(x_>0>) = 0.

Доказанная теорема утверждает, что точки максимума и минимума могут находиться только среди тех значений аргумента, при которых производная обращается в нуль.

Мы рассмотрели случай, когда функция во всех точках некоторого отрезка имеет производную. Как же обстоит дело в тех случаях, когда производная не существует? Рассмотрим примеры.

Примеры.

y=|x|.

Функция не имеет производной в точке x=0 (в этой точке график функции не имеет определенной касательной), но в этой точке функция имеет минимум, так как y(0)=0, а при всех x≠ 0y > 0.

Функция не имеет производной при x=0, так как обращается в бесконечность приx=0. Но в этой точке функция имеет максимум.

Функция не имеет производной при x=0, так как при x→0. В этой точке функция не имеет ни максимума, ни минимума. Действительно, f(x)=0 и при x<0f(x)<0, а при x>0f(x)>0.

Таким образом, из приведенных примеров и сформулированной теоремы видно, что функция может иметь экстремум лишь в двух случаях: 1) в точках, где производная существует и равна нулю; 2) в точке, где производная не существует.

Однако, если в некоторой точке x_>0> мы знаем, что f '(x_>0>)=0, то отсюда нельзя делать вывод, что в точке x_>0> функция имеет экстремум.

Например.

Но точка x=0 не является точкой экстремума, поскольку слева от этой точки значения функции расположены ниже оси Ox, а справа выше.

Значения аргумента из области определения функции, при которых производная функции обращается в нуль или не существует, называются критическими точками.

Из всего вышесказанного следует, что точки экстремума функции находятся среди критических точек, и, однако, не всякая критическая точка является точкой экстремума. Поэтому, чтобы найти экстремум функции, нужно найти все критические точки функции, а затем каждую из этих точек исследовать отдельно на максимум и минимум. Для этого служит следующая теорема.

Теорема 2. (Достаточное условие существования экстремума.) Пусть функция непрерывна на некотором интервале, содержащем критическую точку x_>0>, и дифференцируема во всех точках этого интервала (кроме, быть может, самой точки x_>0>). Если при переходе слева направо через эту точку производная меняет знак с плюса на минус, то в точке x = x_>0> функция имеет максимум. Если же при переходе через x_>0> слева направо производная меняет знак с минуса на плюс, то функция имеет в этой точке минимум.

Таким образом, если

f '(x)>0 при x<x_>0> и f '(x)<0 при x> x_>0>, то x_>0> – точка максимума;

при x<x_>0> и f '(x)>0 при x> x_>0>, то x_>0> – точка минимума.

Доказательство. Предположим сначала, что при переходе через x_>0> производная меняет знак с плюса на минус, т.е. при всех x, близких к точке x_>0> f '(x)>0 для x< x_>0>, f '(x)<0 для x> x_>0>. Применим теорему Лагранжа к разности f(x) - f(x_>0>) = f '(c)(x- x_>0>), где c лежит между x и x_>0>.

Пусть x < x_>0>. Тогда c< x_>0> и f '(c)>0. Поэтомуf '(c)(x- x_>0>)<0и, следовательно,

f(x) - f(x_>0>)<0,т.е. f(x)< f(x_>0>).

Пусть x > x_>0>. Тогда c> x_>0> и f '(c)<0. Значитf '(c)(x- x_>0>)<0. Поэтому f(x) - f(x_>0>)<0,т.е.f(x) < f(x_>0>).

Таким образом, для всех значений x достаточно близких к x_>0> f(x) < f(x_>0>). А это значит, что в точке x_>0> функция имеет максимум.

Аналогично доказывается вторая часть теоремы о минимуме.

Проиллюстрируем смысл этой теоремы на рисунке. Пусть f '(x_>1>)=0 и для любых x, достаточно близких к x_>1>, выполняются неравенства

f '(x)<0 при x< x_>1>, f '(x)>0 при x> x_>1>.

Тогда слева от точки x_>1> функция возрастает, а справа убывает, следовательно, при x = x_>1> функция переходит от возрастания к убыванию, то есть имеет максимум.

Аналогично можно рассматривать точки x_>2> и x_>3>.

Схематически все вышесказанное можно изобразить на картинке:

Правило исследования функции y=f(x) на экстремум

Найти область определения функции f(x).

Найти первую производную функции f '(x).

Определить критические точки, для этого:

найти действительные корни уравнения f '(x)=0;

найти все значения x при которых производная f '(x) не существует.

Определить знак производной слева и справа от критической точки. Так как знак производной остается постоянным между двумя критическими точками, то достаточно определить знак производной в какой-либо одной точке слева и в одной точке справа от критической точки.

Вычислить значение функции в точках экстремума.

Примеры. Исследовать функции на минимум и максимум.

. Область определения функции D(y)=R.

Найдем производную заданной функции

Определим критические точки . Производная не существует при х_>2>= 0. Следовательно, критические точки: 0 и 2/5. Нанесем их на числовую ось и определим знак производной на каждом из полученных промежутков.

Критическая точка функции x =3. Точка x= –1 не входит в область определения функции.

НАИБОЛЬШЕЕ И НАИМЕНЬШЕЕ ЗНАЧЕНИЯ ФУНКЦИИ НА ОТРЕЗКЕ

Наибольшим значением функции на отрезке называется самое большое из всех ее значений на этом отрезке, а наименьшим – самое маленькое из всех ее значений.

Рассмотрим функцию y=f(x) непрерывную на отрезке [a, b]. Как известно, такая функция достигает своего наибольшего и наименьшего значений, либо на границе отрезка, либо внутри него. Если наибольшее или наименьшее значение функции достигается во внутренней точке отрезка, то это значение является максимумом или минимумом функции, то есть достигается в критических точках.

Таким образом, получаем следующее правило нахождения наибольшего и наименьшего значений функции на отрезке[a, b]:

Найти все критические точки функции в интервале (a, b) и вычислить значения функции в этих точках.

Вычислить значения функции на концах отрезка при x = a, x = b.

Из всех полученных значений выбрать наибольшее и наименьшее.

Примеры.

Найти наибольшее и наименьшее значения функции на отрезке [–2; –0,5].

Найдем критические точки функции.

Вычислим значения функции в найденной точке и на концах заданного отрезка.

Итак,

Найти наибольшее и наименьшее значения функцииy=x-2·ln x на [1; e].

Чему равна наименьшая площадь боковой поверхности прямого кругового конуса объема 3π?

По теореме Пифагора

Следовательно, .

Найдем критические точки функции S: S' = 0, т.е.

Покажем, что при найденном значении h функция S_>бок> достигает минимума.

Найти радиус основания и высоту цилиндра наибольшего объема, который можно вписать в шар радиусом R.

Пусть r – радиус основания цилиндра, h – высота.

Нам нужно максимизировать объем цилиндра .

Используя условие задачи, найдем связь между r и h. По теореме Пифагора из треугольника ABC следует, что . Отсюда

, по смыслу задачи 0≤h≤2R.

Покажем, что при найденном значении h функция V принимает наибольшее значение.

Условный экстремум функции нескольких переменных

Часто приходится решать задачу о нахождении экстремума функции нескольких переменных при наличии некоторых дополнительных условий.

Примеры: 1) Найти длины сторон прямоугольника, имеющего наибольшую площадь S = ху при заданной величине его периметра Р = 2х + 2у.

2) Решить ту же задачу при условии, что х - у > а, а = const.

Задача 1) имеет дополнительное условие в виде равенства, а задача 2) еще имеет условие в виде неравенства. Мы будем рассматривать задачи вида 1), которые называются задачами на условный экстремум. Задачи вида 2) называются задачами линейного (нелинейного, динамического) программирования и рассматриваются в специальных курсах.

Для функции двух переменных имеем:

О: Пусть z =(х, у) определена на множестве D. Пусть также LD — подмножество, заданное условием F(x, у) = 0. Точка называется точкой условного максимума (минимума) для(х, у), если> 0 такое, что вдля выполнено

Условные максимум и минимум называются условными экстремумами.

Для функции двух переменных задачу о нахождении точек условного экстремума решают одним из следующих двух способов.

1. Если это возможно, из уравнения связи F(x, у) = 0 находят и затем подставляют в функцию z=(x, у). В результате

становится функцией одной переменной х, для которой задача решается известными методами.

В противном случае для нахождения точек экстремума применяется метод множителей Лагранжа , который заключается в следующем.

2. Составляют функцию Лагранжа

гдеR — множитель Лагранжа. Очевидно, что на множестве L второе слагаемое обращается в нуль вследствие выполнения условия F(x, у) = 0. Таким образом, на L выполнено и поэтому задача в случае функции двух переменных, сводится к поиску экстремума функции одной переменной х.

Формально процедура решения такова. Приравниваем к нулю все частные производные функции Лагранжа:

и отсюда находим решение

Пусть— любое из решений этой системы.

Подставляя внайденный из

уравнения связи дифференциали обозначая

(в опорном конспекте № 12записано в виде определителя), получаем Тогда, еслиимеет в т.

условный максимум, если> 0 — то условный минимум.

Пример: Найти точки экстремума функции если уравнение связи у - х = 0. Рассмотрим оба способа решения. 1. Из аналитической геометрии известно, что любое уравнение 2-го порядка определяет в пространстве поверхность второго порядка . Выделим в заданном уравнении полные квадраты х и у: — уравнение параболоида вращения с вершиной в т. N(1, 2, 9) (рис. 12.3); у = х — уравнение плоскости. Подставляя уравнение связи в исходную функцию, получаем

Исследуем на экстремум:

— максимум в т.М(1,5; 1,5).

Функцияимеет условный экстремум

= 4-2 · 2,25 + 6 · 1,5 = 13 - 4,5 = 8,5. 2. Составим

линейная система уравнений.

Используя метод Крамера, получим:и

— т. условного максимума

Для функциипри наличии m уравнений связи функция Лагранжа будет иметь вид

Необходимые условия условного экстремума выражаются системой (n + m) уравнений:

Правило исключения интервалов

Пусть функция f унимодальна на интервале axb, а ее минимум достигается в точке x*.

Рассмотрим точки x_>1> и x_>2>, расположенные в интервале таким образом, что a<x_>1><x_>2><b. Сравнивая значения функции в точках x_>1> и x_>2>, можно сделать следующие выводы:

Если f(x_>1>)>f(x_>2>), то точка минимума f(x) не лежит в интервале (a,x_>1>), т.е. x*(x_>1>,b)

2. Если f(x_>1>)<f(x_>2>), то точка минимума не лежит в интервале (x_>2>,b), т.е. x*(a,x_>2>)

3. Если f(x_>1>)=f(x_>2>), то можно исключить оба крайних интервала (a,x_>1>) и (x_>2>,b), при этом x*(x_>1>,x_>2>).

Согласно правилу исключения интервалов можно реализовать процедуру поиска, позволяющую найти точку оптимума путем последовательного исключения частей исходного ограниченного интервала.

Поиск завершается, когда оставшийся интервал уменьшается до достаточно малых размеров.

Достоинства этих методов:

устраняется необходимость полного перебора всех допустимых точек.

методы основаны лишь на вычислении значений функции.

(при этом не требуется, чтобы исследуемые функции были дифференцируемы).

Метод золотого сечения

В методе же золотого сечения мы будем выбирать расположение точек х_>1>и х_>2>, рассекающих интервал, таким образом, чтобы на каждом шаге уменьшения интервала одна из этих точек совпадала с одной из аналогичных точек предыдущего шага, т.е. на каждом шагу уменьшения интервала фактически вводится только одна новая точка, для которой требуется произвести только одно вычисление значения целевой функции.

Такое рассечение интервала новой точкой может быть точно рассчитано. Забегая вперед, запишу эту пропорцию:

Точки х_>1> и х_>2> расположены симметрично относительно середины интервала (a, b).

b-x_>1> x_>2>-a -1+

= =  0.618

b-a b-a 2 .

Такое рассечение интервала и получило название золотого сечения.

Введем обозначения:

¹= b-a – исходный интервал.

² – интервал, полученный после уменьшения интервала ¹ отбрасыванием его левого или правого подинтервала.

^К+1 – интервал, полученный после уменьшения интервала ^К.

Рассмотрим теперь метод золотого сечения формально. Золотым сечением отрезка называется деление отрезка на две неравные части так, чтобы отношение всего отрезка к большей части равнялось отношению большей части к меньшей.

Золотое сечение отрезка [a, b] производится двумя симметрично расположенными точками (х_>1> и х_>2>).

Т.е. (b-a)/(b-x_>1>)=(b-x_>1>)/(x_>1>-a)= и (b-a)/(x_>2>-a)=(x_>2>-a)/(b-x_>2>)=.

Можно показать, что  = (1+5)/21.618.

Примечательно то, что точка х_>1> в свою очередь производит золотое сечение отрезка [a, x_>2>], т.е. (x_>2>-a)/(x_>1>-a) = (x_>1>-a)/(x_>2>-x_>1>) = .

Аналогично, точка х_>2> производит золотое сечение отрезка [x_>1>, b].

Итак, метод золотого сечения состоит в том, что длины последовательных интервалов берутся в фиксированном отношении:

¹/² = ²/³ = … =.

Из соотношений ^К/^K⁺¹ = ^K⁺¹/^K⁺² =  и ^K = ^K⁺¹ + ^K⁺²

Получаем: ^K/^K⁺¹ = (^K⁺¹+^K⁺²)/^K⁺¹=1+^K⁺²/^K⁺¹

 = 1 + 1/ или ² -  -1 = 0.

Корнем этого уравнения является золотое сечение.

=(5+1)/2  1.618  = 1/ = (5-1)/2  0.618.

Можно записать формулы для точек х_>1> и х_>2>, производящих золотое сечение на интервале [a, b]:

x_>1>= a+(1-)(b-a) x_>2> = a+(b-a)

Алгоритм метода золотого сечения.

Ввести a, b, -точность вычисления, =(5-1)/2

Вычислить:

x_>1>=b – (b-a); x_>2>=a + (b-a)

Вычислить: y_>1>= f(x_>1>); y_>2> = f(x_>2>)

если y_>1>y_>2>, то для дальнейшего деления оставляют интервал [a, x_>2>]

и выполняют следующее:

b: = x_>2>; x_>2>: = x_>1>; y_>2>: = y_>1>; x_>1> := b-(b-a) y_>1> := f(x_>1>)

в противном случае (если y_>1> > y_>2>), для дальнейшего деления оставляют интервал [x_>1>, b] и выполняют следующее:

a := x_>1>; x_>1> := x_>2>; y_>1> := y_>2>; x_>2> := a+(b-a); y_>2> :=f(x_>2>);

Сравнение длины интервала неопределенности с заданной точностью :

Если (b-a), то положить x* := (b-a)/2 (точка минимума), иначе (если (b-a)<) перейти к п.4.

Максимум и минимум функции нескольких переменных

Напомним, что под окрестностью точки плоскости понимается внутренность любого прямоугольника, окружающего эту точку, исключая саму точку (проколотая окрестность).

В пространстве это будет произвольный параллелепипед, содержащий эту точку за вычетом самой точки.

Определение 15.1. Максимумом (строгим) функции f (x, y) называется такое значение f(x_>1>, y_>1>) этой функции, которое больше всех ее значений f(x, y), принимаемых данной функцией в точках некоторой окрестности точки О(х_>1>, у_>1>). (Окрестность может быть весьма малой по своим линейным размерам).

Определение 15.2. Минимумом (строгим) функции f (x, y) называется такое значение f (x_>2>,y_>2>), которое меньше всех ее значений f (x,y), принимаемых данной функцией в точках некоторой окрестности О (х_>2>, у_>2>).

Максимум или минимум функции f (x, y) называется экстремумом этой функции. Точка, в которой достигается экстремум, называется точкой экстремума (точка минимума, точка максимума).

Аналогично определяется экстремум функции f (x, y, z) и т.д.

Теорема 15.1. (Необходимый признак экстремума функции нескольких переменных). В точке экстремума функции нескольких переменных каждая ее частная производная первого порядка либо равна нулю, либо не существует.

Доказательство. Пусть u = f (x, y) и f (x_>o>, y_>o>) - ее максимум (для минимума рассуждения аналогичны). Зафиксируем одну из переменных, например, у, полагая у = у_>о>, тогда получим функцию одной переменной U_>1>= f (x, y_>o>), которая, очевидно, будет иметь максимум при х = х_>о>. Отсюда, на основании теории экстремума одной переменной, получаем, что _>> или _>> не существует.

Пусть теперь у=у_>о>, а х_>о>- фиксируем, тогда _>> или не существует.

Следствие В точке экстремума М_>о> (х_>о>, у_>о>) дифференцируемой функции f (x, y) выполнены равенства _>>

Для U = f(x,_>>y, z) в точке М_>о> (х_{>о ,}>у_>о,>z_>о>) будет выполнено условие _>>.

Замечание. Точку, в которой частные производные первого порядка либо не существуют, либо равны нулю, называют критической.

Т.е. экстремумы функции нескольких переменных могут достигаться лишь в критических точках.

Пример 15.1. Покажем, что указанные выше условия не являются достаточными. Пусть z = f(x, y) = x  y тогда имеем _>>

Следовательно, _>> Однако точка 0(0,0) не является точкой экстремума, т.к. в любой окрестности точки  о,о имеются точки

  и        

f(A) = ²    f(0) и f(B) = - ²  f(0).

Абсолютный экстремум

Определение 15.3. Наименьшее или наибольшее значение функции в данной области называется абсолютным экстремумом функции. (Соответственно, абсолютный минимум, абсолютный максимум).

Теорема 15.2. (Вайерштрасс) Функция, непрерывная в ограниченной и замкнутой области, достигает в этой области своего наименьшего и своего наибольшего значения. (Без доказательства)

Теорема 15.3. Абсолютный экстремум функции в данной области достигается либо в критической точке функции, принадлежащей этой области, либо в граничной точке области. (Без доказательства)

Пример 15.2. Для функции z = x  y найти абсолютный экстремум в треугольной области S с вершинами О(0,0), А(1,0), В(0,2).

Определим

_>>

Критическая точка O(0,0)  S. На участке ОА имеем у = 0 (0  х  ) и тогда z = 0.

Аналогично ОВ: х = 0 (0  у  2)  z = 0.

Наконец, отрезок АВ имеет уравнение _>> или у = 2 - 2х (0  х  1).

Отсюда

z = x  y = 2x - 2x².

Имеем _>>, т.е. при _>> и т.к. _>>, то в точке _>> функция Z достигает своего наибольшего значения _>> на отрезке АВ.

Итак, наименьшее значение z в S есть m=0 и оно реализуется в точках отрезков ОВ и ОА, составляющих часть границы Г.

_>> достигает в точке _>>

Заключение

В работе приведены и численные методы нахождения экстремума. Необходимость в них возникает, когда система из частных производных не имеет аналитического решения или содержит сложную нелинейность. Аналитически решается лишь малая часть задач оптимизации, поэтому рассматриваются и некоторые численные алгоритмы. Численные алгоритмы запрограммированы, как правило, в математических компьютерных пакетах, которые обеспечивают высокую точность и скорость нахождения экстремума, но, к сожалению, не всегда находят глобальный экстремум. Среди таких пакетов следует отметить математические программы Maple, MatLab, Mathematica. Но это не означает, что для нахождения экстремумов следует пользоваться ими, не имея понятия о математических алгоритмах.

В работе в виду ограниченного объема не рассматривались задачи оптимизации функций с ограничениями, и задачи многокритериальной оптимизации. Тем не менее, они составляют важный класс задач поиска экстремума, которые часто появляются в научной и практической деятельности.

Литература

Акулич И.Л. Математическое программирование в примерах и задачах. - М.: Высшая школа, 1986.

Алексеев В.М., Галеев Э.М., Тихомиров В.М. Сборник задач по оптимизации. - М.: Наука, 1984.

Банди Б. Методы оптимизации. Вводный курс. - М.: Радио и связь, 1988.

Васильев Ф.П. Численные методы решения экстремальных задач. - М.: Наука, 1980.

Гилл Ф., Мюррей У., Райт М. Практическая оптимизация. - М.: Мир, 1985.

Евтушенко Ю.Г. Методы решения экстремальных задач и их применение в системах оптимизации. - М.: Наука, 1982.

Карманов В.Г. Математическое программирование. - М.: Наука, 1975.

Лесин В.В., Лисовец Ю.П. Основы методов оптимизации. - М.: Изд-во МАИ, 1995.

Летова Т.А., Пантелеев А.В. Экстремум функций в примерах и задачах. M.: Изд-во МАИ, 1998.

Пшеничный Б.И., Данилин Ю.М. Численные методы в экстремальных задачах. - М.: Наука, 1975.

Федоров В.В. Численные методы максимина. - М.: Наука, 1979.