Newtons metode, Newtons algoritme ( også kendt som tangentmetoden ) er en iterativ numerisk metode til at finde roden ( nul ) af en given funktion . Metoden blev først foreslået af den engelske fysiker , matematiker og astronom Isaac Newton ( 1643-1727 ) . Søgningen efter en løsning udføres ved at konstruere successive tilnærmelser og er baseret på principperne om simpel iteration . Metoden har kvadratisk konvergens . En modifikation af metoden er metoden med akkorder og tangenter. Newtons metode kan også bruges til at løse optimeringsproblemer, hvor det er nødvendigt at bestemme nulpunktet for den første afledte eller gradient i tilfælde af et flerdimensionalt rum.
For numerisk at løse ligningen ved den simple iterationsmetode , skal den reduceres til en ækvivalent ligning: , hvor er sammentrækningsafbildningen .
For den bedste konvergens af metoden på punktet for den næste tilnærmelse skal betingelsen være opfyldt . Løsningen af denne ligning søges i formen , så:
Hvis vi antager, at tilnærmelsespunktet er "tæt nok" på roden , og at den givne funktion er kontinuert , er den endelige formel for :
Med dette i tankerne er funktionen defineret:
Under visse forhold udfører denne funktion en sammentrækningskortlægning i et nabolag af roden.
BevisLad en funktion af en reel variabel gives, der er to gange kontinuerligt differentierbar i sit definitionsdomæne , og hvis afledte aldrig forsvinder:
Og det er nødvendigt at bevise, at funktionen udfører en sammentrækningskortlægning nær roden af ligningen .
På grund af den kontinuerlige differentiabilitet af funktionen og uligheden af nul, er dens første afledede kontinuert .
Den afledte er:
Under de betingelser, der er pålagt , er den også kontinuerlig. Lad være den ønskede rod af ligningen: , derfor i dens nabolag :
Så ifølge Lagranges sætning :
På grund af det faktum, at i det samme deltakvarter er følgende sandt:
Den således opnåede funktion i nærheden af roden implementerer en sammentrækningsmapping . ■
I dette tilfælde reduceres algoritmen til at finde en numerisk løsning til ligningen til en iterativ beregningsprocedure :
Ifølge Banachs sætning tenderer sekvensen af tilnærmelser til roden af ligningen .
Hovedideen med metoden er som følger: den indledende tilnærmelse er sat nær den hypotetiske rod, hvorefter en tangent til grafen for den undersøgte funktion plottes ved tilnærmelsespunktet, for hvilket skæringspunktet med abscisseaksen er fundet. Dette punkt tages som den næste tilnærmelse. Og så videre, indtil den nødvendige nøjagtighed er nået.
Lad 1) en funktion med reel værdi være kontinuerligt differentierbar på intervallet ;
2) der er et påkrævet punkt : ;
3) der er også sådanne, at
for
og
for ;
4) pointen er sådan, at . Så kan formlen for iterativ tilnærmelse til k
udledes af den geometriske betydning af tangenten som følger:
hvor er hældningsvinklen for tangentlinjen til grafen i punktet .
Derfor (i ligningen for tangentlinjen antager vi ) har det ønskede udtryk for formen:
Hvis , så kan denne værdi bruges som den næste tilnærmelse til .
Hvis , så er der en "flugt" (roden ligger nær grænsen ). I dette tilfælde er det nødvendigt (ved at bruge ideen om halveringsmetoden ) at erstatte med indtil punktet "vender tilbage" til søgeområdet .
Bemærkninger. 1) Tilstedeværelsen af en kontinuerlig afledt gør det muligt at bygge en kontinuerligt skiftende tangent på hele området for søgningen efter en løsning .
2) Tilfælde af grænse (ved et punkt eller ved et punkt ) placering af den ønskede løsning betragtes på lignende måde.
3) Set fra et geometrisk synspunkt betyder lighed
, at tangentlinjen til grafen
i punktet
- er parallel med aksen
og
ikke skærer med denne i enden.
4) Jo større konstanten er og jo mindre konstanten fra afsnit 3 af betingelserne, jo tættere er
skæringspunktet mellem tangenten til grafen og aksen til punktet , det vil sige jo tættere er værdien på den ønskede .
Den iterative proces begynder med en indledende tilnærmelse , og mellem og det ønskede punkt bør der ikke være andre nuller i funktionen , det vil sige "jo tættere på den ønskede rod , jo bedre." Hvis der ikke er nogen antagelser om at finde , kan trial and error indsnævre rækken af mulige værdier ved at anvende mellemværdisætningen .
For foruddefinerede afslutter
den iterative proces hvis
og
.
Især for displayet matrix og kan beregnes baseret på grafen display skala , det vil sige, hvis og falder i én lodret, og i én vandret række.
Overvej problemet med at finde positive , for hvilket . Denne opgave kan repræsenteres som opgaven med at finde funktionens nulpunkt . Vi har et udtryk for den afledede . Da for alle og for , er det indlysende , at løsningen ligger mellem 0 og 1. Lad os tage værdien som en indledende tilnærmelse , så:
Gyldige signifikante cifre er understreget . Det kan ses, at deres antal stiger fra trin til trin (ca. fordobles med hvert trin): fra 1 til 2, fra 2 til 5, fra 5 til 10, hvilket illustrerer den kvadratiske konvergenshastighed .
Lad os overveje en række eksempler, der peger på manglerne ved metoden.
Lade
Derefter
Lad os tage nul som en indledende tilnærmelse. Den første iteration vil give enhed som en tilnærmelse. Til gengæld vil den anden igen give nul. Metoden vil loope, og der vil ikke blive fundet nogen løsning. Generelt kan konstruktionen af en sekvens af tilnærmelser være meget forvirrende .
Overvej en funktion:
Dengang og overalt undtagen 0.
I nærheden af roden skifter den afledede fortegn, når den nærmer sig nul fra højre eller venstre. Mens for .
Den er således ikke afgrænset nær roden, og metoden vil divergere, selvom funktionen er differentierbar overalt, dens afledte er ikke-nul ved roden, uendeligt differentierbar overalt undtagen ved roden, og dens afledte er afgrænset omkring roden .
Overvej et eksempel:
Så og undtagen hvor det ikke er defineret.
På næste trin har vi :
Hastigheden af konvergens af den resulterende sekvens er ca. 4/3. Dette er væsentligt mindre end 2, hvilket er nødvendigt for kvadratisk konvergens, så i dette tilfælde kan vi kun tale om lineær konvergens, selvom funktionen er kontinuerligt differentierbar overalt , er den afledede ved roden ikke lig med nul, og er uendeligt differentierbar overalt undtagen ved roden.
Lade
Så og deraf . Metodens konvergens er således ikke kvadratisk, men lineær, selvom funktionen er uendelig differentierbar overalt.
Lad ligningen være givet , hvor og det er nødvendigt at finde dens løsning.
Nedenfor er formuleringen af hovedsætningen, som giver os mulighed for at give klare betingelser for anvendelighed. Den bærer navnet på den sovjetiske matematiker og økonom Leonid Vitalievich Kantorovich ( 1912-1986 ) .
Kantorovichs teorem.
Hvis der er konstanter , sådan at:
Desuden er længden af det betragtede segment . Så er følgende udsagn sande:
Fra den sidste sætning i sætningen følger især metodens kvadratiske konvergens :
Så vil begrænsningerne på den oprindelige funktion se således ud:
Metoden blev beskrevet af Isaac Newton i manuskriptet On the Analysis by Equations of Infinite Series ( latin: De analysi per aequationes numero terminorum infinitas ) adresseret til Barrow i 1669 , og i The Method of Fluxions and Infinite Series ( latin: De metodis fluxionum et serierum infinitarum" ) eller " Analytisk Geometri " ( lat. "Geometria analytica" ) i samlingerne af Newtons værker, som blev skrevet i 1671 . I sine skrifter introducerer Newton begreber som udvidelsen af en funktion til en serie , infinitesimals og fluxioner ( afledte i den nuværende betydning). Disse værker blev udgivet meget senere: den første blev udgivet i 1711 takket være William Johnson, den anden blev udgivet af John Colzon i 1736 efter skaberens død. Imidlertid afveg beskrivelsen af metoden væsentligt fra hans nuværende udlægning: Newton anvendte sin metode udelukkende på polynomier . Han beregnede ikke successive tilnærmelser , men en sekvens af polynomier og som et resultat fik en omtrentlig løsning .
Metoden blev først offentliggjort i afhandlingen "Algebra" af John Wallis i 1685, på hvis anmodning den kort blev beskrevet af Newton selv. I 1690 udgav Joseph Raphson en forenklet beskrivelse i sin "Analysis aequationum universalis" ( latin: "Analysis aequationum universalis" ). Raphson betragtede Newtons metode som rent algebraisk og begrænsede dens anvendelse til polynomier, men han beskrev metoden i form af successive tilnærmelser i stedet for den mere vanskelige at forstå sekvens af polynomier brugt af Newton. Endelig, i 1740, blev Newtons metode beskrevet af Thomas Simpson som en førsteordens iterativ metode til løsning af ikke-lineære ligninger ved hjælp af en afledt, som præsenteret her. I samme publikation generaliserede Simpson metoden til tilfældet med et system af to ligninger og bemærkede, at Newtons metode også kan anvendes til optimeringsproblemer ved at finde nulpunktet for den afledte eller gradient .
I 1879 var Arthur Cayley , i The Newton-Fourier imaginary problem, den første til at påpege vanskelighederne ved at generalisere Newtons metode til tilfældet med imaginære rødder af polynomier af højere grad end den anden og komplekse indledende tilnærmelse. Dette arbejde banede vejen for studiet af fraktal teori .
Den relaterede sekantmetode er Newtons "tilnærmede" metode og undgår at beregne den afledte. Værdien af den afledte i den iterative formel erstattes af dens estimat for de to foregående iterationspunkter:
.
Således har hovedformlen formen
Denne metode ligner Newtons, men har en lidt langsommere konvergenshastighed. Metodens konvergensrækkefølge er lig med det gyldne snit - 1.618 ...
Bemærkninger. 1) For at starte den iterative proces kræves to forskellige værdier af
og
.
2) I modsætning til den "ægte Newton-metode" (tangensmetoden), som kun kræver lagring
(og midlertidigt under beregninger og ), kræver sekantmetoden lagring
,
,
,
.
3) Det bruges, hvis beregningen er svær (for eksempel kræver den en stor mængde maskinressourcer: tid og/eller hukommelse).
For at reducere antallet af opkald til værdierne af den afledte funktion af en funktion, bruges den såkaldte en-tangens metode.
Iterationsformlen for denne metode er:
Essensen af metoden er kun at beregne den afledte én gang, ved det indledende tilnærmelsespunkt , og derefter bruge denne værdi ved hver efterfølgende iteration:
Med dette valg gælder følgende lighed på punktet :
og hvis det segment, hvorpå tilstedeværelsen af en rod antages, og den indledende tilnærmelse er valgt, er lille nok, og den afledede er kontinuert, så vil værdien ikke afvige meget fra , og derfor vil grafen passere næsten vandret og skære lige linje , som igen vil sikre hurtig konvergens af sekvensen af tilnærmelsespunkter til roden.
Denne metode er et specialtilfælde af den simple iterationsmetode . Det har en lineær rækkefølge af konvergens.
Lad os generalisere det opnåede resultat til det multidimensionelle tilfælde.
Lad det være nødvendigt at finde en løsning på systemet:
Ved at vælge en begyndelsesværdi , findes successive tilnærmelser ved at løse ligningssystemer :
hvor .
Lad det være nødvendigt at finde minimum af en funktion af flere variable . Denne opgave svarer til problemet med at finde nulpunktet for gradienten . Lad os anvende ovenstående Newtons metode:
hvor er hessian for funktionen .
I en mere bekvem iterativ form ser dette udtryk således ud:
Det skal bemærkes, at i tilfælde af en kvadratisk funktion, finder Newtons metode et ekstremum i én iteration.
At finde den hessiske matrix er beregningsmæssigt dyrt og ofte ikke muligt. I sådanne tilfælde kan kvasi-newtonske metoder tjene som et alternativ , hvor en tilnærmelse af den hessiske matrix bygges i processen med at akkumulere information om funktionens krumning.
Newton-Raphson metoden er en forbedring af Newtons ekstremum metode beskrevet ovenfor. Den største forskel er, at ved den næste iteration vælger en af metoderne til endimensionel optimering det optimale trin:
hvor For at optimere beregningerne bruges følgende forbedring: i stedet for at genberegne hessian for objektivfunktionen ved hver iteration begrænser vi os til den indledende tilnærmelse og opdaterer den kun én gang i trin, eller opdaterer den slet ikke.
I praksis er der ofte opgaver, hvor det er nødvendigt at justere de frie parametre for et objekt eller justere den matematiske model til reelle data. I disse tilfælde opstår problemer med mindste kvadrater :
Disse problemer er kendetegnet ved en særlig form for gradient og hessisk matrix :
hvor er Jacobi-matrixen for vektorfunktionen , er den hessiske matrix for dens komponent .
Derefter bestemmes det næste trin fra systemet:
Gauss-Newton-metoden er baseret på den antagelse, at begrebet dominerer over . Dette krav er ikke opfyldt, hvis minimumsresterne er store, det vil sige, hvis normen er sammenlignelig med matrixens maksimale egenværdi . Ellers kan du skrive:
Når normen er tæt på nul, og matricen har fuld kolonnerangering , adskiller trinnet sig således lidt fra det newtonske (under hensyntagen til ), og metoden kan opnå en kvadratisk konvergenshastighed, selvom de anden afledede ikke tages i betragtning konto. En forbedring af metoden er Levenberg-Marquardt-algoritmen baseret på heuristiske overvejelser.
Indtil nu er der i beskrivelsen af metoden brugt funktioner, der udfører mappings inden for sættet af reelle værdier . Metoden kan dog også anvendes til at finde nulpunktet for en funktion af en kompleks variabel . Proceduren forbliver dog den samme:
Af særlig interesse er valget af den oprindelige tilnærmelse . I lyset af at en funktion kan have flere nuller, kan metoden i forskellige tilfælde konvergere til forskellige værdier, og det er helt naturligt at ville finde ud af, hvilke områder der vil sikre konvergens til en bestemt rod. Dette spørgsmål interesserede Arthur Cayley tilbage i 1879 , men det var først muligt at løse det i 70'erne af det tyvende århundrede med fremkomsten af computerteknologi. Det viste sig, at i skæringspunkterne mellem disse regioner (de kaldes normalt tiltrækningsområder ) dannes såkaldte fraktaler - uendelige selvlignende geometriske figurer.
På grund af det faktum, at Newton udelukkende anvendte sin metode til polynomier , blev fraktalerne dannet som følge af en sådan anvendelse kendt som Newtons fraktaler eller Newtons puljer .
Optimeringsmetoder _ | |
---|---|
Endimensionel |
|
Nul orden | |
Første ordre | |
anden orden | |
Stokastisk | |
Lineære programmeringsmetoder _ | |
Ikke-lineære programmeringsmetoder |