Koeficientët e regresionit. Linjat e regresionit. Bazat e regresionit linear

Çfarë është regresioni?

Konsideroni dy ndryshore të vazhdueshme x=(x 1, x 2, .., x n), y=(y 1, y 2, ..., y n).

Le t'i vendosim pikat në një komplot shpërndarjeje dydimensionale dhe të themi se kemi lidhje lineare, nëse të dhënat përafrohen me një vijë të drejtë.

Nëse besojmë se y varet nga x, dhe ndryshimet në y shkaktohen pikërisht nga ndryshimet në x, mund të përcaktojmë vijën e regresionit (regresion yx), i cili përshkruan më së miri marrëdhënien lineare midis këtyre dy variablave.

Përdorimi statistikor i fjalës regresion vjen nga fenomeni i njohur si regresion në mesatare, që i atribuohet Sir Francis Galton (1889).

Ai tregoi se megjithëse baballarët e gjatë priren të kenë djem të gjatë, gjatësia mesatare e djemve është më e shkurtër se ajo e baballarëve të tyre të gjatë. Gjatësia mesatare e djemve "regresoi" dhe "u zhvendos prapa" drejt gjatësisë mesatare të të gjithë baballarëve në popullatë. Kështu, mesatarisht, baballarët e gjatë kanë djem më të shkurtër (por ende mjaft të gjatë), dhe baballarët e shkurtër kanë djem më të gjatë (por ende mjaft të shkurtër).

Linja e regresionit

Një ekuacion matematik që vlerëson një vijë të thjeshtë regresioni linear (në çift):

x quhet ndryshore e pavarur ose parashikues.

Y- variabli i varur ose variabli i përgjigjes. Kjo është vlera që ne presim y(mesatarisht) nëse e dimë vlerën x, d.m.th. është "vlera e parashikuar" y»

  • a- anëtar (kryqëzimi) i lirë i vijës së vlerësimit; ky është kuptimi Y, Kur x=0(Fig.1).
  • b- pjerrësia ose pjerrësia e vijës së vlerësuar; paraqet shumën me të cilën Y rritet mesatarisht nëse rritemi x për një njësi.
  • a Dhe b quhen koeficientë regresioni të vijës së vlerësuar, megjithëse ky term shpesh përdoret vetëm për b.

Regresioni linear në çift mund të zgjerohet për të përfshirë më shumë se një ndryshore të pavarur; në këtë rast njihet si regresion i shumëfishtë.

Fig.1. Vija e regresionit linear që tregon ndërprerjen a dhe pjerrësinë b (sasia Y rritet kur x rritet me një njësi)

Metoda e katrorëve më të vegjël

Ne kryejmë analizën e regresionit duke përdorur një mostër vëzhgimesh ku a Dhe b- vlerësimet mostër të parametrave të vërtetë (të përgjithshëm), α dhe β, të cilët përcaktojnë vijën e regresionit linear në popullatën (popullata e përgjithshme).

Metoda më e thjeshtë për përcaktimin e koeficientëve a Dhe bështë Metoda e katrorëve më të vegjël(MNC).

Përshtatja vlerësohet duke parë mbetjet (distanca vertikale e secilës pikë nga vija, p.sh. mbetje = vëzhguar y- parashikoi y, Oriz. 2).

Linja e përshtatjes më të mirë zgjidhet në mënyrë që shuma e katrorëve të mbetjeve të jetë minimale.

Oriz. 2. Vija e regresionit linear me mbetje të paraqitura (vija vertikale me pika) për secilën pikë.

Supozimet e regresionit linear

Pra, për secilën vlerë të vëzhguar, mbetja është e barabartë me diferencën dhe vlera e parashikuar përkatëse mund të jetë pozitive ose negative.

Ju mund të përdorni mbetjet për të testuar supozimet e mëposhtme pas regresionit linear:

  • Mbetjet zakonisht shpërndahen me një mesatare prej zero;

Nëse supozimet e linearitetit, normalitetit dhe/ose variancës konstante janë të dyshimta, ne mund të transformojmë ose dhe të llogarisim një vijë të re regresioni për të cilën këto supozime plotësohen (për shembull, të përdorim një transformim logaritmik, etj.).

Vlerat anormale (të jashtme) dhe pikat e ndikimit

Një vëzhgim "ndikues", nëse hiqet, ndryshon një ose më shumë vlerësime të parametrave të modelit (dmth. pjerrësia ose ndërprerja).

Një vëzhgim i jashtëm (një vëzhgim që nuk është në përputhje me shumicën e vlerave në një grup të dhënash) mund të jetë një vëzhgim "ndikues" dhe mund të zbulohet lehtësisht vizualisht duke inspektuar një grafik shpërhapjeje me dy variacione ose grafik të mbetur.

Si për pikat e jashtme, ashtu edhe për vëzhgimet (pikat) "ndikues", përdoren modele, si me përfshirjen e tyre ashtu edhe pa ato, dhe vëmendje i kushtohet ndryshimeve në vlerësime (koeficientët e regresionit).

Kur kryeni një analizë, nuk duhet të hiqni automatikisht pikat e jashtme ose pikat e ndikimit, pasi thjesht injorimi i tyre mund të ndikojë në rezultatet e marra. Gjithmonë studioni arsyet e këtyre dallimeve dhe analizoni ato.

Hipoteza e regresionit linear

Kur ndërtohet regresioni linear, testohet hipoteza zero se pjerrësia e përgjithshme e vijës së regresionit β është e barabartë me zero.

Nëse pjerrësia e vijës është zero, nuk ka lidhje lineare midis dhe: ndryshimi nuk ndikon

Për të testuar hipotezën zero se pjerrësia e vërtetë është zero, mund të përdorni algoritmin e mëposhtëm:

Llogaritni statistikën e testit të barabartë me raportin , i cili i nënshtrohet një shpërndarjeje me shkallë lirie, ku gabimi standard i koeficientit


,

- vlerësimi i dispersionit të mbetjeve.

Në mënyrë tipike, nëse arrihet niveli i rëndësisë, hipoteza zero refuzohet.


ku është pika e përqindjes së shpërndarjes me shkallë lirie, e cila jep probabilitetin e një testi të dyanshëm

Ky është intervali që përmban pjerrësinë e përgjithshme me një probabilitet prej 95%.

Për mostrat e mëdha, të themi, mund të përafrojmë një vlerë prej 1.96 (d.m.th., statistikat e testimit do të priren të shpërndahen normalisht)

Vlerësimi i cilësisë së regresionit linear: koeficienti i përcaktimit R 2

Për shkak të marrëdhënies lineare dhe ne presim që të ndryshojë si , dhe e quajmë atë variacion që është për shkak ose shpjegohet me regresion. Variacioni i mbetur duhet të jetë sa më i vogël që të jetë e mundur.

Nëse kjo është e vërtetë, atëherë shumica e variacionit do të shpjegohet me regresion, dhe pikat do të qëndrojnë afër vijës së regresionit, d.m.th. rreshti i përshtatet mirë të dhënave.

Përqindja e variancës totale që shpjegohet me regresion quhet koeficienti i përcaktimit, zakonisht shprehet si përqindje dhe shënohet R 2(në regresionin linear të çiftuar kjo është sasia r 2, katrori i koeficientit të korrelacionit), ju lejon të vlerësoni subjektivisht cilësinë e ekuacionit të regresionit.

Diferenca paraqet përqindjen e variancës që nuk mund të shpjegohet me regresion.

Nuk ka asnjë test formal për të vlerësuar ne duhet të mbështetemi në gjykimin subjektiv për të përcaktuar mirësinë e përshtatjes së linjës së regresionit.

Zbatimi i një linje regresioni për parashikimin

Ju mund të përdorni një linjë regresioni për të parashikuar një vlerë nga një vlerë në fund të intervalit të vëzhguar (kurrë mos e ekstrapoloni përtej këtyre kufijve).

Ne parashikojmë mesataren e vëzhguesve që kanë një vlerë të veçantë duke e futur atë vlerë në ekuacionin e vijës së regresionit.

Pra, nëse parashikojmë si Përdorni këtë vlerë të parashikuar dhe gabimin e tij standard për të vlerësuar një interval besimi për mesataren e vërtetë të popullsisë.

Përsëritja e kësaj procedure për vlera të ndryshme ju lejon të ndërtoni kufijtë e besimit për këtë linjë. Ky është brezi ose zona që përmban vijën e vërtetë, për shembull në nivelin 95% të besimit.

Plane të thjeshta regresioni

Modelet e thjeshta të regresionit përmbajnë një parashikues të vazhdueshëm. Nëse ka 3 vëzhgime me vlera parashikuese P, të tilla si 7, 4 dhe 9, dhe dizajni përfshin një efekt të rendit të parë P, atëherë matrica e projektimit X do të jetë

dhe ekuacioni i regresionit duke përdorur P për X1 është

Y = b0 + b1 P

Nëse një dizajn i thjeshtë regresioni përmban një efekt të rendit më të lartë në P, siç është një efekt kuadratik, atëherë vlerat në kolonën X1 në matricën e projektimit do të ngrihen në fuqinë e dytë:

dhe ekuacioni do të marrë formën

Y = b0 + b1 P2

Metodat e kodimit të kufizuara nga Sigma dhe të mbiparametizuara nuk zbatohen për dizajne të thjeshta regresioni dhe modele të tjera që përmbajnë vetëm parashikues të vazhdueshëm (sepse thjesht nuk ka parashikues kategorikë). Pavarësisht nga metoda e zgjedhur e kodimit, vlerat e ndryshoreve të vazhdueshme rriten në përputhje me rrethanat dhe përdoren si vlera për ndryshoret X. Në këtë rast, nuk kryhet rikodim. Përveç kësaj, kur përshkruani planet e regresionit, mund të mos merrni parasysh matricën e projektimit X dhe të punoni vetëm me ekuacionin e regresionit.

Shembull: Analiza e thjeshtë e regresionit

Ky shembull përdor të dhënat e paraqitura në tabelë:

Oriz. 3. Tabela e të dhënave fillestare.

Të dhënat e përpiluara nga një krahasim i regjistrimeve të 1960 dhe 1970 në 30 qarqe të zgjedhura rastësisht. Emrat e qarqeve paraqiten si emra vëzhgimi. Informacioni në lidhje me çdo variabël është paraqitur më poshtë:

Oriz. 4. Tabela e specifikimeve të variablave.

Problemi i kërkimit

Për këtë shembull, do të analizohet korrelacioni ndërmjet shkallës së varfërisë dhe shkallës që parashikon përqindjen e familjeve që janë nën kufirin e varfërisë. Prandaj, ne do ta trajtojmë variablin 3 (Pt_Poor) si variabël të varur.

Mund të parashtrojmë një hipotezë: ndryshimet në madhësinë e popullsisë dhe përqindja e familjeve që janë nën kufirin e varfërisë janë të lidhura. Duket e arsyeshme të pritet që varfëria të çojë në migrim jashtë, kështu që do të kishte një korrelacion negativ midis përqindjes së njerëzve nën kufirin e varfërisë dhe ndryshimit të popullsisë. Prandaj, ne do ta trajtojmë variablin 1 (Pop_Chng) si një ndryshore parashikuese.

Shiko rezultatet

Koeficientët e regresionit

Oriz. 5. Koeficientët e regresionit të Pt_Poor në Pop_Chng.

Në kryqëzimin e rreshtit Pop_Chng dhe kolonës Param.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

koeficienti i pa standardizuar për regresionin e Pt_Poor në Pop_Chng është -0.40374. Kjo do të thotë se për çdo njësi rënie të popullsisë, ka një rritje të shkallës së varfërisë prej .40374. Kufijtë e sipërm dhe të poshtëm (të parazgjedhur) 95% të besimit për këtë koeficient të pa standardizuar nuk përfshijnë zero, kështu që koeficienti i regresionit është i rëndësishëm në nivelin p.

Koeficientët e korrelacionit mund të mbivlerësohen ose nënvlerësohen ndjeshëm nëse në të dhëna janë të pranishme vlera të mëdha të jashtme. Le të studiojmë shpërndarjen e ndryshores së varur Pt_Poor sipas rretheve. Për ta bërë këtë, le të ndërtojmë një histogram të ndryshores Pt_Poor.

Oriz. 6. Histogrami i ndryshores Pt_Poor.

Siç mund ta shihni, shpërndarja e kësaj variabli ndryshon dukshëm nga shpërndarja normale. Megjithatë, edhe pse edhe dy qarqe (dy kolonat djathtas) kanë një përqindje më të lartë të familjeve që janë nën kufirin e varfërisë sesa pritej në një shpërndarje normale, ato duket se janë "brenda kufirit".

Oriz. 7. Histogrami i ndryshores Pt_Poor.

Ky gjykim është disi subjektiv. Rregulli i përgjithshëm është që të dhënat e jashtme duhet të merren parasysh nëse vëzhgimi (ose vëzhgimet) nuk bien brenda intervalit (mesatarja ± 3 herë devijimi standard). Në këtë rast, ia vlen të përsëritet analiza me dhe pa pika të jashtme për t'u siguruar që ato të mos kenë një efekt të madh në korrelacionin midis anëtarëve të popullsisë.

Scatterplot

Nëse një nga hipotezat është a priori për marrëdhënien midis variablave të dhënë, atëherë është e dobishme ta testoni atë në grafikun e scatterplot-it përkatës.

Oriz. 8. Diagrami i shpërndarjes.

Skaterploti tregon një korrelacion të qartë negativ (-.65) midis dy variablave. Ai gjithashtu tregon intervalin 95% të besimit për vijën e regresionit, d.m.th., ka një probabilitet 95% që vija e regresionit të shtrihet midis dy kthesave me pika.

Kriteret e rëndësisë

Oriz. 9. Tabela që përmban kriteret e rëndësisë.

Testi për koeficientin e regresionit Pop_Chng konfirmon se Pop_Chng është i lidhur fort me Pt_Poor, p.<.001 .

Fundi

Ky shembull tregoi se si të analizohet një dizajn i thjeshtë regresioni. U prezantuan edhe interpretimet e koeficientëve të regresionit të pa standardizuar dhe të standardizuar. Diskutohet rëndësia e studimit të shpërndarjes së përgjigjes së një variabli të varur dhe demonstrohet një teknikë për përcaktimin e drejtimit dhe forcës së marrëdhënies midis një parashikuesi dhe një ndryshoreje të varur.

Në postimet e mëparshme, analiza shpesh fokusohej në një ndryshore të vetme numerike, të tilla si kthimet e fondeve të përbashkëta, kohët e ngarkimit të faqeve në internet ose konsumi i pijeve joalkoolike. Në këtë dhe shënimet pasuese, ne do të shikojmë metodat për parashikimin e vlerave të një ndryshoreje numerike në varësi të vlerave të një ose më shumë ndryshoreve të tjera numerike.

Materiali do të ilustrohet me një shembull tërthor. Parashikimi i vëllimit të shitjeve në një dyqan veshjesh. Zinxhiri i dyqaneve të veshjeve me zbritje Sunflowers është zgjeruar vazhdimisht për 25 vjet. Megjithatë, kompania aktualisht nuk ka një qasje sistematike për zgjedhjen e pikave të reja. Vendndodhja në të cilën një kompani synon të hapë një dyqan të ri përcaktohet bazuar në konsiderata subjektive. Kriteret e përzgjedhjes janë kushtet e favorshme të qirasë ose ideja e menaxherit për vendndodhjen ideale të dyqanit. Imagjinoni që jeni drejtuesi i departamentit të projekteve speciale dhe planifikimit. Ju keni marrë për detyrë të zhvilloni një plan strategjik për hapjen e dyqaneve të reja. Ky plan duhet të përfshijë një parashikim të shitjeve vjetore për dyqanet e sapohapura. Ju besoni se hapësira e shitjes me pakicë lidhet drejtpërdrejt me të ardhurat dhe dëshironi ta faktorizoni këtë në procesin tuaj të vendimmarrjes. Si të zhvilloni një model statistikor për të parashikuar shitjet vjetore bazuar në madhësinë e një dyqani të ri?

Në mënyrë tipike, analiza e regresionit përdoret për të parashikuar vlerat e një ndryshoreje. Qëllimi i tij është të zhvillojë një model statistikor që mund të parashikojë vlerat e një ndryshoreje të varur, ose përgjigje, nga vlerat e të paktën një ndryshoreje të pavarur, ose shpjeguese. Në këtë shënim, ne do të shikojmë regresionin e thjeshtë linear - një metodë statistikore që ju lejon të parashikoni vlerat e një variabli të varur Y nga vlerat e ndryshoreve të pavarura X. Shënimet pasuese do të përshkruajnë një model regresioni të shumëfishtë i krijuar për të parashikuar vlerat e një ndryshoreje të pavarur Y bazuar në vlerat e disa variablave të varur ( X 1, X 2, …, X k).

Shkarkoni shënimin në ose format, shembuj në format

Llojet e modeleve të regresionit

Ku ρ 1 – koeficienti i autokorrelacionit; Nëse ρ 1 = 0 (pa autokorrelacion), D≈ 2; Nëse ρ 1 ≈ 1 (autokorrelacion pozitiv), D≈ 0; Nëse ρ 1 = -1 (autokorrelacion negativ), D ≈ 4.

Në praktikë, zbatimi i kriterit Durbin-Watson bazohet në krahasimin e vlerës D me vlera teorike kritike d L Dhe d U për një numër të caktuar vëzhgimesh n, numri i variablave të pavarur të modelit k(për regresion të thjeshtë linear k= 1) dhe niveli i rëndësisë α. Nëse D< d L , hipoteza për pavarësinë e devijimeve të rastësishme refuzohet (prandaj, ekziston një autokorrelacion pozitiv); Nëse D>dU, hipoteza nuk hidhet poshtë (d.m.th. nuk ka autokorrelacion); Nëse d L< D < d U , nuk ka arsye të mjaftueshme për të marrë një vendim. Kur vlera e llogaritur D kalon 2, pastaj me d L Dhe d U Nuk është vetë koeficienti që krahasohet D, dhe shprehja (4 - D).

Për të llogaritur statistikat Durbin-Watson në Excel, le të kthehemi në tabelën e poshtme në Fig. 14 Tërheqja e bilancit. Numëruesi në shprehjen (10) llogaritet duke përdorur funksionin =SUMMAR(array1;array2), dhe emëruesin =SUMMAR(array) (Fig. 16).

Oriz. 16. Formulat për llogaritjen e statistikave Durbin-Watson

Në shembullin tonë D= 0,883. Pyetja kryesore është: cila vlerë e statistikës Durbin-Watson duhet të konsiderohet mjaft e vogël për të arritur në përfundimin se ekziston një autokorrelacion pozitiv? Është e nevojshme të lidhet vlera e D me vlerat kritike ( d L Dhe d U), në varësi të numrit të vëzhgimeve n dhe niveli i rëndësisë α (Fig. 17).

Oriz. 17. Vlerat kritike të statistikave Durbin-Watson (fragment tabele)

Kështu, në problemin e vëllimit të shitjeve në një dyqan që dërgon mallra në shtëpi, ekziston një variabël i pavarur ( k= 1), 15 vëzhgime ( n= 15) dhe niveli i rëndësisë α = 0,05. Prandaj, d L= 1,08 dhe dU= 1,36. Që nga viti D = 0,883 < d L= 1.08, ekziston një autokorrelacion pozitiv midis mbetjeve, metoda e katrorëve më të vegjël nuk mund të përdoret.

Testimi i hipotezave rreth pjerrësisë dhe koeficientit të korrelacionit

Më sipër, regresioni u përdor vetëm për parashikim. Për të përcaktuar koeficientët e regresionit dhe për të parashikuar vlerën e një ndryshoreje Y për një vlerë të dhënë variabël XËshtë përdorur metoda e katrorëve më të vegjël. Përveç kësaj, ne ekzaminuam gabimin mesatar katror të vlerësimit dhe koeficientin e përzier të korrelacionit. Nëse analiza e mbetjeve konfirmon se kushtet e zbatueshmërisë së metodës së katrorëve më të vegjël nuk janë shkelur dhe modeli i thjeshtë i regresionit linear është adekuat, bazuar në të dhënat e mostrës, mund të argumentohet se ekziston një marrëdhënie lineare midis variablave në popullsia.

Aplikimit -kriteret për pjerrësinë. Duke testuar nëse pjerrësia e popullsisë β 1 është e barabartë me zero, mund të përcaktohet nëse ekziston një lidhje statistikisht e rëndësishme midis variablave X Dhe Y. Nëse kjo hipotezë refuzohet, mund të argumentohet se midis variablave X Dhe Y ka një marrëdhënie lineare. Hipotezat zero dhe alternative janë formuluar si më poshtë: H 0: β 1 = 0 (nuk ka varësi lineare), H1: β 1 ≠ 0 (ka një varësi lineare). Sipas përkufizimit t-statistika është e barabartë me diferencën midis pjerrësisë së mostrës dhe vlerës hipotetike të pjerrësisë së popullatës, e ndarë me rrënjën e gabimit mesatar katror të vlerësimit të pjerrësisë:

(11) t = (b 1 β 1 ) / Sb 1

Ku b 1 – pjerrësia e regresionit të drejtpërdrejtë në të dhënat e mostrës, β1 – pjerrësia hipotetike e popullsisë direkte, , dhe statistikat e testimit t ka t-shpërndarja me n – 2 shkallët e lirisë.

Le të kontrollojmë nëse ka një lidhje statistikisht domethënëse midis madhësisë së dyqanit dhe shitjeve vjetore në α = 0.05. t-kriteri shfaqet së bashku me parametrat e tjerë kur përdoret Paketa e analizës(opsion Regresioni). Rezultatet e plota të Paketës së Analizës janë paraqitur në Fig. 4, fragment i lidhur me statistikat t - në Fig. 18.

Oriz. 18. Rezultatet e aplikimit t

Që nga numri i dyqaneve n= 14 (shih Fig. 3), vlera kritike t-statistikat në një nivel të rëndësisë prej α = 0,05 mund të gjenden duke përdorur formulën: t L=STUDENT.ARV(0.025,12) = –2.1788, ku 0.025 është gjysma e nivelit të rëndësisë dhe 12 = n – 2; t U=STUDENT.OBR(0.975,12) = +2.1788.

Që nga viti t-statistika = 10,64 > t U= 2,1788 (Fig. 19), hipotezë zero H 0 refuzuar. Në anën tjetër, r-vlera për X= 10,6411, e llogaritur me formulën =1-STUDENT.DIST(D3,12,TRUE), është afërsisht e barabartë me zero, kështu që hipoteza H 0 sërish refuzuar. Fakti që r-Vlera pothuajse zero do të thotë që nëse nuk do të kishte një lidhje të vërtetë lineare midis madhësisë së dyqanit dhe shitjeve vjetore, do të ishte praktikisht e pamundur të zbulohej duke përdorur regresionin linear. Prandaj, ekziston një lidhje lineare statistikisht e rëndësishme midis shitjeve mesatare vjetore të dyqaneve dhe madhësisë së dyqanit.

Oriz. 19. Testimi i hipotezës për pjerrësinë e popullsisë në një nivel rëndësie prej 0,05 dhe 12 gradë lirie

AplikimiF -kriteret për pjerrësinë. Një qasje alternative për testimin e hipotezave rreth pjerrësisë së regresionit të thjeshtë linear është të përdoret F- kriteret. Le t'ju kujtojmë se F-testi përdoret për të testuar marrëdhënien midis dy variancave (për më shumë detaje, shih). Gjatë testimit të hipotezës së pjerrësisë, masa e gabimeve të rastësishme është varianca e gabimit (shuma e gabimeve në katror të pjesëtuar me numrin e shkallëve të lirisë), pra F-kriteri përdor raportin e variancës së shpjeguar nga regresioni (d.m.th. vlera SSR, pjesëtuar me numrin e variablave të pavarur k), te varianca e gabimit ( MSE = S YX 2 ).

Sipas përkufizimit F-statistika është e barabartë me katrorin mesatar të regresionit (MSR) pjesëtuar me variancën e gabimit (MSE): F = MSR/ NVM, Ku MSR=SSR / k, MSE =SSE/(n– k – 1), k– numri i variablave të pavarur në modelin e regresionit. Statistikat e testimit F ka F-shpërndarja me k Dhe n– k – 1 shkallët e lirisë.

Për një nivel të caktuar të rëndësisë α, rregulli i vendimit formulohet si më poshtë: nëse F>FU, hipoteza zero hidhet poshtë; përndryshe nuk refuzohet. Rezultatet, të paraqitura në formën e një tabele përmbledhëse të analizës së variancës, janë paraqitur në Fig. 20.

Oriz. 20. Tabela e analizës së variancës për testimin e hipotezës për rëndësinë statistikore të koeficientit të regresionit

Po kështu t-kriter F- kriteri shfaqet në tabelë kur përdoret Paketa e analizës(opsion Regresioni). Rezultatet e plota të punës Paketa e analizës janë paraqitur në Fig. 4, fragment që lidhet me F-statistikat - në Fig. 21.

Oriz. 21. Rezultatet e aplikimit F-kriteret e marra duke përdorur Paketën e Analizës Excel

Statistika F është 113.23, dhe r-vlera afër zeros (qeliza RëndësiaF). Nëse niveli i rëndësisë α është 0,05, përcaktoni vlerën kritike F-Shpërndarjet me një dhe 12 shkallë lirie mund të merren duke përdorur formulën F U=F.OBR(1-0.05;1;12) = 4.7472 (Fig. 22). Që nga viti F = 113,23 > F U= 4,7472, dhe r-vlera afër 0< 0,05, нулевая гипотеза H 0 refuzohet, d.m.th. Madhësia e një dyqani është e lidhur ngushtë me shitjet e tij vjetore.

Oriz. 22. Testimi i hipotezës së pjerrësisë së popullsisë në një nivel të rëndësisë 0.05 me një dhe 12 shkallë lirie

Intervali i besimit që përmban pjerrësinë β 1 . Për të testuar hipotezën se ekziston një marrëdhënie lineare midis variablave, mund të ndërtoni një interval besimi që përmban pjerrësinë β 1 dhe të verifikoni që vlera hipotetike β 1 = 0 i përket këtij intervali. Qendra e intervalit të besimit që përmban pjerrësinë β 1 është pjerrësia e mostrës b 1 , dhe kufijtë e saj janë sasitë b 1 ±tn –2 Sb 1

Siç tregohet në Fig. 18, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 =STUDENT.ARV(0.975,12) = 2.1788. Prandaj, b 1 ±tn –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, ose + 1,328 ≤ β 1 ≤ +2,012. Kështu, ekziston një probabilitet prej 0,95 që pjerrësia e popullsisë të jetë midis +1,328 dhe +2,012 (d.m.th., 1,328,000 deri në 2,012,000 dollarë). Meqenëse këto vlera janë më të mëdha se zero, ekziston një lidhje lineare statistikisht e rëndësishme midis shitjeve vjetore dhe zonës së dyqanit. Nëse intervali i besimit përmban zero, nuk do të kishte asnjë lidhje midis variablave. Përveç kësaj, intervali i besimit do të thotë që çdo rritje e sipërfaqes së dyqanit me 1000 sq. ft rezulton në një rritje të vëllimit mesatar të shitjeve prej 1,328,000 dollarë në 2,012,000 dollarë.

Përdorimit -kriteret për koeficientin e korrelacionit. u prezantua koeficienti i korrelacionit r, e cila është një masë e marrëdhënies midis dy ndryshoreve numerike. Mund të përdoret për të përcaktuar nëse ka një lidhje statistikisht domethënëse midis dy variablave. Le të shënojmë koeficientin e korrelacionit midis popullatave të të dy variablave me simbolin ρ. Hipotezat zero dhe alternative janë formuluar si më poshtë: H 0: ρ = 0 (pa korrelacion), H 1: ρ ≠ 0 (ka një korrelacion). Kontrollimi i ekzistencës së një korrelacioni:

Ku r = + , Nëse b 1 > 0, r = – , Nëse b 1 < 0. Тестовая статистика t ka t-shpërndarja me n – 2 shkallët e lirisë.

Në problemin për zinxhirin e dyqaneve Sunflowers r 2= 0,904, a b 1- +1,670 (shih Fig. 4). Që nga viti b 1> 0, koeficienti i korrelacionit midis shitjeve vjetore dhe madhësisë së dyqanit është r= +√0,904 = +0,951. Le të testojmë hipotezën zero se nuk ka korrelacion midis këtyre variablave duke përdorur t- statistikat:

Në një nivel të rëndësisë prej α = 0.05, hipoteza zero duhet të refuzohet sepse t= 10,64 > 2,1788. Kështu, mund të argumentohet se ekziston një lidhje statistikisht e rëndësishme midis shitjeve vjetore dhe madhësisë së dyqanit.

Kur diskutohen konkluzionet në lidhje me pjerrësinë e popullsisë, intervalet e besimit dhe testet e hipotezave përdoren në mënyrë të ndërsjellë. Megjithatë, llogaritja e intervalit të besimit që përmban koeficientin e korrelacionit rezulton të jetë më e vështirë, pasi lloji i shpërndarjes së kampionit të statistikës r varet nga koeficienti i korrelacionit të vërtetë.

Vlerësimi i pritjes matematikore dhe parashikimi i vlerave individuale

Ky seksion diskuton metodat për vlerësimin e pritshmërisë matematikore të një përgjigjeje Y dhe parashikimet e vlerave individuale Y për vlerat e dhëna të ndryshores X.

Ndërtimi i një intervali besimi. Në shembullin 2 (shih seksionin më lart Metoda e katrorëve më të vegjël) ekuacioni i regresionit bëri të mundur parashikimin e vlerës së ndryshores Y X. Në problemin e zgjedhjes së një lokacioni për një pikë shitjeje me pakicë, vëllimi mesatar vjetor i shitjeve në një dyqan me një sipërfaqe prej 4000 sq. këmbët ishte e barabartë me 7.644 milionë dollarë, megjithatë, ky vlerësim i pritshmërisë matematikore të popullsisë së përgjithshme është pikë-pikë. Për të vlerësuar pritshmërinë matematikore të popullsisë, u propozua koncepti i një intervali besimi. Në mënyrë të ngjashme, ne mund të prezantojmë konceptin intervali i besimit për pritshmërinë matematikore të përgjigjes për një vlerë të dhënë variabël X:

Ku , = b 0 + b 1 X i– vlera e parashikuar është e ndryshueshme YX = X i, S YX- rrënja e gabimit mesatar katror, n- madhësia e mostrës, Xi- vlera e specifikuar e ndryshores X, µ Y|X = Xi– pritshmëria matematikore e ndryshores YX = X i, SSX =

Analiza e formulës (13) tregon se gjerësia e intervalit të besimit varet nga disa faktorë. Në një nivel të caktuar rëndësie, një rritje në amplituda e luhatjeve rreth vijës së regresionit, e matur duke përdorur gabimin mesatar katror të rrënjës, çon në një rritje në gjerësinë e intervalit. Nga ana tjetër, siç mund të pritej, një rritje në madhësinë e kampionit shoqërohet me një ngushtim të intervalit. Përveç kësaj, gjerësia e intervalit ndryshon në varësi të vlerave Xi. Nëse vlera e ndryshores Y parashikuar për sasitë X, afër vlerës mesatare , intervali i besimit rezulton të jetë më i ngushtë se kur parashikohet përgjigja për vlera larg mesatares.

Le të themi se kur zgjedhim vendndodhjen e dyqanit, duam të ndërtojmë një interval besimi prej 95% për shitjet mesatare vjetore të të gjitha dyqaneve sipërfaqja e të cilave është 4000 metra katrorë. këmbët:

Prandaj, vëllimi mesatar vjetor i shitjeve në të gjitha dyqanet me një sipërfaqe prej 4,000 sq. këmbë, me 95% probabilitet shtrihet në rangun nga 6,971 deri në 8,317 milionë dollarë.

Llogaritni intervalin e besimit për vlerën e parashikuar. Përveç intervalit të besimit për pritshmërinë matematikore të përgjigjes për një vlerë të caktuar të ndryshores X, shpesh është e nevojshme të dihet intervali i besimit për vlerën e parashikuar. Megjithëse formula për llogaritjen e një intervali të tillë besimi është shumë e ngjashme me formulën (13), ky interval përmban vlerën e parashikuar dhe jo vlerësimin e parametrave. Intervali për përgjigjen e parashikuar YX = Xi për një vlerë të ndryshueshme specifike Xi përcaktohet nga formula:

Supozoni se kur zgjedhim një vendndodhje për një dyqan me pakicë, duam të ndërtojmë një interval besimi 95% për vëllimin e parashikuar vjetor të shitjeve për një dyqan, sipërfaqja e të cilit është 4000 metra katrorë. këmbët:

Prandaj, vëllimi i parashikuar vjetor i shitjeve për një dyqan me një sipërfaqe prej 4000 sq. këmbët, me një probabilitet 95% shtrihet në rangun nga 5,433 deri në 9,854 milionë dollarë. Kjo për shkak se ndryshueshmëria në parashikimin e vlerave individuale është shumë më e madhe sesa në vlerësimin e pritshmërisë matematikore.

Grackat dhe çështjet etike që lidhen me përdorimin e regresionit

Vështirësitë që lidhen me analizën e regresionit:

  • Injorimi i kushteve të zbatueshmërisë së metodës së katrorëve më të vegjël.
  • Vlerësimi i gabuar i kushteve për zbatueshmërinë e metodës së katrorëve më të vegjël.
  • Zgjedhja e gabuar e metodave alternative kur shkelen kushtet e zbatueshmërisë së metodës së katrorëve më të vegjël.
  • Zbatimi i analizës së regresionit pa njohuri të thella të lëndës së hulumtimit.
  • Ekstrapolimi i një regresioni përtej gamës së variablit shpjegues.
  • Konfuzioni midis marrëdhënieve statistikore dhe shkakore.

Përdorimi i gjerë i tabelave dhe softuerit statistikor ka eliminuar problemet llogaritëse që kishin penguar përdorimin e analizës së regresionit. Megjithatë, kjo çoi në faktin se analiza e regresionit u përdor nga përdorues që nuk kishin kualifikime dhe njohuri të mjaftueshme. Si mund të dinë përdoruesit për metodat alternative nëse shumë prej tyre nuk kanë fare ide për kushtet e zbatueshmërisë së metodës së katrorëve më të vegjël dhe nuk dinë të kontrollojnë zbatimin e tyre?

Studiuesi nuk duhet të rrëmbehet nga numrat rrënqethës - duke llogaritur zhvendosjen, pjerrësinë dhe koeficientin e korrelacionit të përzier. Ai ka nevojë për njohuri më të thella. Le ta ilustrojmë këtë me një shembull klasik të marrë nga tekstet shkollore. Anscombe tregoi se të katër grupet e të dhënave të paraqitura në Fig. 23, kanë të njëjtat parametra regresioni (Fig. 24).

Oriz. 23. Katër grupe të dhënash artificiale

Oriz. 24. Analiza e regresionit të katër grupeve të të dhënave artificiale; bërë me Paketa e analizës(kliko mbi foto për ta zmadhuar imazhin)

Pra, nga pikëpamja e analizës së regresionit, të gjitha këto grupe të dhënash janë plotësisht identike. Nëse analiza do të përfundonte aty, do të humbnim shumë informacione të dobishme. Kjo dëshmohet nga parcelat e shpërndarjes (Figura 25) dhe ngastrat e mbetura (Figura 26) të ndërtuara për këto grupe të dhënash.

Oriz. 25. Shpërndani grafikët për katër grupe të dhënash

Grafikët e shpërndarjes dhe parcelat e mbetura tregojnë se këto të dhëna ndryshojnë nga njëra-tjetra. I vetmi grup i shpërndarë përgjatë një vije të drejtë është vendosur A. Grafiku i mbetjeve të llogaritura nga grupi A nuk ka asnjë model. Kjo nuk mund të thuhet për grupet B, C dhe D. Grafiku i shpërndarjes i paraqitur për grupin B tregon një model të theksuar kuadratik. Ky përfundim konfirmohet nga parcela e mbetur, e cila ka një formë parabolike. Grafiku i shpërndarjes dhe grafiku i mbetur tregojnë se grupi i të dhënave B përmban një vlerë të jashtme. Në këtë situatë, është e nevojshme të përjashtohet vlera e jashtme nga grupi i të dhënave dhe të përsëritet analiza. Një metodë për zbulimin dhe eliminimin e pikave të jashtme në vëzhgime quhet analiza e ndikimit. Pas eliminimit të periferisë, rezultati i rivlerësimit të modelit mund të jetë krejtësisht i ndryshëm. Skaterploti i grafikuar nga të dhënat nga grupi G ilustron një situatë të pazakontë në të cilën modeli empirik varet ndjeshëm nga një përgjigje individuale ( X 8 = 19, Y 8 = 12.5). Modele të tilla regresioni duhet të llogariten veçanërisht me kujdes. Pra, parcelat e shpërndarjes dhe ato të mbetura janë një mjet thelbësor për analizën e regresionit dhe duhet të jenë pjesë përbërëse e tij. Pa to, analiza e regresionit nuk është e besueshme.

Oriz. 26. Ngastra të mbetura për katër grupe të dhënash

Si të shmangni grackat në analizën e regresionit:

  • Analiza e marrëdhënieve të mundshme ndërmjet variablave X Dhe Y gjithmonë filloni duke vizatuar një grafik shpërndarjeje.
  • Para se të interpretoni rezultatet e analizës së regresionit, kontrolloni kushtet për zbatueshmërinë e tij.
  • Paraqitni mbetjet kundrejt ndryshores së pavarur. Kjo do të bëjë të mundur përcaktimin se sa mirë përputhet modeli empirik me rezultatet e vëzhgimit dhe zbulimin e një shkeljeje të qëndrueshmërisë së variancës.
  • Përdorni histogramet, grafikët e kërcellit dhe gjetheve, parcelat e kutive dhe grafikët e shpërndarjes normale për të testuar supozimin e një shpërndarjeje normale të gabimit.
  • Nëse kushtet për zbatueshmërinë e metodës së katrorëve më të vegjël nuk plotësohen, përdorni metoda alternative (për shembull, modelet e regresionit kuadratik ose të shumëfishtë).
  • Nëse plotësohen kushtet për zbatueshmërinë e metodës së katrorëve më të vegjël, është e nevojshme të testohet hipoteza për rëndësinë statistikore të koeficientëve të regresionit dhe të ndërtohen intervale besimi që përmbajnë pritshmërinë matematikore dhe vlerën e parashikuar të përgjigjes.
  • Shmangni parashikimin e vlerave të ndryshores së varur jashtë gamës së ndryshores së pavarur.
  • Mbani në mend se marrëdhëniet statistikore nuk janë gjithmonë shkak-pasojë. Mos harroni se korrelacioni midis variablave nuk do të thotë se ka një marrëdhënie shkak-pasojë midis tyre.

Rezyme. Siç tregohet në bllok diagramin (Figura 27), shënimi përshkruan modelin e thjeshtë të regresionit linear, kushtet për zbatueshmërinë e tij dhe mënyrën e testimit të këtyre kushteve. Konsiderohet t-kriteri për testimin e rëndësisë statistikore të pjerrësisë së regresionit. Një model regresioni është përdorur për të parashikuar vlerat e ndryshores së varur. Një shembull konsiderohet i lidhur me zgjedhjen e vendndodhjes për një pikë shitjeje me pakicë, në të cilën shqyrtohet varësia e vëllimit vjetor të shitjeve nga zona e dyqanit. Informacioni i marrë ju lejon të zgjidhni më saktë një vendndodhje për një dyqan dhe të parashikoni vëllimin e tij vjetor të shitjeve. Shënimet e mëposhtme do të vazhdojnë diskutimin e analizës së regresionit dhe gjithashtu do të shikojnë modelet e shumëfishta të regresionit.

Oriz. 27. Shënim diagramin e strukturës

Përdoren materiale nga libri Levin et al. – M.: Williams, 2004. – f. 792–872

Nëse ndryshorja e varur është kategorike, duhet të përdoret regresioni logjistik.

Llogaritja e koeficientëve të ekuacionit të regresionit

Sistemi i ekuacioneve (7.8) i bazuar në ED-në e disponueshme nuk mund të zgjidhet pa mëdyshje, pasi numri i të panjohurave është gjithmonë më i madh se numri i ekuacioneve. Për të kapërcyer këtë problem, nevojiten supozime shtesë. Mendja e shëndoshë dikton: këshillohet të zgjidhni koeficientët e polinomit në mënyrë të tillë që të sigurohet një gabim minimal në përafrimin e ED. Masa të ndryshme mund të përdoren për të vlerësuar gabimet e përafrimit. Gabimi mesatar katror i rrënjës përdoret gjerësisht si një masë e tillë. Mbi bazën e saj, është zhvilluar një metodë e veçantë për vlerësimin e koeficientëve të ekuacioneve të regresionit - metoda e katrorëve më të vegjël (LSM). Kjo metodë ju lejon të merrni vlerësime maksimale të gjasave të koeficientëve të panjohur të ekuacionit të regresionit nën opsionin e shpërndarjes normale, por mund të përdoret për çdo shpërndarje tjetër të faktorëve.

MNC bazohet në dispozitat e mëposhtme:

· Vlerat e vlerave dhe faktorëve të gabimit janë të pavarura, dhe për këtë arsye të pakorreluara, d.m.th. supozohet se mekanizmat për gjenerimin e interferencës nuk janë të lidhura me mekanizmin për gjenerimin e vlerave të faktorëve;

· Pritja matematikore e gabimit ε duhet të jetë e barabartë me zero (komponenti konstant përfshihet në koeficient a 0), me fjalë të tjera, gabimi është një sasi e përqendruar;

· Vlerësimi i mostrës së variancës së gabimit duhet të jetë minimal.

Le të shqyrtojmë përdorimin e OLS në lidhje me regresionin linear të vlerave të standardizuara. Për sasitë e përqendruara u j koeficienti a 0është e barabartë me zero, atëherë ekuacionet e regresionit linear

. (7.9)

Një shenjë e veçantë "^" është futur këtu për të treguar vlerat e treguesve të llogaritur duke përdorur ekuacionin e regresionit, në kontrast me vlerat e marra nga rezultatet e vëzhgimit.

Duke përdorur metodën e katrorëve më të vegjël, përcaktohen vlera të tilla të koeficientëve të ekuacionit të regresionit që sigurojnë një minimum të pakushtëzuar për shprehjen

Minimumi gjendet duke barazuar me zero të gjithë derivatet e pjesshëm të shprehjes (7.10), të marra mbi koeficientët e panjohur dhe duke zgjidhur sistemin e ekuacioneve

(7.11)

Kryerja e vazhdueshme e transformimeve dhe përdorimi i vlerësimeve të prezantuara më parë të koeficientëve të korrelacionit

. (7.12)

Pra, marrë T–1 ekuacione lineare, e cila ju lejon të llogaritni pa mëdyshje vlerat a 2, a 3, …, a t.

Nëse modeli linear është i pasaktë ose parametrat maten në mënyrë të pasaktë, atëherë në këtë rast metoda e katrorëve më të vegjël na lejon të gjejmë vlera të tilla të koeficientëve në të cilët modeli linear përshkruan më së miri objektin real në kuptimin e devijimit standard të zgjedhur. kriter.

Kur ka vetëm një parametër, bëhet ekuacioni i regresionit linear

Koeficienti a 2 gjendet nga ekuacioni

Pastaj, duke pasur parasysh atë r 2.2= 1, koeficienti i kërkuar

a 2 = r y ,2 . (7.13)

Marrëdhënia (7.13) konfirmon pohimin e deklaruar më parë se koeficienti i korrelacionit është një masë e marrëdhënies lineare midis dy parametrave të standardizuar.

Zëvendësimi i vlerës së gjetur të koeficientit a 2 në një shprehje për w, duke marrë parasysh vetitë e sasive të përqendruara dhe të normalizuara, marrim vlerën minimale të këtij funksioni të barabartë me 1- r 2 vjet,2. Vlera 1 - r 2 y,2 quhet varianca e mbetur e ndryshores së rastit y në lidhje me një ndryshore të rastësishme ju 2. Karakterizon gabimin që përftohet gjatë zëvendësimit të treguesit me një funksion të parametrit υ= a 2 u 2. Vetëm me | r y, 2| = 1 varianca e mbetur është zero, dhe për këtë arsye nuk ka asnjë gabim kur përafrohet treguesi me një funksion linear.

Kalimi nga vlerat e treguesve dhe parametrave të përqendruar dhe të normalizuar

mund të merren për vlerat origjinale

Ky ekuacion është gjithashtu linear në lidhje me koeficientin e korrelacionit. Është e lehtë të shihet se përqendrimi dhe normalizimi për regresionin linear bën të mundur zvogëlimin e dimensionit të sistemit të ekuacioneve me një, d.m.th. thjeshtoni zgjidhjen e problemit të përcaktimit të koeficientëve dhe u jepni vetë koeficientëve një kuptim të qartë.

Përdorimi i katrorëve më të vegjël për funksionet jolineare praktikisht nuk është i ndryshëm nga skema e konsideruar (vetëm koeficienti a0 në ekuacionin origjinal nuk është i barabartë me zero).

Për shembull, supozoni se është e nevojshme të përcaktohen koeficientët e regresionit parabolik

Modeli i variancës së gabimit

Bazuar në të, mund të marrim sistemin e mëposhtëm të ekuacioneve

Pas transformimeve, sistemi i ekuacioneve do të marrë formën

Duke marrë parasysh vetitë e momenteve të sasive të standardizuara, shkruajmë

Përcaktimi i koeficientëve të regresionit jolinear bazohet në zgjidhjen e një sistemi ekuacionesh lineare. Për ta bërë këtë, mund të përdorni paketa universale të metodave numerike ose paketa të specializuara për përpunimin e të dhënave statistikore.

Me rritjen e shkallës së ekuacionit të regresionit, rritet edhe shkalla e momenteve të shpërndarjes së parametrave të përdorur për të përcaktuar koeficientët. Kështu, për të përcaktuar koeficientët e ekuacionit të regresionit të shkallës së dytë, përdoren momentet e shpërndarjes së parametrave deri në shkallën e katërt përfshirëse. Dihet se saktësia dhe besueshmëria e vlerësimit të momenteve nga një kampion i kufizuar ED-sh zvogëlohet ndjeshëm me rritjen e rendit të tyre. Përdorimi i polinomeve të shkallës më të lartë se i dyti në ekuacionet e regresionit është i papërshtatshëm.

Cilësia e ekuacionit të regresionit që rezulton vlerësohet nga shkalla e afërsisë midis rezultateve të vëzhgimeve të treguesit dhe vlerave të parashikuara nga ekuacioni i regresionit në pikat e dhëna në hapësirën e parametrave. Nëse rezultatet janë të afërta, atëherë problemi i analizës së regresionit mund të konsiderohet i zgjidhur. Përndryshe, duhet të ndryshoni ekuacionin e regresionit (të zgjidhni një shkallë të ndryshme polinomi ose një lloj tjetër ekuacioni fare) dhe të përsërisni llogaritjet për të vlerësuar parametrat.

Nëse ka disa tregues, problemi i analizës së regresionit zgjidhet në mënyrë të pavarur për secilin prej tyre.

Duke analizuar thelbin e ekuacionit të regresionit, duhet të theksohen pikat e mëposhtme. Qasja e konsideruar nuk siguron vlerësim të veçantë (të pavarur) të koeficientëve - një ndryshim në vlerën e një koeficienti sjell një ndryshim në vlerat e të tjerëve. Koeficientët e marrë nuk duhet të konsiderohen si kontribut i parametrit përkatës në vlerën e treguesit. Ekuacioni i regresionit është vetëm një përshkrim i mirë analitik i ED ekzistues, dhe jo një ligj që përshkruan marrëdhënien midis parametrave dhe treguesit. Ky ekuacion përdoret për të llogaritur vlerat e treguesit në një gamë të caktuar ndryshimesh të parametrave. Është i përshtatshmërisë së kufizuar për llogaritjet jashtë këtij diapazoni, d.m.th. mund të përdoret për zgjidhjen e problemeve të interpolimit dhe, në një masë të kufizuar, për ekstrapolim.



Arsyeja kryesore e pasaktësisë së parashikimit nuk është aq shumë pasiguria e ekstrapolimit të vijës së regresionit, por variacioni i ndjeshëm i treguesit për shkak të faktorëve që nuk janë marrë parasysh në model. Kufizimi i aftësisë së parashikimit është kushti i qëndrueshmërisë së parametrave që nuk merren parasysh në model dhe natyra e ndikimit të faktorëve të modelit të marrë parasysh. Nëse mjedisi i jashtëm ndryshon ndjeshëm, atëherë ekuacioni i përpiluar i regresionit do të humbasë kuptimin e tij. Ju nuk mund të zëvendësoni në ekuacionin e regresionit vlerat e faktorëve që ndryshojnë ndjeshëm nga ato të paraqitura në ED. Rekomandohet të mos kaloni një të tretën e diapazonit të ndryshimit të parametrit si për vlerat maksimale ashtu edhe për ato minimale të faktorit.

Parashikimi i marrë duke zëvendësuar vlerën e pritur të parametrit në ekuacionin e regresionit është një pikë. Mundësia që një parashikim i tillë të realizohet është i papërfillshëm. Këshillohet të përcaktohet intervali i besueshmërisë së parashikimit. Për vlerat individuale të treguesit, intervali duhet të marrë parasysh gabimet në pozicionin e vijës së regresionit dhe devijimet e vlerave individuale nga kjo linjë. Gabimi mesatar në parashikimin e treguesit y për faktorin x do të jetë

Ku është gabimi mesatar në pozicionin e vijës së regresionit në popullatën në x = x k;

– vlerësimi i variancës së devijimit të treguesit nga vija e regresionit në popullatë;

x k– vlera e pritur e faktorit.

Kufijtë e besimit të parashikimit, për shembull, për ekuacionin e regresionit (7.14), përcaktohen nga shprehja

Term negativ negativ a 0 në ekuacionin e regresionit për variablat origjinale do të thotë se fusha e ekzistencës së treguesit nuk përfshin vlerat e parametrave zero. Nëse a 0 > 0, atëherë fusha e ekzistencës së treguesit përfshin vlerat zero të parametrave, dhe vetë koeficienti karakterizon vlerën mesatare të treguesit në mungesë të ndikimeve të parametrave.

Problemi 7.2. Ndërtoni një ekuacion regresioni për kapacitetin e kanalit bazuar në mostrën e specifikuar në tabelë. 7.1.

Zgjidhje. Në lidhje me kampionin e specifikuar, ndërtimi i varësisë analitike u krye kryesisht brenda kornizës së analizës së korrelacionit: xhiroja varet vetëm nga parametri i raportit sinjal-zhurmë. Mbetet për të zëvendësuar vlerat e parametrave të llogaritura më parë në shprehjen (7.14). Ekuacioni për kapacitetin do të marrë formën

ŷ = 26,47–0,93×41,68×5,39/6,04+0,93×5,39/6,03× X = – 8,121+0,830X.

Rezultatet e llogaritjes janë paraqitur në tabelë. 7.5.

Tabela 7.5

N fq Kapaciteti i kanalit Raporti sinjal ndaj zhurmës Vlera e funksionit Gabim
Y X ŷ ε
26.37 41.98 26.72 -0.35
28.00 43.83 28.25 -0.25
27/83 42.83 27.42 0.41
31.67 47.28 31.12 0.55
23.50 38.75 24.04 -0.54
21.04 35.12 21.03 0.01
16.94 32.07 18.49 -1.55
37.56 54.25 36.90 0.66
18.84 32.70 19.02 -0.18
25.77 40.51 25.50 0.27
33.52 49.78 33.19 0.33
28.21 43.84 28.26 -0.05
28.76 44.03

Gjatë studimeve, studentët shumë shpesh ndeshen me një sërë ekuacionesh. Njëri prej tyre - ekuacioni i regresionit - diskutohet në këtë artikull. Ky lloj ekuacioni përdoret posaçërisht për të përshkruar karakteristikat e marrëdhënies midis parametrave matematikorë. Ky lloj barazie përdoret në statistikë dhe ekonometri.

Përkufizimi i regresionit

Në matematikë, regresioni nënkupton një sasi të caktuar që përshkruan varësinë e vlerës mesatare të një grupi të dhënash nga vlerat e një sasie tjetër. Ekuacioni i regresionit tregon, në funksion të një karakteristike të veçantë, vlerën mesatare të një karakteristike tjetër. Funksioni i regresionit ka formën e një ekuacioni të thjeshtë y = x, në të cilin y vepron si një ndryshore e varur dhe x si një ndryshore e pavarur (faktor-tipar). Në fakt, regresioni shprehet si y = f (x).

Cilat janë llojet e marrëdhënieve midis variablave?

Në përgjithësi, ekzistojnë dy lloje të kundërta të marrëdhënieve: korrelacioni dhe regresioni.

E para karakterizohet nga barazia e variablave të kushtëzuar. Në këtë rast, nuk dihet me besueshmëri se cila variabël varet nga tjetra.

Nëse nuk ka barazi midis variablave dhe kushtet thonë se cila variabël është shpjeguese dhe cila është e varur, atëherë mund të flasim për praninë e një lidhjeje të llojit të dytë. Për të ndërtuar një ekuacion të regresionit linear, do të jetë e nevojshme të zbulohet se çfarë lloj marrëdhënieje vërehet.

Llojet e regresioneve

Sot, ekzistojnë 7 lloje të ndryshme të regresionit: hiperbolik, linear, shumëfish, jolinear, çift, invers, logaritmikisht linear.

Hiperbolike, lineare dhe logaritmike

Ekuacioni i regresionit linear përdoret në statistika për të shpjeguar qartë parametrat e ekuacionit. Duket sikur y = c+t*x+E. Një ekuacion hiperbolik ka formën e një hiperbole të rregullt y = c + m / x + E. Një ekuacion logaritmik linear shpreh marrëdhënien duke përdorur një funksion logaritmik: Në y = Në c + m * Në x + Në E.

Të shumëfishta dhe jolineare

Dy llojet më komplekse të regresionit janë të shumëfishtë dhe jolinearë. Ekuacioni i regresionit të shumëfishtë shprehet me funksionin y = f(x 1, x 2 ... x c) + E. Në këtë situatë, y vepron si një ndryshore e varur dhe x vepron si një ndryshore shpjeguese. Ndryshorja E është stokastike, ajo përfshin ndikimin e faktorëve të tjerë në ekuacion. Ekuacioni i regresionit jolinear është pak i diskutueshëm. Nga njëra anë, në raport me treguesit e marrë në konsideratë nuk është linear, por nga ana tjetër, në rolin e treguesve vlerësues është linear.

Llojet e kundërta dhe të çiftëzuara të regresioneve

Një invers është një lloj funksioni që duhet të konvertohet në një formë lineare. Në programet më tradicionale të aplikimit, ai ka formën e një funksioni y = 1/c + m*x+E. Një ekuacion i regresionit në çift tregon marrëdhënien midis të dhënave si funksion i y = f (x) + E. Ashtu si në ekuacionet e tjera, y varet nga x dhe E është një parametër stokastik.

Koncepti i korrelacionit

Ky është një tregues që tregon ekzistencën e një marrëdhënieje midis dy fenomeneve ose proceseve. Forca e marrëdhënies shprehet si një koeficient korrelacioni. Vlera e tij luhatet brenda intervalit [-1;+1]. Një tregues negativ tregon praninë e reagimeve, një tregues pozitiv tregon reagime të drejtpërdrejta. Nëse koeficienti merr një vlerë të barabartë me 0, atëherë nuk ka asnjë lidhje. Sa më afër të jetë vlera me 1, aq më e fortë është marrëdhënia midis parametrave, aq më afër 0, aq më e dobët është.

Metodat

Metodat parametrike të korrelacionit mund të vlerësojnë fuqinë e marrëdhënies. Ato përdoren në bazë të vlerësimit të shpërndarjes për të studiuar parametrat që i binden ligjit të shpërndarjes normale.

Parametrat e ekuacionit të regresionit linear janë të nevojshëm për të identifikuar llojin e varësisë, funksionin e ekuacionit të regresionit dhe për të vlerësuar treguesit e formulës së zgjedhur të marrëdhënies. Fusha e korrelacionit përdoret si metodë e identifikimit të lidhjes. Për ta bërë këtë, të gjitha të dhënat ekzistuese duhet të përshkruhen grafikisht. Të gjitha të dhënat e njohura duhet të vizatohen në një sistem koordinativ dy-dimensional drejtkëndor. Kështu formohet një fushë korrelacioni. Vlerat e faktorit përshkrues shënohen përgjatë boshtit të abshisës, ndërsa vlerat e faktorit të varur shënohen përgjatë boshtit të ordinatave. Nëse ekziston një marrëdhënie funksionale midis parametrave, ato rreshtohen në formën e një rreshti.

Nëse koeficienti i korrelacionit të të dhënave të tilla është më pak se 30%, mund të flasim për një mungesë pothuajse të plotë të lidhjes. Nëse është midis 30% dhe 70%, atëherë kjo tregon praninë e lidhjeve të mesme të ngushta. Një tregues 100% është dëshmi e një lidhjeje funksionale.

Një ekuacion jolinear i regresionit, ashtu si ai linear, duhet të plotësohet me një indeks korrelacioni (R).

Korrelacioni për regresion të shumëfishtë

Koeficienti i përcaktimit është një masë e katrorit të korrelacionit të shumëfishtë. Ai flet për marrëdhënien e ngushtë të grupit të treguesve të paraqitur me karakteristikën që studiohet. Mund të flasë gjithashtu për natyrën e ndikimit të parametrave në rezultat. Ekuacioni i regresionit të shumëfishtë vlerësohet duke përdorur këtë tregues.

Për të llogaritur treguesin e korrelacionit të shumëfishtë, është e nevojshme të llogaritet indeksi i tij.

Metoda e katrorëve më të vegjël

Kjo metodë është një mënyrë për të vlerësuar faktorët e regresionit. Thelbi i tij është të minimizojë shumën e devijimeve në katror të marra si rezultat i varësisë së faktorit nga funksioni.

Një ekuacion i regresionit linear në çift mund të vlerësohet duke përdorur një metodë të tillë. Ky lloj ekuacionesh përdoret kur zbulohet një marrëdhënie lineare e çiftuar midis treguesve.

Parametrat e ekuacionit

Çdo parametër i funksionit të regresionit linear ka një kuptim specifik. Ekuacioni i regresionit linear të çiftuar përmban dy parametra: c dhe m Parametri m demonstron ndryshimin mesatar në treguesin përfundimtar të funksionit y, me kusht që ndryshorja x të zvogëlohet (rritet) me një njësi konvencionale. Nëse ndryshorja x është zero, atëherë funksioni është i barabartë me parametrin c. Nëse ndryshorja x nuk është zero, atëherë faktori c nuk ka kuptim ekonomik. Ndikimi i vetëm në funksion është shenja përpara faktorit c. Nëse ka një minus, atëherë mund të themi se ndryshimi në rezultat është i ngadaltë në krahasim me faktorin. Nëse ka një plus, atëherë kjo tregon një ndryshim të përshpejtuar në rezultat.

Çdo parametër që ndryshon vlerën e ekuacionit të regresionit mund të shprehet përmes një ekuacioni. Për shembull, faktori c ka formën c = y - mx.

Të dhëna të grupuara

Ekzistojnë kushte të detyrës në të cilat të gjitha informacionet grupohen sipas atributit x, por për një grup të caktuar tregohen vlerat mesatare përkatëse të treguesit të varur. Në këtë rast, vlerat mesatare karakterizojnë se si ndryshon treguesi në varësi të x. Kështu, informacioni i grupuar ndihmon për të gjetur ekuacionin e regresionit. Përdoret si analizë e marrëdhënieve. Megjithatë, kjo metodë ka të metat e saj. Fatkeqësisht, treguesit mesatarë janë shpesh subjekt i luhatjeve të jashtme. Këto luhatje nuk pasqyrojnë modelin e marrëdhënies, ato thjesht maskojnë "zhurmën" e saj. Mesataret tregojnë modele marrëdhëniesh shumë më të këqija se një ekuacion i regresionit linear. Megjithatë, ato mund të përdoren si bazë për gjetjen e një ekuacioni. Duke shumëzuar numrin e një popullsie individuale me mesataren përkatëse, mund të merret shuma y brenda grupit. Tjetra, duhet të shtoni të gjitha shumat e marra dhe të gjeni treguesin përfundimtar y. Është pak më e vështirë të bësh llogaritjet me treguesin e shumës xy. Nëse intervalet janë të vogla, mund të marrim me kusht treguesin x për të gjitha njësitë (brenda grupit) të jetë i njëjtë. Ju duhet ta shumëzoni atë me shumën e y për të gjetur shumën e prodhimeve të x dhe y. Më pas, të gjitha shumat mblidhen së bashku dhe fitohet shuma totale xy.

Ekuacioni i regresionit të shumëfishtë në çift: vlerësimi i rëndësisë së një marrëdhënieje

Siç u diskutua më herët, regresioni i shumëfishtë ka një funksion të formës y = f (x 1,x 2,…,x m)+E. Më shpesh, një ekuacion i tillë përdoret për të zgjidhur problemin e ofertës dhe kërkesës për një produkt, të ardhurat nga interesi për aksionet e riblera dhe për të studiuar shkaqet dhe llojin e funksionit të kostos së prodhimit. Përdoret gjithashtu në mënyrë aktive në një shumëllojshmëri të gjerë studimesh dhe llogaritjesh makroekonomike, por në nivelin mikroekonomik ky ekuacion përdoret pak më rrallë.

Detyra kryesore e regresionit të shumëfishtë është të ndërtojë një model të dhënash që përmban një sasi të madhe informacioni në mënyrë që të përcaktohet më tej se çfarë ndikimi ka secili prej faktorëve individualisht dhe në tërësinë e tyre në treguesin që duhet të modelohet dhe koeficientët e tij. Ekuacioni i regresionit mund të marrë një shumëllojshmëri të gjerë vlerash. Në këtë rast, për të vlerësuar marrëdhënien, zakonisht përdoren dy lloje funksionesh: lineare dhe jolineare.

Funksioni linear përshkruhet në formën e marrëdhënies së mëposhtme: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. Në këtë rast, a2, a m konsiderohen koeficientë të regresionit "të pastër". Ato janë të nevojshme për të karakterizuar ndryshimin mesatar në parametrin y me një ndryshim (ulje ose rritje) në secilin parametër korrespondues x me një njësi, duke iu nënshtruar vlerave të qëndrueshme të treguesve të tjerë.

Ekuacionet jolineare kanë, për shembull, formën e një funksioni fuqie y=ax 1 b1 x 2 b2 ...x m bm. Në këtë rast, treguesit b 1, b 2 ..... b m quhen koeficientë elasticiteti, ata demonstrojnë se si rezultati do të ndryshojë (me sa%) me një rritje (ulje) në treguesin përkatës x me 1% dhe me një tregues të qëndrueshëm të faktorëve të tjerë.

Cilët faktorë duhet të merren parasysh gjatë ndërtimit të regresionit të shumëfishtë

Për të ndërtuar saktë regresionin e shumëfishtë, është e nevojshme të zbuloni se cilët faktorë duhet t'i kushtohet vëmendje e veçantë.

Është e nevojshme të kemi njëfarë kuptimi të natyrës së marrëdhënieve ndërmjet faktorëve ekonomikë dhe asaj që po modelohet. Faktorët që duhet të përfshihen duhet të plotësojnë kriteret e mëposhtme:

  • Duhet t'i nënshtrohet matjes sasiore. Për të përdorur një faktor që përshkruan cilësinë e një artikulli, në çdo rast duhet t'i jepet një formë sasiore.
  • Nuk duhet të ketë ndërlidhje faktorësh, apo marrëdhënie funksionale. Veprime të tilla më së shpeshti çojnë në pasoja të pakthyeshme - sistemi i ekuacioneve të zakonshme bëhet i pakushtëzuar, dhe kjo përfshin jobesueshmërinë dhe vlerësimet e tij të paqarta.
  • Në rastin e një treguesi të madh korrelacioni, nuk ka asnjë mënyrë për të zbuluar ndikimin e izoluar të faktorëve në rezultatin përfundimtar të treguesit, prandaj, koeficientët bëhen të pakuptueshëm.

Metodat e ndërtimit

Ka një numër të madh metodash dhe metodash që shpjegojnë se si mund të zgjidhni faktorët për një ekuacion. Sidoqoftë, të gjitha këto metoda bazohen në zgjedhjen e koeficientëve duke përdorur një tregues korrelacioni. Ndër to janë:

  • Metoda e eliminimit.
  • Metoda e ndërrimit.
  • Analiza e regresionit hap pas hapi.

Metoda e parë përfshin filtrimin e të gjithë koeficientëve nga grupi total. Metoda e dytë përfshin futjen e shumë faktorëve shtesë. Epo, e treta është eliminimi i faktorëve që janë përdorur më parë për ekuacionin. Secila prej këtyre metodave ka të drejtë të ekzistojë. Ata kanë të mirat dhe të këqijat e tyre, por të gjithë mund ta zgjidhin çështjen e eliminimit të treguesve të panevojshëm në mënyrën e tyre. Si rregull, rezultatet e marra nga secila metodë individuale janë mjaft të afërta.

Metodat e analizës me shumë variacione

Metoda të tilla të përcaktimit të faktorëve bazohen në marrjen në konsideratë të kombinimeve individuale të karakteristikave të ndërlidhura. Këto përfshijnë analizën diskriminuese, njohjen e formës, analizën e komponentit kryesor dhe analizën e grupimeve. Përveç kësaj, ekziston edhe analiza e faktorëve, por ajo u shfaq për shkak të zhvillimit të metodës së komponentëve. Të gjitha ato zbatohen në rrethana të caktuara, në varësi të kushteve dhe faktorëve të caktuar.

Koncepti i regresionit. Varësia ndërmjet variablave x Dhe y mund të përshkruhet në mënyra të ndryshme. Në veçanti, çdo formë e lidhjes mund të shprehet me një ekuacion të përgjithshëm, ku y trajtohet si një variabël i varur, ose funksionet nga një tjetër - ndryshore e pavarur x, e quajtur argument. Korrespondenca midis një argumenti dhe një funksioni mund të specifikohet nga një tabelë, formulë, grafik, etj. Ndryshimi i një funksioni në varësi të një ndryshimi në një ose më shumë argumente quhet regresioni. Të gjitha mjetet e përdorura për të përshkruar korrelacionet përbëjnë përmbajtjen analiza e regresionit.

Për të shprehur regresionin, ekuacionet e korrelacionit ose ekuacionet e regresionit, përdoren seritë e regresionit empirik dhe teorikisht të llogaritur, grafikët e tyre, të quajtur linja regresioni, si dhe koeficientët e regresionit linear dhe jolinear.

Treguesit e regresionit shprehin marrëdhënien e korrelacionit në mënyrë dypalëshe, duke marrë parasysh ndryshimet në vlerat mesatare të karakteristikës Y gjatë ndryshimit të vlerave x i shenjë X, dhe, anasjelltas, tregojnë një ndryshim në vlerat mesatare të karakteristikës X sipas vlerave të ndryshuara y i shenjë Y. Përjashtim bëjnë seritë kohore, ose seritë kohore, që tregojnë ndryshime në karakteristika me kalimin e kohës. Regresioni i serive të tilla është i njëanshëm.

Ka shumë forma dhe lloje të ndryshme të korrelacioneve. Detyra zbret në identifikimin e formës së lidhjes në çdo rast specifik dhe shprehjen e saj me ekuacionin e duhur të korrelacionit, i cili na lejon të parashikojmë ndryshimet e mundshme në një karakteristikë Y bazuar në ndryshimet e njohura në një tjetër X, lidhur me të parën në mënyrë korrelative.

12.1 Regresioni linear

Ekuacioni i regresionit. Rezultatet e vëzhgimeve të kryera në një objekt të veçantë biologjik bazuar në karakteristikat e ndërlidhura x Dhe y, mund të përfaqësohet me pika në një rrafsh duke ndërtuar një sistem koordinatash drejtkëndëshe. Rezultati është një lloj diagrami shpërndarës që lejon dikë të gjykojë formën dhe afërsinë e marrëdhënies midis karakteristikave të ndryshme. Shumë shpesh kjo marrëdhënie duket si një vijë e drejtë ose mund të përafrohet me një vijë të drejtë.

Marrëdhënia lineare ndërmjet variablave x Dhe y përshkruhet me një ekuacion të përgjithshëm, ku a, b, c, d,... – parametrat e ekuacionit që përcaktojnë marrëdhëniet ndërmjet argumenteve x 1 , x 2 , x 3 , …, x m dhe funksionet.

Në praktikë, jo të gjitha argumentet e mundshme merren parasysh, por vetëm disa argumente në rastin më të thjeshtë, vetëm një:

Në ekuacionin e regresionit linear (1) aështë termi i lirë dhe parametri b përcakton pjerrësinë e vijës së regresionit në raport me boshtet e koordinatave drejtkëndore. Në gjeometrinë analitike ky parametër quhet shpat, dhe në biometrikë - koeficienti i regresionit. Një paraqitje vizuale e këtij parametri dhe pozicioni i linjave të regresionit Y Nga X Dhe X Nga Y në sistemin e koordinatave drejtkëndëshe jep Fig. 1.

Oriz. 1 Vijat e regresionit të Y me X dhe X nga Y në sistem

koordinatat drejtkëndore

Linjat e regresionit, siç tregohet në figurën 1, kryqëzohen në pikën O (,), që korrespondojnë me vlerat mesatare aritmetike të karakteristikave të ndërlidhura me njëra-tjetrën Y Dhe X. Gjatë ndërtimit të grafikëve të regresionit, vlerat e ndryshores së pavarur X vizatohen përgjatë boshtit të abshisës, dhe vlerat e ndryshores së varur, ose funksionit Y, vizatohen përgjatë boshtit të ordinatës AB që kalon nëpër pikën O (, ) korrespondon me marrëdhënien e plotë (funksionale) ndërmjet variablave Y Dhe X, kur koeficienti i korrelacionit . Sa më e fortë të jetë lidhja ndërmjet Y Dhe X, sa më afër të jenë linjat e regresionit me AB dhe, anasjelltas, sa më e dobët të jetë lidhja midis këtyre sasive, aq më të largëta janë linjat e regresionit nga AB. Nëse nuk ka lidhje midis karakteristikave, linjat e regresionit janë në kënde të drejta me njëra-tjetrën dhe .

Meqenëse treguesit e regresionit shprehin marrëdhënien e korrelacionit në mënyrë dypalëshe, ekuacioni i regresionit (1) duhet të shkruhet si më poshtë:

Formula e parë përcakton vlerat mesatare kur ndryshon karakteristika X për njësi matëse, për të dytën - vlerat mesatare kur ndryshoni me një njësi matëse të atributit Y.

Koeficienti i regresionit. Koeficienti i regresionit tregon se sa është mesatarisht vlera e një karakteristike y ndryshon kur masa e një tjetri, e ndërlidhur me, ndryshon me një Y shenjë X. Ky tregues përcaktohet nga formula

Këtu janë vlerat s shumëzuar me madhësinë e intervaleve të klasave λ , nëse janë gjetur nga seritë e variacioneve ose tabelat e korrelacionit.

Koeficienti i regresionit mund të llogaritet pa llogaritur devijimet standarde s y Dhe s x sipas formulës

Nëse koeficienti i korrelacionit është i panjohur, koeficienti i regresionit përcaktohet si më poshtë:

Marrëdhënia ndërmjet regresionit dhe koeficientëve të korrelacionit. Duke krahasuar formulat (11.1) (tema 11) dhe (12.5), shohim: numëruesi i tyre ka të njëjtën vlerë, gjë që tregon një lidhje midis këtyre treguesve. Kjo marrëdhënie shprehet me barazi

Kështu, koeficienti i korrelacionit është i barabartë me mesataren gjeometrike të koeficientëve b yx Dhe b xy. Formula (6) lejon, së pari, bazuar në vlerat e njohura të koeficientëve të regresionit b yx Dhe b xy përcaktoni koeficientin e regresionit R xy, dhe së dyti, kontrolloni korrektësinë e llogaritjes së këtij treguesi korrelacioni R xy ndërmjet karakteristikave të ndryshme X Dhe Y.

Ashtu si koeficienti i korrelacionit, koeficienti i regresionit karakterizon vetëm një marrëdhënie lineare dhe shoqërohet nga një shenjë plus për një marrëdhënie pozitive dhe një shenjë minus për një marrëdhënie negative.

Përcaktimi i parametrave të regresionit linear. Dihet se shuma e devijimeve në katror është një variant x i nga mesatarja është vlera më e vogël, pra kjo teoremë përbën bazën e metodës së katrorëve më të vegjël. Lidhur me regresionin linear [shih formula (1)] kërkesa e kësaj teoreme plotësohet nga një sistem i caktuar ekuacionesh i quajtur normale:

Zgjidhja e përbashkët e këtyre ekuacioneve në lidhje me parametrat a Dhe bçon në rezultatet e mëposhtme:

;

;

, nga ku dhe.

Duke marrë parasysh natyrën e dyanshme të marrëdhënies ndërmjet variablave Y Dhe X, formula për përcaktimin e parametrit A duhet të shprehet kështu:

Dhe . (7)

Parametri b, ose koeficienti i regresionit, përcaktohet nga formulat e mëposhtme:

Ndërtimi i serive të regresionit empirik. Nëse ka një numër të madh vëzhgimesh, analiza e regresionit fillon me ndërtimin e serive të regresionit empirik. Seritë e regresionit empirik formohet duke llogaritur nga vlerat e një karakteristike të ndryshme X vlerat mesatare të një tjetri, të ndërlidhura me X shenjë Y. Me fjalë të tjera, ndërtimi i serive të regresionit empirik zbret në gjetjen e mesatareve të grupit nga vlerat përkatëse të karakteristikave Y dhe X.

Një seri regresioni empirik është një seri e dyfishtë numrash që mund të përfaqësohen me pika në një rrafsh dhe më pas, duke i lidhur këto pika me segmente të drejtëza, mund të merret një vijë empirike regresioni. Seritë e regresionit empirik, veçanërisht grafikët e tyre, quhen linjat e regresionit, japin një ide të qartë të formës dhe afërsisë së korrelacionit midis karakteristikave të ndryshme.

Rreshtimi i serive të regresionit empirik. Grafikët e serive të regresionit empirik rezultojnë, si rregull, të mos jenë linja të lëmuara, por të thyera. Kjo shpjegohet me faktin se, së bashku me arsyet kryesore që përcaktojnë modelin e përgjithshëm në ndryshueshmërinë e karakteristikave të ndërlidhura, madhësia e tyre ndikohet nga ndikimi i arsyeve të shumta dytësore që shkaktojnë luhatje të rastësishme në pikat nyjore të regresionit. Për të identifikuar tendencën (prirjen) kryesore të variacionit të konjuguar të karakteristikave të ndërlidhura, është e nevojshme të zëvendësohen linjat e thyera me linja regresioni të lëmuara dhe pa probleme. Procesi i zëvendësimit të vijave të thyera me ato të lëmuara quhet përafrimi i serive empirike Dhe linjat e regresionit.

Metoda grafike e shtrirjes. Kjo është metoda më e thjeshtë dhe nuk kërkon ndonjë punë llogaritëse. Thelbi i saj zbret në sa vijon. Seria e regresionit empirik përshkruhet si një grafik në një sistem koordinativ drejtkëndor. Pastaj pikat e mesme të regresionit përshkruhen vizualisht, përgjatë së cilës vizatohet një vijë e fortë duke përdorur një vizore ose model. Disavantazhi i kësaj metode është i dukshëm: nuk përjashton ndikimin e vetive individuale të studiuesit në rezultatet e shtrirjes së linjave të regresionit empirik. Prandaj, në rastet kur nevojitet saktësi më e lartë kur zëvendësohen linjat e thyera të regresionit me ato të lëmuara, përdoren metoda të tjera të rreshtimit të serive empirike.

Metoda e mesatares lëvizëse. Thelbi i kësaj metode zbret në llogaritjen vijuese të mesatareve aritmetike nga dy ose tre terma ngjitur të serisë empirike. Kjo metodë është veçanërisht e përshtatshme në rastet kur seria empirike përfaqësohet nga një numër i madh termash, kështu që humbja e dy prej tyre - ato ekstreme, e cila është e pashmangshme me këtë metodë të shtrirjes, nuk do të ndikojë dukshëm në strukturën e saj.

Metoda e katrorëve më të vegjël. Kjo metodë u propozua në fillim të shekullit të 19-të nga A.M. Lezhandrit dhe, pavarësisht nga ai, K. Gauss. Kjo ju lejon të përafroni më saktë seritë empirike. Kjo metodë, siç tregohet më lart, bazohet në supozimin se shuma e devijimeve në katror është një opsion x i nga mesatarja e tyre ka një vlerë minimale, pra emri i metodës, e cila përdoret jo vetëm në ekologji, por edhe në teknologji. Metoda e katrorëve më të vegjël është objektive dhe universale, ajo përdoret në një larmi të gjerë rastesh për gjetjen e ekuacioneve empirike për seritë e regresionit dhe përcaktimin e parametrave të tyre.

Kërkesa e metodës së katrorëve më të vegjël është që pikat teorike të vijës së regresionit duhet të përftohen në atë mënyrë që shuma e devijimeve në katror nga këto pika për vëzhgimet empirike. y i ishte minimale, d.m.th.

Duke llogaritur minimumin e kësaj shprehjeje në përputhje me parimet e analizës matematikore dhe duke e transformuar atë në një mënyrë të caktuar, mund të merret një sistem i të ashtuquajturit. ekuacionet normale, në të cilën vlerat e panjohura janë parametrat e kërkuar të ekuacionit të regresionit, dhe koeficientët e njohur përcaktohen nga vlerat empirike të karakteristikave, zakonisht shumat e vlerave të tyre dhe prodhimet e tyre të kryqëzuara.

Regresioni linear i shumëfishtë. Marrëdhënia midis disa variablave zakonisht shprehet me një ekuacion të regresionit të shumëfishtë, i cili mund të jetë lineare Dhe jolineare. Në formën e tij më të thjeshtë, regresioni i shumëfishtë shprehet si një ekuacion me dy ndryshore të pavarura ( x, z):

Ku a– termi i lirë i ekuacionit; b Dhe c– parametrat e ekuacionit. Për të gjetur parametrat e ekuacionit (10) (duke përdorur metodën e katrorëve më të vegjël), përdoret sistemi i mëposhtëm i ekuacioneve normale:

Seri dinamike. Rreshtimi i rreshtave. Ndryshimet në karakteristikat me kalimin e kohës formojnë të ashtuquajturat seritë kohore ose seri dinamike. Një tipar karakteristik i serive të tilla është se ndryshorja e pavarur X këtu është gjithmonë faktori kohë, dhe ndryshorja e varur Y është një tipar në ndryshim. Në varësi të serisë së regresionit, marrëdhënia midis variablave X dhe Y është e njëanshme, pasi faktori kohë nuk varet nga ndryshueshmëria e karakteristikave. Pavarësisht këtyre veçorive, seritë dinamike mund të krahasohen me seritë e regresionit dhe të përpunohen duke përdorur të njëjtat metoda.

Ashtu si seritë e regresionit, seritë empirike të dinamikës mbajnë ndikimin jo vetëm të faktorëve kryesorë, por edhe të shumtë dytësorë (të rastësishëm) që errësojnë prirjen kryesore të ndryshueshmërisë së karakteristikave, që në gjuhën e statistikës quhet trend.

Analiza e serive kohore fillon me identifikimin e formës së trendit. Për ta bërë këtë, seritë kohore përshkruhen si një grafik rreshtor në një sistem koordinativ drejtkëndor. Në këtë rast, pikat kohore (vitet, muajt dhe njësitë e tjera të kohës) vizatohen përgjatë boshtit të abshisës, dhe vlerat e ndryshores së varur Y janë paraqitur përgjatë boshtit të ordinatave, nëse ka një lidhje lineare midis ndryshoreve X dhe Y (tendenca lineare), metoda e katrorëve më të vegjël është më e përshtatshme për përafrimin e serive kohore është një ekuacion regresioni në formën e devijimeve të termave të serisë së ndryshores së varur Y nga mesatarja aritmetike e serisë së të pavarurit. ndryshorja X:

Këtu është parametri i regresionit linear.

Karakteristikat numerike të serive dinamike. Karakteristikat kryesore numerike përgjithësuese të serive dinamike përfshijnë mesatare gjeometrike dhe një mesatare aritmetike afër tij. Ato karakterizojnë shkallën mesatare në të cilën vlera e ndryshores së varur ndryshon gjatë periudhave të caktuara kohore:

Një vlerësim i ndryshueshmërisë së anëtarëve të serisë së dinamikës është devijimi standard. Kur zgjedhim ekuacionet e regresionit për të përshkruar seritë kohore, merret parasysh forma e trendit, e cila mund të jetë lineare (ose reduktuar në lineare) dhe jolineare. Korrektësia e zgjedhjes së ekuacionit të regresionit zakonisht gjykohet nga ngjashmëria e vlerave të vëzhguara dhe të llogaritura empirike të ndryshores së varur. Një zgjidhje më e saktë për këtë problem është metoda e analizës së regresionit të variancës (tema 12, paragrafi 4).

Korrelacioni i serive kohore. Shpesh është e nevojshme të krahasohet dinamika e serive kohore paralele të lidhura me njëra-tjetrën nga disa kushte të përgjithshme, për shembull, për të gjetur marrëdhënien midis prodhimit bujqësor dhe rritjes së numrit të bagëtive gjatë një periudhe të caktuar kohore. Në raste të tilla, karakteristika e marrëdhënies ndërmjet variablave X dhe Y është koeficienti i korrelacionit R xy (në prani të një tendence lineare).

Dihet se tendenca e serive kohore, si rregull, errësohet nga luhatjet në serinë e ndryshores së varur Y. Kjo krijon një problem të dyfishtë: matja e varësisë midis serive të krahasuara, pa përjashtuar tendencën, dhe matja e varësia midis anëtarëve fqinjë të së njëjtës seri, duke përjashtuar trendin. Në rastin e parë, treguesi i afërsisë së lidhjes ndërmjet serive kohore të krahasuara është koeficienti i korrelacionit(nëse marrëdhënia është lineare), në të dytën - koeficienti i autokorrelacionit. Këta tregues kanë kuptime të ndryshme, megjithëse llogariten duke përdorur të njëjtat formula (shih temën 11).

Është e lehtë të shihet se vlera e koeficientit të autokorrelacionit ndikohet nga ndryshueshmëria e anëtarëve të serisë së ndryshores së varur: sa më pak anëtarët e serisë të devijojnë nga tendenca, aq më i lartë është koeficienti i autokorrelacionit dhe anasjelltas.