Stačiakampių diagramų apibendrinimai Vilniaus universitetas Matematikos ir informatikos fakultetas Finansų ir draudimo matematika Statistika su kompiuteriu Parengė: Eglė Kapustinskaitė Tomas Ušinskas Reda Markevičiūtė 2006 metai Įvadas Nagrinėdami atsitiktinius dydžius visada į pagalbą pasitelkiame įvairias skaitines charakteristikas norėdami suprasti jų savybes. Dažnai nagrinėjami atsitiktinių dydžių momentai, kvantiliai, tačiau vien skaitinis duomenų pavaizdavimas neleidžia aiškiai suprasti duomenų ypatybių, todėl prieš juos nagrinėjant vertėtų jų charakteristikas pavaizduoti grafiškai. Daug įvairių grafinių instrumentų apibendrina vienarūšių duomenų charakteristikas. Išsamūs grafiniai instrumentai iliustruoja duomenų padėtį, skalę, simetriją ir uodegų “storumą”, o paprastesnės atspindi specifines charakteristikas arba tiria duomenų išsibarstymą. Tokios diagramos, kaip diagrama medis, taškinė, stačiakampė, histograma, tankio pėdsakas ir tikimybių diagrama, duoda informaciją apie išsibarstymą, paskaičiuotą pagal visus stebėjimus. Praktikoje dažnai pastebime stačiakampes diagramas (boxplot), kurios neblogai iliustruoja duomenų pasiskirstymą, tačiau R paketas turi keletą panašių tačiau tobulesnių funkcijų, pavyzdžiui smuiko (violin), stačiakampę kvantilių(box-percentile plot) diagramas. Šiame tekste nagrinėsime šiais diagramas detaliai, išsiaiškinsime privalumus, pateiksime panašumų ir skirtumų. 1. Stačiakampė diagrama Stačiakampė diagrama yra grafinis duomenų, imties atvaizdavimas koordinačių plokštumoje. Iš pirmo žvilgsnio ši diagrama adrodo gana nesuprantamai ir neaiškiai, bet pažiūrėjus atidžiau lengva matyti kad tai labai patogus duomenų atvaizdavimo būdas. Aprašomojoje statistikoje yra patogu aiškiai ir vienoje vietoje parodyti penkis reikšmingus dydžius imčiai: tai 1-kvartilis, mediana, 3-kvartilis, didžiausia ir mažiausia imties reikšmė, taip pat išskirtis. Dėl šių priežąsčių stačiakampės diagramos dažnai naudojamos praktikoje. Nusibrėžkime stačiakampę diagramą, atvaizduojančią realiųjų skaičių sekos intervale (-3; 3)16 pasiskirstymą, ir pasižiūrėkime į ją „iš arčiau“. Pvz 1.: boxplot( x 14.96050 + 1.491117013 = 16.45162, todėl skaičius 17 vaizduojamas išskirtimi, o ūsų galai yra minimumo ir maximumo taškuose atmetus išskirtį. Na o vektoriaus x dešinysis ūsas apima savo nutolusią reikšmę 16, nes x rodytų išskirtimis tik reikšmes nepapuolusias į intervalą, kuris apskaičiuojamas kaip ir vektoriaus y atveju, kadangi x apima visas reikšmes, todėl jo dešinysis ūsas „yra ilgas“. Susipažinome su stačiakampės diagramos dalių pavadinimais ir kai kuriais f-jos parametrais todėl pažiūrėkime kur diagrama taikoma. Nagrinėkime žemiau esanti paveikslėlį. Pvz. 4: . Stačiakampė diagrama pagelbėja daugelyje atveju nagrinėjant duomenis. Jos kartu su histogramomis yra naudojamos vizualiai daryti tam tikras išvadas apie normalųjį duomenų pasiskirstymą. Aukščiau paveikslėlyje kairiajame grafike matome, kad histogramos didžioji dalis yra po grafiku, iš čia galime daryti prielaidą kad dydis pasiskirstęs normaliai. Tai tvirtina ir stačiakampė diagrama, nes jos mediana yra stačiakampio viduryje, jis pats yra maždaug per ūsų vidurį, o jie ilgumu vienas nuo kito daug nesiskiria. Kitu atveju, dešiniajame pav., mediana nukrypusi į kairę pusę ir ilgesnysis apatinysis ūsas rodo kad duomenų, kurių reikšmės yra mažesnės už 1-kvartilį yra daugiau nei kituose in-uose. Matome kad turėdami vien tik stačiakampę diagramą, kurios mediana yra akivaizdžiai nukrypus i vieną pusę, ūsai nevienodi, galime daryti prielaidą kad duomenys pasiskirstę nenormaliai. 2. The Box-Percentile Plot Nors stačiakampė diagrama yra labai galingas įrankis, tačiau jis turi ir dar galingesnių “įpėdinių”. Šiame tekste mes pristatysime stačiakampę kvantilių diagramą - patobulintą stačiakampės diagramos modelį, kuris turi du pagrindinius pranašumus lyginant su ankstesne versija. Pirmiausia, čia mums nereikia atsakinėti į klausimą, kaip ją nupiešti – diagramos konfigūraciją apibrėžia empirinis pasiskirstymas, kuris nereikalauja žinoti kažkokių sutartinių dalykų, kaip pavyzdžiui, piešiant ūsus stačiakampėje diagramoje. Antra, ši diagrama yra papildyta detalėmis, kurios atskleidžia papildomą informaciją apie duomenis nedarant pačios diagramos labiau komplikuotos. Stačiakampė kvantilių diagrama gali būti naudojama kaip aiškinamasis ar vietą taupantis statistikos įrankis (daugeliu atveju ji atstoja kelis grafikus). Skirtingai nei stačiakampė diagrama, stačiakampė kvantilių diagrama naudoja diagramos plotį, kad parodytų duomenų pasiskirstymą per visą apibrėžimo sritį. Iš diagramų, pateiktų apačioje, aiškiai matyti, kad stačiakampė kvantilių diagrama pateikia tą pačią informaciją kaip ir stačiakampė diagrama ir papildomai mums leidžia pamatyti duomenų pasiskirstymą. Pav. 1 Būdas, kaip konstruoti stačiakampę kvantilių diagramą, yra tikrai paprastas. Bet kuriame aukštyje netaisyklingo “stačiakampio” plotis yra proporcingas kvantiliui tame aukštyje (iki 50% kvantilio), na o virš 50% kvantilio proporcingas pločiui 100 minus kvantilis. Kaip ir stačiakampėje diagramoje, pažymime medianą, 25% ir 75% kvantilius linijomis. Kad pavaizduotume stačiakampės diagramos teikiamą papildomą informaciją, pasitelkime į pagalbą tris duomenų rinkinius, kurių pasiskirstymas aiškiai skiriasi (žr. Pav. 2). Kaip galime matyti iš antro paveikslėlio, jų stačiakampės diagramos sutampa. Aišku, kad turėdami tik stačiakampes diagramas, tiesiog negalėtume nustatyti, jog duomenys kažkuo skiriasi. Tačiau pažvelkime i Pav. 4, kuriame turime šių duomenų stačiakampes kvantilių diagramas, kurios kaip matome leidžia atskirti skirtingus duomenų pasiskirstymus. Šiuos dirbtinius duomenis mes sukonstravome pabrėžti stačiakampės kvantilių diagramos pranašumą prieš stačiakampę diagramą. Vėliau mes naudosime tikrus duomenis, kad galėtume parodyti, kaip galima panaudoti papildomą informaciją, kurią suteikia stačiakampė kvantilių diagrama, spręsti įvairioms problemoms. threemodal normal bpplot(normal) Pav. 5 Čia mes turime normalųjį pasiskirstymą su keliomis išskirtinėmis reikšmėmis vienoje pusėje. Kaip matome, diagrama jau nėra simetriška medianos atžvilgiu. Ilgoji “ranka” tęsiasi į vieną pusę iki išskirtinių reikšmių. Ir tai yra lengvai suprantama be jokių sutartinių ženklų ar susitarimų. Paprastojoje stačiakampėje diagramoje, jei kažkokie duomenys yra priskirti išskirtinėms reikšmėms, ūsų tęsimas iki jų gali sukurti netikrumą, kur visgi tie duomenys yra. Todėl dažniausiai išskirtinės reikšmės žymimos atskirai. Antroje histogramoje (pav. 2) turime trijų modulių pasiskirstymą. Pažvelgę i jo stačiakampę kvantilių diagramą matome tipišką daugiamodulių pasiskirstymo grafiką. “Slėniuose” tarp modulių turime palyginti su “viršūnėmis” mažai stebėjimų, todėl čia pokytis kvantiliuose yra mažesnis. Būtent dėl to ties moduliais gauname išlinkimus, kurie pabrėžia duomenų susikaupimą tose vietose. Šeštajame paveikslėlyje turime stačiakampę kvantilių diagramą chi-kvadratui. Tai yra tipiška diagrama asimetriškais duomenims. Šis pavyzdys aiškiai skiriasi nuo tų, kuriuose turime išskirtines reikšmes. > chisqrt bpplot(chisqrt, main=”Chi kvadratas”) Pav. 6 2.2 Konkretūs pavyzdžiai Sugrįžkime prie paveikslėlio 1. Čia mes turėjome tokius duomenis: aukščiausių taškų penkiasdešimtyje valstybių pirmai diagramai ir 219 vulkanų aukščių antrai diagramai. Iš stačiakampių kvantilių diagramų matyti, kad duomenys yra asimetriški pirmojoje diagramoje, na o antroje diagramoje matyti išimtinės reikšmės. Stačiakampės diagramos nepateikia jokios detalios informacijos. Iš jų matyti tik, kad duomenys yra susikaupę skirtingame lygmenyje. Stačiakampės kvantilių diagramos suteikia mums kur kas detalesnę informaciją. Matome, kad duomenys apie valstybes yra labiau binominiai nei asimetriški. Mažesni aukščiai atrodo tolygiai pasiskirstę tarp 0 ir 8000. čia yra ir kita grupė aukščių tarp 800 ir 13000 ir 15000 ir viena išimtis (Aliaska) 2100 pėdų aukščio. Stačiakampė diagrama sudaro įspūdį, kad intervale nuo 8000 iki 1100 gali būti kelios valstybės, nors stačiakampė kvantilių diagrama aiškiai parodo, kad taip nėra. Dabar pažvelkime į paveikslėlį 7. Čia mes turime duomenis apie medžių invaziją į regionus, kurie nėra jų natūralios aplinkos. Medžiai buvo išpjaunami (maža dalis kamieno išpjaunama ir medžio amžius yra nustatomas pagal rieves) keliose invazijos vietose, kad būtų galima nustatyti, kada ji prasidėjo. Invazija atsiskleidžia kaip modas medžių amžiaus pasiskirstyme. Piešiant stačiakampes kvantilių diagramas matome, kad gavome ne tik skirtingas modas, bet ir skirtingas diagramų formas, kas atskleidžia skirtingą invazijos istoriją skirtingose regionų vietose. Medžių amžius pirmoje vietoje ,kaip matome, turi beveik tolygųjį pasiskirstymą. Tai reiškia, kad medžių raida čia vyko pastoviu tempu. Antrojoje vietoje matome staigią invaziją 1900-ais metais, kai trečioje vietovėje staigi invazija pastebima 1930-ais metais. Vietovės 5 ir 6 turi panašios formos invaziją, kuri prasideda skirtingu laiku Pav 7 3. Smuiko diagrama Smuiko diagrama (violin plot) yra stačiakampės diagramos ir tankio pėdsako derinys, kuris atspindi duomenų struktūrą. Pirmiausiai aptarsime stačiakampės diagramos ir tankio pėdsako derinimą, o tada pažiūrėsime pavyzdžius. Smuiko diagramos komponentai ir dalys Pavadinimas “smuiko diagrama” atsirado dėl į smuiką panašios grafiko formos. Smuiko diagrama prideda stačiakampei diagramai papildomos informacijos. Pabandykime nusibrėžti abi šias diagramas ir jas palyginti. Atsidarome naują grafinį langą, susigeneruojame atsitiktinius duomenis, brėžiame grafikus: > plot.new() > plot.window(xlim=c(0,2),ylim=c(-12,8)) > z boxplot(z, add=TRUE, at=0.5) > vioplot(z, add=TRUE, at=1.5, col="orange") Smuiko diagramoje matome stačiakampę diagramą su dviem nedideliais pakeitimais: vidurkio linija yra pakeista skrituliu (patogu, kai lyginamos kelios duomenų grupės) ir išskirtys nėra žymimos atskirais simboliais. Antrasis smuiko diagramos elementas – tankio pėdsakas. Tai suapvalinta histograma. Jis atsirado siekiant kompensuoti histogramos trūkumus. Tankio pėdsakas papildo standartines statistikas grafiniu pasiskirstymo vaizdu. Pabandykime panagrinėti jo braižymo principus. Simboliu d(x|h) pasižymėję duomenų tankį taške x kaip reikšmių, priklausančių intervalui su centru x, ir matavimo vieneto santykį, gauname formulę , kur n yra duomenų kiekis, h – intervalo plotis, o yra 1, kai i - tasis duomuo priklauso intervalui [x - h/2; x + h/2], nulis - kai nepriklauso. Norėdami nubrėžti tankio pėdsaką, pirmiausia turime pasirinkti h, apskaičiuoti d(x|h) reikšmes intervaluose, o tada sujungti gautus taškus linijomis. Kreivės d(x|h) forma tiesiogiai priklauso nuo intervalo pločio h: jei intervalo plotis labai didelis, kreivė bus per glodi, o jei h labai mažas, tai kreivė bus per daug vingiuota. Sunku palyginti keletą tankio pėdsakų nubrėžtų vienas šalia kito, tačiau kelių duomenų grupių išsibarstymo lyginimas yra dažna užduotis. Šiuo atveju padeda smuiko diagrama, nes ji susideda iš stačiakampės diagramos ir tankio pėdsako. Pastarasis brėžiamas simetriškai stačiakampės diagramos atžvilgiu (kairėje ir dešinėje vertikalios diagramos atveju bei viršuje ir apačioje – horizontaliu atveju). Vienintelis skirtumas tarp šių dviejų pėdsakų yra išplatėjimo kryptis. Dėl dviejų tankio pėdsakų, diagrama tampa simetriška, todėl ryškiau matomas tankumas. Smuiko diagrama leidžia greitai vizualiai palyginti duomenų grupių pasiskirstymą. Intervalo ilgio nurodymas Kaip ir su kitais tankį apibūdinančiais įrankiais, norint gauti „tinkamą“ rezultatą naudojant pėdsaką reikalinga patirtis ir situacijos įvertinimas. Svarbu tinkamai pasirinkti glodinimo laipsnį. Dažniausiai, aprašant funkciją vioplot, šis parametras nurodomas procentais nuo duomenų pločio. Yra žinoma, kad reikšmės artimos 15 % dažniausiai duoda gerą rezultatą, tačiau renkantis h reikšmę būtina atsižvelgti į duomenų kiekį. Mažoms duomenų grupėms per maža h reikšmė duoda labai vingiuojantį pėdsaką, o tai gali sukelti neteisingą savybių spėjimą, nors kreivės vingiuotumą gali lemti vienintelis duomuo. Dėl didelės h reikšmės per daug nuglodinta kreivė gali siūlyti spėjimą apie duomenų skirstinį, nors duomenų rinkinys yra per mažas bet kokioms išvadoms. Pėdsakas leidžia daryti kokius nors spėjimus, kai stebėjimų yra ne mažiau nei 30. Netgi kai stebėjimų yra keletas šimtų, per didelė h reikšmė gali perdaug suglodinti pėdsaką. Apskritai, manoma, kad reikšmės, didesnės už 40 %, per daug suglodina kreivę, o mažesnės už 10 % padaro ją per daug vingiuotą. Rekomenduojama naudoti reikšmes nuo 10 iki 40 procentų. Pabandysime teoriją pailiustruoti. Vienodiems duomenims nubrėšime tris smuiko diagramas: pirmojoje h = 0,1, antrojoje h parenka kompiuteris (optimaliai), trečiojoje h = 50. > plot.new() > plot.window(xlim=c(0,4),ylim=c(-5,5)) > z vioplot(z, h=0.1, add=TRUE, at=1, col="orange") > vioplot(z, add=TRUE, at=2, col="orange") > vioplot(z, h=50, add=TRUE, at=3, col="orange") Po tankio pėdsako pridėjimo prie stačiakampės diagramos, smuikinė diagrama geriau nusako pasiskirstymo formą, įskaitant ir vietas, aplink kurias yra susitelkę daugiau duomenų (grupelių egzistavimą). Tankio pėdsakas parodo iškylimus, įdubimus ir nelygumus tankume. Pateiksime pavyzdžių, iliustruojančių šiuos privalumus. Pirmiausia aptarsime galimybę išskirti tankio funkcijos formą. Pirmasis pavyzdys rodo atsitiktinai pagal žinomus skirstinius (1 – bimodalus, 2 – unimodalus, 3 – normalusis) sugeneruotų 2000 stebėjimų dydžio imčių stačiakampes ir smuiko diagramas. > par(mfrow=c(2,1)) > bimodal uniform normal vioplot(bimodal,uniform,normal, col="orange") > boxplot(bimodal,uniform,normal) Trys tankiai turi vienodas pozicijas ir dalinasi lygiomis skalinėmis charakteristikomis, tokiomis kaip vidurkis ir kvartiliai. Vidurkių ir kvartilių lygybę galima matyti stačiakampėse diagramose. Kaip ir tikėtasi, tankio pėdsakas parodo pasiskirstymo formą, iš kurios buvo sugeneruoti duomenys. Bimodalaus skirstinio smuiko diagramoje aiškiai matomos dvi viršūnės. Deja, stačiakampėje diagramoje nematome jokio skirtumo tarp bimodalinio ir unimodalinio skirstinio. Išsiskiria tik normalusis skirstinys, nes jo duomenų išsibarstymas didesnis. Dėl to, kad bimodalaus grafiko išplatėjimai yra mažesni nei normaliojo modelio, susidaro įspūdis, kad bimodaliame modelyje yra mažiau duomenų. Automatiškai padaroma taip, kad pėdsakų maksimalūs aukščiai būtų lygūs, - tai yra tokio smuiko diagramų grafiko trūkumas. Ši savybė leidžia tiesiogiai palyginti formas, bet panaikina įspūdį apie duomenų kiekį. > plot.new() > plot.window(xlim=c(0,2),ylim=c(-5,6)) > z boxplot(z, add=TRUE, at=0.5) > vioplot(z, add=TRUE, at=1.5, col="orange") Antrasis pavyzdys iliustruoja galimybę identifikuoti duomenų nelygumus ir susikaupimo taškus. Stačiakampė diagrama nesiūlo minties, kad duomenų tankis turi du susikaupimo taškus. Abiejuose pavyzdžiuose išryškėja galimybė matyti ir palyginti duomenų struktūrą bei formą. Duomenų grupelės tankio įverčiuose pasirodo kaip nelygumai. Stačiakampės diagramos dažniausiai neatkreipia tyrėjų dėmesio į nelygumų egzistavimą. Aiškiai matome, kad smuiko diagrama prideda svarbios, didesnės analizės reikalaujančios informacijos apie duomenis generuojančio proceso pasiskirstymą. Išvados Nors praktikoje be stačiakampių diagramų neapseinama, tačiau ji neatsako į daugelį mums kylančių klausimų, todėl kyla poreikis matyti duomenų grupuotumą ir nelygumus. Stačiakampė diagrama duoda glaustas duomenų charakteristikas. Tankio pėdsakas atskleidžia svarbią informaciją apie duomenų pasiskirstymą. Šių dviejų įrankių sąjunga leidžia didžiąją daugumą jų teikiamos informacijos turėti viename grafike. Tokia visuma labai palengvina kelių duomenų grupių pasiskirstymo palyginimą. Pavyzdžiai rodo, kad smuiko diagrama ir stačiakampė kvantilių diagrama atspindi daugumą stačiakampės diagramos informacijos ir prideda papildomų žinių apie pasiskirstymo formą, kurios nėra akivaizdžios stačiakampėje diagramoje, tuo pačiu neušteršdama grafiko nereikalinga informacija, bet priešingai viską pateikia paprastai ir suprantamai netgi eiliniam skaitytojui . Literatūra : • http://www.bioinf.uni-hannover.de/teaching/ol/boxplot.html • http://cmamucmuka.hit.bg/bib/box-whisker.htm • http://www.stat.yale.edu/Courses/1997-98/101/boxplot.htm • http://cran.nedmirror.nl/src/contrib/Descriptions/vioplot.html • http://addictedtor.free.fr/graphiques/graphcode.php?graph=102 • http://rss.acs.unt.edu/Rdoc/library/vioplot/html/vioplot.html • http://www.statoek.wiso.uni-goettingen.de/cms/user/index.php?lang=de§ion=research.projects.vioplot • http://cran.nedmirror.nl/doc/packages/vioplot.pdf • http://www.togaware.com/datamining/survivor/Violin_Plot.html • http://userpage.fu-berlin.de/~palaeont/data/plank_a/Formeln_in_R.pdf http://pbil.univ-lyon1.fr/R/cours/lang04.pdf • Jerry L Hintze, Ray D Nelson (1998). Violin Plots: A Box-Plot Density Trace Synergism. The American Statistician, 52(2), 181-184. www.jstor.org - prisijungti tik iš mif’o
Šį darbą sudaro 3131 žodžiai, tikrai rasi tai, ko ieškai!
★ Klientai rekomenduoja
Šį rašto darbą rekomenduoja mūsų klientai. Ką tai reiškia?
Mūsų svetainėje pateikiama dešimtys tūkstančių skirtingų rašto darbų, kuriuos įkėlė daugybė moksleivių ir studentų su skirtingais gabumais. Būtent šis rašto darbas yra patikrintas specialistų ir rekomenduojamas kitų klientų, kurie po atsisiuntimo įvertino šį mokslo darbą teigiamai. Todėl galite būti tikri, kad šis pasirinkimas geriausias!
Norint atsisiųsti šį darbą spausk ☞ Peržiūrėti darbą mygtuką!
Mūsų mokslo darbų bazėje yra daugybė įvairių mokslo darbų, todėl tikrai atrasi sau tinkamą!
Kiti darbai
Atsisiuntei rašto darbą ir neradai jame reikalingos informacijos? Pakeisime jį kitu nemokamai.
Pirkdamas daugiau nei vieną darbą, nuo sekančių darbų gausi 25% nuolaidą.
Išsirink norimus rašto darbus ir gauk juos akimirksniu po sėkmingo apmokėjimo!