Duomenų gavybos savybė, kuri išskiria ją iš “klasikinio” mašininio mokymo (ML – machine learning) ir statistinio modeliavimo (SM) yra mastelis. Pristatome metodiką, kuri nukreipia skalę į naują madą, kuri turi potenciją iš pagrindų pakeisti lauką. Kol metodika daugiausiai taikoma plačiųjų (eilutė – stulpelis) duomenų aibėms, tikimasi, kad ji bus pritaikyta ir kitiems pavaizdavimams.
Mūsų problemos sprendimas nėra svarstyti individualius ML ar SM metodus. Teiksime pirmenybę nagrinėjimui visiems egzistuojantiems metodams peržiūrint duomenų aibes. Metodas pavadintas suliejimu. Šis metodas akivaizdžiai parodys bet kokiais pavyzdžiais ir teoriniais argumentais kaip ir kodėl tai veikia gerai.
Liejimas susideda is trijų modulio pakopų: grupavimo, momento pagavimo ir generavimo. Šios trys pakopos apibrėžia susiliejimo principą, kuriuo originalas (labai didelė duomenų aibė) yra padalyjama į skirtingas grupes; kiekvienos grupės viduje paskaičiuojama žemos eilės momentų serijos; ir pabaigoje, šie momentai praeina nusistovėjusią tvarką, kuri generuoja pseudo duomenis, kurie tiksliai atstato momentus.
GMG suliejimo proceso rezultatas yra sulietos duomenų aibės, turinčios pradinių duomenų struktūrą, ir dar papildomai kiekvieno pseudo duomens svorį, kuris atspindi pradinių duomenų išsibarstymą grupėse. Bet kuris ML ar SM metodas, kuris naudoja svorį, gali būti panaudotas svertinių pseudo duomenų analizei. Pagal konstrukciją, rezultatų analizė bus analogiška pradinių duomenų aibių analizei.
Liejimas turėtų sietis su daugeliu KDD podalykių:
Statistika: liejimas apibendrina pakankamumo principą parametrų bei modelio erdvei;
Duomenų bazės peržiūra: sutrauktų duomenų aibė, atspindinti didelę duomenų aibę, kuriai atliekama analizė, parodanti kaip duomenų kubai vykdo greitas užklausas;
Algoritmai: GMG žingsniai gali būti pristatyti bei įrodyti kaip greiti bei tikslūs;
Mašinų mokymas: išplečiant egzistuojančius ML metodus svertiniams duomenims ir išedant naujus metodus, kurie tinka šiai struktūrai.
1. Pristatymas
Viena pagrindinių kliūčių efektyviai duomenų gavybai yra labai didelių duomenų aibių valdymo ir analizavimo sudėtingumas. Modelio paieškos ir modelio taikymo procesas reikalauja daugkartinės duomenų peržiūros, tačiau kol kas neįmanoma sudėti didžiulių duomenų aibių į fizinę atmintį.
Yra du galimi problemos sprendimo būdai: konstruoti didžiulių duomenų aibių santraukas, pagal kurias būtų atliekama norima...
Šį darbą sudaro 5233 žodžiai, tikrai rasi tai, ko ieškai!
★ Klientai rekomenduoja
Šį rašto darbą rekomenduoja mūsų klientai. Ką tai reiškia?
Mūsų svetainėje pateikiama dešimtys tūkstančių skirtingų rašto darbų, kuriuos įkėlė daugybė moksleivių ir studentų su skirtingais gabumais. Būtent šis rašto darbas yra patikrintas specialistų ir rekomenduojamas kitų klientų, kurie po atsisiuntimo įvertino šį mokslo darbą teigiamai. Todėl galite būti tikri, kad šis pasirinkimas geriausias!
Norint atsisiųsti šį darbą spausk ☞ Peržiūrėti darbą mygtuką!
Mūsų mokslo darbų bazėje yra daugybė įvairių mokslo darbų, todėl tikrai atrasi sau tinkamą!
Panašūs darbai
Atsisiuntei rašto darbą ir neradai jame reikalingos informacijos? Pakeisime jį kitu nemokamai.
Pirkdamas daugiau nei vieną darbą, nuo sekančių darbų gausi 25% nuolaidą.
Išsirink norimus rašto darbus ir gauk juos akimirksniu po sėkmingo apmokėjimo!