Sample() funktsioon R-is

Sample Funktsioon R Is



R-is saame juhuslikult valimi väärtused vektorist või loendist, kasutades funktsiooni sample(). See võimaldab meil juhuslikult valida andmete alamhulka, mis on kasulik paljudes statistikarakendustes. Kui sisendiks on funktsiooni sample() loend, on väljundiks ka loend, millel on sama arv elemente, kuid valitud elementidega. See artikkel demonstreerib funktsiooni R sample() koos teostusega, mis määrab erinevad argumendid.

Näide 1: Funktsiooni Sample() kasutamine andmeargumendiga

Arvu juhuslikuks genereerimiseks tuleb näidisandmetega varustada funktsiooni R sample() funktsioon. Näidisandmed on funktsiooni sample() nõutav argument, mille kood on antud järgmiselt:

andmedX < - c ( 10 , kakskümmend , 30 , 40 , viiskümmend , 60 , 70 , 80 , 90 , 100 )

näidis ( andmedX , 3 )

näidis ( andmedX , 3 )

Siin genereerime kõigepealt muutuja 'dataX' täisarvu elementide vektorid. Järgmisena kutsume koodis kaks korda funktsiooni sample() ja edastame sellele argumendina varem genereeritud vektori 'dataX'. Näidise (dataX, 3) esmakordsel kasutamisel võetakse 'dataX' vektorist kolmest elemendist koosnev juhuslik valim. Tulemused on kolme 'dataX' elemendi juhuslik permutatsioon. Pärast seda kasutame uuesti valimit (a, 5), mis võtab 'dataX' vektorist veel ühe sõltumatu juhusliku valimi kolmest elemendist. Seekord on tulemus eelmisest täiesti erinev.







Väljund näitab erinevaid elemente funktsiooni sample() kahekordsel väljakutsumisel. Pange tähele, et iga kord, kui loome valimi juhuslikult, saadakse vektoritest erinevad elemendid:





Näide 2: Funktsiooni Sample() kasutamine asendusargumendiga

Lisaks on meil funktsiooni sample() argument 'asendamine', mis võtab loogilised väärtused. Sarnase elemendi saab valida mitu korda, kui elemendi valimiks on asendussuvand TRUE. Kui aga väärtuseks on seatud FALSE, saab iga elemendi puhul olla ainult üks valik, mis põhjustab elementide valimi ilma asendamiseta.





juhuslikud_arvud = c ( üksteist , 25 , 12 , 89 , Neli, viis , 16 , 67 , 38 , 96 , 55 , 73 )

näidis ( juhuslikud_arvud , 4 , asendada = TÕSI )

näidis ( juhuslikud_arvud , 5 , asendada = TÕSI )

Siin defineerime kõigepealt vektori, millel on mõned arvväärtused muutujas 'random_numbers'. Pärast seda käivitame funktsiooni sample(), kus argumendina edastatakse 'juhuslikud_arvud'. Väärtus '4' on määratud funktsioonile sample(), mis näitab, et see valib 'juhuslike_arvude' vektoritest ainult neli juhuslikku väärtust.

Järgmisena määrab sample() funktsiooni asendamine=TRUE, et iga väärtust saab valida mitu korda. Seejärel juurutame uuesti funktsiooni sample(), mis valib seekord vektoritest '5' juhuslikku väärtust. Samamoodi määrame iga väärtuse jaoks mitme valikuvõimaluse jaoks asendusargumendi väärtusega „TRUE”.



Nagu näeme, kuvatakse esimeses väljundis 4 juhuslikult valitud elemendi vektorit 'random_numbers' vektorist. Järgmises väljundis kuvatakse aga juhuslikult valitud elemendi '5' vektor:

Näide 3: Funktsiooni Sample() kasutamine suuruse argumendiga

Järgmine argument, mille funktsioon sample() läbib, on suurus. Suurus on valikuline parameeter, mis näitab tõmmatavate proovide väärtust. Funktsiooni sample() kood parameetriga “size” on toodud järgmiselt:

vektorid < - 1 : 10

näidis ( vektorid , suurus = 5 )

Siin defineeritakse numbriline vektor muutujas 'vektorid' täisarvude jadana 1 kuni 10. Funktsiooni sample() kasutatakse seejärel vektorist juhuslike elementide valimiseks. Nagu näeme, võtab funktsioon sample() kaks argumenti. Esimene argument on vektorid, millest me valimi saame. Järgmine argument on suurus, mis on määratud väärtusega '5', mis näitab, et vektorist saab valida ainult viis elementi.

Seega tagastatakse valitud elemendid juhuslikus järjekorras uue vektorina järgmises väljundis:

Näide 4: Funktsiooni Sample() kasutamine R-loendi jaoks

Lisaks saab R-i loendi jaoks kasutada funktsiooni sample(). Näite see osa saab loendist juhuslikud väärtused.

R_list < - nimekirja ( 1 : 4 ,

913 ,

c ( 'X' , 'AAAA' , 'HEA' ) ,

'ZZZ' ,

5 )

tulemus < - R_list [ näidis ( 1 : pikkus ( R_list ) , suurus = 4 ) ]

tulemus

Siin on loendi “R_list” määratletud erinevat tüüpi elementidega, sealhulgas numbrite vektor, üks arv, märgivektor, string ja muu arv. Pärast seda loome 'tulemuse' muutuja, kus käivitatakse funktsioon sample ().

Funktsiooni sample() sees määrame avaldise '1:length(R_list)', mis näitab indeksite vektoreid, millest proovi võtta. Järgmisena on meil argument 'suurus', et määrata valimitavate elementide arv, mis on '4'. Seetõttu genereerib 'R_list' loendist 'R_list' kolm juhuslikult valitud elementi. Kuna loendis “R_list” olevad elemendid on erinevat tüüpi, võivad tulemuseks olevad elemendid ka “tulemuses” olla erinevat tüüpi.

Väljund esindab uut loendit, mis sisaldab esialgse loendi juhuslikku alamhulka:

Näide 5: Funktsiooni Sample() kasutamine prooviargumendiga

Lisaks on meil funktsiooni sample() parameeter 'prob'. Argument 'tõenäosus' annab vektoris valitud elemendi tõenäosuse. Pange tähele, et kui argumenti 'tõenäosus' ei kasutata, eeldatakse, et kõik elemendid on võrdse tõenäosusega.

minu_andmed = c ( 31 , 99 , 5 , 24 , 72 )

näidis ( minu_andmed , suurus = 10 , asendada = TÕSI ,

prob = c ( 0.5 , rep ( 0.1 , 4 ) ) )

Siin viidatakse arvvektorite elementidele 'minu_andmetele'. Järgmises etapis kutsume välja proovi() funktsiooni, kus 'minu_andmed' edastatakse sellest juhuslikult valitud 10 elemendile. Seejärel määratletakse argument 'suurus', mis määrab, et juhuslikult valitav väärtus peaks olema suurusega '10'. Pärast seda määrame argumendile 'asenda' väärtuse 'TRUE', mis tähendab, et iga valitud element asendatakse enne järgmise valimist vektoriga. Kolmas argument, mis on määratletud funktsioonis sample() on 'tõenäosus', mis määrab tõenäosuse, et iga elemendi 'minu_andmed' vektor valitakse. Esimese elemendi tõenäosuseks on seatud '0,5'. Ülejäänud nelja vektori elemendi puhul on tõenäosus '0,1'.

Järgmine väljund tuuakse välja vektorite esimese elemendi suurima tõenäosusega, nagu oodatud:

Näide 6: Funktsiooni Sample() kasutamine barploti renderdamiseks

Lõpuks kasutatakse funktsiooni sample() tulpdiagrammi koostamiseks R-s, et visualiseerida antud tõenäosusjaotusega kategoorilise muutuja jaotust.

proovi_andmed = c ( 1 , 2 , 3 )

barplot ( laud ( näidis ( proovi_andmed , suurus = 500 , asendada = TÕSI , prob = c ( .30 , .60 , .10 ) ) ) )

Siin, pärast „sample_data” määratlemist täisarvulise väärtuse vektoriga, genereerime tulpdiagrammi, rakendades funktsiooni sample(). Esiteks kutsume välja barploti, mis kutsub esile funktsiooni table(), et luua saadud valimi sagedustabel. Seejärel määrame funktsiooni sample() funktsiooni table() sees, kus täisarvude 1 kuni 3 vektorist võetakse juhuslik valim suurusega 1000. Seejärel kasutatakse argumenti 'tõenäosus', et määrata iga täisarvu valimise tõenäosus. .

Nagu nüüd näeme, renderdatakse tulpdiagramm järgmiselt kolme tulbaga, üks iga täisarvu jaoks, ja tulpade kõrgus on asjakohane proovis esineva täisarvu suhtes:

Järeldus

Oleme näinud erinevate näidete abil, kuidas funktsioon sample() töötab. Funktsiooni sample() kasutatakse erinevate argumentidega, kui näidisandmed on nõutavad ja kõik muud argumendid on valikulised ja neid kutsutakse välja teatud juhtudel. Funktsioon sample() on aga kasulik statistilises analüüsis või suurte andmekogumitega töötamisel.