Tekstiandmete analüüsimine R-is: Stringi manipuleerimise põhitõed

Tekstiandmete Analuusimine R Is Stringi Manipuleerimise Pohitoed



Stringid on R-i programmeerimises populaarsuselt teine ​​andmetüüp ja stringidega manipuleerimine on R-s ülioluline ülesanne. Stringiga manipuleerimise operatsioon R-is koosneb mitmest funktsioonist tekstiandmete kasutamiseks ja muutmiseks, sealhulgas stringide muutmine ja sõelumine. Selles artiklis käsitleme mõnda funktsiooni, mis aitavad meil stringidega manipuleerida. Need funktsioonid on R-i sisse ehitatud ja neid kasutatakse stringiülesannete täitmiseks erinevatel eesmärkidel.

Näide 1: saage mustri asukoht stringist, kasutades R-i funktsiooni Grep().

Määratud mustri asukoha eraldamiseks stringist kasutatakse funktsiooni R grep().

grep('i+', c('fix', 'split', 'corn n', 'paint'), perl=TRUE, value=FALSE)

Siin kasutame funktsiooni grep (), kus '+i' muster on määratud argumendina, mis tuleb stringide vektoris sobitada. Määrame märgivektorid, mis sisaldavad nelja stringi. Pärast seda määrame argumendi 'perl' väärtusega TRUE, mis näitab, et R kasutab perliga ühilduvat regulaaravaldise teeki ja parameeter 'value' määratakse väärtusega 'FALSE', mida kasutatakse elementide indeksite hankimiseks. mustriga sobivas vektoris.







'+i' mustri asukoht igast vektorimärgistringist kuvatakse järgmises väljundis:





Näide 2: sobitage muster, kasutades funktsiooni R-is Gregexpr().

Järgmisena leiame indeksi asukoha koos konkreetse stringi pikkusega R-s, kasutades funktsiooni gregexpr().





char_vec <- c('PROGRAMMINGKEEL','RSCRIPT')
gregexpr('GRAMM', char_vec, useBytes = TRUE)

Siin määrame muutuja 'char_vect', kus stringid on varustatud erinevate tähemärkidega. Pärast seda määratleme funktsiooni gregexpr(), mis võtab stringimustri 'GRAMM', mis sobitatakse lahtrisse 'char_vec' salvestatud stringidega. Seejärel määrame parameetri useBytes väärtusega 'TRUE'. See parameeter näitab, et sobitamine peaks toimuma bait-baidi, mitte tähemärgi haaval.

Järgmine funktsioonist gregexpr() hangitud väljund esindab mõlema vektori stringi indekseid ja pikkust:



Näide 3: loendage tähemärkide koguarv stringis, kasutades R-i funktsiooni Nchar().

Meetod nchar(), mida me järgnevalt rakendame, võimaldab meil samuti määrata, mitu tähemärki stringis on:

Res <- nchar('Loenda iga tähemärki')
print (res.)

Siin kutsume me nchar()-meetodit, mis on seatud muutujas 'Res'. Meetod nchar() on varustatud pika märgijadaga, mida loendab meetod nchar() ja mis annab loendusmärkide arvu määratud stringis. Seejärel edastame muutuja 'Res' print() meetodile, et näha nchar() meetodi tulemusi.

Tulemus saadakse järgmises väljundis, mis näitab, et määratud string sisaldab 20 tähemärki:

Näide 4: eraldage alamstring stringist, kasutades R-i funktsiooni Substring().

Konkreetse alamstringi stringist eraldamiseks kasutame meetodit alamstring() koos argumentidega 'start' ja 'stop'.

str <- alamstring('HOMMIK', 2, 4)
print (str)

Siin on meil muutuja 'str', kus kutsutakse välja alamstring () meetod. Meetod alamstring() võtab esimese argumendina stringi 'HOMMIK' ja teise argumendina väärtuse '2', mis näitab, et stringist tuleb ekstraheerida teine ​​märk, ja argumendi väärtus '4' näitab, et neljas märk tuleb välja tõmmata. Substring() meetod ekstraheerib tähemärgid stringist määratud positsiooni vahel.

Järgmine väljund kuvab ekstraheeritud alamstringi, mis asub stringi teise ja neljanda positsiooni vahel:

Näide 5: ühendage string, kasutades R-i funktsiooni Paste().

R-i funktsiooni paste () kasutatakse ka stringidega manipuleerimiseks, mis ühendab määratud stringid eraldajate eraldamisega.

msg1 <- 'Sisu'
msg2 <- 'Kirjutamine'

kleebi (sõnum1, sõnum2)

Siin määrame vastavalt muutujate 'msg1' ja 'msg2' stringid. Seejärel kasutame pakutud stringi üheks stringiks ühendamiseks meetodit R paste(). Meetod paste() võtab stringi muutuja argumendina ja tagastab üksiku stringi, mille stringide vahele jääb vaikeruum.

Paste() meetodi täitmisel esindab väljund ühte stringi koos tühikuga.

Näide 6: muutke stringi, kasutades R-i funktsiooni Substring().

Lisaks saame stringi värskendada, lisades stringi alamstringi või mis tahes märgi, kasutades funktsiooni alamstring() ja kasutades järgmist skripti:

str1 <- 'Kangelased'
alamstring(str1, 5, 6) <- 'ic'

cat('    Muudetud string:', str1)

Seadistame stringi 'Heroes' muutujas 'str1'. Seejärel juurutame alamstringi () meetodi, kus 'str1' on määratud koos alamstringi 'start' ja 'stop' indeksi väärtustega. Substring() meetodile määratakse alamstring 'iz', mis asetatakse antud stringi funktsioonis määratud positsioonile. Pärast seda kasutame R-i funktsiooni cat(), mis tähistab värskendatud stringi väärtust.

Stringi kuvavat väljundit värskendatakse uuega, kasutades alamstringi () meetodit:

Näide 7: Vormindage string, kasutades R-i funktsiooni Format().

Kuid stringi manipuleerimise operatsioon R-is hõlmab ka stringi vastavalt vormindamist. Selleks kasutame funktsiooni format(), kus saab stringi joondada ja määrata konkreetse stringi laiuse.

paigutus1 <- formaat('Programmid', laius = 10, õigusta = 'l')
paigutus2 <- formaat('Programmid', laius = 10, õigusta = 'r')
paigutus3 <- formaat('Programmid', laius = 10, õigusta = 'c')

print(paigutus1)
print(paigutus2)
print(paigutus3)

Siin määrame muutuja 'placement1', mis on varustatud meetodiga format(). Edastame vormindatava stringi 'programmid' meetodile format(). Laius määratakse ja stringi joondus vasakule, kasutades argumenti 'justify'. Sarnaselt loome veel kaks muutujat, 'placement2' ja 'placement2' ning rakendame vormingus meetodit, et vormindada esitatud string vastavalt.

Väljund kuvab järgmise pildi sama stringi jaoks kolme vormingustiili, sealhulgas vasak-, parem- ja keskjoondust.

Näide 8: teisendage string R-i väike- ja suurtähtedeks

Lisaks saame stringi teisendada ka väike- ja suurtähtedega, kasutades funktsioone tolower() ja toupper() järgmiselt:

s1 <- 'HEA TOIT HEA ELU'
tulemus1 <- madalama(d1)

print (tulemus1)

s2 <- 'R programmeerimiskeel keeles '
tulemus2 <- toupper(s2)

print (tulemus2)

Siin pakume stringi, mis sisaldab suur- ja väiketähti. Pärast seda hoitakse stringi muutujas 's1'. Seejärel kutsume välja meetodi tolower() ja edastame selle sees stringi 's1', et muuta kõik stringis olevad märgid väiketähtedeks. Seejärel prindime meetodi tolower () tulemused, mis on salvestatud muutujasse 'result1'. Järgmisena määrame muutujas 's2' teise stringi, mis sisaldab kõiki väiketähtedega märke. Rakendame sellele 's2' stringile meetodit toupper(), et muuta olemasolev string suurtähtedeks.

Väljund kuvab mõlemad stringid määratud juhul järgmisel pildil:

Järeldus

Õppisime erinevaid viise stringide haldamiseks ja analüüsimiseks, mida nimetatakse stringidega manipuleerimiseks. Ekstraheerisime stringist tähemärgi asukoha, ühendasime erinevad stringid ja teisendasime stringi määratud tähtkujusse. Samuti vormindasime stringi, muutsime stringi ja stringiga manipuleerimiseks tehakse siin mitmesuguseid muid toiminguid.