Selles juhendis näeme, kuidas PySparki andmed histogrammile joonistada. Siin näeme kahte stsenaariumi. Histogramm luuakse PySpark Pandas DataFrame ja RDD andmetel. Nende kahe stsenaariumi jaoks pakub PySpark kahte funktsiooni: pyspark.pandas.DataFrame.plot.hist() ja pyspark.RDD.histogram.
Sisu teema:
- Joonistage PySpark Pandas DataFrame'i histogramm
- Joonistage PySpark Pandas DataFrame'i histogramm parameetriga Bins
- Joonistage PySpark RDD-le histogramm, määrates ämbri numbri
- Joonistage PySpark RDD-le histogramm, määrates iga ämbri suuruse
Pyspark.pandas.DataFrame.plot.hist()
Selle stsenaariumi korral kuvatakse histogramm andmete graafikulaadse esitusena, mis jagab veergudesse (PySpark Pandas DataFrame'ist) koos horisontaalse x-teljega mitmed klassid. Y-telg tähistab PySpark Pandas DataFrame'i iga veeru esinemiste arvu.
Süntaks:
pyspark_pandas_DataFrame.plot.hist(bins,...)
See võtab valikulise parameetrina kastide koguarvu, mis on täisarv ja mõned valikulised märksõnaargumendid. Kui iga veeru jaoks pole salve määratud, luuakse riba.
Joonistage PySpark Pandas DataFrame'i histogramm
Looge PySpark Pandas DataFrame, millel on 2 veergu ja 4 kirjet. Joonistage histogramm ilma ühtegi parameetrit funktsioonile plot.hist() edastamata.
pyspark importpandadestpyspark_pandas_dataframe=pandas.DataFrame({ „Hoone_kõrgus” :[ 120,56 , 234,67 , 12.0 , 200.45 ], 'Hoone_ala' :[ 2 , 3 , 1 , 4 ]})
print(pyspark_pandas_dataframe)
# PySpark-Pandase histogramm
pyspark_pandas_dataframe.plot.hist()
Väljund:
Siin on veergude nimed “Hoone_kõrgus” ja “Hoone_ala”.
Vaatame histogrammi:
Eelmise DataFrame'i ridade koguarv on 4. Seega luuakse 4 salve.
Joonistage PySpark Pandas DataFrame'i histogramm parameetriga Bins
Looge PySpark Pandas DataFrame, millel on 2 veergu ja 4 kirjet. Joonistage histogramm ilma ühtegi parameetrit funktsioonile plot.hist() edastamata.
pyspark importpandadestpyspark_pandas_dataframe=pandas.DataFrame({ „Hoone_kõrgus” :[ 120,56 , 234,67 , 12.0 , 200.45 ], 'Hoone_ala' :[ 2 , 3 , 1 , 4 ]})
# PySpark-Pandase histogramm 2 prügikastiga
pyspark_pandas_dataframe.plot.hist(bins= 2 )
Väljund:
Siin on veergude nimed “Hoone_kõrgus” ja “Hoone_ala”.
Vaatame histogrammi – punane tähistab veergu „Hoone_piirkond” ja sinine veergu „Building_height”:
Nagu me täpsustasime, loodi ainult 2 prügikasti ja 2 riba. Neli rida on siin koondatud 2 ämbrisse.
Joonistage PySpark RDD-le histogramm, määrates ämbri numbri
Kui töötate RDD-ga, saab histogrammi tagastada korteeži kujul, mis sisaldab igas ämbris olevaid ämbriid ja koguväärtusi.
Süntaks:
pyspark_RDD.histogramm(ämbrid)Selle stsenaariumi korral edastame histogrammi kaasatud ämbrite arvu (täisarvud). See tagastab loendikorpuse, mis sisaldab ämbrivahemikke ja vastavaid väärtuste esinemisi järgmises vormingus: ([salvevahemikud…], [väärtuste esinemised…]).
Näide 1:
Loome 10 väärtusega RDD nimega “Building_height” ja loome 3 ämbriga histogrammi.
import pysparkpyspark.sql-st importige SparkSession
failist pyspark.rdd import RDD
spark_app = SparkSession.builder.appName( 'linux' ).getOrCreate()
# Looge 10 väärtusega RDD
Building_height =spark_app.sparkContext.parallelise([ 120,56 , 234,67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 78 , 90 , 100 ])
print( 'Tegelik:' ,Hoone_kõrgus.koguda())
# 3 ämbri täpsustamine
Building_height.histogram( 3 )
Väljund:
- Salvest-1 on vahemikus 12,0 kuni 86,223 : selles vahemikus on ämbris olevate väärtuste koguarv 5.
- Salvest 2 on vahemikus 86 223 kuni 160 446 : selles vahemikus on ämbris olevate väärtuste koguarv 3.
- Salvest 3 on vahemikus 160,446 kuni 234,67 : selles vahemikus on ämbris olevate väärtuste koguarv 2.
Näide 2:
Looge eelnevalt loodud RDD-le 2 ämbriga histogramm.
import pysparkpyspark.sql-st importige SparkSession
failist pyspark.rdd import RDD
spark_app = SparkSession.builder.appName( 'linux' ).getOrCreate()
# Looge 10 väärtusega RDD
Building_height =spark_app.sparkContext.parallelise([ 120,56 , 234,67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 78 , 90 , 100 ])
print( 'Tegelik:' ,Hoone_kõrgus.koguda())
# 2 ämbri täpsustamine
Building_height.histogram( 2 )
Väljund:
- Kopp 1 on vahemikus 12,0 kuni 123,335. Selles vahemikus on ämbris olevate väärtuste koguarv 8.
- Salvest 2 on vahemikus 123 335 kuni 234,67: selles vahemikus on ämbris olevate väärtuste koguarv 2.
Joonistage PySpark RDD-le histogramm, määrates iga ämbri suuruse
Eelmise stsenaariumi korral edastasime ämbrid funktsioonile RDD.histogram(). Nüüd edastame loendis üksteise järel ämbrite suurused ja edastame selle loendi selle funktsiooni parameetrina. Veenduge, et peame määrama vähemalt kaks ämbrit kasvavas/kasvavas järjekorras ja sellel ei oleks dubleerivaid väärtusi.
Süntaks:
pyspark_RDD.histogramm([salvevahemikud…])Selle stsenaariumi korral edastame histogrammis sisalduvate ämbrite arvu (täisarv). See tagastab loendikorpuse, mis sisaldab ämbrivahemikke ja vastavaid väärtuste esinemisi järgmises vormingus: ([salvevahemikud…], [väärtuste esinemised…]).
Näide 1:
Loome 10 väärtusega RDD nimega “Building_height” ja loome histogrammi väärtusvahemikuga [0, 50, 100, 150, 200, 250].
import pysparkpyspark.sql-st importige SparkSession
failist pyspark.rdd import RDD
spark_app = SparkSession.builder.appName( 'linux' ).getOrCreate()
# Looge 10 väärtusega RDD
Building_height =spark_app.sparkContext.parallelise([ 120,56 , 234,67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 178 , 90 , 100 ])
print( 'Tegelik:' ,Hoone_kõrgus.koguda())
# Koppa määramine suurusega - [0,50,100,150,200,250]
Building_height.histogram([ 0 , viiskümmend , 100 , 150 , 200 , 250 ])
Väljund:
- Salv 1: (0 kuni 50) : selle lahtri koguväärtused on 3.
- Salv 1: (50 kuni 100) : koguväärtused selles salves on 2.
- Salv 1: (100 kuni 150) : koguväärtused selles grupis on 2.
- Salv 1: (150 kuni 200) : koguväärtused selles grupis on 2.
- Salv 1: (200 kuni 250) : koguväärtused selles grupis on 2.
Näide 2:
Looge histogramm väärtuste vahemikuga [0, 100, 200, 300].
import pysparkpyspark.sql-st importige SparkSession
failist pyspark.rdd import RDD
spark_app = SparkSession.builder.appName( 'linux' ).getOrCreate()
# Looge 10 väärtusega RDD
Building_height =spark_app.sparkContext.parallelise([ 120,56 , 234,67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 178 , 90 , 100 ])
print( 'Tegelik:' ,Hoone_kõrgus.koguda())
# Koppa määramine suurusega - [0,100,200,300]
Building_height.histogram([ 0 , 100 , 200 , 300 ])
Väljund:
- Kopp 1: (0 kuni 100). Selle ämbri koguväärtus on 5.
- Kopp 2: (100 kuni 200). Selle ämbri koguväärtus on 3.
- Kopp 3: (200 kuni 300). Selle ämbri koguväärtus on 2.
Järeldus
Oleme näinud, kuidas PySparkis PySpark Pandas DataFrame'is ja RDD-s histogramme luua. histogramm() on funktsioon, mida kasutatakse RDD andmetel histogrammi hankimiseks. Funktsiooni plot.hist() kasutatakse PySpark Pandas DataFrame'i histogrammi kuvamiseks. Arutasime neid funktsioone näidetega, hõlmates kõiki parameetreid.