PySparki andmete joonistamine histogrammile

Pysparki Andmete Joonistamine Histogrammile



PySparkis tehakse andmete visualiseerimine histogrammi ja muude joonistamistehnikate abil. See aitab mõista andmeteaduse inseneride andmeid graafilises esituses. Aeg on nende jaoks oluline piirang. Nende visualiseerimiste abil saavad nad andmeid teiste andmevormingutega (nt tekst/csv ja teised) võrreldes kiiremini analüüsida.

Selles juhendis näeme, kuidas PySparki andmed histogrammile joonistada. Siin näeme kahte stsenaariumi. Histogramm luuakse PySpark Pandas DataFrame ja RDD andmetel. Nende kahe stsenaariumi jaoks pakub PySpark kahte funktsiooni: pyspark.pandas.DataFrame.plot.hist() ja pyspark.RDD.histogram.

Sisu teema:







Pyspark.pandas.DataFrame.plot.hist()

Selle stsenaariumi korral kuvatakse histogramm andmete graafikulaadse esitusena, mis jagab veergudesse (PySpark Pandas DataFrame'ist) koos horisontaalse x-teljega mitmed klassid. Y-telg tähistab PySpark Pandas DataFrame'i iga veeru esinemiste arvu.



Süntaks:



pyspark_pandas_DataFrame.plot.hist(bins,...)

See võtab valikulise parameetrina kastide koguarvu, mis on täisarv ja mõned valikulised märksõnaargumendid. Kui iga veeru jaoks pole salve määratud, luuakse riba.





Joonistage PySpark Pandas DataFrame'i histogramm

Looge PySpark Pandas DataFrame, millel on 2 veergu ja 4 kirjet. Joonistage histogramm ilma ühtegi parameetrit funktsioonile plot.hist() edastamata.

pyspark importpandadest

pyspark_pandas_dataframe=pandas.DataFrame({ „Hoone_kõrgus” :[ 120,56 , 234,67 , 12.0 , 200.45 ], 'Hoone_ala' :[ 2 , 3 , 1 , 4 ]})

print(pyspark_pandas_dataframe)

# PySpark-Pandase histogramm

pyspark_pandas_dataframe.plot.hist()

Väljund:



Siin on veergude nimed “Hoone_kõrgus” ja “Hoone_ala”.

Vaatame histogrammi:

Eelmise DataFrame'i ridade koguarv on 4. Seega luuakse 4 salve.

Joonistage PySpark Pandas DataFrame'i histogramm parameetriga Bins

Looge PySpark Pandas DataFrame, millel on 2 veergu ja 4 kirjet. Joonistage histogramm ilma ühtegi parameetrit funktsioonile plot.hist() edastamata.

pyspark importpandadest

pyspark_pandas_dataframe=pandas.DataFrame({ „Hoone_kõrgus” :[ 120,56 , 234,67 , 12.0 , 200.45 ], 'Hoone_ala' :[ 2 , 3 , 1 , 4 ]})

# PySpark-Pandase histogramm 2 prügikastiga

pyspark_pandas_dataframe.plot.hist(bins= 2 )

Väljund:

Siin on veergude nimed “Hoone_kõrgus” ja “Hoone_ala”.

Vaatame histogrammi – punane tähistab veergu „Hoone_piirkond” ja sinine veergu „Building_height”:

Nagu me täpsustasime, loodi ainult 2 prügikasti ja 2 riba. Neli rida on siin koondatud 2 ämbrisse.

Joonistage PySpark RDD-le histogramm, määrates ämbri numbri

Kui töötate RDD-ga, saab histogrammi tagastada korteeži kujul, mis sisaldab igas ämbris olevaid ämbriid ja koguväärtusi.

Süntaks:

pyspark_RDD.histogramm(ämbrid)

Selle stsenaariumi korral edastame histogrammi kaasatud ämbrite arvu (täisarvud). See tagastab loendikorpuse, mis sisaldab ämbrivahemikke ja vastavaid väärtuste esinemisi järgmises vormingus: ([salvevahemikud…], [väärtuste esinemised…]).

Näide 1:

Loome 10 väärtusega RDD nimega “Building_height” ja loome 3 ämbriga histogrammi.

import pyspark

pyspark.sql-st importige SparkSession

failist pyspark.rdd import RDD

spark_app = SparkSession.builder.appName( 'linux' ).getOrCreate()

# Looge 10 väärtusega RDD

Building_height =spark_app.sparkContext.parallelise([ 120,56 , 234,67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 78 , 90 , 100 ])

print( 'Tegelik:' ,Hoone_kõrgus.koguda())

# 3 ämbri täpsustamine

Building_height.histogram( 3 )

Väljund:

  1. Salvest-1 on vahemikus 12,0 kuni 86,223 : selles vahemikus on ämbris olevate väärtuste koguarv 5.
  2. Salvest 2 on vahemikus 86 223 kuni 160 446 : selles vahemikus on ämbris olevate väärtuste koguarv 3.
  3. Salvest 3 on vahemikus 160,446 kuni 234,67 : selles vahemikus on ämbris olevate väärtuste koguarv 2.

Näide 2:

Looge eelnevalt loodud RDD-le 2 ämbriga histogramm.

import pyspark

pyspark.sql-st importige SparkSession

failist pyspark.rdd import RDD

spark_app = SparkSession.builder.appName( 'linux' ).getOrCreate()

# Looge 10 väärtusega RDD

Building_height =spark_app.sparkContext.parallelise([ 120,56 , 234,67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 78 , 90 , 100 ])

print( 'Tegelik:' ,Hoone_kõrgus.koguda())

# 2 ämbri täpsustamine

Building_height.histogram( 2 )

Väljund:

  1. Kopp 1 on vahemikus 12,0 kuni 123,335. Selles vahemikus on ämbris olevate väärtuste koguarv 8.
  2. Salvest 2 on vahemikus 123 335 kuni 234,67: selles vahemikus on ämbris olevate väärtuste koguarv 2.

Joonistage PySpark RDD-le histogramm, määrates iga ämbri suuruse

Eelmise stsenaariumi korral edastasime ämbrid funktsioonile RDD.histogram(). Nüüd edastame loendis üksteise järel ämbrite suurused ja edastame selle loendi selle funktsiooni parameetrina. Veenduge, et peame määrama vähemalt kaks ämbrit kasvavas/kasvavas järjekorras ja sellel ei oleks dubleerivaid väärtusi.

Süntaks:

pyspark_RDD.histogramm([salvevahemikud…])

Selle stsenaariumi korral edastame histogrammis sisalduvate ämbrite arvu (täisarv). See tagastab loendikorpuse, mis sisaldab ämbrivahemikke ja vastavaid väärtuste esinemisi järgmises vormingus: ([salvevahemikud…], [väärtuste esinemised…]).

Näide 1:

Loome 10 väärtusega RDD nimega “Building_height” ja loome histogrammi väärtusvahemikuga [0, 50, 100, 150, 200, 250].

import pyspark

pyspark.sql-st importige SparkSession

failist pyspark.rdd import RDD

spark_app = SparkSession.builder.appName( 'linux' ).getOrCreate()

# Looge 10 väärtusega RDD

Building_height =spark_app.sparkContext.parallelise([ 120,56 , 234,67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 178 , 90 , 100 ])

print( 'Tegelik:' ,Hoone_kõrgus.koguda())

# Koppa määramine suurusega - [0,50,100,150,200,250]

Building_height.histogram([ 0 , viiskümmend , 100 , 150 , 200 , 250 ])

Väljund:

  1. Salv 1: (0 kuni 50) : selle lahtri koguväärtused on 3.
  2. Salv 1: (50 kuni 100) : koguväärtused selles salves on 2.
  3. Salv 1: (100 kuni 150) : koguväärtused selles grupis on 2.
  4. Salv 1: (150 kuni 200) : koguväärtused selles grupis on 2.
  5. Salv 1: (200 kuni 250) : koguväärtused selles grupis on 2.

Näide 2:

Looge histogramm väärtuste vahemikuga [0, 100, 200, 300].

import pyspark

pyspark.sql-st importige SparkSession

failist pyspark.rdd import RDD

spark_app = SparkSession.builder.appName( 'linux' ).getOrCreate()

# Looge 10 väärtusega RDD

Building_height =spark_app.sparkContext.parallelise([ 120,56 , 234,67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 178 , 90 , 100 ])

print( 'Tegelik:' ,Hoone_kõrgus.koguda())

# Koppa määramine suurusega - [0,100,200,300]

Building_height.histogram([ 0 , 100 , 200 , 300 ])

Väljund:

  1. Kopp 1: (0 kuni 100). Selle ämbri koguväärtus on 5.
  2. Kopp 2: (100 kuni 200). Selle ämbri koguväärtus on 3.
  3. Kopp 3: (200 kuni 300). Selle ämbri koguväärtus on 2.

Järeldus

Oleme näinud, kuidas PySparkis PySpark Pandas DataFrame'is ja RDD-s histogramme luua. histogramm() on funktsioon, mida kasutatakse RDD andmetel histogrammi hankimiseks. Funktsiooni plot.hist() kasutatakse PySpark Pandas DataFrame'i histogrammi kuvamiseks. Arutasime neid funktsioone näidetega, hõlmates kõiki parameetreid.