Kako pronaći postotak vrijednosti 'nan' u skupu podataka?

Pronalaženje postotka vrijednosti 'Nan' (a ne broj) u skupu podataka ključni je korak u prethodnoj obradi podataka i analizi. Kao dobavljač proizvoda visoke kvalitete povezane s mrežnim uređajima, uključujućiXpon 1ge 1ge 1ge voip cavt wifi44,,XPON ONU 1GE 3FE VOIP WIFI4, iXPON ONU 4GE WIFI5 AC1200, Razumijem važnost točnog rukovanja podacima u različitim područjima. U ovom ću blogu podijeliti neke praktične metode za izračunavanje postotka vrijednosti 'Nan' u skupu podataka.

Razumijevanje značaja 'Nan' vrijednosti

Prije nego što se zaronite u metode izračuna, ključno je razumjeti zašto su važne "nan" vrijednosti. U analizi podataka, vrijednosti "Nan" mogu predstavljati nedostajuće podatke, pogreške u prikupljanju podataka ili vrijednosti koje nisu primjenjive. Zanemarivanje ovih vrijednosti može dovesti do netočnih statističkih rezultata, pristranih modela i nepouzdanih predviđanja. Na primjer, u prodajnom skupu podataka "Nan" vrijednosti mogu ukazivati na nedostajuće podatke o prodaji za određene proizvode ili vremenska razdoblja. Ako se te vrijednosti nisu pravilno računale, cjelokupna analiza prodaje mogla bi biti pogrešna.

Preduvjeti

Da biste izračunali postotak vrijednosti 'Nan', trebat će vam skup podataka i programski jezik s mogućnostima manipulacije podataka. Python je popularan izbor zbog svojih opsežnih knjižnica poput Pandas i NumPy. Evo koraka - do - vodiča o koraku o tome kako izvesti ovaj izračun pomoću Pythona.

Korak 1: Uvoz potrebnih knjižnica

Prvo, morate uvesti pande i biblioteke. Pande se koriste za manipulaciju i analizu podataka, dok NUMPY pruža podršku za velike, multi -dimenzionalne nizove i matrice.

uvoz pande kao pd uvoz numpy kao np

Korak 2: Učitajte skup podataka

Pretpostavimo da imate skup podataka u CSV datoteci. Možete ga učitati pomoćuREAD_CSVfunkcija u pandama.

Data = pd.read_csv ('your_dataset.csv')

Korak 3: Izračunajte ukupni broj vrijednosti u skupu podataka

Da biste izračunali postotak vrijednosti 'Nan', prvo morate znati ukupni broj vrijednosti u skupu podataka. Možete koristitiveličinaAtribut podatkovnog okvira.

GPU-11GN-V-R GPU-13GN-V

Total_Values = Data.size

Korak 4: Izračunajte broj vrijednosti 'nan'

Pandas pruža prikladan način brojanja broja vrijednosti 'nan' u podatkovnom okviru. Možete koristition ()metoda za stvaranje booleove maske, a zatim sažeti svePraviVrijednosti.

Nan_Values = Data.ISNA () Sum () Sum ().

Korak 5: Izračunajte postotak vrijednosti 'Nan'

Sada kada imate ukupni broj vrijednosti i broj 'Nan' vrijednosti, možete izračunati postotak.

postotak_nan = (Nan_Values / Total_Values) * 100 Print (F "Postotak vrijednosti" Nan "u skupu podataka je {postotak_nan}%")

Rukovanje različitim strukturama podataka

Gornja metoda dobro funkcionira za tabelarne podatke u pandama podataka. Međutim, ako radite s numpovim nizom, postupak je malo drugačiji.

Uvoz numPy kao NP # Stvorite uzorak NumPy Array Array = np.Array ([1, np.nan, 3, np.nan, 5]) # Izračunajte ukupni broj elemenata Ukupno_elements = Array.Size # Izračunajte broj 'Nan' ELEMENTS = NP. (Nan_Elements / Total_Elements) * 100 Print (F "Postotak vrijednosti" Nan "u nizu NumPy je {postotak_nan_array}%")

Vizualiziranje vrijednosti 'nan'

Vizualizacija može pružiti bolje razumijevanje raspodjele vrijednosti 'nan' u skupu podataka. Možete koristiti knjižnice poput Matplotlib ili Seaborn za stvaranje toplotnih karma ili bar grafikona.

Uvoz Seaborn kao SNS uvoz matplotlib.pyplot kao PLT # Stvorite toplotnu mapu 'Nan' vrijednosti sns.heatmap (data.isna (), cbar = false) plt.title ('raspodjela vrijednosti Nan') plt.show ()

Baveći se visokim postocima 'nan' vrijednosti

Ako je postotak vrijednosti 'Nan' visok, morate odlučiti kako se nositi s njima. Neke zajedničke strategije uključuju:

Uklanjanje redaka ili stupaca: Ako redak ili stupac ima veliki broj vrijednosti 'nan', možete razmotriti uklanjanje. Međutim, ovaj pristup može dovesti do gubitka vrijednih informacija.
Imputacija: Možete ispuniti vrijednosti 'nan' odgovarajućim vrijednostima kao što su srednja, srednja ili način vrijednosti non -'nan' u istom stupcu.

# Impute 'Nan' vrijednosti sa srednjim podacima.fillna (Data.mean (), inplace = True)

Zaključak

Izračunavanje postotka vrijednosti 'Nan' u skupu podataka važan je korak u analizi podataka. Pomaže vam da shvatite kvalitetu podataka i odlučite kako postupati s nedostajućim vrijednostima. Kao dobavljač mrežnih uređaja poputXpon 1ge 1ge 1ge voip cavt wifi44,,XPON ONU 1GE 3FE VOIP WIFI4, iXPON ONU 4GE WIFI5 AC1200, Razumijemo važnost točnih podataka u optimizaciji performansi mreže i donošenju informiranih poslovnih odluka.

Ako vas zanimaju naši proizvodi ili imate bilo kakvih pitanja o analizi podataka u kontekstu upravljanja mrežom, slobodno nas kontaktirajte za nabavu i daljnje rasprave. Tu smo da vam pružimo najbolja rješenja za vaše potrebe.

Reference

McKinney, W. (2017). Python za analizu podataka: Podaci se miješaju s pandama, NumPy i Ipython. O'Reilly Media.
Vanderplas, J. (2016). Priručnik za znanost Python: Bitni alati za rad s podacima. O'Reilly Media.