Pandas - ဒေတာဘောင်များကို ပိုင်းခြားစိတ်ဖြာခြင်း ။


Data ကိုကြည့်ရှုခြင်း။

DataFrame ၏ အမြန်ခြုံငုံသုံးသပ်ချက်ကို ရယူရန်အတွက် အသုံးအများဆုံးနည်းလမ်းတစ်ခုမှာ head()နည်းလမ်းဖြစ်သည်။

နည်းလမ်းသည် အပေါ် head()မှစတင်၍ ခေါင်းစီးများနှင့် သတ်မှတ်ထားသော အတန်းအရေအတွက်ကို ပြန်ပေးသည်။

ဥပမာ

DataFrame ၏ပထမ 10 တန်းကိုပုံနှိပ်ခြင်းဖြင့် အမြန်ခြုံငုံသုံးသပ်ချက်ကို ရယူပါ-

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head(10))

ကျွန်ုပ်တို့၏နမူနာများတွင် 'data.csv' ဟုခေါ်သော CSV ဖိုင်ကို အသုံးပြုပါမည်။

data.csv ကို ဒေါင်းလုဒ်လုပ် ပါ သို့မဟုတ် သင့်ဘရောက်ဆာတွင် data.csv ကို ဖွင့် ပါ။

မှတ်ချက်- အတန်းအရေအတွက်ကို မသတ်မှတ်ထားပါက၊ head()နည်းလမ်းသည် ထိပ်တန်း 5 တန်းကို ပြန်ပေးပါမည်။

ဥပမာ

DataFrame ၏ ပထမ 5 တန်းကို ပရင့်ထုတ်ပါ။

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head())

DataFrame ၏ နောက်ဆုံး တန်း tail()များကိုကြည့်ရှုရန်နည်းလမ်းတစ်ခု လည်း ရှိသည်။

tail()နည်းလမ်းသည် အောက်ခြေမှစတင်၍ ခေါင်းစီးများနှင့် သတ်မှတ်ထားသော အတန်းအရေအတွက်ကို ပြန်ပေးသည်

ဥပမာ

DataFrame ၏ နောက်ဆုံး 5 တန်းကို ပရင့်ထုတ်ပါ။

print(df.tail()) 

w3schools CERTIFIED . 2021

လက်မှတ်ရယူပါ။

Pandas modules များကိုဖြည့်ပါ၊ လေ့ကျင့်ခန်းများလုပ်ပါ၊ စာမေးပွဲဖြေဆိုပါ၊ ထို့နောက်သင်သည် w3schools certified ဖြစ်လာလိမ့်မည်။

$10 စာရင်းသွင်းပါ။

Data အကြောင်း အချက်အလက်

info()DataFrames အရာဝတ္တုတွင် ဒေတာအစုံနှင့်ပတ်သက်သော အချက်အလက်များကို သင့်အား ပေးဆောင်သည့် နည်းလမ်းတစ်ခု ဟုခေါ်သည် ။

ဥပမာ

ဒေတာအကြောင်း အချက်အလက်ကို ပရင့်ထုတ်ပါ-

print(df.info()) 

ရလဒ်

  <class 'pandas.core.frame.DataFrame'>
  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):
   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64
  dtypes: float64(1), int64(3)
  memory usage: 5.4 KB
  None
    

ရလဒ်ရှင်းပြသည်။

ရလဒ်က 169 အတန်းနှင့် 4 ကော်လံရှိသည်-

  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):

ဒေတာအမျိုးအစားနှင့်အတူ ကော်လံတစ်ခုစီ၏ အမည်၊

   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64

Null တန်ဖိုးများ

နည်းလမ်း သည် info()ကော်လံတစ်ခုစီတွင် Non-Null တန်ဖိုးများ မည်မျှရှိသည်ကို ပြောပြပြီး ကျွန်ုပ်တို့၏ဒေတာအတွဲတွင် "Calories" ကော်လံတွင် 169 Non-Null တန်ဖိုးများ 164 ခု ရှိနေပုံရသည်။

ဆိုလိုသည်မှာ မည်သည့်အကြောင်းကြောင့်ပင်ဖြစ်စေ "ကယ်လိုရီများ" ကော်လံတွင် တန်ဖိုးလုံးဝမရှိသော အတန်း 5 တန်းရှိသည်။

ဗလာတန်ဖိုးများ သို့မဟုတ် Null တန်ဖိုးများသည် ဒေတာကို ခွဲခြမ်းစိတ်ဖြာသည့်အခါ ဆိုးရွားနိုင်ပြီး ဗလာတန်ဖိုးများဖြင့် အတန်းများကို ဖယ်ရှားရန် သင်စဉ်းစားသင့်သည်။ ဤသည်မှာ ဒေတာရှင်းလင်းခြင်း ဟုခေါ်သော ခြေလှမ်းတစ်ခုဆီသို့ ဦးတည်ပြီး ၎င်း အကြောင်းကို နောက်အခန်းများတွင် ပိုမိုလေ့လာနိုင်မည်ဖြစ်သည်။