Pandas - မှားယွင်းသောဒေတာကို ပြုပြင်ခြင်း ။


ဒေတာမှား

"မှားယွင်းသောဒေတာ" သည် "ဆဲလ်ဗလာ" သို့မဟုတ် "မှားယွင်းသောဖော်မတ်" ဖြစ်ရန်မလိုအပ်ပါ၊ တစ်စုံတစ်ဦးမှ "1.99" အစား "199" စာရင်းသွင်းပါက မှားယွင်းနိုင်သည်။

သင့်တွင် မည်သည့်အရာဖြစ်သင့်သည်ကို သင်မျှော်လင့်ထားသောကြောင့် တစ်ခါတစ်ရံတွင် ဒေတာအစုံလိုက်ကြည့်ခြင်းဖြင့် မှားယွင်းသောဒေတာကို တွေ့ရှိနိုင်သည်။

ကျွန်ုပ်တို့၏ဒေတာအတွဲကိုကြည့်လျှင် အတန်း 7 တွင်ကြာချိန်သည် 450 ဖြစ်သည်၊ သို့သော်အခြားအတန်းအားလုံးအတွက်ကြာချိန်သည် 30 နှင့် 60 ကြားဖြစ်သည်။

ဒါဟာ မှားစရာ မလိုပါဘူး၊ ဒါပေမယ့် ဒါက တစ်စုံတစ်ယောက်ရဲ့ လေ့ကျင့်ခန်း သင်ခန်းစာတွေရဲ့ ဒေတာအစုအစည်းဖြစ်တယ်ဆိုတာကို ထည့်သွင်းစဉ်းစားပြီး ဒီလူဟာ မိနစ် 450 အတွင်းမှာ အလုပ်မဖြစ်ခဲ့ပါဘူးဆိုတဲ့ အချက်ကို နိဂုံးချုပ်လိုက်ပါတယ်။

      Duration          Date  Pulse  Maxpulse  Calories
  0         60  '2020/12/01'    110       130     409.1
  1         60  '2020/12/02'    117       145     479.0
  2         60  '2020/12/03'    103       135     340.0
  3         45  '2020/12/04'    109       175     282.4
  4         45  '2020/12/05'    117       148     406.0
  5         60  '2020/12/06'    102       127     300.0
  6         60  '2020/12/07'    110       136     374.0
  7        450  '2020/12/08'    104       134     253.3
  8         30  '2020/12/09'    109       133     195.1
  9         60  '2020/12/10'     98       124     269.0
  10        60  '2020/12/11'    103       147     329.3
  11        60  '2020/12/12'    100       120     250.7
  12        60  '2020/12/12'    100       120     250.7
  13        60  '2020/12/13'    106       128     345.3
  14        60  '2020/12/14'    104       132     379.3
  15        60  '2020/12/15'     98       123     275.0
  16        60  '2020/12/16'     98       120     215.2
  17        60  '2020/12/17'    100       120     300.0
  18        45  '2020/12/18'     90       112       NaN
  19        60  '2020/12/19'    103       123     323.0
  20        45  '2020/12/20'     97       125     243.0
  21        60  '2020/12/21'    108       131     364.2
  22        45           NaN    100       119     282.0
  23        60  '2020/12/23'    130       101     300.0
  24        45  '2020/12/24'    105       132     246.0
  25        60  '2020/12/25'    102       126     334.5
  26        60      20201226    100       120     250.0
  27        60  '2020/12/27'     92       118     241.0
  28        60  '2020/12/28'    103       132       NaN
  29        60  '2020/12/29'    100       132     280.0
  30        60  '2020/12/30'    102       129     380.3
  31        60  '2020/12/31'     92       115     243.0

အတန်း 7 ရှိ "ကြာချိန်" ကဲ့သို့ မှားယွင်းသောတန်ဖိုးများကို ကျွန်ုပ်တို့ မည်သို့ပြုပြင်နိုင်မည်နည်း။


w3schools CERTIFIED . 2021

လက်မှတ်ရယူပါ။

Pandas modules များကိုဖြည့်ပါ၊ လေ့ကျင့်ခန်းများလုပ်ပါ၊ စာမေးပွဲဖြေဆိုပါ၊ ထို့နောက်သင်သည် w3schools certified ဖြစ်လာလိမ့်မည်။

$10 စာရင်းသွင်းပါ။

တန်ဖိုးများကို အစားထိုးခြင်း။

မှားယွင်းသောတန်ဖိုးများကို ပြုပြင်ရန် နည်းလမ်းတစ်ခုမှာ ၎င်းတို့ကို အခြားအရာတစ်ခုဖြင့် အစားထိုးခြင်းဖြစ်သည်။

ကျွန်ုပ်တို့၏ဥပမာတွင်၊ ၎င်းသည် စာစီစာရိုက်ဖြစ်နိုင်ချေများပြီး တန်ဖိုးသည် "450" ​​အစား "45" ဖြစ်သင့်ပြီး အတန်း 7 တွင် "45" ဟုသာထည့်နိုင်သည်။

ဥပမာ

"ကြာချိန်" = အတန်း 7 တွင် 45 သတ်မှတ်သည်-

df.loc[7, 'Duration'] = 45

သေးငယ်သောဒေတာအတွဲများအတွက် သင်သည် မှားယွင်းသောဒေတာကို တစ်ခုပြီးတစ်ခု အစားထိုးနိုင်သော်လည်း ကြီးမားသောဒေတာအတွဲများအတွက်မဟုတ်ပါ။

ပိုကြီးသော ဒေတာအတွဲများအတွက် မှားယွင်းသောဒေတာကို အစားထိုးရန်အတွက် သင်သည် စည်းမျဉ်းအချို့ကို ဖန်တီးနိုင်သည်၊ ဥပမာ- ဥပဒေတန်ဖိုးများအတွက် နယ်နိမိတ်အချို့ကို သတ်မှတ်ကာ နယ်နိမိတ်ပြင်ပရှိ တန်ဖိုးများကို အစားထိုးနိုင်သည်။

ဥပမာ

"ကြာချိန်" ကော်လံရှိ တန်ဖိုးအားလုံးကို လှည့်ပတ်ပါ။

တန်ဖိုး 120 ထက် မြင့်ပါက 120 သို့ သတ်မှတ်ပါ။

for x in df.index:
  if df.loc[x, "Duration"] > 120:
    df.loc[x, "Duration"] = 120

အတန်းများကို ဖယ်ရှားခြင်း။

မှားယွင်းသောဒေတာကိုကိုင်တွယ်ခြင်း၏နောက်ထပ်နည်းလမ်းမှာမှားယွင်းသောဒေတာပါရှိသောအတန်းများကိုဖယ်ရှားရန်ဖြစ်သည်။

ဤနည်းအားဖြင့် ၎င်းတို့ကို မည်သည့်အရာဖြင့် အစားထိုးရမည်ကို သင်ရှာဖွေရန် မလိုအပ်ဘဲ သင်၏ ခွဲခြမ်းစိတ်ဖြာမှုများ ပြုလုပ်ရန် ၎င်းတို့ကို မလိုအပ်တော့သည့် အခွင့်အလမ်းကောင်းများ ရှိပါသည်။

ဥပမာ

"ကြာချိန်" သည် 120 ထက်မြင့်သော အတန်းများကို ဖျက်ပါ-

for x in df.index:
  if df.loc[x, "Duration"] > 120:
    df.drop(x, inplace = True)