ဒေတာသိပ္ပံ - စာရင်းအင်းဆက်စပ်မှု
ဆက်စပ်မှု
Correlation သည် ကိန်းရှင်နှစ်ခုကြားရှိ ဆက်နွယ်မှုကို တိုင်းတာသည်။
လုပ်ဆောင်ချက်တစ်ခုသည် input (x) ကို output (f(x)) သို့ပြောင်းခြင်းဖြင့် တန်ဖိုးတစ်ခုကို ခန့်မှန်းရန် ရည်ရွယ်ချက်ရှိကြောင်း ကျွန်ုပ်တို့ဖော်ပြခဲ့သည်။ ခန့်မှန်းချက်အတွက် function တစ်ခုသည် variable နှစ်ခုကြားရှိ ဆက်နွယ်မှုကို အသုံးပြုသည်ဟုလည်း ဆိုနိုင်သည်။
ဆက်စပ်မှုကိန်း
ဆက်စပ်ကိန်းသည် ကိန်းရှင်နှစ်ခုကြားရှိ ဆက်နွယ်မှုကို တိုင်းတာသည်။
ဆက်စပ်ကိန်းဂဏန်းသည် -1 ထက်နည်းသော သို့မဟုတ် 1 ထက်ပိုမို၍မရနိုင်ပါ။
- 1 = ကိန်းရှင်များကြားတွင် ပြီးပြည့်စုံသော linear ဆက်ဆံရေး (Average_Pulse against Calorie_Burnage ကဲ့သို့)
- 0 = ကိန်းရှင်များကြားတွင် linear ဆက်နွယ်မှုမရှိပါ။
- -1 = variables များကြားတွင် ပြီးပြည့်စုံသော အနုတ်လက္ခဏာ ဆက်နွယ်မှု ရှိနေသည် (ဥပမာ- နာရီနည်းသော အလုပ်၊ လေ့ကျင့်ရေး အပိုင်းအတွင်း ကယ်လိုရီ လောင်ကျွမ်းမှု မြင့်မားစေသည်)
ပြီးပြည့်စုံသော Linear Relationship ၏ ဥပမာ (Correlation Coefficient = 1)
Average_Pulse နှင့် Calorie_Burnage အကြား ဆက်နွယ်မှုကို မြင်ယောင်ရန် scatterplot ကို အသုံးပြုပါမည် (ကျွန်ုပ်တို့သည် အားကစားနာရီ၏ သေးငယ်သောဒေတာအစုကို အသုံးပြုထားသည်)။
ဤတစ်ကြိမ်တွင် ကျွန်ုပ်တို့သည် ကွက်ကျားကွက်များကို လိုချင်သောကြောင့် ကျွန်ုပ်တို့သည် "scatter" သို့ တစ်မျိုးပြောင်းသည်-
ဥပမာ
import matplotlib.pyplot as plt
health_data.plot(x ='Average_Pulse', y='Calorie_Burnage',
kind='scatter')
plt.show()
အထွက်-
အစောပိုင်းတွင် ကျွန်ုပ်တို့မြင်ခဲ့သည့်အတိုင်း၊ ၎င်းသည် Average_Pulse နှင့် Calorie_Burnage အကြား ပြီးပြည့်စုံသော linear ဆက်နွယ်မှုရှိပါသည်။
ပြီးပြည့်စုံသော အနုတ်လက္ခဏာ မျဉ်းကြောင်းဆက်စပ်မှု ဥပမာ (Correlation Coefficient = -1)
ဤနေရာတွင် ကျွန်ုပ်တို့သည် စိတ်ကူးယဉ်အချက်အလက်များကို ပုံဖော်ထားသည်။ x-axis သည် လေ့ကျင့်ရေးမစမီ ကျွန်ုပ်တို့၏အလုပ်တွင် လုပ်ဆောင်ခဲ့သော နာရီပမာဏကို ကိုယ်စားပြုသည်။ y ဝင်ရိုးသည် Calorie_Burnage ဖြစ်သည်။
အကယ်၍ ကျွန်ုပ်တို့သည် အချိန်ပိုကြာအောင် အလုပ်လုပ်ပါက လေ့ကျင့်ခန်းမစမီ ပင်ပန်းသောကြောင့် ကယ်လိုရီလောင်ကျွမ်းမှု နည်းပါးပါသည်။
ဤနေရာတွင် ဆက်စပ်ကိန်းဂဏန်းမှာ -1 ဖြစ်သည်။
ဥပမာ
import pandas as pd
import matplotlib.pyplot as plt
negative_corr =
{'Hours_Work_Before_Training': [10,9,8,7,6,5,4,3,2,1],
'Calorie_Burnage':
[220,240,260,280,300,320,340,360,380,400]}
negative_corr = pd.DataFrame(data=negative_corr)
negative_corr.plot(x ='Hours_Work_Before_Training',
y='Calorie_Burnage', kind='scatter')
plt.show()
မျဉ်းကြောင်းမရှိ ဆက်စပ်မှု ဥပမာ (Coefficient = 0)
ဤတွင်၊ ကျွန်ုပ်တို့သည် Max_Pulse ကို Duration နှင့် ဆန့်ကျင်သော full_health_data သတ်မှတ်မှုမှ ကြံစည်ထားပါသည်။
သင်တွေ့မြင်ရသည့်အတိုင်း၊ ကိန်းရှင်နှစ်ခုကြားတွင် linear ဆက်နွယ်မှုမရှိပါ။ ပိုကြာသော လေ့ကျင့်ရေး အပိုင်းသည် မြင့်မားသော Max_Pulse ကို မဖြစ်ပေါ်စေဟု ဆိုလိုသည်။
ဤနေရာတွင် ဆက်စပ်ကိန်းသည် 0 ဖြစ်သည်။
ဥပမာ
import matplotlib.pyplot as plt
full_health_data.plot(x ='Duration', y='Max_Pulse',
kind='scatter')
plt.show()