ဒေတာသိပ္ပံ - စာရင်းအင်းဆက်စပ်မှု


ဆက်စပ်မှု

Correlation သည် ကိန်းရှင်နှစ်ခုကြားရှိ ဆက်နွယ်မှုကို တိုင်းတာသည်။

လုပ်ဆောင်ချက်တစ်ခုသည် input (x) ကို output (f(x)) သို့ပြောင်းခြင်းဖြင့် တန်ဖိုးတစ်ခုကို ခန့်မှန်းရန် ရည်ရွယ်ချက်ရှိကြောင်း ကျွန်ုပ်တို့ဖော်ပြခဲ့သည်။ ခန့်မှန်းချက်အတွက် function တစ်ခုသည် variable နှစ်ခုကြားရှိ ဆက်နွယ်မှုကို အသုံးပြုသည်ဟုလည်း ဆိုနိုင်သည်။


ဆက်စပ်မှုကိန်း

ဆက်စပ်ကိန်းသည် ကိန်းရှင်နှစ်ခုကြားရှိ ဆက်နွယ်မှုကို တိုင်းတာသည်။

ဆက်စပ်ကိန်းဂဏန်းသည် -1 ထက်နည်းသော သို့မဟုတ် 1 ထက်ပိုမို၍မရနိုင်ပါ။

  • 1 = ကိန်းရှင်များကြားတွင် ပြီးပြည့်စုံသော linear ဆက်ဆံရေး (Average_Pulse against Calorie_Burnage ကဲ့သို့)
  • 0 = ကိန်းရှင်များကြားတွင် linear ဆက်နွယ်မှုမရှိပါ။
  • -1 = variables များကြားတွင် ပြီးပြည့်စုံသော အနုတ်လက္ခဏာ ဆက်နွယ်မှု ရှိနေသည် (ဥပမာ- နာရီနည်းသော အလုပ်၊ လေ့ကျင့်ရေး အပိုင်းအတွင်း ကယ်လိုရီ လောင်ကျွမ်းမှု မြင့်မားစေသည်)

ပြီးပြည့်စုံသော Linear Relationship ၏ ဥပမာ (Correlation Coefficient = 1)

Average_Pulse နှင့် Calorie_Burnage အကြား ဆက်နွယ်မှုကို မြင်ယောင်ရန် scatterplot ကို အသုံးပြုပါမည် (ကျွန်ုပ်တို့သည် အားကစားနာရီ၏ သေးငယ်သောဒေတာအစုကို အသုံးပြုထားသည်)။

ဤတစ်ကြိမ်တွင် ကျွန်ုပ်တို့သည် ကွက်ကျားကွက်များကို လိုချင်သောကြောင့် ကျွန်ုပ်တို့သည် "scatter" သို့ တစ်မျိုးပြောင်းသည်-

ဥပမာ

import matplotlib.pyplot as plt

health_data.plot(x ='Average_Pulse', y='Calorie_Burnage', kind='scatter')
plt.show()

အထွက်-

Correlation Coefficient = ၁

အစောပိုင်းတွင် ကျွန်ုပ်တို့မြင်ခဲ့သည့်အတိုင်း၊ ၎င်းသည် Average_Pulse နှင့် Calorie_Burnage အကြား ပြီးပြည့်စုံသော linear ဆက်နွယ်မှုရှိပါသည်။



ပြီးပြည့်စုံသော အနုတ်လက္ခဏာ မျဉ်းကြောင်းဆက်စပ်မှု ဥပမာ (Correlation Coefficient = -1)

Correlation Coefficient = -1

ဤနေရာတွင် ကျွန်ုပ်တို့သည် စိတ်ကူးယဉ်အချက်အလက်များကို ပုံဖော်ထားသည်။ x-axis သည် လေ့ကျင့်ရေးမစမီ ကျွန်ုပ်တို့၏အလုပ်တွင် လုပ်ဆောင်ခဲ့သော နာရီပမာဏကို ကိုယ်စားပြုသည်။ y ဝင်ရိုးသည် Calorie_Burnage ဖြစ်သည်။

အကယ်၍ ကျွန်ုပ်တို့သည် အချိန်ပိုကြာအောင် အလုပ်လုပ်ပါက လေ့ကျင့်ခန်းမစမီ ပင်ပန်းသောကြောင့် ကယ်လိုရီလောင်ကျွမ်းမှု နည်းပါးပါသည်။

ဤနေရာတွင် ဆက်စပ်ကိန်းဂဏန်းမှာ -1 ဖြစ်သည်။

ဥပမာ

import pandas as pd
import matplotlib.pyplot as plt

negative_corr = {'Hours_Work_Before_Training': [10,9,8,7,6,5,4,3,2,1],
'Calorie_Burnage': [220,240,260,280,300,320,340,360,380,400]}
negative_corr = pd.DataFrame(data=negative_corr)

negative_corr.plot(x ='Hours_Work_Before_Training', y='Calorie_Burnage', kind='scatter')
plt.show()

မျဉ်းကြောင်းမရှိ ဆက်စပ်မှု ဥပမာ (Coefficient = 0)

Correlation Coefficient = 0

ဤတွင်၊ ကျွန်ုပ်တို့သည် Max_Pulse ကို Duration နှင့် ဆန့်ကျင်သော full_health_data သတ်မှတ်မှုမှ ကြံစည်ထားပါသည်။

သင်တွေ့မြင်ရသည့်အတိုင်း၊ ကိန်းရှင်နှစ်ခုကြားတွင် linear ဆက်နွယ်မှုမရှိပါ။ ပိုကြာသော လေ့ကျင့်ရေး အပိုင်းသည် မြင့်မားသော Max_Pulse ကို မဖြစ်ပေါ်စေဟု ဆိုလိုသည်။

ဤနေရာတွင် ဆက်စပ်ကိန်းသည် 0 ဖြစ်သည်။

ဥပမာ

import matplotlib.pyplot as plt

full_health_data.plot(x ='Duration', y='Max_Pulse', kind='scatter')
plt.show()