ဒေတာပဒေသာပင်များ
- အစု အဝေး များသည် အလားတူဒေတာစုဆောင်းမှုများဖြစ်သည်။
- Clustering သည် ကြီးကြပ်မထားသော သင်ယူမှု အမျိုးအစားတစ်ခုဖြစ်သည်။
- Correlation Coefficient သည် ဆက်ဆံရေးတစ်ခု၏ ခိုင်မာမှုကို ဖော်ပြသည်။
ပြွတ်
အစုအဝေးများသည် တူညီမှု အပေါ်အခြေခံ၍ ဒေတာစုဆောင်းမှုများဖြစ်သည်။
ဂရပ်တစ်ခုတွင် စုစည်းထားသော ဒေတာအချက်များအား အစုအဝေးများအဖြစ် မကြာခဏ ခွဲခြားနိုင်သည်။
အောက်ပါဂရပ်တွင် ကျွန်ုပ်တို့သည် မတူညီသောအစုအဝေး 3 ခုကို ခွဲခြားနိုင်သည်-
အစုအဝေးများကို ဖော်ထုတ်ခြင်း။
အစုအဖွဲ့များသည် တန်ဖိုးရှိသော အချက်အလက်များစွာကို သိမ်းဆည်းထားနိုင်သော်လည်း အစုအဝေးများသည် ပုံသဏ္ဍာန်အမျိုးမျိုးဖြင့် ရောက်ရှိလာသောကြောင့် ၎င်းတို့ကို ကျွန်ုပ်တို့ မည်သို့မှတ်မိနိုင်မည်နည်း။
အဓိကနည်းလမ်းနှစ်ခုမှာ-
- Visualization ကိုအသုံးပြုခြင်း။
- Clustering Algorithm ကိုအသုံးပြုခြင်း။
အစုအဝေး
Clustering သည် Unsupervised Learning အမျိုးအစားတစ်ခုဖြစ်သည် ။
Clustering သည် ကြိုးစားနေသည်-
- အလားတူဒေတာများကို အုပ်စုများအလိုက် စုဆောင်းပါ။
- အခြားအုပ်စုများတွင် အလားတူဒေတာကို စုဆောင်းပါ။
Clustering Methods
- သိပ်သည်းဆနည်းလမ်း
- Hierarchical Method
- ပိုင်းခြားခြင်းနည်းလမ်း
- ဇယားကွက်အခြေခံနည်းလမ်း
Density Method သည် သိပ်သည်းသောဒေသများရှိ အမှတ်များကို အောက်သိပ်သည်းသောဒေသရှိ အမှတ်များထက် ပိုမိုတူညီပြီး ကွဲပြားမှုများရှိသည်ဟု မှတ်ယူသည်။ သိပ်သည်းဆနည်းလမ်းသည် ကောင်းမွန်တိကျမှုရှိသည်။ ၎င်းသည် အစုအဝေးများကို ပေါင်းစည်းနိုင်စွမ်းလည်း ရှိသည်။
အသုံးများသော algorithms နှစ်ခုမှာ DBSCAN နှင့် OPTICS ဖြစ်သည်။
Hierarchical Method သည် သစ်ပင်အမျိုးအစားဖွဲ့စည်းပုံတွင် အစုအဝေးများကို ဖွဲ့စည်းသည် ။ အစုအသစ်များကို ယခင်ဖွဲ့စည်းထားသော အစုအဝေးများကို အသုံးပြု၍ ဖွဲ့စည်းထားပါသည်။
အသုံးများသော algorithms နှစ်ခုမှာ CURE နှင့် BIRCH ဖြစ်သည်။
Grid-based Method သည် ဒေတာများကို ဇယားကွက်သဖွယ် ဖွဲ့စည်းတည်ဆောက်ထားသည့် ဆဲလ်အရေအတွက် အကန့်အသတ်ဖြင့် ပုံဖော်သည်။
အသုံးများသော algorithms နှစ်ခုမှာ CLIQUE နှင့် STING ဖြစ်သည်။
Partitioning Method သည် အ ရာဝတ္တုများကို k အစုအဝေးများအဖြစ် ပိုင်းဖြတ်ပြီး အပိုင်းတစ်ခုစီသည် အစုအဝေးတစ်ခုအဖြစ် ဖွဲ့စည်းသည်။
အသုံးများသော algorithm တစ်ခုမှာ CLARANS ဖြစ်သည်။
ဆက်စပ်မှုကိန်း
Correlation Coefficient (r) သည် linear ဆက်နွယ်မှု ၏ ခိုင်ခံ့မှုနှင့် ဦးတည်ချက်တို့ကို ဖြန့်ကျက်တစ်ခုပေါ်တွင် x/y variable များကို ဖော်ပြသည်။
r ၏တန်ဖိုးသည် အမြဲတမ်း -1 နှင့် +1 ကြားဖြစ်သည်
-၁.၀၀ | ပြီးပြည့်စုံသောကုန်းဆင်း | အနုတ်လက္ခဏာ မျဉ်းသားဆက်ဆံရေး။ |
-0.70 | ကုန်းဆင်းအားပြင်း | အနုတ်လက္ခဏာ မျဉ်းသားဆက်ဆံရေး။ |
-0.50 | တော်ရုံတန်ရုံ ကုန်းဆင်း | အနုတ်လက္ခဏာ မျဉ်းသားဆက်ဆံရေး။ |
-၀.၃၀ | အားနည်းသောကုန်းဆင်း | အနုတ်လက္ခဏာ မျဉ်းသားဆက်ဆံရေး။ |
၀ယ်တယ်။ | မျဉ်းသားဆက်ဆံရေးမရှိပါ။ | |
+0.30 | ကုန်းတက် အားနည်းတယ်။ | အပြုသဘောဆောင်သော linear ဆက်ဆံရေး။ |
+0.50 | တော်ရုံတန်ရုံ ကုန်းတက် | အပြုသဘောဆောင်သော linear ဆက်ဆံရေး။ |
+0.70 | ခိုင်ခံ့သောကုန်းတက် | အပြုသဘောဆောင်သော linear ဆက်ဆံရေး။ |
+1.00 | ပြီးပြည့်စုံသောကုန်းတက် | အပြုသဘောဆောင်သော linear ဆက်ဆံရေး။ |
ပြီးပြည့်စုံသော တောင်တက် +1.00 :
ပြီးပြည့်စုံသော တောင်ဆင်း-1.00 :
ပြင်းထန်သောကုန်းတက် +0.61 :
ဆက်စပ်မှု မရှိပါ