কে-মানে ক্লাস্টার বিশ্লেষণের পরে আনোভা যথাযথতা


14

কে-মানে বিশ্লেষণের পরে এএনওওএ টেবিলের পরে বিজ্ঞপ্তিটি ইঙ্গিত দেয় যে তাত্পর্য স্তরগুলি সমান উপায়ে পরীক্ষা হিসাবে দেখা উচিত নয়, কারণ ক্লাস্টার সলিউশনটি দূরত্বকে সর্বাধিকতর করতে ইউক্যাইডিয়ান দূরত্বের ভিত্তিতে নেওয়া হয়েছে। ক্লাস্টারিং ভেরিয়েবলগুলির মাধ্যমগুলি গুচ্ছগুলির মধ্যে পৃথক কিনা তা দেখাতে আমার কোন পরীক্ষা ব্যবহার করা উচিত? আমি এই সতর্কতাটি কে-মানে আউটপুটগুলির সরবরাহিত আনোভা টেবিলে দেখেছি, তবে কিছু উল্লেখে আমি দেখতে পাচ্ছি যে উত্তর-পরবর্তী এএনওওয়া পরীক্ষা চালানো হচ্ছে। আমি কি কে-মানে আনোভা আউটপুটগুলি উপেক্ষা করব এবং উত্তর-পরীক্ষার মাধ্যমে ওয়ান-ওয়ে আনোভা চালিয়ে aতিহ্যগত উপায়ে তাদের ব্যাখ্যা করব? অথবা আমি কেবল F মানটির মাত্রা সম্পর্কে বোঝাতে পারি এবং কোন ভেরিয়েবলগুলি পার্থক্যের জন্য আরও বেশি অবদান রেখেছিল? আরেকটি বিভ্রান্তি হ'ল ক্লাস্টারিং ভেরিয়েবলগুলি সাধারণত এএনওওএর লঙ্ঘনকারী অনুমানকে বিতরণ করা হয় না, তখন আমি কৃস্কাল-ওয়ালিস নন-প্যারাম্যাট্রিক পরীক্ষা ব্যবহার করতে পারি, তবে এটির একই বিতরণ সম্পর্কে ধারণা রয়েছে। নির্দিষ্ট ভেরিয়েবলগুলির জন্য আন্ত-ক্লাস্টার বিতরণগুলি একই রকম মনে হয় না, কিছু ইতিবাচকভাবে স্কিউড হয়, কিছু নেতিবাচক হয় ... আমার কাছে 1275 টি বড় নমুনা, 5 টি ক্লাস্টার, 10 ক্লাস্টারিং ভেরিয়েবলগুলি পিসিএ স্কোরগুলিতে পরিমাপ করা হয়।


কেন আপনার মাধ্যমের সাম্য পরীক্ষা করতে হবে? আপনি কী পরীক্ষা করতে পারবেন না যে কীভাবে আপনার মডেল নমুনা তৈরি করে?
জেমস

আমি নির্ধারণ করতে চেয়েছিলাম যে কোন ভেরিয়েবলের অর্থ ক্লাস্টারগুলির মধ্যে পৃথক, যেমন ক্লাস্টার 1-এ ভি 1 এর অর্থ ক্লাস্টারের ভি 1 এর চেয়ে আলাদা কিনা, 5, আমি অবশ্যই দেখতে পাচ্ছি যে গ্রাফ তৈরি করে, তবে এটি করে পরিসংখ্যানগত পার্থক্য সম্পর্কে বলবেন না। পরিসংখ্যানগত পার্থক্যের জন্য পরীক্ষা আমাকে বিভ্রান্ত করেছিল, যেমন আনোভা হিসাবে আমার তথ্যগুলি সাধারণ বিতরণ অনুমানের সাথে মেলে না, তবে ক্রুসকল ওয়ালিস ক্লাস্টার গ্রুপগুলির মধ্যে একই আকারের বিতরণ অনুমানের পরীক্ষার জন্য।
ইঙ্গা

1
@ জেমস তার উত্তরে ইঙ্গিত হিসাবে আপনি "স্নুপিং" are আপনি (আপনার ক্লাস্টারিং) দলের মধ্যে তাত্পর্য জন্য পরীক্ষার একটি কারণ কি হতে পারে পূর্বনির্বাচিত যতটা সম্ভব পৃথক? জনসংখ্যা থেকে এলোমেলো বা আনুপাতিক নমুনার কোনও চিহ্ন নেই যা কিছু বাহ্যিক , ব্যাকগ্রাউড বৈশিষ্ট্যের ভিত্তিতে স্বতন্ত্র ।
ttnphns

উত্তরের জন্য আপনাকে ধন্যবাদ! আমার বিভ্রান্তি কিছু উত্সে উপস্থিত হয়েছিল যেমন আমি দেখতে পেয়েছি যে পরিসংখ্যানগত গড় তুলনা এই পরিস্থিতিতে যথাযথ নয় যেমন আপনি উল্লেখ করেছেন, তবে উদাহরণস্বরূপ 1 বইয়ের অধ্যায়ের একটি উদ্ধৃতি বিপরীত নির্দেশ করে: "আমরা সাধারণত আনোভা ব্যবহার করে প্রতিটি মাত্রার প্রতিটি ক্লাস্টারের জন্য উপায়গুলি পরীক্ষা করি examine আমাদের ক্লাস্টারগুলি কতটা স্বতন্ত্র তা নির্ধারণ করার জন্য। আদর্শভাবে, আমরা বিশ্লেষণে ব্যবহৃত সমস্ত মাত্রা না হলে বেশিরভাগের জন্য উল্লেখযোগ্যভাবে আলাদা উপায় অর্জন করতে পারি each প্রতিটি মাত্রার উপর সম্পাদিত F মানগুলির পরিমাণ কতটা যথাযথভাবে পার্থক্যকে চিহ্নিত করে তার একটি ইঙ্গিত গুচ্ছ "
ইনগা

1
ক্লাস্টারে ব্যবহৃত বৈশিষ্ট্যগুলি দ্বারা - সবচেয়ে বৈষম্যমূলক বিষয়গুলি অনুসন্ধান করার জন্য আপনার কাছে ক্লাস্টারগুলির মধ্যে পার্থক্যগুলি মূল্যায়নের অধিকার রয়েছে। এটি করার সময় আপনি আপেক্ষিক পার্থক্য, এফ, এবং এমনকি পি-মানগুলি গণনা করতে পারেন। প্রভাব আকার সূচক হিসাবে। পরিসংখ্যানগত তাত্পর্য (যা জনসংখ্যার উল্লেখ করে) হিসাবে সূচক হিসাবে নয়
ttnphns

উত্তর:


13

না!

আপনি আবশ্যক 1 একই ডেটা ব্যবহার করবেন) ক্লাস্টার মধ্যে বিন্দুর মধ্যে উল্লেখযোগ্য পার্থক্য জন্য ক্লাস্টারিং এবং 2) মৃগয়া সঞ্চালন। এমনকি ডেটাতে প্রকৃত কাঠামো না থাকলেও ক্লাস্টারিং কাছাকাছি অবস্থিত পয়েন্টগুলি একসাথে ভাগ করে এক চাপিয়ে দেবে। এটি গোষ্ঠীটির মধ্যে বৈষম্য সঙ্কুচিত করে এবং গোটা গ্রুপের বৈকল্পিকতা বৃদ্ধি করে, যা আপনাকে মিথ্যা ধনাত্মক দিকে অগ্রাহ্য করে।

k

সিমুলেশন ফলাফলগুলি এলোমেলোভাবে কার্যভারের জন্য প্যাভেলুগুলির অভিন্ন বিতরণ এবং ক্লাস্টারিংয়ের পরে পি মানগুলির একটি অত্যন্ত স্কিউড (প্রায় সমস্ত 0.05 বা তার কম) বন্টন দেখায়

এখানে একটি আনোভা সম্পর্কে বিশেষ কিছু নেই - আপনি প্যারামিমেট্রিক নন, লজিস্টিক রিগ্রেশন এবং যেকোনো কিছু ব্যবহার করে একই রকম প্রভাব দেখতে পাবেন। সাধারণভাবে, একটি ক্লাস্টারিং অ্যালগরিদমের কর্মক্ষমতা যাচাই করা জটিল, বিশেষত যদি ডেটা লেবেলযুক্ত না থাকে। যাইহোক, "অভ্যন্তরীণ বৈধতা", বা বাহ্যিক ডেটা উত্সগুলি ব্যবহার না করেই ক্লাস্টারের গুণমান পরিমাপ করার কয়েকটি পন্থা রয়েছে। এগুলি সাধারণত ক্লাস্টারগুলির সংযোগ এবং পৃথককরণের দিকে মনোনিবেশ করে। লুই এট আল দ্বারা এই পর্যালোচনা । (2010) শুরু করার জন্য ভাল জায়গা হতে পারে।


4

আপনার আসল সমস্যাটি হ'ল ডেটা স্নুপিং। ইনপুট ডেটা সেট করার ভিত্তিতে যদি পর্যবেক্ষণগুলি গ্রুপ (ক্লাস্টার) এ বরাদ্দ করা হয় তবে আপনি আনোভা বা কেডব্লু প্রয়োগ করতে পারবেন না। আপনি যা করতে পারেন তা হ'ল ক্লাস্টারের সংখ্যা অনুমান করার জন্য গ্যাপ স্ট্যাটিস্টিকের মতো কিছু ব্যবহার করা ।

অন্যদিকে, স্নোপড পি-মানগুলি নীচের দিকে পক্ষপাতদুষ্ট, সুতরাং আনোভা বা কেডাব্লু পরীক্ষার ফলাফল যদি তুচ্ছ হয় তবে "সত্য" পি-মানটি আরও বড় এবং আপনি ক্লাস্টারগুলিকে একীভূত করার সিদ্ধান্ত নিতে পারেন।


4

আমি মনে করি আপনি যদি নালীর সাধারণ বিতরণটি টস করেন তবে আপনি এই জাতীয় পদ্ধতির প্রয়োগ করতে পারেন (যেমন, পরিসংখ্যানগুলি যেমন এফ-স্ট্যাটিস্টিকস বা টি-স্ট্যাটিস্টিকস বা যা কিছু) ব্যবহার করতে পারেন

আপনার যা করা দরকার তা হ'ল যে পরিস্থিতিটি আপনার নালটি সত্য তা থেকে অনুকরণ করুন, সম্পূর্ণ প্রক্রিয়াটি (ক্লাস্টারিং ইত্যাদি) প্রয়োগ করুন এবং তারপরে প্রতিবার যে কোনও পরিসংখ্যান গণনা করুন। অনেকগুলি সিমুলেশনগুলির জন্য প্রয়োগ করা হয়, আপনি শূন্যের নীচে পরিসংখ্যানগুলির জন্য একটি বিতরণ পাবেন যার বিরুদ্ধে আপনার নমুনা মানের তুলনা করা যেতে পারে। ডেটা স্নুপিংকে গণনায় অন্তর্ভুক্ত করে আপনি এর প্রভাবটির জন্য অ্যাকাউন্ট করেন।

[বিকল্পভাবে কেউ সম্ভবত পুনরায় মডেলিং-ভিত্তিক পরীক্ষাটি বিকাশ করতে পারে (নির্গমন / র্যান্ডমাইজেশন বা বুটস্ট্র্যাপিংয়ের উপর ভিত্তি করে)]]


2
ঠিক আছে, এটি গ্যাপের পরিসংখ্যানের পিছনে ধারণা।
জেমস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.