আমার বাইনারি ডেটার ক্লাস্টারিং তাৎপর্যপূর্ণ কিনা তা আমি কীভাবে পরীক্ষা করতে পারি


12

আমি শপিং কার্ট বিশ্লেষণ করছি যে আমার ডেটাসেটটি লেনদেনের ভেক্টরগুলির সেট, পণ্যগুলি কেনা হচ্ছে with

লেনদেনগুলিতে কে-মাইন প্রয়োগ করার সময়, আমি সর্বদা কিছু ফলাফল পাব । একটি এলোমেলো ম্যাট্রিক্স সম্ভবত কিছু গুচ্ছ প্রদর্শন করবে।

আমার যে ক্লাস্টারিংটি পাওয়া যায় তা কোনও তাৎপর্যপূর্ণ কিনা, বা এটি খুব ভালভাবে কাকতালীয় হতে পারে কিনা তা পরীক্ষা করার কোনও উপায় আছে কি? যদি হ্যাঁ, আমি এটি কীভাবে করতে পারি।

উত্তর:


14

শপিং কার্ট বিশ্লেষণ সম্পর্কে, আমি মনে করি যে মূল উদ্দেশ্য গ্রাহকদের দ্বারা কেনা পণ্যগুলির ঘন ঘন সংমিশ্রণকে পৃথক করা। association rulesএখানে সবচেয়ে প্রাকৃতিক পদ্ধতি প্রতিনিধিত্ব (প্রকৃতপক্ষে তারা আসলে এই কাজের জন্য উন্নত ছিল)। গ্রাহকদের দ্বারা কেনা পণ্য সংমিশ্রণ বিশ্লেষণ, এবং এই সংমিশ্রনের সংখ্যার পুনরাবৃত্তি বারবার 'যদি শর্ত থাকে, তবে ফলাফল' এর সাথে সম্পর্কিত আকর্ষণীয়তা পরিমাপের ফলে একটি নিয়মের দিকে পরিচালিত করে। Log-linear modelsবিবেচিত ভেরিয়েবলের মধ্যে সমিতিগুলি তদন্ত করার জন্য আপনি বিবেচনা করতে পারেন ।

ক্লাস্টারিংয়ের ক্ষেত্রে, এখানে কিছু তথ্য কার্যকর হতে পারে:

প্রথমে বিবেচনা করুন Variable clustering। ভেরিয়েবল ক্লাস্টারিং কলিনারিটি, রিডানডেন্সি মূল্যায়নের জন্য এবং ভেরিয়েবলগুলি ক্লাস্টারে আলাদা করার জন্য ব্যবহৃত হয় যা একক ভেরিয়েবল হিসাবে স্কোর করা যায়, ফলে ডেটা হ্রাস হয়। সন্ধান varclusফাংশন (রাঃ প্যাকেজ Hmisc)

ক্লাস্টারওয়াস স্থিতিশীলতার মূল্যায়ন: ফাংশন clusterboot{আর প্যাকেজ fpc}

ক্লাস্টারের বৈধতার জন্য দূরত্ব ভিত্তিক পরিসংখ্যান: ফাংশন cluster.stats{আর প্যাকেজ fpc}

এমবিকিউ যেমন উল্লেখ করেছে, ক্লাস্টারের সেরা সংখ্যা নির্ধারণের জন্য সিলুয়েট প্রস্থগুলি ব্যবহার করুন। এই দেখুন । সিলুয়েটের প্রস্থ সম্পর্কে, ওপসিল ফাংশনটিও দেখুন।

ফাঁক পরিসংখ্যানের মাধ্যমে কোনও ডেটা সেটে ক্লাস্টারের সংখ্যা নির্ধারণ করুন

বৈচিত্র্য সূচক এবং দূরত্ব পরিমাপ গণনা করার জন্য dsvdis এবং vegdist দেখুন

ইএম ক্লাস্টারিং অ্যালগরিদম সিদ্ধান্ত নিতে পারে ক্রস বৈধকরণের দ্বারা কতগুলি ক্লাস্টার তৈরি করা উচিত, (আপনি যদি কতগুলি ক্লাস্টার উত্পন্ন করতে হবে তা অ্যাপ্রিওরি নির্দিষ্ট করতে না পারেন)। যদিও ইএম অ্যালগরিদম সর্বাধিক রূপান্তরিত হওয়ার গ্যারান্টিযুক্ত তবে এটি স্থানীয় সর্বাধিক এবং এটি সম্ভবত গ্লোবাল সর্বাধিকের মতো নাও হতে পারে। গ্লোবাল সর্বাধিক প্রাপ্তির আরও ভাল সুযোগের জন্য, প্যারামিটার মানগুলির জন্য বিভিন্ন প্রাথমিক অনুমান সহ পুরো পদ্ধতিটি কয়েকবার পুনরাবৃত্তি করা উচিত। সামগ্রিক লগ-সম্ভাবনা চিত্রটি প্রাপ্ত বিভিন্ন চূড়ান্ত কনফিগারেশনগুলির তুলনা করতে ব্যবহার করা যেতে পারে: কেবলমাত্র স্থানীয় ম্যাক্সিমার মধ্যে সবচেয়ে বড়টি বেছে নিন । ওপেন-সোর্স প্রকল্প WEKA তে আপনি ইএম ক্লাস্টারের একটি বাস্তবায়ন পেতে পারেন

এই একটি আকর্ষণীয় লিঙ্ক।

এছাড়াও অনুসন্ধান এখানে জন্যFinding the Right Number of Clusters in k-Means and EM Clustering: v-Fold Cross-Validation

পরিশেষে, আপনি ক্লাস্টারিং ফলাফল ব্যবহার অন্বেষণ পারে clusterfly


8

ফলাফল সঠিক কিনা তা দেখানোর জন্য এটি মন্টি কার্লো ব্যবহার করে এমন একটি পদ্ধতি।

আমাদের নাল হাইপোথিসিস এইচ টি এই যে আমাদের ডেটাসেটটিতে একটি আকর্ষণীয় ক্লাস্টারিং নেই। আমাদের বিকল্প হাইপোথিসিস H_1 হ'ল আমাদের ডেটাসেটে একটি আকর্ষণীয় ক্লাস্টারিং রয়েছে।

এর মাধ্যমে আমরা একই সারি এবং কলাম মার্জিন সহ একটি এলোমেলো ডেটাসেটের ক্লাস্টারিং কাঠামোর চেয়ে আকর্ষণীয় হিসাবে মনে করি। অবশ্যই অন্যান্য সীমাবদ্ধতা বাছাই করা যেতে পারে, কিন্তু আলগা বাধাগুলি আমাদের ফলাফলকে খুব সাধারণ করে তুলবে এবং সংকীর্ণ সংকীর্ণতা থেকে ক্লাস্টারিংটিকে অনেকাংশে সংশোধন করা হবে, সুতরাং আমাদের ফলাফলটি স্বয়ংক্রিয়ভাবে তুচ্ছ হয়ে উঠবে। মার্জিনগুলি, যেমনটি আমরা দেখব, এটি এলোমেলো করার জন্য বিদ্যমান পদ্ধতিগুলির কারণে ভাল পছন্দ ins

আসুন আমাদের পরীক্ষার পরিসংখ্যান ক্লাস্টারিং ত্রুটি হিসাবে সংজ্ঞায়িত করুন (ক্লাস্টার ইন ক্লাস্টার দূরত্ব), T_0 থেকে টি। আমাদের মূল ডেটাসেটের মান টি

আমরা এই বিতরণ সম্পর্কে কিছুই জানি না, এটি থেকে নমুনা আঁকতে পারি can যা এটি মন্টি কার্লোর পক্ষে ভাল প্রার্থী করে তোলে।

এখন আমরা (_0 থেকে এন (আইআইডি) র্যান্ডম নমুনাগুলি আঁকছি এবং পি_ইম্প = 1 / (এন + 1) * (Σ_i = 1-n আই (টি_আই> = টি) + 1) সূত্র দিয়ে অনুশীলনীয় পি- মূল্য গণনা করি

এলোমেলো নমুনাটি অদলবদলের মাধ্যমে করা যেতে পারে। সহজ কথায়, একটি বর্গাকার দুটি বিপরীত কোণে 1 টি এবং অন্য দুটি কোণে একটি 0 দিয়ে অনুসন্ধান করা হয়। তারপরে কোণগুলি উল্টানো হয়। এটি কলাম এবং সারি মার্জিন রাখছে। ডেটাসেটটি পর্যাপ্ত পরিমাণে এলোমেলো করে না হওয়া পর্যন্ত প্রক্রিয়াটি পর্যাপ্ত পরিমাণে পুনরাবৃত্তি হয় (এটি কিছু পরীক্ষা-নিরীক্ষা নেবে)। এ সম্পর্কে আরও তথ্য জিওনস এটি দ্বারা রদবদলকরণের মাধ্যমে অদলবদলের মাধ্যমে ডেটা মাইনিংয়ের ফলাফলগুলি মূল্যায়নে পাওয়া যাবে । অল।

এটি করার একটি পদ্ধতি হ'ল আপনার ডেটা বন্টনকে সংজ্ঞায়িত করা এবং ক্লাস্টারিং ত্রুটিটিকে পরীক্ষা-পরিসংখ্যান টি হিসাবে গ্রহণ করা।

উদাহরণস্বরূপ, আমরা যদি এই ডেটা ডিস্ট্রিবিউশন হিসাবে একই সারিতে এবং কলামের মার্জিন সহ সমস্ত ডেটা সেট বিবেচনা করি, তবে আমরা এই বন্টন থেকে এন এলোমেলো ম্যাট্রিকেস একাদশ নিতে পারি এবং তাদের জন্য ক্লাস্টারিং ত্রুটি গণনা করতে পারি। তারপরে আমরা সূত্রের মাধ্যমে এমেরিকাল পি-মান গণনা করতে পারি


4

সিলুয়েটের মতো কিছু আছে যা কিছু পরিমাণে পরিসংখ্যান সংজ্ঞায়িত করে যা ক্লাস্টারের গুণমান নির্ধারণ করে (উদাহরণস্বরূপ এটি কে কে অনুকূলিতকরণে ব্যবহৃত হয়)। এখন একটি সম্ভাব্য মন্টি কার্লো নিম্নলিখিত হিসাবে যাবেন: আপনি আপনার মূলের মতো অনেকগুলি এলোমেলো ডেটাसेट উত্পন্ন করেন (উদাহরণস্বরূপ প্রতিটি স্তম্ভের মধ্যে সারিগুলির মধ্যে মানগুলি পরিবর্তন করে), গুচ্ছ এবং গড় সিলুয়েটের একটি বিতরণ পান যা তাত্পর্যটি পরীক্ষা করতে ব্যবহৃত হতে পারে বাস্তব তথ্য মধ্যে সিলুয়েট। তবুও আমি প্রশাসক যে আমি কখনও এই ধারণা চেষ্টা করে নি।


1
এটি আমাকে হিউম্যান ব্রেইন ম্যাপিং 2010 সম্মেলনে একটি পোস্টার দেখে মনে করিয়ে দেয়। টম নিকোলস হায়ারারিকাল ক্লাস্টারিংয়ে কোফেনেটিক পারস্পরিক সম্পর্ক এবং সিলুয়েটের স্থায়িত্ব মূল্যায়ন করতে প্যারামেট্রিক বুটস্ট্র্যাপ ব্যবহার করেছিলেন, তবে তার পোস্টারটি দেখুন: j.mp/9yXObA
chl

@ chl ধন্যবাদ; প্রকৃতপক্ষে আমি আমার ল্যাবটিতে একই রকম কাজ দেখেছি; ফলাফলটি ছিল যে ক্লাস্টারগুলি উল্লেখযোগ্য নয় যদিও: - /

আমি সম্মত হই যে এটি বুটস্ট্র্যাপিংয়ের মতো শোনাচ্ছে।
ভাস

(এফওয়াইআই: সিলুয়েটের মানটির ব্যাখ্যা )। এছাড়াও, নোট করুন যে সিলুয়েট মান কে = 1 ক্লাস্টারের জন্য সংজ্ঞায়িত করা হয়নি, তাই আমরা সিলুয়েট মান ব্যবহার করে অনুমানের কে = 1 (অর্থাত্ ডেটাসেটটি আনলাস্টারড) বনাম কে> 1 (ডেটাসেট ক্লাস্টারড) তুলনা করতে পারি না।
ফ্রাঙ্ক ডারননকোর্ট
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.