একটি ক্লাস্টারিং পদ্ধতি কীভাবে নির্বাচন করবেন? একটি ক্লাস্টার সমাধানকে কীভাবে বৈধতা দেওয়া যায় (পদ্ধতির পছন্দটি ওয়ারেন্ট করার জন্য)?


35

ক্লাস্টার বিশ্লেষণের সবচেয়ে বড় সমস্যাটি হ'ল আমরা যখন বিভিন্ন ক্লাস্টারিং পদ্ধতির ভিত্তিতে (শ্রেণিবদ্ধ ক্লাস্টারিংয়ের বিভিন্ন লিঙ্কেজ পদ্ধতি সহ) ব্যবহার করি তখন বিভিন্ন উপসংহার পেতে পারি ।

আমি এ সম্পর্কে আপনার মতামত জানতে চাই - আপনি কোন পদ্ধতিটি নির্বাচন করবেন এবং কীভাবে। কেউ বলতে পারে "ক্লাস্টারিংয়ের সেরা পদ্ধতিটি যা আপনাকে সঠিক উত্তর দেয়"; তবে আমি জবাবে প্রশ্ন তুলতে পারি যে ক্লাস্টার বিশ্লেষণটি একটি অপ্রচলিত কৌশল বলে মনে করা হচ্ছে - তবে আমি কীভাবে জানব যে কোন পদ্ধতি বা লিঙ্কেজটি সঠিক উত্তর?

সাধারণভাবে: একটি ক্লাস্টারিং কি নির্ভর করতে যথেষ্ট শক্তিশালী? অথবা আমাদের একটি দ্বিতীয় পদ্ধতি প্রয়োজন এবং উভয়ের উপর ভিত্তি করে একটি ভাগ ফলাফল পেতে পারি?

আমার প্রশ্নটি কেবল ক্লাস্টারিং পারফরম্যান্সকে বৈধতা / মূল্যায়ন করার সম্ভাব্য উপায়গুলি সম্পর্কে নয় , তবে এটি আরও বিস্তৃত - আমরা কোন ক্লাস্টারিং পদ্ধতি / অ্যালগোরিদমকে অন্য কোনওটির চেয়ে পছন্দ / পছন্দ করি । এছাড়াও, যখন আমরা আমাদের ডেটা ক্লাস্টার করার জন্য কোনও পদ্ধতি নির্বাচন করি তখন কি আমাদের সাধারণ সতর্কতা রয়েছে ?

আমি জানি যে এটি খুব সাধারণ প্রশ্ন এবং উত্তর দেওয়া খুব কঠিন। আমি কেবল এটি জানতে চাই যদি আপনার সম্পর্কে এই বিষয়ে আরও জানতে আমার কোনও মন্তব্য বা কোনও পরামর্শ বা কোনও পরামর্শ আছে কিনা।


এই একই প্রশ্ন পরীক্ষা করুন ।
ttnphns

এবং এই এক।
ttnphns

2
অভ্যন্তরীণ এবং বাহ্যিক বৈধতা সম্পর্কে বিশেষত কিছু লিঙ্ক: এটি । এবং এই । এবং যে । এবং যে । এবং যে । এবং এই । আর । এবং আরও অনুসন্ধান করুন।
ttnphns

উত্তর:


50

ক্লাস্টার বিশ্লেষণ যেমন হয় তেমনি তারা বলে যে "যেমন আপনি বপন করবেন ততই কাটাবেন" ধরণের শক্তিশালী অন্য কোনও বিশ্লেষণী কৌশল নেই।

আমি এই বা সেই ক্লাস্টারিং পদ্ধতির "সঠিকতা" এর কয়েকটি সংখ্যা বা দিকগুলি কল্পনা করতে পারি :

  1. গুচ্ছ রূপক"আমি এই পদ্ধতিটিকে প্রাধান্য দিয়েছি কারণ এটি ক্লাস্টারকে এমন (বা এমন একটি উপায়) গঠন করে যা আমার বিশেষ প্রকল্পে আমার একটি ক্লাস্টারের ধারণার সাথে মিলিত হয়" । প্রতিটি ক্লাস্টারিং অ্যালগরিদম বা সাবালগরিদম / পদ্ধতি তার নিজস্ব কাঠামো / বিল্ড / একটি ক্লাস্টারের আকারকে বোঝায়। শ্রেণিবদ্ধ পদ্ধতি সম্পর্কে, আমি এটি এখানে এবং এখানেও একটি বিন্দুতে পর্যবেক্ষণ করেছি। উদাহরণস্বরূপ, কয়েকটি পদ্ধতি ক্লাস্টারগুলি দেয় যা প্রোটোটাইপিকভাবে "প্রকার", অন্যগুলি "বৃত্তগুলি [আগ্রহের সাথে]" দেয়, এখনও অন্য "[রাজনৈতিক] প্ল্যাটফর্ম", "শ্রেণি", "চেইন" ইত্যাদি etc. এমন পদ্ধতি নির্বাচন করুন যা ক্লাস্টার রূপক আপনাকে উপযুক্ত করে। উদাহরণস্বরূপ, আমি যদি আমার গ্রাহক বিভাগগুলিকে প্রকার হিসাবে দেখি - মাঝখানে কমপ্যাকশন (গুলি) সহ কম-বেশি গোলাকৃতির আকারগুলি আমি ওয়ার্ডের লিংকেজ পদ্ধতি বা কে-মানে বেছে নেব, তবে একক সংযুক্তি পদ্ধতিটি পরিষ্কার নয়। আমার যদি কেন্দ্রিয় প্রতিনিধি পয়েন্টের প্রয়োজন হয় তবে আমি মেডোড পদ্ধতি ব্যবহার করতে পারি। যদি আমি তাদের মূল এবং পেরিফেরিয়াল প্রতিনিধি হওয়ার জন্য পয়েন্টগুলি স্ক্রিন করতে চাই তবে আমি ডিবিএসসিএএন পদ্ধতির ব্যবহার করতে পারি।

  2. ডেটা / পদ্ধতি অনুমান"আমি এই পদ্ধতিটিকে প্রাধান্য দিয়েছি কারণ আমার ডেটা প্রকৃতি বা ফর্ম্যাট এটির জন্য পূর্বনির্ধারিত" । এই গুরুত্বপূর্ণ এবং বিস্তৃত বিষয়টি আমার উপরের লিঙ্কেও উল্লেখ করা হয়েছে। বিভিন্ন অ্যালগরিদম / পদ্ধতিগুলির জন্য তাদের জন্য বিভিন্ন ধরণের ডেটা বা ডেটা প্রয়োগ করতে বিভিন্ন নৈকট্য পরিমাপের প্রয়োজন হতে পারে এবং বিপরীতে, বিভিন্ন ডেটাতে বিভিন্ন পদ্ধতি প্রয়োজন হতে পারে। গুণগত তথ্যের জন্য পরিমাণগত এবং পদ্ধতি রয়েছে methods মিশ্রণ পরিমাণগত + গুণগত বৈশিষ্ট্য নাটকীয়ভাবে পদ্ধতিগুলির মধ্যে পছন্দের সুযোগকে সঙ্কুচিত করে। ওয়ার্ডের বা কে-মানেসুস্পষ্টভাবে বা স্পষ্টতই - ভিত্তিতে (স্কোয়ারড) ইউক্যালিডিয়ান দূরত্বের সান্নিধ্য পরিমাপ কেবল স্বেচ্ছাসেবক পরিমাপের উপর নয়। বাইনারি ডেটা বিশেষ মিলের জন্য পদক্ষেপের জন্য কল করতে পারে যা ঘুরেফিরে কিছু পদ্ধতি ব্যবহার করে জোরালোভাবে প্রশ্ন করবে, উদাহরণস্বরূপ ওয়ার্ডের বা কে-উপায়গুলি তাদের জন্য। বড় ডেটার জন্য বিশেষ অ্যালগরিদম বা বিশেষ বাস্তবায়ন প্রয়োজন হতে পারে।

  3. অভ্যন্তরীণ বৈধতা"আমি এই পদ্ধতিটিকে প্রাধান্য দিয়েছি কারণ এটি আমাকে সবচেয়ে স্পষ্ট-কাট, টাইট-ও-বিচ্ছিন্ন ক্লাস্টার দিয়েছে" । অ্যালগরিদম / পদ্ধতি চয়ন করুন যা এই দৃষ্টিকোণ থেকে আপনার ডেটার জন্য সেরা ফলাফল দেখায়। আরও শক্ত, ঘন ভিতরে ক্লাস্টার এবং কম ঘনত্ব তাদের বাইরে (বা আরও বিস্তৃত ক্লাস্টারগুলি) - অভ্যন্তরীণ বৈধতা বৃহত্তর হয়। যথাযথ অভ্যন্তরীণ ক্লাস্টারিং মানদণ্ড নির্বাচন করুন এবং ব্যবহার করুন ( যা প্রচুর পরিমাণে - ক্যালিনস্কি-হারাবাসস, সিলুয়েট ইত্যাদি etc [Overfitting বিষয়ে সতর্ক থাকুন: সব ক্লাস্টারিং পদ্ধতি অভ্যন্তরীণ বৈধতা কিছু সংস্করণ পূর্ণবিস্তার করার চেষ্টা (এটা কি ক্লাস্টারিং এর হয়1সম্পর্কে), তাই উচ্চ বৈধতা প্রদত্ত ডেটাসেটের এলোমেলো অদ্ভুততার কারণে আংশিকভাবে হতে পারে; একটি পরীক্ষার ডেটাসেট থাকা সর্বদা উপকারী]]

  4. বাহ্যিক বৈধতা"আমি এই পদ্ধতিটিকে প্রাধান্য দিয়েছি কারণ এটি আমাকে এমন ক্লাস্টার দিয়েছে যা তাদের ব্যাকগ্রাউন্ডের সাথে পৃথক হয়েছে বা যে ক্লাস্টারগুলি আমার জানা সত্যগুলির সাথে মেলে" । যদি একটি ক্লাস্টারিং পার্টিশন এমন কিছু ক্লাস্টার উপস্থাপন করে যা কিছু গুরুত্বপূর্ণ পটভূমিতে (যেমন ক্লাস্টার বিশ্লেষণে অংশ নেয়নি) বৈশিষ্ট্যগুলিতে স্পষ্টভাবে আলাদা হয় তবে এটি সেই পদ্ধতির একটি সম্পদ যা পার্টিশন তৈরি করে produced পার্থক্য যাচাইয়ের জন্য প্রযোজ্য কোনও বিশ্লেষণ ব্যবহার করুন; বেশ কয়েকটি দরকারী বাহ্যিক ক্লাস্টারিং মানদণ্ড বিদ্যমান(র‌্যান্ড, এফ-পরিমাপ ইত্যাদি)। বাহ্যিক বৈধতা মামলার আর একটি বৈকল্পিক হ'ল আপনি যখন কোনও উপায়ে আপনার ডেটাতে সত্য গোষ্ঠীগুলি জানেন ("গ্রাউন্ড সত্য" জানুন) যেমন আপনি যখন নিজে নিজে গুচ্ছ তৈরি করেছেন generated তারপরে আপনার ক্লাস্টারিং পদ্ধতিটি কীভাবে সঠিক ক্লাস্টারগুলি উদ্ঘাটন করতে সক্ষম তা হ'ল বাহ্যিক বৈধতার পরিমাপ।

  5. ক্রস-বৈধতা"আমি এই পদ্ধতিটিকে প্রাধান্য দিয়েছি কারণ এটি আমাকে ডেটার সমতুল্য নমুনাগুলিতে বা একই ধরণের নমুনাগুলিতে ভালভাবে এক্সট্রাপোলিটের তুলনায় খুব অনুরূপ ক্লাস্টার দিচ্ছে" । বিভিন্ন পন্থা এবং তাদের সংকর রয়েছে, কিছু ক্লাস্টারিং পদ্ধতিতে আরও কিছু সম্ভব এবং অন্যগুলি অন্যান্য পদ্ধতি সহ। দুটি প্রধান পন্থা স্থায়িত্ব চেক এবং সাধারণকরণ generalচেক করুন। একটি ক্লাস্টারিং পদ্ধতির স্থায়িত্ব পরীক্ষা করা, একজন এলোমেলোভাবে আংশিক ছেদ করা বা সম্পূর্ণরূপে বিচ্ছিন্ন সেটগুলিতে ডেটা বিভক্ত বা পুনরায় আকার দেয় এবং প্রতিটিটির উপর ক্লাস্টারিং করে; তারপরে সমাধানগুলি মিলিয়ে কিছু তুলনা করে কিছু উত্থানকারী ক্লাস্টার বৈশিষ্ট্যযুক্ত (উদাহরণস্বরূপ, একটি ক্লাস্টারের কেন্দ্রীয় প্রবণতা অবস্থান) এটি সেটগুলি জুড়ে স্থিতিশীল কিনা। সাধারণকরণযোগ্যতা যাচাই করার অর্থ ট্রেনের সেটগুলিতে ক্লাস্টারিং করা এবং তারপরে পরীক্ষামূলক সেটগুলির অবজেক্টগুলি নির্ধারিত করার জন্য তার উত্থানকারী ক্লাস্টার বৈশিষ্ট্য বা নিয়ম ব্যবহার করা, এবং পাশাপাশি টেস্ট সেটে ক্লাস্টারিং করা। অ্যাসাইনমেন্ট রেজাল্ট এবং ক্লাস্টার রেজাল্টের ক্লাস্টার সদস্যতার সাথে পরীক্ষার সেটগুলির বস্তুগুলির তুলনা করা হয়।

  6. ব্যাখ্যার"আমি এই পদ্ধতিটিকে প্রাধান্য দিয়েছি কারণ এটি আমাকে এমন ক্লাস্টার দিয়েছে যা ব্যাখ্যা করে বলেছিল যে পৃথিবীতে এর অর্থ সবচেয়ে বেশি অনুধাবনযোগ্য" । এটি পরিসংখ্যানগত নয় - এটি আপনার মানসিক বৈধতা। আপনার, ডোমেন এবং সম্ভবত দর্শকদের / ক্লায়েন্টের জন্য ফলাফলগুলি কত অর্থপূর্ণ। সর্বাধিক ব্যাখ্যামূলক, মশলাদার ফলাফল দেওয়ার পদ্ধতি চয়ন করুন।

  7. গ্রেগারিয়াসনেস । নিয়মিতভাবে কিছু গবেষণার এবং মাঝে মাঝে সব গবেষণার বলতে হবে "আমি এই পদ্ধতি পছন্দ করা হয়েছে কারণ এটি সমস্ত আমি তদন্ত মধ্যে অন্যান্য পদ্ধতি একটি সংখ্যা সঙ্গে আমার ডেটা সঙ্গে দিলেন অনুরূপ ফলাফল" । এটি একটি হিউরিস্টিক কিন্তু প্রশ্নোত্তর কৌশল যা ধরে নিয়েছে যে এখানে বেশ সার্বজনীন ডেটা বা বেশ সর্বজনীন পদ্ধতি রয়েছে।

1 এবং 2 পয়েন্টগুলি তাত্ত্বিক এবং ফলাফল প্রাপ্তির পূর্ববর্তী; এই পয়েন্টগুলির উপর একচেটিয়া নির্ভরতা হ'ল অহঙ্কারী, স্ব-আশ্বাসপ্রাপ্ত অনুসন্ধানের কৌশল। পয়েন্ট 3, 4 এবং 5 অনুভূতিযুক্ত এবং ফলাফল অনুসরণ করে; এই পয়েন্টগুলির উপর একচেটিয়া নির্ভরতা হ'ল বিজয়ী, চেষ্টা-সর্ব-বহন অনুসন্ধানী কৌশল। Point দফা সৃজনশীল যার অর্থ এটি পুনরায় জানাতে চেষ্টা করার জন্য এটি কোনও ফলাফলকে অস্বীকার করে। Point দফা হ'ল অনুগত মাউইসেস ফোয়াই।

3 থেকে 7 পয়েন্টগুলি আপনার "সেরা" ক্লাস্টারের সংখ্যার নির্বাচনের বিচারকও হতে পারে ।


1 একটি কংক্রিটের অভ্যন্তরীণ ক্লাস্টারিং মাপদণ্ড নিজেই "ক্লাস্টারিং পদ্ধতিতে (না কোনও ডেটা ধরণের ক্ষেত্রে)" "অর্থোগোনাল"। এটি একটি দার্শনিক প্রশ্ন উত্থাপন করে যে এই জাতীয় পক্ষপাতদুষ্ট বা কুসংস্কারযুক্ত মানদণ্ড কতটা উপকারের হতে পারে ( কেবলমাত্র উত্তরগুলি দেখুন এটি দেখুন)।


1
আমি সত্যিই অভ্যন্তরীণ বৈধতা ব্যবস্থাগুলি পছন্দ করি, যেমন কে-ইনস এবং ওয়ার্ড শ্রেণিবদ্ধ ক্লাস্টারিংয়ের পাশাপাশি ডান সূচকগুলিতে ইন্ট্রা-ক্লাস্টার ভেরিয়েন্সগুলির যোগফল। এগুলি ডেটা-ইন্ডিপেন্ডেন্ট এবং কখনও কখনও ক্লাস্টারিং অ্যালগরিদমের ক্ষেত্রেও স্বতন্ত্র, যদিও তাদের মধ্যে কিছু নির্দিষ্ট নির্দিষ্ট অ্যালগরিদম দিয়ে বোঝায়।
ডগলাস ডি রিজো মেনিঘেটি

2
পুনঃটুইট এগুলি না হয় ডেটা-ইন্ডিপেন্ডেন্ট (এগুলি আপনার ডেটাগুলিতে খুব দৃump় অনুমান যেমন যেমন লৈখিকতা এবং বৈশিষ্ট্যের সমতুল্যতা) বা ক্লাস্টারিং অ্যালগরিদম থেকে স্বতন্ত্র নয়। প্রকৃতপক্ষে, প্রতিটি অভ্যন্তরীণ পরিমাপ নিজস্ব নিজস্ব একটি ক্লাস্টারিং অ্যালগরিদম (আপনি এই ফাংশনটির জন্য অনুকূল করতে পারেন - এটি কেবল সাধারণত ব্যয়বহুল)।
অ্যানি-মৌসে

1
আমি বুঝেছি যে কিছু অভ্যন্তরীণ বৈধতা ব্যবস্থাগুলি, যেমন অন্তঃক্লাস্টার ভেরিয়েন্সগুলির সমষ্টি, ক্লাস্টার সদস্যতার মাধ্যমে যদি ক্লাস্টারিং পদ্ধতির মাধ্যমে অর্জিত হয় যা আন্তঃগষ্ঠের ভিন্নতার যোগফলকে কমিয়ে আনে এবং ডানের মতো একটি বৈধতা পরিমাপ করে সূচকগুলি ধরে নিয়েছে যে ভাল ক্লাস্টারগুলি কমপ্যাক্ট এবং অনেক দূরে রয়েছে (যদিও "কমপ্যাক্ট" এবং "অনেক দূরে" এর ব্যাখ্যা ব্যাখ্যার জন্য উন্মুক্ত রয়েছে), তবে আপনি কেবলমাত্র বৈশিষ্ট্যটির মান এবং ক্লাস্টারের সদস্যতার সাহায্যে এই ব্যবস্থাগুলি গণনা করতে পারবেন এই বিষয়টি সত্য that উপাদানগুলি তাদের বেশ বহুমুখী করে তোলে।
ডগলাস ডি রিজো মেনিঘেটি

9

বেশিরভাগ ক্ষেত্রে লাল পতাকার মানদণ্ড রয়েছে। ডেটা সম্পর্কিত বৈশিষ্ট্য যা আপনাকে বলে যে একটি নির্দিষ্ট পদ্ধতির নিশ্চিতরূপে ব্যর্থ হবে।

  1. আপনার ডেটা বলতে কী বোঝায় তা এটিকে বিশ্লেষণ করা বন্ধ করুন। আপনি কেবল মেঘের মধ্যে পশুদের অনুমান করছেন।

  2. যদি বৈশিষ্ট্যগুলি স্কেল পরিবর্তিত হয় এবং ননলাইনার বা স্কিউড হয়। আপনি যদি যথাযথ স্বাভাবিককরণ সম্পর্কে খুব ভাল ধারণা না পান তবে এটি আপনার বিশ্লেষণকে নষ্ট করতে পারে। থামুন এবং আপনার বৈশিষ্ট্যগুলি বুঝতে শিখুন, এটি ক্লাস্টারে খুব তাড়াতাড়ি।

  3. যদি প্রতিটি বৈশিষ্ট্য সমান (একই স্কেল) এবং লিনিয়ার হয় এবং আপনি আপনার ডেটা সেটটি পরিমাণে তুলতে চান (এবং সর্বনিম্ন-স্কোয়ারযুক্ত ত্রুটিটি আপনার ডেটার জন্য একটি অর্থ আছে), তবে কে-মানে চেষ্টা করার মতো is যদি আপনার বৈশিষ্ট্যগুলি বিভিন্ন ধরণের এবং আকারের হয় তবে ফলাফলটি ভালভাবে সংজ্ঞায়িত হয় না। পাল্টা উদাহরণ: বয়স এবং আয়। ইনকাম খুব ঝুঁকিপূর্ণ, এবং x years = y dollarবাজে।

  4. যদি আপনার কীভাবে মিল বা দূরত্বের পরিমাণ নির্ধারণের একটি স্পষ্ট ধারণা থাকে ( অর্থবহ উপায়ে; কিছু সংখ্যার গণনা করার ক্ষমতা যথেষ্ট নয়) তবে হায়ারারিকিকাল ক্লাস্টারিং এবং ডিবিএসসিএন একটি ভাল পছন্দ। কীভাবে সাদৃশ্যটির পরিমাণ নির্ধারণ করতে আপনার কোনও ধারণা না থাকলে প্রথমে সেই সমস্যাটি সমাধান করুন।

আপনি দেখতে পাচ্ছেন যে সর্বাধিক সাধারণ সমস্যা হ'ল লোকেরা তাদের কাঁচা তথ্য ক্লাস্টারিংয়ের মধ্যে ফেলে দেওয়ার চেষ্টা করে, যখন তাদের প্রথমে এটি বোঝার এবং স্বাভাবিক করার দরকার হয় এবং মিল খুঁজে পাওয়া যায়।

উদাহরণ:

  1. আরজিবি স্পেসে একটি চিত্রের পিক্সেল। স্বল্প-স্কোয়ারগুলি কিছুটা বোঝায় এবং সমস্ত বৈশিষ্ট্য তুলনীয় - কে-মানে একটি ভাল পছন্দ।

  2. ভৌগলিক ডেটা: সর্বনিম্ন-স্কোয়ারগুলি খুব উপযুক্ত নয়। প্রবাসীরা হবে। তবে দূরত্ব খুব অর্থবহ। আপনার যদি খুব পরিষ্কার ডেটা থাকে তবে ডিবিএসসিএন ব্যবহার করুন বা যদি আপনার প্রচুর শব্দ হয় তবে এইচএসি (হায়ারারিকিকাল অ্যাগ্রোমারেটিভ ক্লাস্টারিং)।

  3. বিভিন্ন আবাসস্থলগুলিতে প্রজাতি পালন করা হয়। স্বল্প-স্কোয়ারগুলি সন্দেহজনক তবে উদাহরণস্বরূপ জ্যাকার্ডের মিলটি অর্থবহ। আপনার সম্ভবত খুব কম পর্যবেক্ষণ রয়েছে এবং কোনও "মিথ্যা" আবাস নেই - এইচএসি ব্যবহার করুন।


+1 টি। আমি আপনাকে অনুরোধ করছি পরিবর্তে অন্য একটি এক্সপ্রেশন খুঁজে পেতে stop criteria। যেমন আপনি জানেন, "স্টপিং বিধি" বা "স্টপ মানদণ্ড" হায়ারারিকাল ক্লাস্টারিং এর ডোমেনের "অভ্যন্তরীণ ক্লাস্টারিং মানদণ্ড" এর প্রতিশব্দ । সুতরাং, এটি একটি নিরবচ্ছিন্ন শব্দ। তবে আপনি এই শব্দটির উত্তরটি আলাদা অর্থে বোঝাতে চেয়েছেন এবং এটি একটি পাঠককে বিভ্রান্ত করতে পারে।
ttnphns

1
"লাল পতাকা মানদণ্ড" সম্পর্কে কীভাবে? এইচএসি এর প্রান্তিক থামানো, আমি আপনার পয়েন্ট দেখতে।
অ্যানি-মউসে

আমার জন্য দুর্দান্ত, দুর্দান্ত পছন্দ।
ttnphns

পিটিএস ২,৩ এ আপনি বলেছেন (non)linear attributes। আপনি কি বোঝাতে চেয়েছেন? কীভাবে একটি "রৈখিক" বৈশিষ্ট্য? বা আপনি কি লিনিয়ার সম্পর্কের কথা বলছেন , অর্থাত্ উপবৃত্তাকার আকারের উপবৃত্তাকার (এবং বাঁকা নয়)?
ttnphns

উদাহরণস্বরূপ একটি সূচকীয় বিতরণ সহ ডেটা।
অ্যানি-মৌসিস

3

আমি মনে করি না এটি করার কোনও ভাল আনুষ্ঠানিক উপায় আছে; আমি মনে করি যে ভাল সমাধানগুলিই এর অর্থ বোঝায়।

অবশ্যই, আপনি ডেটা বিভক্ত করার চেষ্টা করতে পারেন এবং একাধিকবার ক্লাস্টারিং করতে পারেন, এবং তারপরেও কোনটি দরকারী তা নিয়ে এখনও প্রশ্ন রয়েছে।


2
আমি মনে করি অর্থে শব্দটি যথেষ্ট চাপ দেওয়া যায় না। এটি আমার উত্তরের মূল বিষয়ও - আপনাকে প্রথমে আপনার ডেটাটি বোঝাতে হবে।
অ্যানি-মৌসে

@ অ্যানি-মউস, এটি আপনার দিক থেকে একটি ওভারকিল। আমি এমন লোকদের বাজি ধরছি যারা কীভাবে বা তাদের ডেটাগুলি "বুদ্ধিমান" করতে খুব জোর করে এই সাইটটি পরিদর্শন করে না এবং তারা এখানে যেমন জিজ্ঞাসা করেছিল তেমন ভাল প্রশ্ন জিজ্ঞাসা করে না।
ttnphns

@ttnphns আমি জানি না এই জাতীয় লোকেরা কত ঘন ঘন এই সাইটটি পরিদর্শন করে এবং তারা অবশ্যই এই জাতীয় প্রশ্ন জিজ্ঞাসা করে না। তবে প্রচুর লোকেরা ক্লাস্টার বিশ্লেষণটি এক্সেল ফাংশনের মতো কাজ করবে বলে আশা করে। ডেটা নির্বাচন করুন, "ক্লাস্টার" এ ক্লিক করুন এবং ম্যাজিক গ্রাহক বিভাগগুলি আসুন। যা কখনও এলোমেলো চেয়ে অনেক ভাল কাজ বলে মনে হয় না। এবং উদাহরণস্বরূপ এই ব্যবহারকারী তার ডেটা বুঝতে ব্যর্থ হয়েছেন: stats.stackexchange.com/q/195521/7828
-
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.