শ্রেণিবদ্ধ তথ্য সহ, ভেরিয়েবলগুলি সম্পর্কিত না করে সেখানে গুচ্ছ থাকতে পারে?


19

ক্লাস্টার বিশ্লেষণগুলি ব্যাখ্যা করার চেষ্টা করার সময়, ভেরিয়েবলগুলি পরস্পর সম্পর্কিত কিনা তা সম্পর্কিত হওয়ার কারণে লোকেরা প্রক্রিয়াটিকে ভুল বোঝে is লোকদের বিভ্রান্ত করার একটি উপায় হ'ল এইরকম একটি চক্রান্ত:

এখানে চিত্র বর্ণনা লিখুন

এটি ক্লাস্টার রয়েছে কিনা এবং ভেরিয়েবলগুলি সম্পর্কিত কিনা এই প্রশ্নের মধ্যে স্পষ্টভাবে তা প্রদর্শন করে। তবে এটি কেবল অবিচ্ছিন্ন তথ্যের পার্থক্যের চিত্রিত করে। বিভাগীয় ডেটা সহ অ্যানালগ ভাবতে আমার সমস্যা হচ্ছে:

ID  property.A  property.B
1   yes         yes
2   yes         yes
3   yes         yes
4   yes         yes
5   no          no
6   no          no
7   no          no
8   no          no

আমরা দেখতে পাচ্ছি যে দুটি পরিষ্কার ক্লাস্টার রয়েছে: এ এবং বি উভয় সম্পত্তি সম্বলিত লোক এবং যারাই নেই। তবে, আমরা যদি ভেরিয়েবলগুলি লক্ষ্য করি (যেমন, চি-স্কোয়ার্ড টেস্ট সহ), সেগুলি স্পষ্টভাবে সম্পর্কিত:

tab
#      B
# A     yes no
#   yes   4  0
#   no    0  4
chisq.test(tab)
# X-squared = 4.5, df = 1, p-value = 0.03389

আমি দেখতে পেয়েছি যে উপরের ক্রমাগত ডেটাগুলির সাথে সাদৃশ্যপূর্ণ শ্রেণিবদ্ধ ডেটা দিয়ে কীভাবে উদাহরণ তৈরি করতে পারি তার জন্য আমি ক্ষতির মধ্যে আছি। ভেরিয়েবলের পাশাপাশি সম্পর্কিত না করেও খাঁটি শ্রেণিবদ্ধ তথ্যগুলিতে গুচ্ছ থাকা কি সম্ভব? ভেরিয়েবলের দুটি স্তরের বেশি থাকে বা আপনার সংখ্যার চেয়ে বেশি ভেরিয়েবল থাকে তাইলে কী হবে? যদি পর্যবেক্ষণের ক্লাস্টারিং অগত্যা ভেরিয়েবল এবং তদ্বিপরীতদের মধ্যে সম্পর্ক জড়িত করে, এর অর্থ কি এই বোঝা যাচ্ছে যে ক্লাস্টারিং করা যখন আপনার কাছে কেবল শ্রেণিবদ্ধ ডেটা থাকে (যেমন, পরিবর্তে আপনার কেবল পরিবর্তনগুলি বিশ্লেষণ করা উচিত) তা করা উপযুক্ত নয়?


আপডেট: আমি মূল প্রশ্নটি থেকে অনেকটাই এড়িয়ে গেছি কারণ আমি কেবল এই ধারণার উপরে ফোকাস করতে চেয়েছিলাম যে একটি সাধারণ উদাহরণ তৈরি করা যেতে পারে যা অবিলম্বে স্বজ্ঞাত হতে পারে এমনকি এমন কাউকে এমনকি ক্লাস্টার বিশ্লেষণের সাথে অপরিচিত। তবে, আমি স্বীকার করেছি যে অনেকগুলি ক্লাস্টারিং হ'ল দূরত্ব এবং অ্যালগরিদম ইত্যাদির পছন্দগুলির উপর নির্ভরশীল, যদি আমি আরও নির্দিষ্ট করে থাকি তবে এটি সহায়তা করতে পারে।

আমি জানি যে পিয়ারসনের পারস্পরিক সম্পর্কটি কেবলমাত্র অবিচ্ছিন্ন তথ্যের জন্য উপযুক্ত। শ্রেণিবদ্ধ তথ্যগুলির জন্য, আমরা শ্রেণিবদ্ধ ভেরিয়েবলগুলির স্বাধীনতা মূল্যায়নের উপায় হিসাবে চি-স্কোয়ার্ড পরীক্ষা (দ্বি-মুখী आकस्मिक টেবিলের জন্য) বা লগ-লিনিয়ার মডেল (বহু-উপায় কন্টিনজেন্সি টেবিলগুলির জন্য) ভাবতে পারি।

অ্যালগরিদমের জন্য, আমরা কে-মেডোইডস / পিএএম ব্যবহার করে কল্পনা করতে পারি, যা ধারাবাহিক পরিস্থিতি এবং শ্রেণিবদ্ধ ডেটা উভয় ক্ষেত্রেই প্রয়োগ করা যেতে পারে। (দ্রষ্টব্য, ধারাবাহিক উদাহরণের পিছনের অভিপ্রায় অংশটি হ'ল যে কোনও যুক্তিসঙ্গত ক্লাস্টারিং অ্যালগরিদম সেই ক্লাস্টারগুলি সনাক্ত করতে সক্ষম হওয়া উচিত এবং যদি তা না হয় তবে আরও চরম উদাহরণ তৈরি করা সম্ভব হবে))

দূরত্ব ধারণা সম্পর্কে। আমি অবিচ্ছিন্ন উদাহরণের জন্য ইউক্লিডিয়ান ধরে নিয়েছি, কারণ এটি কোনও নিরীহ দর্শকের পক্ষে সবচেয়ে বেসিক হবে। আমি মনে করি যে শ্রেণিবিন্যাসের ডেটাগুলির জন্য সাদৃশ্যপূর্ণ দূরত্বটি (যে এটি সবচেয়ে তাত্ক্ষণিক স্বজ্ঞাত হবে) সহজ মিলবে। যাইহোক, আমি অন্যান্য দূরত্বের আলোচনার জন্য প্রস্তুত যদি এটি সমাধান বা কেবল একটি আকর্ষণীয় আলোচনার দিকে নিয়ে যায়।


2
আমি ভাবছি আমরা শ্রেণীগত তথ্য ক্লাস্টার মত কিছু আছে যদি এ সব । এটি ক্লাস্টারগুলির মধ্যে ভিন্নতা যেমন ক্লাস্টারগুলির চেয়ে বড় হবে বা ক্লাস্টারের মধ্যে ঘনত্বের পার্থক্য সম্পর্কে কথা বলতে পারে তেমন নয়। সুতরাং যদি ক্লোস্টেস্ট ম্যাচটি ঘন ঘন আইটেমসেট হয় তবে ক্লাস্টারগুলি গঠনের জন্য ভেরিয়েবলগুলি অবশ্যই সম্পর্কিত।
অ্যানি-মাউসে -রিনস্টেট মনিকা

@ অ্যানি-মউস, এটি আকর্ষণীয়। কেন এটি একটি উত্তর হিসাবে বিকাশ? বিটিডাব্লু, আমি আসলে বিদ্যমান ক্লাস্টারগুলিকে চিত্র দিতে পারি (যেমন, সুপ্ত অবিচ্ছিন্ন ভেরিয়েবলগুলিতে যা নামমাত্র ভেরিয়েবলের বিভিন্ন স্তরের বিভিন্ন সম্ভাবনার জন্ম দেয়) তবে আমি সন্দেহ করি যে এটি আপনি বোঝাতে চেয়েছিলেন না।
গুং - মনিকা পুনরায়

আপনি কোনও ভেক্টরগুলিতে একটি শ্রেণিবদ্ধ বিতরণকে রূপান্তর করতে পারেন যার উপাদানগুলি স্বাভাবিকীকরণের ফ্রিকোয়েন্সি। তারপরে ইউক্লিডিয়ান মেট্রিক প্রয়োগ করা যেতে পারে। যদিও এটি একমাত্র বিকল্প নয়: গণিত.নম.ইডু / ~

@ttnphns, আপনি [data-association]ট্যাগটি যুক্ত করেছেন বলে মনে হচ্ছে । আমি নিশ্চিত যে এটি কী বোঝাতে চাইছে এবং এটির কোনও অংশ / ব্যবহার নির্দেশিকা নেই। আমাদের কি এই ট্যাগটি সত্যই দরকার? মুছে ফেলার জন্য ভাল প্রার্থীর মতো মনে হচ্ছে। যদি সত্যিই আমাদের সিভিতে এটির প্রয়োজন হয় এবং আপনি কী জানেন যে এটি কী হওয়ার কথা, তবে আপনি কি অন্তত এর জন্য একটি অংশ যোগ করতে পারেন?
গুং - মনিকা পুনরায়

@ গুং, আমিও, এই ট্যাগটি কী উল্লেখ করতে পারে তা পুরোপুরি বুঝতে পারছি না। আমি এটিকে যুক্ত করেছি কারণ "অ্যাসিবিউট / পারস্পরিক সম্পর্কগুলির সাথে" গুণাবলীর প্রশ্নের বিষয়। আপনি Q বা সম্পূর্ণরূপে ট্যাগ মুছতে মুক্ত। অন্যদিকে, পুরো ট্যাগটি সম্পর্কিত সম্পর্ক / সমিতি ক্ষেত্রটি কভার করে আমাদের ট্যাগগুলি নিয়ে পুনরায় চিন্তা করার সময় এসেছে (আমি মনে করি)। উদাহরণস্বরূপ, "পারস্পরিক সম্পর্ক" কি কেবল পিয়ারসন পারস্পরিক সম্পর্কের জন্য ধরে রাখা উচিত? আমাদের কি নতুন ট্যাগ "ভেরিয়েবলস-অ্যাসোসিয়েশন" তৈরি করা উচিত ("ডেটা-অ্যাসোসিয়েশন" এর জায়গায়)?
ttnphns

উত্তর:


11

অনিয়ন্ত্রিত স্কেল ভেরিয়েবলগুলি সহ ক্লিয়ার-ক্লাস্টার কেসটি বিবেচনা করুন - যেমন প্রশ্নের শীর্ষে-ডান চিত্র। এবং এর ডেটা শ্রেণীবদ্ধ করুন।

এখানে চিত্র বর্ণনা লিখুন

আমরা এক্স এবং ওয়াই উভয় ভেরিয়েবলের স্কেল রেঞ্জকে 3 টি ভাগে বিভক্ত করেছি যা এখন থেকে আমরা শ্রেণিবদ্ধ লেবেল হিসাবে বিবেচনা করি। তদুপরি, আমরা এগুলি নামমাত্র নয়, সাধারণ হিসাবে ঘোষণা করব কারণ জিজ্ঞাসা করা প্রশ্নটি গুণগত ডেটা সম্পর্কে স্পষ্টভাবে এবং মূলত। স্পটগুলির আকার হ'ল একটি ফ্রিকোয়েন্সি ক্রস-টেবিল ঘরে ফ্রিকোয়েন্সি; একই কক্ষের সমস্ত কেস অভিন্ন বলে বিবেচিত হয়।

স্বজ্ঞাতভাবে এবং বেশিরভাগ ক্ষেত্রে, "ক্লাস্টারগুলি" ডেটা "স্পেস" -এ স্পার্স অঞ্চল দ্বারা পৃথক করা ডেটা পয়েন্টের ক্লট হিসাবে সংজ্ঞায়িত হয়। এটি প্রাথমিকভাবে স্কেল ডেটা সহ ছিল এবং এটি শ্রেণিবদ্ধ করা ডেটার ক্রস-ট্যাবুলেশনে একই প্রভাব থেকে যায়। এক্স এবং ওয়াই এখন শ্রেণিবদ্ধ, তবে তারা এখনও নিরবিচ্ছিন্ন দেখাচ্ছে: চি-স্কোয়ার অ্যাসোসিয়েশনটি শূন্যের খুব কাছে। এবং গুচ্ছ আছে।

তবে প্রত্যাহার করুন যে আমরা নামমাত্র বিভাগগুলি নিয়ে কাজ করছি যা সারণিতে আদেশটি নির্বিচারে। আমরা পর্যবেক্ষিত চি-স্কোয়ার মানকে প্রভাবিত না করেই আমাদের পছন্দ মতো পুরো সারি এবং / অথবা কলামগুলি পুনঃক্রম করতে পারি। পুনরায় অর্ডারিং করুন ...

এখানে চিত্র বর্ণনা লিখুন

... এই ক্লাস্টারগুলি সবেমাত্র অদৃশ্য হয়ে গেল। চারটি ঘর, এ 1, এ 3, সি 1 এবং সি 3 একক ক্লাস্টারে একত্রিত হতে পারে। তাই না, আমরা সত্যিই না শ্রেণীগত তথ্য যে কোন ক্লাস্টার আছে।

এ 1 এবং সি 3 (বা একইভাবে এ 3 এবং সি 1 এর মতো) কোষের কেসগুলি সম্পূর্ণ আলাদা নয়: তারা একই বৈশিষ্ট্যগুলি ভাগ করে না। ক্লাস্টারগুলি গঠনের জন্য আমাদের ডেটা - এ 1 এবং সি 3 --গুলিতে ক্লাস্টারকে প্ররোচিত করতে, আমাদের খালি করতে হবে, কিছু পরিমাণে, কোষকে বিভ্রান্ত করতে, এ 3 এবং সি 1, এই কেসগুলি ডেটাসেট থেকে বাদ দিয়ে।

এখানে চিত্র বর্ণনা লিখুন

এখন গুচ্ছ উপস্থিত আছে। তবে একই সাথে আমরা অসম্পর্কিততাও হারিয়েছি। তির্যক গঠন টেবিল সংকেত দেয় যে চি-তাকান পরিসংখ্যাত শূন্য থেকে অনেক দূরে পেয়েছিলাম আপ দেখাচ্ছে।

কৃপা. আসুন আমরা একই সাথে অসামঞ্জস্যতা এবং আরও কম-বেশি পরিষ্কার ক্লাস্টারগুলি সংরক্ষণ করার চেষ্টা করি। আমরা উদাহরণস্বরূপ, কেবলমাত্র ঘর a3 পর্যাপ্ত খালি করার সিদ্ধান্ত নিতে পারি এবং তারপরে a1 + c1 কে একটি ক্লাস্টার হিসাবে বিবেচনা করি যা ক্লাস্টার সি 3 এর বিরোধিতা করে:

এখানে চিত্র বর্ণনা লিখুন

এই অপারেশনটি চি-স্কোয়ার শূন্য থেকে দূরে আনেনি ...

[Indeed, table such as for example
 6   6   1
 6   6   1
 1   1   0
retains about the same very low chi-square association after
dividing 2nd column by 3 and multiplying 2nd row by 3, which gives
 6   2   1
18   6   3
 1  1/3  0
Cell (1,2) got thrice lower frequency. We had, however, to upheave
cell (2,1) frequency thrice, to keep Chi-sq almost as before.]

... কিন্তু গুচ্ছগুলির সাথে পরিস্থিতি বিভ্রান্ত। ক্লাস্টার এ 1 + সি 1 এ এমন কিছু মামলা রয়েছে যা আংশিকভাবে অভিন্ন, আংশিক অর্ধ-ভিন্ন। যে একটি ক্লাস্টার তুলনামূলকভাবে স্বল্প-সমজাতীয়, এটি কোনও ডেটাসেটের ক্লিয়ার-ক্লাস্টার কাঠামোর জন্য কোনও প্রাকসারণ নয়। তবে, আমাদের, শ্রেণিবদ্ধ তথ্যগুলির সাথে সমস্যাটি হ'ল ক্লাস্টার এ 1 + সি 1 কোনওভাবেই ক্লাস্টার সি 1 + সি 3, এর প্রতিসাম্য অ্যানালগের চেয়ে ভাল নয় । এর অর্থ হ'ল ক্লাস্টার দ্রবণটি অস্থির - এটি ডেটাসেটের কেস অর্ডারের উপর নির্ভর করবে। একটি অস্থির সমাধান, এমনকি এটি তুলনামূলকভাবে "ক্লিয়ার-ক্লাস্টারড", এটি একটি খারাপ সমাধান, অবিশ্বাস্য।

সমস্যাটি কাটিয়ে ওঠার এবং সমাধান পরিষ্কার করার জন্য একমাত্র উপায় হ'ল সেল সি 1 এর সেল সিটি 3 এর ডেটা নীচে সেল বি 3 (বা বি 2) এ সরিয়ে আনতে হবে।

এখানে চিত্র বর্ণনা লিখুন

সুতরাং আমাদের কাছে পরিষ্কার ক্লাস্টার এ 1 + সি 1 বনাম বি 3 রয়েছে। তবে দেখুন, এখানে আবার তির্যক প্যাটার্নটি প্রদর্শিত হবে - এবং টেবিলের চি-বর্গটি শূন্যের চেয়ে উঁচুতে সীমাবদ্ধ।

উপসংহার । একসাথে দুটি চি-স্কোয়ার-অবিচ্ছিন্ন নামমাত্র ভেরিয়েবল এবং ডেটা কেসগুলির ভাল ক্লাস্টার থাকা অসম্ভব। পরিষ্কার এবং স্থিতিশীল ক্লাস্টারগুলি ভেরিয়েবল অ্যাসোসিয়েশনকে প্ররোচিত করে।

এটি আরও পরিষ্কার যে সমিতিটি যদি উপস্থিত থাকে - যেমন তির্যক প্যাটার্ন উপস্থিত থাকে বা পুনরায় অর্ডার দিয়ে অর্জনযোগ্য হয় - তবে গুচ্ছগুলির অবশ্যই উপস্থিত থাকতে হবে। এটি কারণ শ্রেণিবদ্ধ তথ্যগুলির প্রকৃতি ("সমস্ত বা কিছুই নয়") অর্ধ টোন এবং সীমান্তরেখা শর্তের অনুমতি দেয় না, সুতরাং ওপি-র প্রশ্নের নীচে-বামের মতো চিত্র শ্রেণিবদ্ধ, নামমাত্র ডেটা দিয়ে উত্থাপন করতে পারে না।

আমি দৃm়রূপে বলতে পারি যে, আমরা যেমন দ্বিপাক্ষিকভাবে চি-বর্গ সম্পর্কিত নয় এমন আরও বেশি নামমাত্র ভেরিয়েবলগুলি পেয়েছি (কেবল দুটি পরিবর্তে) , আমরা ক্লাস্টার হওয়ার সম্ভাবনার আরও কাছে এসেছি। তবে শূন্য মাল্টিভারিয়েট চি-স্কোয়ার, আমি আশা করি এখনও ক্লাস্টারগুলির সাথে বেমানান হবে। এটি এখনও দেখাতে হবে (আমার দ্বারা বা এইবার নয়)।


অবশেষে, @ বে'র (ওরফে ইউজার 75138) উত্তরের একটি মন্তব্য যা আমি আংশিকভাবে সমর্থন করেছি। আমি "আমার ক্ষেত্রে কেস ক্লাস্টার থেকে ভেরিয়েবল অ্যাসোসিয়েশন স্বাধীন?" এই প্রশ্নটি রাখার আগে দূরত্বের মেট্রিক এবং সমিতি ব্যবস্থা সম্পর্কে সিদ্ধান্ত নেওয়ার বিষয়ে আমার চুক্তির সাথে আমি এটি মন্তব্য করেছি। এটি কারণ কোনও ইউনিভার্সাল অ্যাসোসিয়েশন পরিমাপ বিদ্যমান নেই বা ক্লাস্টারগুলির সর্বজনীন পরিসংখ্যানগত সংজ্ঞা নেই। আমি আরও যুক্ত করব, তাকে অবশ্যই ক্লাস্টারিংয়ের কৌশল সম্পর্কে সিদ্ধান্ত নিতে হবে। ক্লাস্টারিংয়ের বিভিন্ন পদ্ধতি পৃথকভাবে সংজ্ঞায়িত করে যে তারা "ক্লাস্টারগুলি" কী পরে রয়েছে। সুতরাং, পুরো বিবৃতিটি সত্য হতে পারে।

বলেছিল যে, এ জাতীয় ডিকমের দুর্বলতা এটি খুব বিস্তৃত। নামমাত্র তথ্যের জন্য, দূরত্বের মেট্রিক / অ্যাসোসিয়েশন পরিমাপ / ক্লাস্টার পদ্ধতিতে কোনও পছন্দ ক্লাস্টারডনেসের সাথে অসামঞ্জস্যতার পুনর্মিলন করার জন্য জায়গাটি খোলে কিনা তা কংক্রিটরূপে দেখানোর চেষ্টা করা উচিত। তিনি বিশেষভাবে মনে রাখবেন যে বাইনারি তথ্যগুলির জন্য সমস্ত নৈকট্য সহগগুলি নামমাত্র ডেটা দিয়ে বোঝা যায় না, যেহেতু নামমাত্র তথ্যের জন্য, "উভয় ক্ষেত্রেই এই বৈশিষ্ট্যের অভাব থাকে" তাদের মিলের কারণ হতে পারে না।


আপডেট করুন , আমার অনুকরণের ফলাফলগুলি প্রতিবেদন করুন।

.1

R

অনুসন্ধানগুলি সাধারণত উত্তরের মধ্যে উপরে প্রদর্শিত যুক্তি সমর্থন করে। এখানে খুব পরিষ্কার ক্লাস্টার কখনও ছিল না (যেমন চি-স্কোয়ার অ্যাসোসিয়েশন শক্তিশালী হলে ঘটতে পারে)। এবং বিভিন্ন ক্লাস্টারিং মাপদণ্ডের ফলাফলগুলি প্রায়শই একে অপরের সাথে বিরোধিতা করে (যা ক্লাস্টারগুলি প্রকৃতপক্ষে পরিষ্কার হওয়ার পরে আশা করা খুব সম্ভবত হয় না)।

কখনও কখনও শ্রেণিবদ্ধ ক্লাস্টারিং একটি কে-ক্লাস্টার সলিউশন দেয় যা কিছুটা ভাল, যেমন একটি ক্লাস্টারিং মাপদণ্ড প্লটের মাধ্যমে পর্যবেক্ষণ করা হয়; তবে স্থিতিশীলতার জন্য এটি পরীক্ষা করে এটি স্থিতিশীল দেখাতে ব্যর্থ হবে। উদাহরণস্বরূপ, এই 3-পরিবর্তনশীল 4x4x3ডেটা

   V1  V2  V3   Count
    1   1   1   21
            2   24
            3   1
        2   1   22
            2   26
            3   1
        3   1   1
            2   1
            3   1
        4   1   17
            2   20
            3   1
    2   1   1   10
            2   12
            3   1
        2   1   10
            2   12
            3   1
        3   1   1
            2   1
            3   1
        4   1   8
            2   9
            3   1
    3   1   1   24
            2   28
            3   1
        2   1   25
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1
    4   1   1   24
            2   28
            3   1
        2   1   26
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1

সম্পূর্ণ লিঙ্কেজ হায়ারারিকাল পদ্ধতিতে যখন ক্লাস্টার করা হয়, তখন ডাইস সাদৃশ্যটি ভাগ হয়ে যায় - বেশ যুক্তিসঙ্গতভাবে - 9 টি ক্লাস্টারে - এই ক্ষেত্রে তিনটি অভ্যন্তরীণ বৈধতা বিচারকের মধ্যে চুক্তিতে:

এখানে চিত্র বর্ণনা লিখুন

তবে সমাধান স্থিতিশীল নয়, যেমন অনুমোদিত (কেস-র‌র্ডারড) সমাধানের বিরুদ্ধে মূল সমাধানের বিভ্রান্তির ম্যাট্রিক্সের অসম্পূর্ণ স্পারসিটি থেকে পাওয়া গেছে:

এখানে চিত্র বর্ণনা লিখুন

যদি সমাধানটি স্থিতিশীল থাকে (যেমনটি সম্ভবত আমরা অবিরত ডেটা থাকতাম) আমরা 9-ক্লাস্টার দ্রবণটিকে পর্যাপ্ত প্ররোচিত হিসাবে বেছে নিয়েছি।

লগ-সম্ভাবনার দূরত্বের ভিত্তিতে ক্লাস্টারিং (ডাইসের মিলের বিপরীতে) স্থিতিশীল এবং "খারাপ নয়" (অভ্যন্তরীণভাবে বেশ কার্যকর) সমাধান দিতে পারে। কিন্তু যে কারণ দূরত্ব, অন্তত যেমন SPSS এর TwoStep ক্লাস্টার হয় এ উৎসাহিত এবং পালিত উচ্চ জনবহুল ক্লাস্টার ও অবহেলা কম জনবহুল বেশী। এটি অভ্যন্তরের ঘন হওয়ার জন্য খুব কম ফ্রিকোয়েন্সি সহ ক্লাস্টারগুলিকে দাবি করে না (এটি টুস্টেপ ক্লাস্টার বিশ্লেষণের "নীতি" বলে মনে হয়, যা বিশেষত বড় ডেটা এবং কয়েকটি ক্লাস্টার দেওয়ার জন্য ডিজাইন করা হয়েছিল; সুতরাং ছোট ক্লাস্টারগুলিকে দেখা যায় যেমন বিদেশী) । উদাহরণস্বরূপ, এই 2-ভেরিয়েবল ডেটা

এখানে চিত্র বর্ণনা লিখুন

স্পষ্টভাবে দেখানো হয়েছে বলে টুস্টেপ 5 টি ক্লাস্টারে একত্রিত হবে এবং 5-ক্লাস্টার দ্রবণটিকে কিছুটা ক্লাস্টারিং মাপদণ্ডের দ্বারা বিচার করা মোটেই খারাপ নয়। কারণ চারটি জনবহুল ক্লাস্টারগুলি ভিতরে খুব ঘন (প্রকৃতপক্ষে, সমস্ত ক্ষেত্রে অভিন্ন), এবং কেবলমাত্র একটি, পঞ্চম ক্লাস্টার, যার মধ্যে কয়েকটি কেস রয়েছে, এটি অত্যন্ত এনট্রপাই'ড ed সুতরাং প্রকৃতপক্ষে 12-ক্লাস্টার সমাধান, 5-ক্লাস্টার নয়, তবে 12 হ'ল ফ্রিকোয়েন্সি টেবিলের মোট কোষের সংখ্যা, যা "ক্লাস্টার সলিউশন" হিসাবে তুচ্ছ এবং উদ্বেগজনক।


+1, এটিই আমার সন্দেহ হয়েছিল। Pairwise বনাম বহুচলকীয় unassociated unassociated একটি আকর্ষণীয় বিন্দু। এই বিষয়টিকে আরও বিস্তৃতভাবে বিবেচনা করে, এর দ্বারা কি বোঝা যায় যে খাঁটি নামমাত্র ডেটা গুছিয়ে দেওয়ার চেষ্টা করার আসলেই কোনও অর্থ নেই? উদাহরণস্বরূপ, আমাদের যদি কোনও ধারাবাহিক ডেটা না থাকে তবে আমাদের কেবল সর্বদা চলকগুলি বিশ্লেষণ করা উচিত?
গুং - মনিকা পুনরায়

1
@ গুং, আপনি কী সর্বোচ্চটি জানেন না যে ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্কটি মামলাগুলির মেরুকরণের ("ডায়াগলনেস") এর মুদ্রার অন্য দিক ? এটি একটানা ডেটার জন্যও সর্বোচ্চ হিসাবে সত্য। তবে ক্রমাগত জন্য, মেরুকরণ ক্লাস্টারগুলিকে বোঝায় না। শ্রেণিবদ্ধ জন্য, এটি প্রদর্শিত হয় প্রদর্শিত হয়। স্বতন্ত্র প্রকৃতির কারণে। সুতরাং সম্ভবত হ্যাঁ, যদি শ্রেণিবদ্ধ ভেরিয়েবলগুলি সম্পর্কিত হয় তবে সন্ধানের জন্য গুচ্ছ রয়েছে। কিন্তু আপনি করতে হবে না , যাতে ক্লাস্টার ভাল উপায় পেতে ক্লাস্টারিং। আপনার মহান প্রশ্নের জন্য এটি আমার স্থায়ী মতামত।
ttnphns

আমি এর সাথে পরিচিত নই। আমি পরে এটি সম্পর্কে জিজ্ঞাসা করব। এই মুহুর্তে চিবানো ভাল তথ্য, আমি মনে করি।
গুং - মনিকা পুনরায়

3

যেহেতু আমি নিশ্চিত যে আপনি জানেন, পারস্পরিক সম্পর্ক দুটি ভেরিয়েবলের মধ্যে রৈখিক সম্পর্কের একটি পরিমাপ, পয়েন্টগুলি একে অপরের সাথে কতটা ঘনিষ্ঠ নয়। এটি শীর্ষ চারটি পরিসংখ্যান ব্যাখ্যা করে।

অবশ্যই, আপনি পৃথক, বাস্তব-মূল্যবান ডেটাগুলির জন্যও অনুরূপ গ্রাফ তৈরি করতে পারেন।

এক্স{একজন,বি,সি,ডি}আরএক্সআরএক্স

জ্যামিতিক অর্থে ক্লাস্টারিংয়ের কথা বলতে পারার আগে আপনাকে শ্রেণিবদ্ধ জায়গার জন্য একটি মেট্রিকের সংজ্ঞা দিতে হবে।


আমি এই উত্তরটিকে সমর্থন করব এবং @ গং এবং বে উভয় স্বজ্ঞাত পদক্ষেপে অনুমতি দিলে এটির সংস্কার করব। ক্লাস্টারযুক্ত ডেটা সংজ্ঞায়িত করা হয় "ক্লাস্টারে ছোট দূরত্ব তবে ক্লাস্টারগুলির মধ্যে দীর্ঘ দূরত্ব"। তাঁর ছবিগুলিতে, ওপি ক্লাস্টারডেন্সের এই ধারণাটি চিত্রিত করার জন্য , ইউক্রিডিয়ার দূরত্বকে নিখুঁতভাবে নির্বাচিত করেছে । ভেরিয়েবলের মধ্যে সংযোগের ধারণাটি চিত্রিত করার জন্য - তিনি পিয়ারসন পারস্পরিক সম্পর্কের ধারণা বা এর অনুরূপ কিছুটিও বেছে নিয়েছিলেন। অনেক বিকল্পের মধ্যে এগুলি দুটি নির্দিষ্ট / স্বেচ্ছাসেবী পছন্দ।
ttnphns

1
(অবিরত) আমি এমনকি কল্পনাও করতে পারি যে সেখানে "কেস ক্লাস্টারনেস" ধারণা এবং "ভেরিয়েবল অ্যাসোসিয়েশন" ধারণাটি অর্থেগোনাল নয় এমন দূরত্ব পরিমাপ এবং এই জাতীয় সংযোগ ব্যবস্থা বেছে নেওয়া যেতে পারে। এবং এখন, শ্রেণিবদ্ধ তথ্য জন্য। কেউ দুটি পরীক্ষাটি স্বাধীন হতে পারে বা সম্পর্কিত হতে পারে কিনা তা যাচাই করে দেখানোর আগে তাকে বিভাগীয় ডেটা পয়েন্টের জন্য একটি নির্দিষ্ট দূরত্ব পরিমাপ এবং শ্রেণিবদ্ধ ভেরিয়েবলের জন্য একটি নির্দিষ্ট সমিতি পরিমাপ নির্বাচন করতে হবে। নির্বাচন করতে অনেক বিকল্প আছে! এবং উত্তর নির্ভর করবে।
ttnphns

@ttnphns (+1) আপনি কীভাবে দুটি মূল পছন্দ: দূরত্ব এবং অ্যাসোসিয়েশন মেট্রিকগুলি ফ্রেম করেছেন তা আমি পছন্দ করি। আমার ব্যাখ্যা সম্পর্কে যা স্বজ্ঞাত ছিল তা নিশ্চিত নন ... আপনি দূরত্বের ধারণা ছাড়া ক্লাস্টারগুলি সংজ্ঞায়িত করতে পারবেন না।

@ এনটিএনএফএনএস, আমি মনে করি এটি বেয়ের হাতে রয়েছে। আপনি কেন আপনার কিছু ধারণাকে নিজের উত্তরে পরিণত করবেন না? আমি "কেস ক্লাস্টারনেস" এবং "ভেরিয়েবল অ্যাসোসিয়েশনগুলি" কিছু পছন্দ দেওয়ার পরে ক্রমাগত ডেটার জন্য অরথোগোনাল হয়ে যায় সে ধারণায় আমি আগ্রহী। বে ও টিএনফনস, আমি দূরত্ব ও সমিতির ব্যবস্থাগুলি সম্পর্কিত প্রশ্নে কিছু স্পষ্টতা যুক্ত করেছি, তবে আপনি যদি পছন্দ করেন তবে অন্য দিক থেকে নির্দ্বিধায় যেতে হবে। এর বেশি প্রয়োজন হলে আমাকে জানান me আমার পছন্দটি হ'ল উত্তরটি উত্তরদাতাদের অন্য দিকে যেতে নমনীয়তা দেওয়ার জন্য প্রশ্নটি যতটা সম্ভব 'আলগা' থেকে যায়।
গাং - মনিকা পুনরায়

1
@ বাই, অবশ্যই শ্রেণিবদ্ধ তথ্যগুলির জন্য আরও অনেকগুলি সম্ভাব্য দূরত্ব এবং সংস্থার ব্যবস্থা রয়েছে, সুতরাং আপনি কিছু গৌরবময় পরামর্শ দিয়েছিলেন যা এটি কার্যকর করে।
গুং - মনিকা পুনরায়

2

হামিংয়ের দূরত্বটি বিবেচনা করুন - সমান দৈর্ঘ্যের দুটি স্ট্রিংয়ের মধ্যে হামিংয়ের দূরত্বটি সেই অবস্থানগুলির সংখ্যা যা সম্পর্কিত চিহ্নগুলি পৃথক। এই সংজ্ঞা থেকে এটি স্পষ্ট বলে মনে হয় যে আমরা ডেটা তৈরি করতে পারি যার জন্য আমাদের হামিং দূরত্বের ভিত্তিতে ক্লাস্টার রয়েছে তবে ভেরিয়েবলগুলির মধ্যে কোনও সম্পর্ক নেই।

ম্যাথমেটিকাকে ব্যবহার করে একটি উদাহরণ অনুসরণ করা হয়েছে।

কিছু শ্রেণিবদ্ধ ডেটা তৈরি করুন (4 টি অক্ষরের অভিন্ন র্যান্ডম নমুনার দীর্ঘ প্রতীক 3 চিহ্ন):

chs = CharacterRange["a", "d"];
words = StringJoin @@@ Union[Table[RandomChoice[chs, 3], 40]];
Length[words]
words

(* 29 *)

(* {"aac", "aad", "abb", "aca", "acb", "acd", "adb", "adc", "baa", "bab", "bac", "bad", "bcc", "bcd", "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", "dba", "dbb", "dbd", "dca", "dcc", "dcd"} *)

ভেরিয়েবলের মধ্যে সম্পর্কের জন্য মোজাইক প্লটগুলি ব্যবহার করুন (বিভিন্ন কলামের মান জোড়গুলির জন্য শর্তাধীন সম্ভাবনা):

Import["https://raw.githubusercontent.com/antononcube/MathematicaForPrediction/master/MosaicPlot.m"]
wordSeqs = Characters /@ words;
opts = {ColorRules -> {2 -> ColorData[7, "ColorList"]}, ImageSize -> 400};
Grid[{{MosaicPlot[wordSeqs[[All, {1, 2}]], 
    "ColumnNames" -> {"column 1", "column 2"}, opts],
   MosaicPlot[wordSeqs[[All, {2, 3}]], 
    "ColumnNames" -> {"column 2", "column 3"}, opts],
   MosaicPlot[wordSeqs[[All, {1, 3}]], 
    "ColumnNames" -> {"column 1", "column 3"}, opts]}}, Dividers -> All]

এখানে চিত্র বর্ণনা লিখুন

আমরা দেখতে পাচ্ছি যে কোনও সম্পর্ক নেই।

গুচ্ছ সন্ধান করুন:

cls = FindClusters[words, 3, DistanceFunction -> HammingDistance]

(* {{"aac", "aad", "adc", "bac"}, {"abb", "acb", "adb", "baa", "bab", "bad", 
  "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", 
  "dbb"}, {"aca", "acd", "bcc", "bcd", "dba", "dbd", "dca", "dcc", "dcd"}} *)

আমরা যদি প্রতিটি চরিত্রকে একটি পূর্ণসংখ্যার সাথে প্রতিস্থাপন করি আমরা এই প্লট থেকে দেখতে পাচ্ছি কীভাবে হামিং দূরত্বের সাথে গুচ্ছগুলি গঠিত হয়:

esrules = Thread[chs -> Range[Length[chs]]]; gr1 = 
 ListPointPlot3D[Characters[cls] /. esrules, 
  PlotStyle -> {PointSize[0.02]}, PlotLegends -> Automatic, 
  FaceGrids -> {Bottom, Left, Back}];
gr2 = Graphics3D[
   Map[Text[#, Characters[#] /. esrules, {1, 1}] &, Flatten[cls]]];
Show[gr1, gr2]

এখানে চিত্র বর্ণনা লিখুন

আরও গুচ্ছ

যে শব্দগুলির জন্য হামিংয়ের দূরত্ব 1: আমাদের সংযোগ দিয়ে একটি গ্রাফ তৈরি করা যাক

mat = Clip[Outer[HammingDistance, words, words], {0, 1}, {0, 0}];
nngr = AdjacencyGraph[mat, 
  VertexLabels -> Thread[Range[Length[words]] -> words]]

এখানে চিত্র বর্ণনা লিখুন

এখন আমাদের সম্প্রদায় ক্লাস্টারগুলি সন্ধান করুন:

CommunityGraphPlot[nngr]

এখানে চিত্র বর্ণনা লিখুন

যে গ্রাফটি পাওয়া গেছে তার সাথে গ্রাফ ক্লাস্টারগুলির সাথে তুলনা করুন FindClusters(যা 3 খুঁজে পেতে বাধ্য হয়েছিল)। আমরা দেখতে পাচ্ছি "ব্যাক" অত্যন্ত কেন্দ্রীয়, এবং "আড" গ্রিন ক্লাস্টারের অন্তর্ভুক্ত হতে পারে, যা থ্রিডি প্লটে ক্লাস্টার 1 এর সাথে মিল রয়েছে।

গ্রাফের ডেটা

এর প্রান্ত তালিকাটি এখানে nngr:

{1 <-> 2, 1 <-> 8, 1 <-> 11, 1 <-> 17, 2 <-> 6, 2 <-> 12, 2 <-> 18, 
 3 <-> 5, 3 <-> 7, 3 <-> 19, 3 <-> 25, 4 <-> 5, 4 <-> 6, 4 <-> 27, 
 5 <-> 6, 5 <-> 7, 5 <-> 20, 6 <-> 14, 6 <-> 29, 7 <-> 8, 7 <-> 22, 
 9 <-> 10, 9 <-> 11, 9 <-> 12, 9 <-> 15, 10 <-> 11, 10 <-> 12, 
 10 <-> 16, 10 <-> 23, 11 <-> 12, 11 <-> 13, 11 <-> 17, 12 <-> 14, 
 12 <-> 18, 13 <-> 14, 13 <-> 28, 14 <-> 29, 15 <-> 16, 15 <-> 17, 
 15 <-> 18, 15 <-> 21, 16 <-> 17, 16 <-> 18, 16 <-> 19, 16 <-> 20, 
 16 <-> 22, 16 <-> 23, 17 <-> 18, 19 <-> 20, 19 <-> 22, 19 <-> 25, 
 20 <-> 22, 21 <-> 22, 23 <-> 25, 24 <-> 25, 24 <-> 26, 24 <-> 27, 
 25 <-> 26, 26 <-> 29, 27 <-> 28, 27 <-> 29, 28 <-> 29}

সাইটে স্বাগতম! শুধু একটি জুটি মন্তব্য: কোড কোন ভাষা? (যা ছাড়াও টীকাগুলি নয়)। আপনি কিভাবে সংজ্ঞায়িত করবেন relationship between the variables (correlation)?
ttnphns

এটা মজার. দুর্ভাগ্যক্রমে, আমি ম্যাথামেটিকাকে জানি না (এবং এডিট দূরত্বের সাথে আমি কম পরিচিত), তাই আমি এটি বুঝতে পারি তা নিশ্চিত হওয়ার জন্য এটির সাথে খেলতে হবে। আমার এখনও কোনও সুযোগ হয়নি, তবে আমি শিগগিরই চাই।
গুং - মনিকা পুনরায়

@ গুং আমি আর-তে এটি করার চিন্তা করছিলাম তবে আমি ভেবেছিলাম যে গুরুতর অংশটি 3 ডি প্লট এবং এটি ক্লাস্টারগুলির গঠনের অন্তর্দৃষ্টি পেতে ডান কোণে ঘোরানো। ভাল প্রশ্ন, যাইহোক!
আন্তন আন্তোনভ

সুতরাং আপনার এখানে "ক্লাস্টার" রয়েছে। তবে এগুলি কি অর্থবহ? তারা কি অন্য ক্লাস্টারের চেয়ে ভাল? প্লটটি থেকে, আমি বলব ক্লাস্টার 1 বেশ এলোমেলো। তাহলে কেন এটি একটি গুচ্ছ?
অ্যানি-মৌসে -রিনস্টেট মনিকা

1
এলোমেলো ইউনিফর্ম (!) উত্পন্ন ডেটা স্পষ্টভাবে ক্লাস্টার না থাকা উচিত। "সম্প্রদায়" প্লটটি বিভ্রান্ত করছে কারণ এটি দূরত্ব সংরক্ষণ করে না। 1-দূরত্ব সহ গ্রাফ এই সমস্যাগুলিকে জোর দেয়। এটি এরকম আরও একটি উদাহরণ দেখায় cda,। দুঃখিত, আমি এই "ক্লাস্টারগুলি" কিনছি না। ডেটা অভিন্ন, এটি ক্লাস্টার না থাকার কথা ।
অ্যানি-মৌসে -রিনস্টেট মনিকা

2

সম্পর্কে @ttnphns 'বিন্দু pairwise বনাম বহুচলকীয় সমিতি ভাল নেওয়া হয়। এর সাথে সম্পর্কিত হ'ল বহুবিধ ফ্রেমওয়ার্কে ঝাঁপ দেওয়ার আগে সাধারণ মেট্রিকগুলির সাথে সংযুক্তি প্রদর্শনের গুরুত্ব সম্পর্কে পুরানো করাত। অন্য কথায়, যদি সংঘবদ্ধকরণের সহজ যুগল পদক্ষেপগুলি কোনও সম্পর্ক না দেখায় তবে ক্রমবর্ধমান সম্পর্কগুলি যে কোনও কিছু দেখায় এমন সম্ভাবনা ক্রমশ বেড়ে যায়। "অসম্ভব" শব্দটি ব্যবহার করতে অনিচ্ছুক বলে আমি বলছি "ক্রমবর্ধমান সম্ভাবনা"। তদ্ব্যতীত, আমি নিযুক্ত মেট্রিকের বিষয়ে অজ্ঞেয়বাদী কিনা এটি সাধারণ তথ্যের জন্য একঘেয়ে স্পিয়ারম্যান পারস্পরিক সম্পর্ক কিনা, সোমারের ডি , কেন্ডালের টাউ, পলিকোরিক পারস্পরিক সম্পর্ক, রিশেফের এমআইসি, সেল্কির দূরত্বের সম্পর্ক, যাই হোক না কেন। এই আলোচনায় মেট্রিকের পছন্দটি গুরুত্বপূর্ণ নয়।

বিভাগীয় তথ্যগুলিতে সুপ্ত কাঠামো সন্ধানের মূল কাজটি পঞ্চাশের দশকের গোড়ার দিকে এবং কলম্বিয়ার সমাজবিজ্ঞানী পল লেজারফেল্ডের। মূলত, তিনি একটি সুপ্ত পরিবর্তনশীল মডেলগুলির একটি শ্রেণীর উদ্ভাবন করেছিলেন যা এর পর থেকে ব্যাপক বিকাশ এবং পরিবর্তন দেখা গেছে। প্রথমত, সি রাজনৈতিক অর্থনীতিবিদ জেমস কোলম্যানের 60০ এর দশকের কাজ নিয়ে, সুপ্ত ভোটার নির্বাচনের প্রস্তাবের উপর, মরহুম ক্লিফোর্ড ক্লোগের অবদানের পরে, একজন সমাজবিজ্ঞানী, যার মেলিসা সফটওয়্যারটি প্রথম প্রকাশ্যে পাওয়া সুপ্ত শ্রেণীর ফ্রিওয়্যার ছিল।

৮০ এর দশকে সুপ্ত শ্রেণীর মডেলগুলি পরিসংখ্যান উদ্ভাবন থেকে ল্যাটেন্ট গোল্ডের মতো সরঞ্জামগুলির বিকাশের সাথে সীমাবদ্ধ মিশ্রণ মডেলগুলিকে বিশুদ্ধ শ্রেণিবদ্ধ তথ্য থেকে প্রসারিত করা হয়েছিল। এছাড়াও, বিপণন বিজ্ঞানী বিল ডিলন সুপ্ত বৈষম্যমূলক সসীম মিশ্রণের মডেলগুলি ফিট করার জন্য একটি গাউস প্রোগ্রাম তৈরি করেছিলেন। শ্রেণিবদ্ধ এবং অবিচ্ছিন্ন তথ্যের ফিটিং মিশ্রণের এই পদ্ধতির সাহিত্য আসলে বেশ বিস্তৃত। এটি কেবল ক্ষেত্রগুলির বাইরে খুব বেশি পরিচিত নয় যেখানে এটি সর্বাধিক প্রয়োগ করা হয়েছে যেমন, বিপণন বিজ্ঞান যেখানে এই মডেলগুলি ভোক্তা বিভাগ এবং ক্লাস্টারিংয়ের জন্য ব্যবহৃত হয়।

যাইহোক, এই সীমাবদ্ধ মিশ্রণ মডেল সুপ্ত ক্লাস্টারিং এবং কন্টিনজেন্সি টেবিল বিশ্লেষণের কাছে আজকের বিশাল ডেটা বিশ্বে পুরানো স্কুল হিসাবে বিবেচিত হয়। এক বিশাল সংস্থার টেবিলের মধ্যে সন্ধানের জন্য অত্যাধুনিক শিল্পটি হ'ল ডেউড ডানসন এবং ডিউকের অন্যান্য বায়েশিয়ানদের মতো টেনসর মডেল স্থাপনের ফলে পাওয়া পঁচন। এখানে তাদের একটি কাগজপত্রের অ্যাবস্ট্রাক্ট পাশাপাশি একটি লিঙ্ক:

কন্টিনজেন্সি টেবিল বিশ্লেষণ নিয়মিত লগ রৈখিক মডেলগুলির উপর নির্ভর করে, সুপ্ত কাঠামো বিশ্লেষণ একটি সাধারণ বিকল্প সরবরাহ করে। প্রচ্ছন্ন কাঠামোর মডেলগুলি মাল্টিভারিয়েট শ্রেণিবদ্ধ তথ্যগুলির জন্য সম্ভাব্য ভর ফাংশনের একটি নিম্ন র‌্যাঙ্কের টেনসর ফ্যাক্টরাইজেশন ঘটায়, যখন লগ লিনিয়ার মডেলগুলি বিচ্ছুরতার মাধ্যমে মাত্রিকতা হ্রাস অর্জন করে। দুটি দৃষ্টান্তের মাত্রিকতা হ্রাস এই ধারণাগুলির মধ্যে সম্পর্ক সম্পর্কে খুব কমই জানা যায়। আমরা লগ-লিনিয়ার মডেলটির সমর্থন সম্পর্কিত সম্ভাব্যতা টেনসরের ননেনিজেটিভ র‌্যাঙ্কের সাথে সম্পর্কিত বিভিন্ন ফলাফল পেয়েছি। এই অনুসন্ধানগুলি দ্বারা অনুপ্রাণিত হয়ে আমরা একটি নতুন ধসে পড়া টেকার শ্রেণীর টেনসর পচনকে প্রস্তাব করি যা বিদ্যমান পারফ্যাক এবং টাকার পচনকে স্রোতযুক্ত করে, বহুবিধ শ্রেণীবদ্ধ তথ্যকে পার্সিমোনিয়াসলি বৈশিষ্ট্যযুক্ত করার জন্য আরও নমনীয় কাঠামো সরবরাহ করে।

https://arxiv.org/pdf/1404.0396.pdf


এটি আকর্ষণীয় তথ্য। এটি কীভাবে প্রশ্নের সাথে সংযুক্ত হয় সে সম্পর্কে আমি পরিষ্কার নই।
গুং - মনিকা পুনরায়

গুং বিস্তৃত বিস্তৃত আলোচনা এবং উত্সর্গীকৃত তথ্যগুলির ক্লাস্টারগুলি "এমনকি বিদ্যমান" কিনা তা নিয়ে উত্থাপিত মৌলিক প্রশ্নগুলি দেওয়া, আমার অবদানের প্রাসঙ্গিকতার বিষয়ে আপনার স্পষ্টতার অভাব বিস্মিত। আমার দৃষ্টিতে, প্রদত্ত তথ্য পূর্বে উপেক্ষা করা পদ্ধতি এবং জ্ঞান আবিষ্কারের ক্ষেত্রগুলিকে আলোকিত করে। আমিও আমার প্রাথমিক পর্যবেক্ষণটি উল্লেখ করতে পারি - স্পষ্টরূপে ওপিএসের প্রশ্নের সাথে সম্বোধন করা - মাল্টিভারিয়েট অ্যাসোসিয়েশনের যুগলবন্দরের থেকে লাফের বিষয়ে সহজ স্তরের সংস্থার অনুপস্থিতিতে অত্যন্ত অসম্ভাব্যতা সম্পর্কিত।
মাইক হান্টার

আমি কোনও অপরাধ বলতে চাইছি না, @ জনসন। শ্রেণীবদ্ধ তথ্য ক্লাস্টারিংয়ের জন্য আমি (কিছুটা) পরিচিত ডাব্লু / সুপ্ত মডেল (অর্থাত্ সুপ্ত শ্রেণীর বিশ্লেষণ)। আমি উপরের আমার মন্তব্যে এটির ইঙ্গিত দিয়েছি । আমি ইতিহাস, গবেষক এবং সফ্টওয়্যার হিসাবে W / পরিচিত হিসাবে পরিচিত ছিল না। সেটা মজাদার. আমি নামমাত্র ডেটাগুলিতে সনাক্তযোগ্য ক্লাস্টারগুলি থাকতে পারে যেখানে ভেরিয়েবলগুলি কোনও সমিতি দেখায় না সে প্রশ্নের প্রশ্নের উত্তর কীভাবে দেওয়া হয় তা আমি পুরোপুরি দেখতে পাই না। যদি আপনি যা পেয়ে যাচ্ছেন তবে এটির একটি উদাহরণ সহায়ক be আপনি একটি সরবরাহ করতে পারেন?
গুং - মনিকা পুনরায়

@ গুং অবশ্যই না এবং কেউ নেয় নি।
মাইক হান্টার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.