আমার কাছে কিছু ডেটা পয়েন্ট রয়েছে, যার মধ্যে প্রত্যেকে 5 টি ভেক্টর সমন্বিত পৃথক পৃথক ফলাফল রয়েছে, প্রতিটি ভেক্টরের ফলাফল আলাদা বিতরণ দ্বারা উত্পন্ন হয়েছে (নির্দিষ্ট ধরণের যেটি সম্পর্কে আমি নিশ্চিত নই, আমার সর্বোত্তম অনুমান ওয়েইবুল, আকৃতির প্যারামিটারটি ক্ষমতার বাহকের কাছাকাছি কোথাও পরিবর্তিত হয়) আইন (1 থেকে 0, মোটামুটি))
আমি কে-মিনসের মতো একটি ক্লাস্টারিং অ্যালগরিদম ব্যবহার করতে চাইছি যার প্রতিটি উপাদান বিন্দুতে তার 5 উপাদান বিতরণের বৈশিষ্ট্যের উপর ভিত্তি করে গ্রুপগুলিতে রাখছি। আমি ভাবছিলাম যে এখানে কোনও প্রতিষ্ঠিত দূরত্বের মেট্রিক রয়েছে যা এই উদ্দেশ্যগুলির জন্য মার্জিত হবে। আমার এখনও অবধি তিনটি ধারণা ছিল তবে আমি পাকা এক পরিসংখ্যানবিদ নই (শুরুতে ডেটা মাইনিং কম্পিউটার বিজ্ঞানী আরও) সুতরাং আমি কতটা ট্র্যাক থেকে দূরে আছি তার আমার ধারণা নেই।
যেহেতু আমি ঠিক জানি না আমি কী ধরণের বিতরণগুলি নিয়ে কাজ করছি, তাই সমস্যাটির প্রতি আমার বৌদ্ধিক দৃষ্টিভঙ্গি ছিল প্রতিটি বিতরণকে (আমার প্রতি বিন্দুতে 5 টি) তার নিজস্ব আলাদা আলাদা ডেটা মানগুলিতে কাটা (আমি প্যাড করি) প্রতিটি শেষে একই শূন্যের সাথে একই দৈর্ঘ্যের সাথে সম্পর্কিত) এবং এই মানগুলির প্রত্যেকটিই ডেটা পয়েন্টের জন্য পৃথক বৈশিষ্ট্য হিসাবে ব্যবহার করে। আমি পিডিএফ এবং সিডিএফ উভয়ের জন্য ম্যানহাটনের দূরত্ব এবং ইউক্লিডিয়ান দূরত্বকে এই বৈশিষ্ট্যের উপর ভিত্তি করে মেট্রিক হিসাবে ব্যবহার করার চেষ্টা করেছি।
আবার, যেহেতু আমি জানি না আমার কী ধরণের বিতরণ রয়েছে, তাই আমি বুঝতে পেরেছিলাম যে আমি যদি সামগ্রিক বিতরণগুলির মধ্যে দূরত্ব পরিমাপ করতে যাচ্ছিলাম তবে আমি ডিএস্রিবিউশনগুলির মধ্যে কিছু ধরণের নন-প্যারাম্যাট্রিক পরীক্ষা জোড়ায় ব্যবহার করতে পারতাম, যেমন কেএস-টেস্ট as , প্রদত্ত বিতরণগুলি বিভিন্ন পিডিএফ দ্বারা উত্পাদিত হওয়ার সম্ভাবনাটি সন্ধান করতে। আমি ভেবেছিলাম যে আমার প্রথম বিকল্পটি (উপরে) ম্যানহাটনের দূরত্ব ব্যবহার করে আমি এই পদ্ধতির সাহায্যে কী পেতে পারি তার উপর এক প্রকার উপরের আবদ্ধ হবে (যেহেতু কেএস পরিসংখ্যান সিডিএফগুলির পার্থক্যের সর্বোচ্চ পরম মান, যেখানে ম্যানহাটনের দূরত্বটি পিডিএফগুলির মধ্যে পার্থক্যের নিখুঁত মানগুলির সমষ্টি)। আমি তখন প্রতিটি ডাটা পয়েন্টের মধ্যে বিভিন্ন কেএস-পরিসংখ্যান বা পি-মানগুলির সংমিশ্রণ বিবেচনা করেছি, সম্ভবত ইউক্যালিডিয়ান দূরত্ব ব্যবহার করেছি, তবে সম্ভবত এই সমস্ত মানগুলির সর্বাধিক গ্রহণ করা হবে।
শেষ অবধি, বিতরণগুলির আকৃতি সম্পর্কে আমি যা কিছুটা ব্যাখ্যা করতে পারি তা ব্যবহার করার প্রয়াসে আমি ভেবেছিলাম যে আমি বিতরণগুলির পরামিতিগুলি ওয়েবুল বক্ররেখার মতো উপযুক্ত হিসাবে অনুমান করার চেষ্টা করতে পারি। আমি তখন ওয়েইবুল ডিস্ট্রিবিউশনের দুটি প্যারামিটার, ল্যাম্বডা এবং কে (স্কেল এবং আকৃতি) এর পার্থক্যের ভিত্তিতে ডিস্ট্রিবিউশনগুলি ক্লাস্টার করতে পারতাম, সম্ভবত এই প্যারামিটারগুলির বৈকল্পিকতা বা সাজানোর কিছু অনুসারে সাধারনতকরণ করা হয়েছিল। এটিই কেবলমাত্র আমি যেখানে পরামিতিগুলি কীভাবে স্বাভাবিক করা যায় সে সম্পর্কে আমার ধারণা থাকতে পারে only
সুতরাং আমার প্রশ্নটি হল, বিতরণ ক্লাস্টারিংয়ের জন্য আপনি কোন পরিমাপ / পদ্ধতিগুলি সুপারিশ করবেন? আমি কি এইগুলির সাথে কি সঠিক পথে রয়েছি? কে-মিনস কি ব্যবহার করার জন্য একটি ভাল অ্যালগরিদম?
সম্পাদনা: তথ্য স্পষ্টকরণ।
প্রতিটি ডেটা পয়েন্ট (প্রতিটি বস্তু Obj
যা আমি ক্লাস্টার করতে চাই) আসলে আক্ষরিক অর্থে 5 vectors
ডেটা থাকে। আমি জানি যে এখানে 5 টি ধাপ রয়েছে যেগুলি এই বস্তুগুলিতে থাকতে পারে We আমরা বলব (সরলীকরণের উদ্দেশ্যে) যা প্রতিটি ভেক্টর রয়েছে length N
।
এই ভেক্টরগুলির প্রত্যেকটি (এটি কল করুন vector i
) x-values
এন এর মাধ্যমে 1 এর পূর্ণসংখ্যার সাথে একটি সম্ভাব্যতা বিতরণ , যেখানে প্রতিটি সম্পর্কিত y- মান বস্তুর value x
মধ্যে পরিমাপের সম্ভাব্যতা উপস্থাপন করে । এন তখন বস্তুর যে কোনও ধাপে পরিমাপের প্রত্যাশা করা সর্বাধিক এক্স-মান (এটি আসলে আমার বিশ্লেষণের একটি নির্দিষ্ট সংখ্যা নয়)।phase i
Obj
নিম্নলিখিত সম্ভাব্যতাগুলি আমি নিম্নলিখিত পদ্ধতিতে নির্ধারণ করি:
আমি প্রতিটি পরীক্ষায় একটি পরিমাপ গ্রহণ করে একটি একক গ্রহণ করি
Obj
এবং এটিরphase i
জন্য রাখিk trials
। প্রতিটি পরিমাপ একক পুরো সংখ্যা। আমি একক বস্তুর প্রতিটি 5 টি পর্যায়ের জন্য এবং প্রতিটি বস্তুর পরিবর্তে এটি করি। একটি একক বস্তুর জন্য আমার কাঁচা পরিমাপের ডেটাটি দেখতে দেখতে পারা যায়:ভেক্টর 1. [90, 42, 30, 9, 3, 4, 0, 1, 0, 0, 1]
ভেক্টর ২. [150, 16, 5, 0, 1, 0, 0, 0, 0, 0, 0]
...
ভেক্টর ৫. [১ 16, ... ..., ০]
তারপরে আমি প্রদত্ত ভেক্টরের মোট পরিমাপের সংখ্যার সাথে আমি নিজেই প্রতিটি ভেক্টরকে স্বাভাবিক করি। এটি আমার যে ভেক্টর, যেখানে প্রতিটি সংশ্লিষ্ট y- মান পরিমাপ সম্ভাবনা প্রতিনিধিত্ব করে একটি সম্ভাব্যতা বিতরণের দেয়
value x
মধ্যেphase i
।