ক্লাস্টারিং সম্ভাব্যতা বিতরণ - পদ্ধতি এবং মেট্রিক্স?


13

আমার কাছে কিছু ডেটা পয়েন্ট রয়েছে, যার মধ্যে প্রত্যেকে 5 টি ভেক্টর সমন্বিত পৃথক পৃথক ফলাফল রয়েছে, প্রতিটি ভেক্টরের ফলাফল আলাদা বিতরণ দ্বারা উত্পন্ন হয়েছে (নির্দিষ্ট ধরণের যেটি সম্পর্কে আমি নিশ্চিত নই, আমার সর্বোত্তম অনুমান ওয়েইবুল, আকৃতির প্যারামিটারটি ক্ষমতার বাহকের কাছাকাছি কোথাও পরিবর্তিত হয়) আইন (1 থেকে 0, মোটামুটি))

আমি কে-মিনসের মতো একটি ক্লাস্টারিং অ্যালগরিদম ব্যবহার করতে চাইছি যার প্রতিটি উপাদান বিন্দুতে তার 5 উপাদান বিতরণের বৈশিষ্ট্যের উপর ভিত্তি করে গ্রুপগুলিতে রাখছি। আমি ভাবছিলাম যে এখানে কোনও প্রতিষ্ঠিত দূরত্বের মেট্রিক রয়েছে যা এই উদ্দেশ্যগুলির জন্য মার্জিত হবে। আমার এখনও অবধি তিনটি ধারণা ছিল তবে আমি পাকা এক পরিসংখ্যানবিদ নই (শুরুতে ডেটা মাইনিং কম্পিউটার বিজ্ঞানী আরও) সুতরাং আমি কতটা ট্র্যাক থেকে দূরে আছি তার আমার ধারণা নেই।

  1. যেহেতু আমি ঠিক জানি না আমি কী ধরণের বিতরণগুলি নিয়ে কাজ করছি, তাই সমস্যাটির প্রতি আমার বৌদ্ধিক দৃষ্টিভঙ্গি ছিল প্রতিটি বিতরণকে (আমার প্রতি বিন্দুতে 5 টি) তার নিজস্ব আলাদা আলাদা ডেটা মানগুলিতে কাটা (আমি প্যাড করি) প্রতিটি শেষে একই শূন্যের সাথে একই দৈর্ঘ্যের সাথে সম্পর্কিত) এবং এই মানগুলির প্রত্যেকটিই ডেটা পয়েন্টের জন্য পৃথক বৈশিষ্ট্য হিসাবে ব্যবহার করে। আমি পিডিএফ এবং সিডিএফ উভয়ের জন্য ম্যানহাটনের দূরত্ব এবং ইউক্লিডিয়ান দূরত্বকে এই বৈশিষ্ট্যের উপর ভিত্তি করে মেট্রিক হিসাবে ব্যবহার করার চেষ্টা করেছি।

  2. আবার, যেহেতু আমি জানি না আমার কী ধরণের বিতরণ রয়েছে, তাই আমি বুঝতে পেরেছিলাম যে আমি যদি সামগ্রিক বিতরণগুলির মধ্যে দূরত্ব পরিমাপ করতে যাচ্ছিলাম তবে আমি ডিএস্রিবিউশনগুলির মধ্যে কিছু ধরণের নন-প্যারাম্যাট্রিক পরীক্ষা জোড়ায় ব্যবহার করতে পারতাম, যেমন কেএস-টেস্ট as , প্রদত্ত বিতরণগুলি বিভিন্ন পিডিএফ দ্বারা উত্পাদিত হওয়ার সম্ভাবনাটি সন্ধান করতে। আমি ভেবেছিলাম যে আমার প্রথম বিকল্পটি (উপরে) ম্যানহাটনের দূরত্ব ব্যবহার করে আমি এই পদ্ধতির সাহায্যে কী পেতে পারি তার উপর এক প্রকার উপরের আবদ্ধ হবে (যেহেতু কেএস পরিসংখ্যান সিডিএফগুলির পার্থক্যের সর্বোচ্চ পরম মান, যেখানে ম্যানহাটনের দূরত্বটি পিডিএফগুলির মধ্যে পার্থক্যের নিখুঁত মানগুলির সমষ্টি)। আমি তখন প্রতিটি ডাটা পয়েন্টের মধ্যে বিভিন্ন কেএস-পরিসংখ্যান বা পি-মানগুলির সংমিশ্রণ বিবেচনা করেছি, সম্ভবত ইউক্যালিডিয়ান দূরত্ব ব্যবহার করেছি, তবে সম্ভবত এই সমস্ত মানগুলির সর্বাধিক গ্রহণ করা হবে।

  3. শেষ অবধি, বিতরণগুলির আকৃতি সম্পর্কে আমি যা কিছুটা ব্যাখ্যা করতে পারি তা ব্যবহার করার প্রয়াসে আমি ভেবেছিলাম যে আমি বিতরণগুলির পরামিতিগুলি ওয়েবুল বক্ররেখার মতো উপযুক্ত হিসাবে অনুমান করার চেষ্টা করতে পারি। আমি তখন ওয়েইবুল ডিস্ট্রিবিউশনের দুটি প্যারামিটার, ল্যাম্বডা এবং কে (স্কেল এবং আকৃতি) এর পার্থক্যের ভিত্তিতে ডিস্ট্রিবিউশনগুলি ক্লাস্টার করতে পারতাম, সম্ভবত এই প্যারামিটারগুলির বৈকল্পিকতা বা সাজানোর কিছু অনুসারে সাধারনতকরণ করা হয়েছিল। এটিই কেবলমাত্র আমি যেখানে পরামিতিগুলি কীভাবে স্বাভাবিক করা যায় সে সম্পর্কে আমার ধারণা থাকতে পারে only

সুতরাং আমার প্রশ্নটি হল, বিতরণ ক্লাস্টারিংয়ের জন্য আপনি কোন পরিমাপ / পদ্ধতিগুলি সুপারিশ করবেন? আমি কি এইগুলির সাথে কি সঠিক পথে রয়েছি? কে-মিনস কি ব্যবহার করার জন্য একটি ভাল অ্যালগরিদম?

সম্পাদনা: তথ্য স্পষ্টকরণ।

প্রতিটি ডেটা পয়েন্ট (প্রতিটি বস্তু Objযা আমি ক্লাস্টার করতে চাই) আসলে আক্ষরিক অর্থে 5 vectorsডেটা থাকে। আমি জানি যে এখানে 5 টি ধাপ রয়েছে যেগুলি এই বস্তুগুলিতে থাকতে পারে We আমরা বলব (সরলীকরণের উদ্দেশ্যে) যা প্রতিটি ভেক্টর রয়েছে length N

এই ভেক্টরগুলির প্রত্যেকটি (এটি কল করুন vector i) x-valuesএন এর মাধ্যমে 1 এর পূর্ণসংখ্যার সাথে একটি সম্ভাব্যতা বিতরণ , যেখানে প্রতিটি সম্পর্কিত y- মান বস্তুর value xমধ্যে পরিমাপের সম্ভাব্যতা উপস্থাপন করে । এন তখন বস্তুর যে কোনও ধাপে পরিমাপের প্রত্যাশা করা সর্বাধিক এক্স-মান (এটি আসলে আমার বিশ্লেষণের একটি নির্দিষ্ট সংখ্যা নয়)।phase iObj

নিম্নলিখিত সম্ভাব্যতাগুলি আমি নিম্নলিখিত পদ্ধতিতে নির্ধারণ করি:

  1. আমি প্রতিটি পরীক্ষায় একটি পরিমাপ গ্রহণ করে একটি একক গ্রহণ করি Objএবং এটির phase iজন্য রাখি k trials। প্রতিটি পরিমাপ একক পুরো সংখ্যা। আমি একক বস্তুর প্রতিটি 5 টি পর্যায়ের জন্য এবং প্রতিটি বস্তুর পরিবর্তে এটি করি। একটি একক বস্তুর জন্য আমার কাঁচা পরিমাপের ডেটাটি দেখতে দেখতে পারা যায়:

    ভেক্টর 1. [90, 42, 30, 9, 3, 4, 0, 1, 0, 0, 1]

    ভেক্টর ২. [150, 16, 5, 0, 1, 0, 0, 0, 0, 0, 0]

    ...

    ভেক্টর ৫. [১ 16, ... ..., ০]

  2. তারপরে আমি প্রদত্ত ভেক্টরের মোট পরিমাপের সংখ্যার সাথে আমি নিজেই প্রতিটি ভেক্টরকে স্বাভাবিক করি। এটি আমার যে ভেক্টর, যেখানে প্রতিটি সংশ্লিষ্ট y- মান পরিমাপ সম্ভাবনা প্রতিনিধিত্ব করে একটি সম্ভাব্যতা বিতরণের দেয় value xমধ্যে phase i


1
আপনার ডেটা পয়েন্টগুলি কীভাবে বিতরণগুলিকে "ধারণ" করতে পারে তা আমার কাছে পরিষ্কার নয়। আপনি একটি উদাহরণ দিতে পারেন? তদতিরিক্ত ওয়েইবুল একটি পৃথক সম্ভাব্যতা বিতরণ নয়, তাই কিছু অতিরিক্ত স্পষ্টতা বাঞ্ছনীয়।
এমপিটিকাস

@ এমপিক্টাস: প্রতিটি ডেটা পয়েন্ট একটি অবজেক্টকে প্রতিনিধিত্ব করে যার 5 টি বিভিন্ন ধাপ রয়েছে। অবজেক্টের প্রতিটি পর্বের আচরণ তাত্ত্বিকভাবে একটি অবিচ্ছিন্ন সম্ভাবনা বন্টন ফাংশন দ্বারা প্রতিনিধিত্ব করা যেতে পারে, তবে আমার ডেটাতে কেবল বিচ্ছিন্ন নমুনা রয়েছে। ওয়েইবুল বিতরণটি সম্ভবত আমার ডেটার পিছনে "তাত্ত্বিক" ফাংশন, তবে ডেটা নিজেই কেবল বিচ্ছিন্ন বিরতিতে ঘনত্বের পরিমাপ।
মেশিন

উত্তর:


5

( গণনামূলক ) তথ্য জ্যামিতি এমন একটি ক্ষেত্র যা এই ধরণের সমস্যাগুলির সাথে একত্রে কাজ করে। কে-মানে ব্র্যাগম্যান কে-মানে নামে একটি এক্সটেনশন রয়েছে যা ডাইভারজেন্সগুলি ব্যবহার করে (যার স্ট্যান্ডার্ড কে-মানে স্কোয়ার্ড ইউক্যালিডিয়ান একটি বিশেষ কেস, তবে কুলব্যাক-লেবেলার)। প্রদত্ত বৈচিত্র কোনও বিতরণের সাথে সম্পর্কিত, যেমন গৌসিতে স্কোয়ারড ইউক্লিডিয়ান।

এছাড়াও আপনি কাজের উপর একটি চেহারা থাকতে পারে ফ্রাঙ্ক নিলসেন উদাহরণস্বরূপ,

আপনি আগের পোস্টে আর্থ মোভার দূরত্ব হিসাবে উল্লেখ করা ওয়াসারস্টেইন দূরত্ব (অনুকূল পরিবহন) সম্পর্কেও নজর রাখতে পারেন ।


3

ইপি-মিনস অ্যালগরিদম সম্পর্কিত তাদের গবেষণাপত্রে , হেন্ডারসন এট আল পর্যালোচনা এই সমস্যার দিকে মনোযোগ দেয় এবং তাদের নিজস্ব তথ্য দেয়। তারা বিবেচনা:

  1. প্যারামিটার ক্লাস্টারিং - বিতরণের পূর্ব জ্ঞানের ভিত্তিতে বিতরণের জন্য পরামিতিগুলি নির্ধারণ করুন এবং সেই পরামিতিগুলির উপর ভিত্তি করে ক্লাস্টার নির্ধারণ করুন
    • মনে রাখবেন যে এখানে, আপনি কেবলমাত্র প্যারামিটারের অনুমান হিসাবেই ডেটাতে কোনও কার্যকরী ব্যবহার করতে পারেন, যদি আপনি জানেন যে আপনার ডেটা বিভিন্ন বিতরণ থেকে আসে
  2. হিস্টোগ্রাম বিনিং - উপাত্তের ক্লাস্টারিংয়ের জন্য ডেটাটি আলাদা করে রাখুন এবং প্রতিটি বিনকে একটি মাত্রা হিসাবে বিবেচনা করুন
  3. L1

সাফল্যের সাথে আমি যে অন্য কৌশলটি ব্যবহার করেছি তা হ'ল পৃথকভাবে সমস্ত বিতরণ থেকে সমস্ত পর্যবেক্ষণকৃত পয়েন্টগুলি ক্লাস্টার করা, এবং তারপরে বিতরণ করার জন্য নির্ধারিত নরম সম্ভাবনা যার পয়েন্টগুলির অনুপাতের সাথে মিল রেখে প্রতিটি ক্লাস্টারে শেষ হয়। নেতিবাচক দিক থেকে, বিতরণগুলি সেভাবে আলাদা করা আরও শক্ত। উল্টো দিকে, এটি ধরণের অটো নিয়মিত করে এবং ধরে নেয় যে সমস্ত বিতরণ একই are যদিও আমি যখন নিয়মিতকরণ সম্পত্তিটি পছন্দ হয় তখনই আমি এটি ব্যবহার করব।


1
$i$i$l_2$l2

1

আপনার দুটি পদক্ষেপে এগিয়ে যাওয়া উচিত। (1) ডেটা হ্রাস এবং (2) ক্লাস্টারিং।

পদক্ষেপের জন্য (1), আপনার সতর্কতার সাথে আপনার ডেটাটি পরীক্ষা করা উচিত এবং আপনার ডেটার জন্য যুক্তিসঙ্গত সম্ভাবনা বন্টন নির্ধারণ করা উচিত। আপনি ইতিমধ্যে এই পদক্ষেপটি সম্পর্কে ভেবে দেখেছেন বলে মনে হয়। পরবর্তী পদক্ষেপটি হ'ল এই বিতরণগুলির পরামিতিগুলি অনুমান করা। প্রতিটি ইউনিটকে ক্লাস্টার করার জন্য আপনি আলাদাভাবে একটি মডেল ফিট করতে পারেন, বা এটি আরও সাধারণ পরিশীলিত মডেল যেমন সাধারণীকরণীয় রৈখিক মিশ্র মডেল ব্যবহার করা উপযুক্ত।

পদক্ষেপের জন্য (2), আপনি এই পরামিতি অনুমানের উপর ভিত্তি করে ক্লাস্টার করতে পারেন। এই পর্যায়ে আপনার প্রতি ইউনিট হিসাবে প্যারামিটারের একটি ছোট সংখ্যা থাকতে হবে। এই পোস্টের উত্তরে বর্ণিত হিসাবে , আপনি এই প্যারামিটার অনুমানগুলিতে ক্লাস্টার করতে পারেন।

এই উত্তরটি অগত্যা কিছুটা অস্পষ্ট - এখানে কোনও "টিনজাত" সমাধান নেই এবং আপনার অনন্য সমস্যার উপর নির্ভর করে প্রাসঙ্গিক হতে পারে এমন সীমাহীন অসংখ্য পদ্ধতি থেকে বাছাই করার জন্য প্রতিটি পদক্ষেপের জন্য প্রচুর পরিসংখ্যান অন্তর্দৃষ্টি প্রয়োজন। আপনার প্রশ্নের বক্তব্যটি দেখায় যে আপনি নিজেকে পরিসংখ্যানগত জ্ঞানের একটি ভাল চুক্তি করেছেন, যা প্রশংসনীয়, কিন্তু আপনার এখনও মূল পরিসংখ্যানগত ধারণাগুলির কিছু মৌলিক ভুল বোঝাবুঝি রয়েছে, যেমন সম্ভাবনা বন্টন থেকে পর্যবেক্ষণ বিতরণ এবং পর্যবেক্ষণের মধ্যে পার্থক্য । একটি গাণিতিক পরিসংখ্যান কোর্স নেওয়া বা নিরীক্ষণ বিবেচনা করুন বা দুটি।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.