অবিচ্ছিন্ন বন্টন থেকে নমুনাযুক্ত ডেটার মোডের গণনা করা


12

অবিচ্ছিন্ন বন্টন থেকে নমুনাযুক্ত ডেটার 'মোড' ফিট করার জন্য সেরা পদ্ধতিগুলি কী?

যেহেতু অবিচ্ছিন্ন বিতরণের জন্য মোডটি প্রযুক্তিগতভাবে অপরিজ্ঞাত (ডান?) তাই আমি সত্যিই জিজ্ঞাসা করছি 'আপনি সর্বাধিক সাধারণ মানটি কীভাবে খুঁজে পান'?

আপনি যদি ধরে থাকেন যে পিতামাত বিতরণটি গাউসিয়ান তবে আপনি ডেটাটি মুছে ফেলতে পারেন এবং মোডটি সর্বশ্রেষ্ঠ গণনা সহ বিন অবস্থান বলে দেখতে পারেন। যাইহোক, আপনি বিন আকারটি কীভাবে নির্ধারণ করবেন? শক্তিশালী বাস্তবায়ন উপলব্ধ? (অর্থাত্ প্রবাসীদের কাছে শক্তিশালী)। আমি python/ scipy/ ব্যবহার করি numpyতবে আমি Rখুব বেশি অসুবিধা ছাড়াই অনুবাদ করতে পারি ।


8
মোডটি প্রযুক্তিগতভাবে এইভাবে সংজ্ঞায়িত করা হয়েছে কিনা তা আমি নিশ্চিত নই, তবে অবিচ্ছিন্ন বিতরণের গ্লোবাল মোডটি সাধারণত সর্বোচ্চ ঘনত্বের সাথে পয়েন্টটি বোঝাতে নেওয়া হয়।
ম্যাক্রো

1
@ ম্যাক্রো - এটি সহায়ক। তারপরে আপনি আমার প্রশ্নটি পড়তে পারেন, '(শিখর) ঘনত্ব নির্ধারণের জন্য সেরা পদ্ধতিগুলি কী?'
কেফলাভিচ

1
হতে পারে আপনার ডেটার জন্য একটি কার্নেল ঘনত্বের প্রাক্কলন মাপসই এবং এর শীর্ষ হিসাবে মোড অনুমান? এটি একটি যুক্তিসঙ্গত পদ্ধতির মতো বলে মনে হচ্ছে তবে আমি এই সমস্যাটির সাহিত্যের সাথে পরিচিত নই।
ম্যাক্রো

1
আপনি যদি অভিভাবকদের বিতরণটি গাউসিয়ান হিসাবে ধরে না নেন তবে কী এখনও ডেটা বিনটি করা এবং সবচেয়ে বড় গণনা সহ মোডটিকে বিন অবস্থান হিসাবে গ্রহণ করা সম্ভব? কেন অথবা কেন নয়? আরো একটি গুরুতর নোট অন, কেন না এটি deciles যাতে নমুনার ব্যবধান রয়েছে , এবং সুতরাং এটি সম্ভবত মোডটি সংক্ষিপ্ততম আন্তঃবিচার ব্যবধানের মধ্যে রয়েছে ? তারপরে বিন আকারটি ধরুন, বলুন, এই সংক্ষিপ্ততম আন্তঃসূচী বিরতির এক-চতুর্থাংশ। x0=xmin,x1,x2,,x9,x10=xmax10%xi+1ximin1j10xj+1xj
দিলীপ সরোতে

2
পিতামাতাকে বিতরণ সম্পর্কে আপনি কী অনুমান করতে পারেন, কেফলাভিচ? যদি সেগুলি প্যারামিট্রিক হয় তবে পরামিতিগুলি অনুমান করা ভাল এবং তারপরে সেই পরামিতিগুলি থেকে মোডটি নির্ণয় করা ভাল। (উদাহরণস্বরূপ, নমুনা গড়টি একটি সাধারণ বিতরণের মোড অনুমান করে)) যদি তা না হয় তবে বিন্ন একটি দুর্বল পদ্ধতি হতে পারে। পরিবর্তে, ক্রম অর্ধপ্রস্থ তারতম্য সঙ্গে কার্নেল estimators এর estimators একটা ক্রম সরবরাহ করতে ব্যবহৃত করা যেতে পারে; সাধারণত, যদি অন্তর্নিহিত বিতরণটি সর্বমোচনীয় হয়, অর্ধ-প্রশস্ততা বড় হওয়ার সাথে সাথে কার্নেল মসৃণগুলির মোডগুলি একটি অনন্য মোডের দিকে রূপান্তরিত প্রদর্শিত হবে এবং এটি আপনার অনুমান হতে পারে।
হোবার

উত্তর:


4

আর-তে, এমন পদ্ধতি প্রয়োগ করা যা অন্তর্নিহিত বিতরণের প্যারাম্যাট্রিক মডেলিংয়ের ভিত্তিতে নয় এবং 10000 গামা বিতরণযোগ্য ভেরিয়েবলগুলিতে ঘনত্বের ডিফল্ট কার্নেল অনুমানকারী ব্যবহার করে:

x <- rgamma(10000, 2, 5)
z <- density(x)
plot(z) # always good to check visually
z$x[z$y==max(z$y)]

০.০৯৯ প্রদান করে যা সর্বোচ্চ ঘনত্বের অনুমানযুক্ত x এর মান (ঘনত্বের অনুমানগুলি "z $ y" হিসাবে সংরক্ষণ করা হয়)।


3
আমি কেবল তার থেকে আলাদা করতে চাই তা হ'ল ভিন্ন ব্যান্ডউইথ ব্যবহার করা। ঘনত্বের জন্য ডিফল্ট ব্যান্ডউইথ () খুব ভাল নয়। ঘনত্ব (x, bw = "SJ") আরও ভাল better মোড অনুমানের জন্য ডিজাইন করা ব্যান্ডউইথ ব্যবহার করা আরও ভাল। কিছু আলোচনার জন্য বিজ্ঞান ডাইরেক্টড / সায়েন্স / আর্টিকেল / পিআইআই / 0167715295000240 দেখুন ।
রব হ্যান্ডম্যান

2

ধরুন আপনি বিন সাইজের খের একটি হিস্টোগ্রাম তৈরি করেছেন এবং আপনার আকারের মোট নমুনা থেকে সবচেয়ে বড় বিনের কে প্রবেশিকা রয়েছে। তারপরে সেই বিনের মধ্যে গড় পিডিএফ বি * কে / এন হিসাবে অনুমান করা যায়।

সমস্যাটি হ'ল আরও একটি বিন, যার মোট সদস্য কম রয়েছে, একটি উচ্চ স্পট ঘনত্ব পেতে পারে। আপনি যদি পিডিএফের পরিবর্তনের হার সম্পর্কে যুক্তিসঙ্গত ধারণা অনুমান করেন তবে আপনি কেবল এটি সম্পর্কে জানতে পারবেন। যদি আপনি এটি করেন, তবে আপনি দ্বিতীয় বৃহত্তম বিনটিতে মোডটি রয়েছে এমন সম্ভাবনাটি অনুমান করতে পারেন।

অন্তর্নিহিত সমস্যা হ'ল এটি। একটি নমুনা কোলমোগোরভ-স্মারনভ তত্ত্বটি দ্বারা সিডিএফ সম্পর্কে ভাল জ্ঞান সরবরাহ করে এবং তাই মধ্যম এবং অন্যান্য কোয়ান্টাইলগুলির একটি ভাল অনুমান। তবে এল 1-তে কোনও ফাংশনের সান্নিধ্য জানার ফলে তার উত্পন্নটির আনুমানিক জ্ঞান সরবরাহ করা হয় না। সুতরাং কোনও অনুমান অতিরিক্ত অনুমান ছাড়াই পিডিএফ সম্পর্কে ভাল জ্ঞান সরবরাহ করে না।


0

এখানে কয়েকটি সাধারণ সমাধান স্কেচ রয়েছে যা উচ্চ-মাত্রিক বিতরণের জন্যও কাজ করে:

  • জেনারেটরে কোনও এলোমেলো ইনপুট না দিয়ে বিপরীত কেএল ডাইভার্জেন্সের সাথে একটি এফ-জিএন প্রশিক্ষণ দিন (অর্থাত্ এটিকে নিরোধক হতে বাধ্য করুন)।

  • বিপরীত কেএল ডাইভারজেন্স সহ একটি এফ-গ্যানকে প্রশিক্ষণ দিন, প্রশিক্ষণের অগ্রগতির সাথে সাথে জেনারেটরে ইনপুট বিতরণটি ডাইরাক ডেল্টা ফাংশনের দিকে সরান, এবং জেনারেটর ক্ষতির ক্রিয়ায় একটি গ্রেডিয়েন্ট জরিমানা যুক্ত করুন।

  • এমন একটি (ডিফেরেন্টেবল) জেনারেটাল মডেলকে প্রশিক্ষণ দিন যা কোনও সময়ে বিন্দুতে পিডিএফের একটি আনুমানিক মূল্যায়ন করতে পারে (আমি বিশ্বাস করি যে, উদাহরণস্বরূপ একটি ভিএই, প্রবাহ ভিত্তিক মডেল বা একটি স্বতঃসংশ্লিষ্ট মডেল করবে)। তারপরে সর্বাধিক সান্নিধ্যের সন্ধানের জন্য কিছু ধরণের অপ্টিমাইজেশন ব্যবহার করুন (মডেল ইনফারেন্সটি পার্থক্যযোগ্য হলে গ্রেডিয়েন্ট অ্যাসেন্টের কিছু স্বাদ ব্যবহার করা যেতে পারে)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.