কীভাবে একটি দ্বিপশু বিতরণ সনাক্ত করতে?


48

আমি বুঝতে পারি যে একবার যখন আমরা মানগুলি একটি চার্ট হিসাবে প্লট করি, আমরা দ্বিগুণ শৃঙ্গগুলি পর্যবেক্ষণ করে দ্বিপদ বন্টন শনাক্ত করতে পারি, তবে কীভাবে প্রোগ্রামটিকে এটি আবিষ্কার করা যায়? (আমি একটি অ্যালগরিদম খুঁজছি।)


5
মজাদার প্রশ্ন আমি এ সম্পর্কে কিছুই জানি না সুতরাং কোনও উত্তর চেষ্টা করবে না, তবে দ্বিগুণতা + গুগলিং + পরীক্ষা বেশ কয়েকটি আশাব্যঞ্জক লিড দেয়। google.co.uk/search?q=bimodality+test
onestop

মাল্টিমোডলটির জন্য পরীক্ষা করার জন্য একটি প্রোগ্রামেটিক কোড www.estima.com এ উপলব্ধ এবং এটি মোডেস.এসআরসি বলে। আপনি এটিকে সহজেই মতলব, আর বা অন্যান্য সফ্টওয়্যারগুলিতে রূপান্তর করতে পারেন। শুভেচ্ছা, গাইডো।

1
আপনি মোডের সংখ্যা সনাক্ত করতে পারবেন না (কোনও বিতরণ করতে পারে এমন ক্ষুদ্র উইগলসের সংখ্যার কোনও সীমা নেই) তবে আপনি নিম্ন সীমাটি পেতে পারেন। উদাহরণস্বরূপ এখানে projecteuclid.org/euclid.aos/1176351045 দেখুন
Glen_b

উত্তর:


27

অবিচ্ছিন্ন বিতরণের জন্য একটি মোড সনাক্তকরণের জন্য ডেটা মসৃণ করা বা বেন করা দরকার।

বিনিং সাধারণত খুব বেশি পরিমাণে হয়: ফলাফলগুলি আপনি যেখানে বিন কাটপয়েন্টগুলি রাখেন তার উপর নির্ভর করে।

কার্নেল স্মুথিং (বিশেষত, কার্নেলের ঘনত্বের অনুমানের আকারে) একটি ভাল পছন্দ। যদিও অনেকগুলি কার্নেল আকার সম্ভব, সাধারণত ফলাফল আকৃতির উপর খুব বেশি নির্ভর করে না। এটি কার্নেল ব্যান্ডউইথের উপর নির্ভর করে। সুতরাং, লোকেরা হয় একটি অভিযোজিত কার্নেল মসৃণ ব্যবহার করেবা চিহ্নিত করা মোডের স্থায়িত্ব পরীক্ষা করতে বিভিন্ন স্থির ব্যান্ডউইথের জন্য কার্নেল মসৃণগুলির ক্রম পরিচালনা করে। যদিও একটি অভিযোজিত বা "অনুকূল" স্মুথ ব্যবহারটি আকর্ষণীয়, তবুও জেনে থাকুন যে এগুলির বেশিরভাগ (সমস্ত?) নির্ভুলতা এবং গড় যথার্থতার মধ্যে ভারসাম্য অর্জনের জন্য ডিজাইন করা হয়েছে: এগুলি মোডের অবস্থানের অনুমানের অনুকূলিতকরণের জন্য ডিজাইন করা হয়নি।

বাস্তবায়ন যতদূর যায়, কার্নেল স্মুথাররা স্থানীয়ভাবে স্থানান্তরিত করে এবং ডেটা ফিট করার জন্য একটি পূর্বনির্ধারিত ফাংশন স্কেল করে। প্রদত্ত যে এই বুনিয়াদি কাজটি পার্থক্যযোগ্য - গৌসিয়ানরা একটি ভাল পছন্দ কারণ আপনি যতটা পছন্দ তার চেয়ে বহুগুণ আলাদা করতে পারেন - তবে আপনাকে যা করতে হবে তা মসৃণটির ডেরাইভেটিভ অর্জনের জন্য এটির ডেরাইভেটিভ দ্বারা প্রতিস্থাপন করতে হবে। তারপরে এটি গুরুতর বিষয়গুলি সনাক্ত এবং পরীক্ষার জন্য সাধারণ শূন্য-অনুসন্ধান পদ্ধতি প্রয়োগ করার বিষয়টি। ( ব্রেন্টের পদ্ধতিটি ভালভাবে কাজ করে)) কোনও সমালোচনামূলক বিন্দু স্থানীয় সর্বাধিক - অর্থাত্ একটি মোড কিনা তাড়াতাড়ি পরীক্ষা নেওয়ার জন্য অবশ্যই আপনি দ্বিতীয় কৌশল থেকে একই কৌশল করতে পারেন।


2
@ ওয়েঙ্কাসুব, আপনি শিকড় অনুসন্ধানের জন্য মুলারের পদ্ধতিটিও দেখতে পারেন। এটি ব্রেন্টের পদ্ধতির চেয়ে সহজ এবং নিউটনের পদ্ধতির তুলনায় "প্রায়" দক্ষ, তবে লক্ষ্য ফাংশনের ডেরাইভেটিভগুলি সম্পর্কে জেনে রাখার প্রয়োজন ছাড়াই।
কার্ডিনাল

25

সিলভারম্যানের একটি সুপরিচিত কাগজ রয়েছে যা এই সমস্যাটি নিয়ে কাজ করে। এটি কার্নেল-ঘনত্বের প্রাক্কলন নিয়োগ করে। দেখা

বিডাব্লু সিলভারম্যান, বহু-আধুনিকতা তদন্ত করতে কার্নেল ঘনত্বের প্রাক্কলন ব্যবহার করে , জে। রয়েল স্ট্যাট। SOC। বি , খণ্ড 43, না। 1, 1981, পৃষ্ঠা 97-99।

দ্রষ্টব্য যে কাগজের সারণিতে কিছু ত্রুটি রয়েছে। এটি কেবল একটি সূচনা পয়েন্ট, তবে বেশ ভাল একটি। আপনি সর্বাধিক সন্ধান করছেন এমন ইভেন্টে এটি ব্যবহারের জন্য একটি সু-সংজ্ঞায়িত অ্যালগরিদম সরবরাহ করে। আপনি গুগল স্কলারকে কাগজপত্রগুলিতে দেখতে পাবেন যা এটি আরও "আধুনিক" পদ্ধতির জন্য উদ্ধৃত করে।


4
+1 এই কাগজটি কীভাবে কর্ণ প্রস্থের উপর নির্ভর করে (গাউসিয়ান কার্নেলগুলির জন্য) উপযুক্ত প্রস্থ নির্বাচন করতে এবং তারপরে আমার জবাব অনুসারে বর্ণিত হিসাবে অবিরত মোডগুলির সংখ্যা নির্ভর করে সে সম্পর্কে তথ্য ব্যবহার করে।
শুক্র

2

আমি পার্টিতে দেরিতে এসেছি, তবে আপনি যদি এটি মাল্টিমোডাল কিনা তা নিয়ে আগ্রহী হন, যার অর্থ আপনি মোডের সংখ্যার প্রতি আগ্রহী নন, আপনার ডিপটেস্টের দিকে নজর দেওয়া উচিত ।

ইন Rপ্যাকেজ বলা হয় diptest


2
পুরো নাম হারটিগানের ইউনিমোডালটির ডিপ টেস্ট। মূল কাগজটি বর্ণিত এই বিবরণটি দেয়: ডিপ টেস্ট পরীক্ষামূলক বিতরণ ফাংশন এবং সর্বনিম্ন বিতরণ ফাংশনের মধ্যে সর্বাধিক পার্থক্যের দ্বারা সর্বাধিক পার্থক্যের দ্বারা একটি নমুনায় মাল্টিমোডালটি পরিমাপ করে যা সেই সর্বোচ্চ পার্থক্যকে হ্রাস করে। অ্যালগরিদম তুচ্ছ নয়, তবে আপনি অনিমোডিটির জন্য ডিপ স্ট্যাটিস্টিক টু টেস্টের গণনাতে মূল ফোর্টরান বাস্তবায়নের উপর ভিত্তি করে সি, পাইথন, ম্যাটল্যাব এবং আধুনিক ফোর্টরান অনুবাদগুলি সহজেই খুঁজে পেতে পারেন ।
মর্টেহু

1
ম্যাটল্যাব কোড: nicprice.net/diptest এবং অন্য একটি - gist.github.com/schluppeck/e7635dcf0e80ca54efb0
রয়ি

0

উইকের সংজ্ঞাটি আমার কাছে কিছুটা বিভ্রান্তিকর। একটি মাত্র মোড থাকা ক্রমাগত ডেটা সেট হওয়ার সম্ভাবনা শূন্য। বিমোডাল ডিস্ট্রবিটনকে প্রোগ্রাম করার একটি সহজ উপায় হ'ল পৃথকভাবে কেন্দ্রিক দুটি পৃথক সাধারণ বিতরণ। এটি দুটি শিখর তৈরি করে বা উইকি কে মোডগুলি কল করে। আপনি আসলে প্রায় কোনও দুটি বিতরণ ব্যবহার করতে পারেন, তবে দুটি পরিসংখ্যক ডেটা বিতরণের সংমিশ্রণের পরে ডেটা সেট কীভাবে তৈরি হয়েছিল তা সন্ধান করার জন্য একটি কঠিন পরিসংখ্যানগত সুযোগগুলির একটি।


দুটি সাধারণ বিতরণের কেন্দ্রগুলি কীভাবে চিহ্নিত করবেন?
ভেঙ্কাসুব

@ ওয়েঙ্কাসুব, সাধারণ বিতরণের কেন্দ্রটি তার গড়। আপনি যদি জানেন যে দ্বিগুণটি দুটি সাধারণ বিতরণ থেকে আসে তবে আপনি উপায়গুলি অনুমান করার জন্য মিশ্রণ মডেলটি ফিট করতে পারেন যা দুটি মোড হবে।
এমপিটকাস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.