কিভাবে ডেটা গণনা করার জন্য একটি পৃথক বিতরণ ফিট?


17

আমার কাছে গণনা তথ্যগুলির নীচে হিস্টোগ্রাম রয়েছে। এবং আমি এটির জন্য একটি বিবিধ বিতরণ ফিট করতে চাই। আমার কীভাবে এটি করা উচিত তা আমি নিশ্চিত নই।এখানে চিত্র বর্ণনা লিখুন

হিস্টোগ্রামে নেগেটিভ দ্বিপদী বিতরণ বলে আমি কি প্রথমে একটি বিতরণ বিতরণকে সুপারিম্পোজ করব, যাতে আমি পৃথক বিতরণের পরামিতিগুলি পাই এবং তারপরে পি-মানগুলি পরীক্ষা করার জন্য একটি কলমোগোরভ – স্মারনভ পরীক্ষা চালাতে পারি?

এই পদ্ধতিটি সঠিক কিনা তা আমি নিশ্চিত নই।

এই জাতীয় সমস্যা মোকাবেলার জন্য কি কোনও সাধারণ পদ্ধতি আছে?

এটি গণনা তথ্যের একটি ফ্রিকোয়েন্সি টেবিল। আমার সমস্যাটিতে, আমি কেবল নন-শূন্য সংখ্যাগুলিতে মনোনিবেশ করছি।

  Counts:     1    2    3    4    5    6    7    9   10 
 Frequency: 3875 2454  921  192   37   11    1    1    2 

আপডেট: আমি জিজ্ঞাসা করতে চাই: ডেটা ফিটিংয়ের জন্য প্যারামিটারগুলি পেতে আমি আর ডি তে ফিটডিসিটার ফাংশনটি ব্যবহার করেছি।

fitdistr(abc[abc != 0], "Poisson")
     lambda  
  1.68147852 
 (0.01497921)

আমি তারপরে হিস্টোগ্রামের শীর্ষে পয়সন বিতরণের সম্ভাব্যতা গণকাজের পরিকল্পনা করি। এখানে চিত্র বর্ণনা লিখুন

যাইহোক, দেখে মনে হচ্ছে পোয়েসন বিতরণ গণনা তথ্যগুলির মডেল করতে ব্যর্থ। আমি কি কিছু করতে পারি?


3
একটি সাধারণ পদ্ধতি হ'ল প্রার্থীর বন্টন মাপার সর্বোচ্চ সম্ভাবনা ব্যবহার করা use প্যারামিটারগুলি পাওয়ার জন্য বিতরণকে সুপারমোসিং করে আপনি কী বোঝাতে চেয়েছেন তা পরিষ্কার নয়, তবে আপনি যদি পরামিতিগুলির মানগুলি অনুমান করার অর্থ যদি না আপনি ভাল ফিট না পান তবে এটি একটি স্বল্প পদ্ধতি। কোলমোগোরভ-স্মারনভ এখানে দরকারী নয়। আপনার এমন একটি শালীন সফ্টওয়্যার দরকার যা আপনাকে অনিচ্ছাকৃত ফলাফল দেয়, সুতরাং আপনার নিজের পছন্দসই সফ্টওয়্যারটি ইঙ্গিত করতে হবে যাতে এটি ব্যবহার করা লোকেরা আপনাকে সহায়তা করার চেষ্টা করতে পারে। আপনার হিস্টোগ্রাম পরিষ্কার নয়, তবে যদি ফাঁকগুলি থাকে তবে কোনও বিতরণ ভালভাবে ফিট করার সম্ভাবনা নেই।
নিক কক্স

3
সেই পদ্ধতিতে কোনও কেএস পরীক্ষা ব্যবহার করা একটি স্বল্প পদ্ধতি (এবং যে কোনও ক্ষেত্রে কেএস পরীক্ষাটি বিস্তৃত বিতরণের জন্য নয়), সমস্ত সম্ভাব্য পরামিতি মানের চেয়ে কেএস পরিসংখ্যানকে হ্রাস করে প্যারামিটারগুলি অনুমান করা সম্ভব হবে; তবে আপনি যদি সেভাবে চলে যাচ্ছেন (কিছুটা ভালতার উপযোগী করে তোলেন) তবে ন্যূনতম চি-স্কোয়ারটি আরও সাধারণ পদ্ধতির হতে পারে। নিক কক্সের পরামর্শ অনুসারে এমএল হ'ল স্পষ্টতই কাজ হবে, প্রায় নিশ্চিতভাবেই আরও দক্ষ, স্ট্যান্ডার্ড ত্রুটিগুলি এড়ানো সহজ এবং অন্যরা সহজেই স্বীকার করে নিবে। (মুহুর্তের পদ্ধতির মতো অন্যান্য সম্ভাবনাও রয়েছে তবে এমএলই প্রধান বিষয়))
এমএলই গ্লেন_বি -রিনস্টেট মনিকা

আমি আর ব্যবহার করছি। আপনি যখন এমএলই অনুমান করার কথা বলছেন, তখন কোনও কাজের জন্য আপনি কি সুপারিশ করবেন এমন কোনও অ্যালগরিদম রয়েছে? এবং এমএল সন্ধানের পরে আমার আর কী করা উচিত?
ব্যবহারকারী 1769197

আমি এখানেই শুরু করব ?MASS::fitdistr, যেহেতু এটি ইতিমধ্যে আপনার আর বিতরণে রয়েছে (নীচে চূড়ান্ত উদাহরণটি দেখুন; নেতিবাচক দ্বিপদীটির প্যারামিটারাইজেশন সম্পর্কে আরও তথ্যের জন্য রেনেগবিন দেখুন)। .... " এবং এমএল সন্ধানের পরে আমার আর কী করা উচিত? " - ঠিক সেই সময়ে আপনার কাছে প্যারামিটারের অনুমান এবং মান ত্রুটি রয়েছে। এর বাইরে আপনি কী অর্জন করতে চান? - আমি অনুমান করতে পারি না
গ্লেন_বি -রিনস্টেট মনিকা

আমার কাছে এটি ঘটে যে আপনি 'আমি কীভাবে আমার মডেলের ফিটনেসটি মূল্যায়ন করব?' জিজ্ঞাসা করার চেষ্টা করছেন। যদি এটি হয় তবে আপনি কি নিজের প্রশ্নটিকে প্রতিফলিত করতে আপডেট করতে পারবেন?
গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:


17

পৃথক ডিস্ট্রিবিউশন ফিটিং পদ্ধতি

পৃথক পৃথক বিতরণে ফিট করার জন্য প্যারামিটারগুলির প্রাক্কলন করতে তিনটি প্রধান পদ্ধতি ব্যবহৃত হয়।

1) সর্বাধিক সম্ভাবনা

এটি প্যারামিটারের মানগুলি খুঁজে পায় যা আপনার নমুনা সরবরাহের সর্বোত্তম সুযোগ দেয় (অন্যান্য অনুমান যেমন প্রদত্ত স্বাধীনতা, ধ্রুবক প্যারামিটার ইত্যাদি)

2) মুহুর্তের পদ্ধতি

এটি প্যারামিটার মানগুলি খুঁজে পায় যা প্রথম কয়েকটি জনসংখ্যার মুহুর্তগুলিকে আপনার নমুনার মুহুর্তগুলির সাথে মেলে। এটি প্রায়শই করা মোটামুটি সহজ এবং অনেক ক্ষেত্রে মোটামুটি যুক্তিসঙ্গত অনুমানক পাওয়া যায়। এটি কখনও কখনও এমএল রুটিনগুলিতে শুরুর মান সরবরাহ করতে ব্যবহৃত হয়।

3) ন্যূনতম চি-বর্গ

এটি পৃথক বিতরণের তুলনায় ফিটের পরিসংখ্যানের চি-বর্গক্ষেত্রের সদল্যকে হ্রাস করে, যদিও কখনও কখনও বড় ডেটা সেট সহ, শেষ-বিভাগগুলি সুবিধার জন্য সংযুক্ত করা যেতে পারে। এটি প্রায়শই বেশ ভালভাবে কাজ করে এবং নির্দিষ্ট পরিস্থিতিতে এমএল এর থেকে এটির পক্ষে যুক্তিযুক্ত কিছু সুবিধাও রয়েছে তবে সাধারণত এটি রূপান্তরিত হতে হবে, সেক্ষেত্রে বেশিরভাগ লোক এমএলকেই পছন্দ করেন।

প্রথম দুটি পদ্ধতি অবিচ্ছিন্ন বিতরণের জন্যও ব্যবহৃত হয়; তৃতীয়টি সাধারণত সেই ক্ষেত্রে ব্যবহার হয় না।

এগুলি কোনও উপায়ে একটি বিস্তৃত তালিকার অন্তর্ভুক্ত নয় এবং উদাহরণস্বরূপ কেএস-পরিসংখ্যানকে হ্রাস করে প্যারামিটারগুলি অনুমান করা সম্ভব হবে - এবং এমনকি (যদি আপনি বিচক্ষণতার জন্য সামঞ্জস্য করেন), এটি থেকে একটি যৌথ ব্যঞ্জনাঞ্চল পেতে , যদি আপনি থাকতেন এত ঝোঁক যেহেতু আপনি আর-তে কাজ করছেন, এমএল অনুমানটি নেতিবাচক দ্বিপদী জন্য অর্জন করা বেশ সহজ। যদি আপনার নমুনাটি থাকে তবে xএটি যতটা সহজlibrary(MASS);fitdistr (x,"negative binomial") :

> library(MASS) 
> x <- rnegbin(100,7,3)
> fitdistr (x,"negative binomial")
     size         mu    
  3.6200839   6.3701156 
 (0.8033929) (0.4192836)

সেগুলি হ'ল প্যারামিটারের অনুমান এবং তাদের (অ্যাসিপটোটিক) স্ট্যান্ডার্ড ত্রুটি।

পোইসন বিতরণের ক্ষেত্রে, এমএলই এবং মো এম এম উভয়ই নমুনা গড়ের ভিত্তিতে পোইসন প্যারামিটার অনুমান করে।

যদি আপনি উদাহরণ দেখতে চান তবে আপনার কিছু প্রকৃত সংখ্যা পোস্ট করা উচিত। মনে রাখবেন যে আপনার হিস্টগ্রামটি নির্বাচিত বিনগুলি দিয়ে সম্পন্ন হয়েছে যাতে 0 এবং 1 বিভাগগুলি একত্রিত হয় এবং আমাদের কাছে কাঁচা গণনা না থাকে।

আমি যতটা অনুমান করতে পারি তার কাছাকাছি, আপনার ডেটা মোটামুটি নীচে রয়েছে:

    Count:  0&1   2   3   4   5   6  >6    
Frequency:  311 197  74  15   3   1   0

তবে বড় সংখ্যাগুলি অনিশ্চিত হয়ে পড়বে (এটি নিম্ন-সংখ্যাগুলি কতগুলি যথাযথভাবে তাদের বার-উচ্চতাগুলির পিক্সেল-গণনা দ্বারা উপস্থাপন করা হয় তার উপর নির্ভর করে) এবং এটি সংখ্যার কিছুটা হতে পারে যেমন এই সংখ্যার দ্বিগুণ (কাঁচা গণনাগুলি প্রভাবিত করে) স্ট্যান্ডার্ড ত্রুটিগুলি, সুতরাং তারা সেই মানগুলি সম্পর্কে বা দ্বিগুণ হিসাবে বড় কিনা তা বিবেচনা করে)

প্রথম দুটি গোষ্ঠীর সংমিশ্রণটি কিছুটা বিশ্রী করে তোলে (এটি করা সম্ভব, তবে আপনি কিছু বিভাগ সংযুক্ত করলে সোজা সোজা A প্রচুর তথ্য সেই প্রথম দুটি গ্রুপে রয়েছে তাই কেবলমাত্র ডিফল্ট হিস্টোগ্রামগুলি লম্পট না করা ভাল best )।


* পৃথক পৃথক বিতরণ ফিটিংয়ের অন্যান্য পদ্ধতি অবশ্যই সম্ভব (উদাহরণস্বরূপ, ফিটের পরিসংখ্যানগুলির মধ্যে কোয়ান্টাইলগুলি মেলা বা অন্য ন্যূনতমতা কমিয়ে আনতে পারে)। আমি যেগুলির উল্লেখ করেছি সেগুলি সবচেয়ে সাধারণ বলে মনে হয়।


+1, দুর্দান্ত তথ্য। কৌতূহলের বাইরে, আপনি কেন প্রায়ই 1)সিভি সমর্থন করে এমন মার্কআপ সংখ্যার পরিবর্তে (যেমন - - 1.যা ইনডেন্টিংয়ের দিকে পরিচালিত করে) ব্যবহার করছেন বলে মনে হয় ?
গুং - মনিকা পুনরায়

1
@ গুং বেশিরভাগ ক্ষেত্রেই, আমি এটি সম্পর্কে ভাবি না - আমি আমার তালিকাগুলি যেভাবে টাইপ করি তা দেখতে আমি পছন্দ করি; কিন্তু যখন আমি এটা আমার মনে হয় আমি সংখ্যার আমি কি মনে করে তারা ব্যাপকভাবে বিরক্তিকর হতে উচিত ধরনের markdown এর সম্পাদনা খুঁজে (যদি আমি "36" টাইপ, আমি সত্যিই না মানে "1.") ... তাই যখন এটি "১" ব্যবহার করার জন্য আমার কাছে ঘটে "1)" এর পরিবর্তে আমি প্রায়শই "1" "টাইপ করি \ স্পষ্টভাবে এটির স্বীকৃতি দেওয়া এবং আমার উদ্দেশ্য নয় এমন কাজগুলি করা থেকে বিরত রাখা । আমি 5 বছরের রেডডিট থেকে এই আচরণের প্রতি এতটাই সংযুক্ত হয়ে পড়েছি যে আমি এটি সম্পর্কে ভাবিও না - আমি অভ্যাসের জোর দিয়ে স্বয়ংক্রিয়ভাবে হস্তক্ষেপ করব।
গ্লেন_বি -রিনস্টেট মনিকা

1
@ গুং যদি ইনডেন্টিংটি আরও ছোট ছিল তবে আমি সম্ভবত ঝুঁকির সাথে ঝুঁকির মুখোমুখি হয়ে এটি ব্যবহার করতে আগ্রহী। এটি যেমন দাঁড়িয়ে আছে, আমি সাধারণত এটি দেখতে পেলাম। তবে এই বিশেষ ক্ষেত্রে আমি তাদের আরও সাব-শিরোনামের মতো করে তুলতে চাইছিলাম, তাই যদি আচরণ থেকে আমাকে বিরত না করা হয় তবে আমি সম্ভবত এড়াতে চাইতাম। (অন্যদিকে, ইভেন্টগুলি অন্যান্য লোকেরা আমার তালিকাগুলি এডেন্টিংটি সম্পাদন করার জন্য সম্পাদনা করার সিদ্ধান্ত নিয়েছে, আমি সাধারণত তাদের খুশি করার জন্য এগুলি রেখে যাই certain তারা যদি এটি কোনও নির্দিষ্ট উপায়ে দেখতে চান তবে তারা যতক্ষণ না এটি করতে পারে অর্থটি
বদলান না

আমি নিজেকে সংযত করার চেষ্টা করব ;-)।
গুং - মনিকা পুনরায়

2

একটি সম্পাদনায় আপনি কিছু ডেটা দিয়েছেন এবং একটি নতুন প্রশ্ন যুক্ত করেছেন:

"এটি গণনা তথ্যের একটি ফ্রিকোয়েন্সি টেবিল my আমার সমস্যায় আমি কেবল শূন্য নন গণনাগুলিতে মনোনিবেশ করছি।

   Counts:     1    2    3    4    5    6    7    9   10 
Frequency:  3875 2454  921  192   37   11    1    1    2 

কেউ কীভাবে আমাকে এখানে ফিট টেস্টের চি-স্কোয়ারড সদ্ব্যবহার করবেন বলে একটি উদাহরণ দিতে পারেন? "

এটি আরও মন্তব্যে বাড়ে:

  1. শূন্য থাকা থাকলেও সেগুলি উপেক্ষা করতে ইচ্ছুক হতে পারে, তবে সাধারণত পরিসংখ্যানগত এবং বিষয়-বিষয়ক লোকেরা এর পিছনে একটি ভাল কারণ দেখতে চান।

  2. আপনি যদি শূন্যগুলিকে উপেক্ষা করার সিদ্ধান্ত নেন তবে আপনি নিজেকে শক্ত অঞ্চলে রেখে যাচ্ছেন, যেমন আপনি কেবল শিরোনামগুলি ছেড়ে দিলে উদাহরণস্বরূপ পোইসন বা নেতিবাচক দ্বিপদী হিসাবে কাজ করতে পারবেন না। ঠিক আছে, আপনি পারেন, তবে উত্তরগুলি ভুল হবে। শূন্য-কাটা পোয়েসন বা শূন্য-সংক্ষিপ্ত negativeণাত্মক দ্বিপদী হিসাবে বিতরণের জন্য আপনার বিশেষ উদ্দেশ্য ফাংশন বা কমান্ডগুলির প্রয়োজন। এটি চ্যালেঞ্জিং স্টাফ এবং আপনারা কী করছেন সে সম্পর্কে পরিষ্কার হওয়ার জন্য উত্সর্গীকৃত পড়া দরকার।

  3. কীভাবে চ-বর্গ পরীক্ষা করতে হবে তা আমাকে পরামর্শ দেয় যে আমি খুব সংক্ষেপে যা বলেছি তা আপনি সত্যই বুঝতে পারেন নি এবং @ গ্লেন_ বি আরও বিশদভাবে বলেছেন (এবং, আমার মনের কাছে, খুব স্পষ্টভাবে)। যে দুটি বিভক্ত:

    • প্রত্যাশিত ফ্রিকোয়েন্সি ছাড়া চি-স্কোয়ার পরীক্ষা করা যাবে না এবং প্যারামিটার অনুমান ব্যতীত কোনও প্রত্যাশিত ফ্রিকোয়েন্সি থাকতে পারে না। এটি হতে পারে আপনি চি-স্কোয়ার পরীক্ষার রুটিনগুলির সাথে সর্বাধিক পরিচিত, যেখানে দ্বিমুখী সারণীতে সারি এবং কলামগুলির স্বতন্ত্রতা পরীক্ষা করা হয়। যদিও এটি চি-স্কোয়ার পরীক্ষাটি সবচেয়ে বেশি পরিচিতি প্রাথমিক পাঠ্যক্রমগুলিতে পাওয়া যায় তবে সাধারণভাবে চি-স্কোয়ার পরীক্ষার মধ্যে এটি খুব অস্বাভাবিক যে সাধারণ সফ্টওয়্যারটি কার্যকরভাবে আপনার জন্য পরামিতি অনুমান করে এবং এর ফলে প্রত্যাশিত ফ্রিকোয়েন্সি পাওয়া যায়। এর বাইরেও, বেশিরভাগ জটিল সমস্যাগুলিতে যেমন আপনার নিজের, আপনাকে প্রথমে প্যারামিটারের অনুমান করতে হবে।

    • একটি চি-স্কোয়ার পরীক্ষাটি ভুল নয়, তবে আপনি যদি সর্বোচ্চ সম্ভাবনার দ্বারা পরামিতিগুলি অনুমান করেন তবে এটি অপ্রাসঙ্গিক কারণ ফিটনের রুটিন আপনাকে অনুমান এবং মান ত্রুটি দেয় এবং তাদের জাগাতে পরীক্ষার অনুমতি দেয়। @ গ্লেেন_বি তার উত্তরে ইতিমধ্যে একটি উদাহরণ দিয়েছেন।

পার্শ্ব-ইস্যুটি হ'ল ভেরিয়েবলের স্বতন্ত্রতার প্রতি সম্মান জানাতে এবং আপনার ঘনত্বকে না দেখিয়ে সম্ভাবনাগুলি দেখানোর জন্য আপনার হিস্টোগ্রামগুলি টুইঙ্ক করা আরও পরিষ্কার হবে। আপাত ফাঁকগুলি হ'ল কেবলমাত্র ডিফল্ট বিন নির্বাচনের প্রত্নক্ষেত্র যা ভেরিয়েবলের স্বতন্ত্রতাকে সম্মান করে না।

আপডেট: চি-স্কোয়ার পরীক্ষা সম্পর্কে পরিপূরক প্রশ্নটি এখন মুছে ফেলা হয়েছে। এই মুহুর্তের জন্য আমি উপরের তিনটি অবস্থানকে দাঁড় করিয়ে দিচ্ছি, যদি অন্য কেউ চি-স্কোয়ার পরীক্ষা চাওয়ার একই পথ অনুসরণ করে।


আমাকে শূন্যগুলি উপেক্ষা করতে হবে, কারণ আমি সক্রিয় সংখ্যার মডেল করার চেষ্টা করছি। গণনা = 0 টি নিষ্ক্রিয় গণনা হিসাবে উল্লেখ করা হয়।
ব্যবহারকারী 1769197

এটি একটি সার্বিক পছন্দ। মনে রাখবেন যে অনেক ক্ষেত্রে তথাকথিত দুটি অংশের মডেল রয়েছে, যার মধ্যে আপনি মডেল (আপনার শর্তাদিতে) সক্রিয় বনাম নিষ্ক্রিয় এবং তারপরে কতটা সক্রিয়।
নিক কক্স

আমি "প্লট (টেবিল (এবিসি), টাইপ =" এইচ ")" করে হিস্টোগ্রামগুলি টুইঙ্ক করার চেষ্টা করেছি। তবে, আমি কীভাবে এটি সম্ভাব্যতাগুলি দেখানোর জন্য পেতে পারি তা নিশ্চিত নই
ব্যবহারকারী 1769197

আমি আর ব্যবহার করি না, তবে আপনি সে বিষয়ে পরামর্শ নিতে পারেন। আপনার আলাদাভাবে জিজ্ঞাসা করার প্রয়োজন হতে পারে।
নিক কক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.