ন্যূনতম, গড় এবং সর্বোচ্চ থেকে বিতরণ গণনা করা হচ্ছে


10

ধরা যাক, আমার কাছে ন্যূনতম, গড় এবং সর্বোচ্চ কিছু ডেটা সেট রয়েছে, বলুন, 10, 20 এবং 25।

  1. এই ডেটা থেকে একটি বিতরণ তৈরি করুন, এবং

  2. জনসংখ্যার কত শতাংশ সম্ভবত গড়ের উপরে বা নীচে রয়েছে তা জেনে নিন

সম্পাদনা:

গ্লেনের পরামর্শ অনুসারে, ধরুন আমাদের একটি 200 আকারের নমুনা রয়েছে।


(1) সহজ, কারণ অনেকগুলি সমাধান রয়েছে। (২) বিতরণ আকার সম্পর্কে কিছু অনুমানের প্রসঙ্গে সর্বোত্তমভাবে সম্পন্ন করা হয়, অন্যথায় আপনি যা অর্জন করতে পারেন তা হ'ল গাণিতিক সীমানা।
whuber

3
আপনাকে এ পর্যন্ত মন্তব্য এবং জবাবগুলিতে আক্ষরিক অর্থে নিয়ে যাওয়া হচ্ছে, তবে একটি প্রয়োজনীয় সতর্কতা (স্পষ্টতই, আমি মনে করি, @ হোয়বারের মন্তব্যে) এমন তথ্যগুলির সাথে সামঞ্জস্যপূর্ণ এমন অনেকগুলি বন্টন রয়েছে যাতে আপনার অনুমান করা উচিত নয় যে আপনার পর্যাপ্ত তথ্য রয়েছে একেবারে ভাল বা নির্ভরযোগ্যভাবে এটি করতে। বিশেষত, আপনি যদি নমুনা আকারটি না জানেন তবে আপনি অনিশ্চয়তা সম্পর্কে ভাবতেও বেশি কিছু করতে পারবেন না।
নিক কক্স

যখন আপনি "গড়ের উপরে বা নীচে অবস্থিত" জনসংখ্যার অনুপাত সম্পর্কে জিজ্ঞাসা করেন ... আপনি কি সেখানে নমুনার গড় বা জনসংখ্যার মানে তুলনামূলক জিজ্ঞাসা করছেন? আমরা কি অবিচ্ছিন্ন বা পৃথক ভেরিয়েবল সম্পর্কে কথা বলছি? আমরা কি নমুনা আকার জানি?
গ্লেন_বি

উত্তর:


10

আমার কাছে ন্যূনতম, গড় এবং সর্বাধিক কিছু ডেটা সেট রয়েছে, বলুন, 10, 20 এবং 25। এখানে উপায় আছে কি:

এই ডেটা থেকে একটি বিতরণ তৈরি করুন, এবং

অসীম সংখ্যক বিতরণ রয়েছে যা সেই নমুনার পরিমাণের সাথে সামঞ্জস্যপূর্ণ।

জনসংখ্যার কত শতাংশ সম্ভবত গড়ের উপরে বা নীচে রয়েছে তা জেনে নিন

কিছু সম্ভবত অযৌক্তিক অনুমানের অনুপস্থিতিতে, সাধারণভাবে নয় - কমপক্ষে এটি খুব অর্থবোধের সাথে নয় যে এটি অর্থবহ হবে। ফলাফলগুলি মূলত আপনার অনুমানের উপর নির্ভর করবে (মানগুলিতে তাদের খুব বেশি তথ্য নেই, যদিও কিছু নির্দিষ্ট ব্যবস্থা কিছু দরকারী তথ্য দেয় - নীচে দেখুন)।

অনুপাত প্রশ্নের উত্তরগুলি খুব আলাদা হতে পারে এমন পরিস্থিতি নিয়ে আসা কঠিন নয়। যখন তথ্যের সাথে সামঞ্জস্যপূর্ণ খুব আলাদা উত্তর পাওয়া যায় তখন আপনি কীভাবে জানবেন যে আপনি কোন পরিস্থিতিতে আছেন?

আরও বিশদগুলি সহায়ক ক্লু দিতে পারে তবে এটি যেমন দাঁড়িয়েছে (এটি একটি নমুনার আকার ছাড়াইও সম্ভবত এটি কমপক্ষে 2 বা 3 বা এর অর্থ যদি শেষ প্রান্তের মধ্যে অর্ধেক না হয় *) তবে আপনি অগত্যা প্রশ্নটির খুব বেশি মূল্য পাবেন না । আপনি সীমানা পেতে চেষ্টা করতে পারেন, তবে অনেক ক্ষেত্রে তারা জিনিসগুলিকে খুব একটা সংকুচিত করবেন না।

* আসলে যদি গড়টি এক প্রান্তের কাছাকাছি থাকে তবে আপনি নমুনা আকারের উপর কিছুটা নিচু পেতে পারেন। উদাহরণস্বরূপ, যদি আপনার ন্যূনতম / গড় / সর্বোচ্চের জন্য 10,20,25 এর পরিবর্তে আপনার তখন 10 24% ছিলnকমপক্ষে 15 হতে হবে, এবং এটিরও পরামর্শ দেয় যে জনসংখ্যার বেশিরভাগের বয়স 24 এর উপরে; এইটা একটা জিনিস. তবে যদি এটি 10,18,25 বলা হয় তবে নমুনার আকারটি কী হতে পারে তার একটি দরকারী ধারণা পাওয়া অনেক কঠিন, গড়ের নীচে অনুপাতটি ছেড়ে দিন।


2
@ ডি জনসন আমার মনে হয় না এটি হাইপারবোলিক - এটি বেশ আক্ষরিক অর্থেই সত্য (যদিও তাদের তালিকাভুক্ত করার ক্ষমতা আমাদের কয়েক হাজার পরে ব্যর্থ হতে পারে এবং তাদের তালিকা চালিয়ে যাওয়ার যত্ন নেওয়ার দক্ষতা কয়েক ডজন পরে ব্যর্থ হতে পারে, এর অর্থ এই নয়) অনুমানের অন্য কোনও সেট নেই যা আমরা এর অধীনে পরিচালনা করতে পারি)। আমার শব্দবন্ধগুলিতে সংশ্লেষণের কোনও উদ্দেশ্য ছিল না - ইচ্ছাকৃতভাবে অনুমানের সম্ভাব্য সেটগুলির প্রকৃত প্রশস্ততা ইঙ্গিত করার জন্য এটি ইচ্ছাকৃতভাবে বেছে নেওয়া হয়েছিল। আপনি আমার কি লিখতে চান?
গ্লেন_বি -রিনস্টেট মনিকা

3
1. সর্বাধিক দুটি পরামিতিগুলিতে সীমাবদ্ধ করার কারণ কী? উদাহরণস্বরূপ, যদি কোনও তিনটি পরামিতি লগনরমাল থেকে ডেটা আঁকানো হয় তবে কী হবে? অনেক ক্ষেত্রে আমরা ডেটা থেকে সমস্ত পরামিতি অনুমান করতে পারি না, তবে আমি সেখানে উত্সাহিত করার চেষ্টা করছি এমন সমস্যার একটি অংশ (এটি অনুমানের আলোচনার সাথে সম্পর্কিত। ২. জনসন এবং কোটজ লোকেরা কী বিতরণের নাম দিয়েছে তার একটি উপসেট) / একটি কি অনুমানের উপর আবদ্ধ সঙ্গে কাজ করেন দূরবর্তী অবস্থান থেকে না সম্ভব । আমি অনেক ডিস্ট্রিবিউশন যে জনসন এবং Kötz মধ্যে নয়, এবং উদ্ভাবিত পেয়েছেন ... ctd
Glen_b -Reinstate মনিকা

4
সিটিডি ... আমি বেশ নিশ্চিত যে এগুলি এখানেই বাতিল নয়। এমনকি কোনও অনির্ধারিত প্যারামিটার না থাকলেও সম্ভাব্য সিডিএফগুলির একটি অসীমতা রয়েছে, একটি নির্দিষ্ট-সীমাবদ্ধ উপসেট যা নির্দিষ্ট তথ্য দ্বারা প্রত্যাখ্যানযোগ্য নয়।
গ্লেন_বি -রিনস্টেট মনিকা

1
@ জোহসন যে কোনও মতবিরোধের পরিমাণ যতই থাকুক না কেন, আমি আপনার সহায়ক মন্তব্যের প্রশংসা করি। আমি যা বলছি তা কমপক্ষে আরও স্পষ্টভাবে ইঙ্গিত করতে হবে কিনা তা বিবেচনা করব (আমার আসল দাবি প্রমাণের পক্ষে সক্ষম ছিল, যদি এটির প্রয়োজন ছিল, তবে সম্ভবত আমি এটি কমপক্ষে পরিষ্কারভাবে বলতে পারি), এবং সেখানে এটি আলাদাভাবে চিহ্নিত করা উচিত কিনা।
গ্লেন_বি -রিনস্টেট মনিকা

4
@ ডি জনসন শর্ত পূরণ করে দুটি ভিন্ন বিতরণ করুন: দুটির কোনও মিশ্রণ এখনও উল্লিখিত শর্তাদি পূরণ করবে। এটি আক্ষরিক অর্থে একটি অনন্ত: একটি অগণিত।
এলভিস

8

Glen_b দ্বারা ইতিমধ্যে উল্লিখিত হিসাবে , অসীম অনেক সম্ভাবনা রয়েছে। নিম্নলিখিত প্লটগুলি একবার দেখুন, তারা আটটি আলাদা বিতরণ দেখায় যা একই ন্যূনতম, সর্বাধিক এবং গড় হয়।

আটটি বিভিন্ন বিতরণ

লক্ষ্য করুন যে তারা একে অপরের থেকে খুব আলাদা। প্রথমটি অভিন্ন, সামনে ত্রিভুজাকৃতির বিতরণের একটি দ্বি-দ্বৈত মিশ্রণ, সপ্তমীর বেশিরভাগ সম্ভাব্য ভর কেন্দ্রের চারপাশে কেন্দ্রীভূত হয়, তবে এখনও নূন্যতম এবং সর্বাধিক খুব কম সম্ভাবনার সাথে সম্ভব হয়, আটটি পৃথক এবং এর নূন্যতম এবং সর্বাধিক ইত্যাদিতে মাত্র দুটি মান থাকে ইত্যাদি etc ।

যেহেতু তারা সকলেই আপনার মানদণ্ডগুলি পূরণ করে, আপনি তাদের যেকোনটি সিমুলেশনের জন্য ব্যবহার করতে পারেন। তবে আপনার বিষয়গত পছন্দটির সিমুলেশন ফলাফলের উপর খুব গভীর ফলাফল হবে। কি আমি বলতে চাই যে যদি সর্বনিম্ন, সর্বোচ্চ এবং গড় সত্যিই হয় শুধুমাত্র জিনিস যে আপনি বন্টন সম্পর্কে জানতে, তাহলে আপনি সিমুলেশন আচার যদি আপনি অনুকরণ করতে সত্যিই এটি করতে চান বাস্তব (অজানা) বন্টন অপর্যাপ্ত তথ্য নেই।

তাই আপনি যদি নিজেকে কি জিজ্ঞাসা করতে হবে না আপনি ডিস্ট্রিবিউশন সম্পর্কে জানেন? এটি কি বিচ্ছিন্ন বা ধারাবাহিক? প্রতিসম বা স্কিউড? ইউনিমোডাল নাকি বিমোডাল? বিবেচনা করার মতো অনেক বিষয় রয়েছে। যদি এটি অবিচ্ছিন্ন, অ-ইউনিফর্ম এবং ইউনিমোডাল হয় এবং আপনি কেবল ন্যূনতম, সর্বাধিক এবং গড়টি জানেন তবে তার একটি সম্ভাব্য পছন্দ ত্রিভুজাকৃতির বিতরণ - এটি সত্যিকারের জীবনের কোনও কিছুরই বন্টন হওয়ার সম্ভাবনা খুব কম, তবে কমপক্ষে আপনি সাধারণ কিছু ব্যবহার করছেন এবং এর আকৃতি সম্পর্কে অনেক বেশি অনুমান চাপিয়ে দেওয়া হয় না।


সুতরাং আমি যদি একটি ত্রিভুজাকার বিতরণ ধরে নিই তবে আমি আমার বর্তমান তথ্যের সাথে মোডটিও গণনা করতে পারি। যে সাহায্য করবে?
ব্যবহারকারী 132053

1
@ ব্যবহারকারী 132053 আপনার কেবল মিনি, সর্বোচ্চ এবং গড় প্রয়োজন। ত্রিভুজাকার বিতরণের গড় সূত্র হ'ল (a + b + c) / 3 আপনি সাধারণ গাণিতিক ব্যবহার করে মোডের জন্য এটি সমাধান করতে পারেন।
টিম

4

স্ট্যানডার্ড ডেভিয়েশন গণনা করার জন্য একটি পরিসর ভিত্তিক নিয়ম ব্যাপকভাবে পরিসংখ্যানগত সাহিত্যে উদ্ধৃত করা (এখানে এক রেফারেন্স ... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -ডাইভিশন.চটিএম )। মূলত এটি (সর্বোচ্চ-মিনিট) / 4। এটি খুব রুক্ষ অনুমান হিসাবে পরিচিত।

সেই তথ্য এবং সাধারণত বিতরণ করা ডেটা ধরে নেওয়ার আগ্রহের কারণে , স্বাভাবিক বিচ্যুতি দুটি সংখ্যা থেকে শুরু করা যেতে পারে, গড় এবং পরিসীমা ভিত্তিক স্ট্যান্ড ডিভিয়েশন। এটি বলেছিল, যে কোনও এক বা দ্বি-প্যারামিটার বিতরণটি এই দুটি টুকরো তথ্য থেকে তৈরি করা যেতে পারে, যতক্ষণ না সেই বিতরণ প্রথম বা দ্বিতীয় মুহুর্তে মূলের মধ্যে ছিল।

এসডি / গড়ের অনুপাত গ্রহণ করে ভিন্নতার একটি মোট সহগ তৈরি করা যেতে পারে। এটি ডেটাতে ইউনিটবিহীন পরিবর্তনশীলতার জন্য একটি প্রক্সি সরবরাহ করবে।

ত্রুটি আরও সঠিকভাবে জনসংখ্যার নমুনা বিতরণ বোঝায় এবং অনুমানের জন্য নমুনা আকার, এন এর একটি বিবৃতি প্রয়োজন । আপনার বিবরণটি এই বিশদটি সরবরাহ করে না।


3
লক্ষণীয় কিছু বিষয়: (১) গড়টি সম্ভাব্য আরও তথ্য দেয় যা (সর্বোচ্চ-মিনিট) / 4 বিধিটিকে ওভাররাইড করে। (২) যেহেতু তিনটি তথ্য দেওয়া হয়, কেবলমাত্র দুটি প্যারামিটারের পরিবার ব্যবহার করে সাধারণভাবে নমনীয়তার ডিগ্রি থাকে।
whuber

@ হুবুহু আপনি এই থ্রেডে দুটি আকর্ষক মন্তব্য করেছেন। আপনি যদি সেগুলি বিস্তারিতভাবে বর্ণনা করেন এবং কোনও প্রতিক্রিয়া নির্দিষ্ট করেন তবে দুর্দান্ত কি হবে।
মাইক হান্টার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.