"এই বিতরণের জন্য আরও ভাল শব্দ আছে?"
বিতরণের বৈশিষ্ট্যগুলি বর্ণনা করার জন্য শব্দ ব্যবহারের মধ্যে এখানে একটি উল্লেখযোগ্য পার্থক্য রয়েছে , বনাম বিতরণের জন্য একটি "নাম" সন্ধান করার চেষ্টা করা যাতে আপনি এটি একটি নির্দিষ্ট স্ট্যান্ডার্ড বিতরণের উদাহরণ হিসাবে (প্রায়) সনাক্ত করতে পারেন: যার জন্য একটি সূত্র বা পরিসংখ্যান টেবিলগুলি এর বিতরণ কার্যের জন্য উপস্থিত থাকতে পারে এবং যার জন্য আপনি এর পরামিতিগুলি অনুমান করতে পারেন। এই পরবর্তী ক্ষেত্রে আপনি সম্ভবত নামকৃত বিতরণ ব্যবহার করছেন, যেমন "নরমাল / গাউসিয়ান" (দুটি শব্দটি সাধারণত সমার্থক শব্দ), এমন একটি মডেল হিসাবে যা আপনার ডেটা জনসংখ্যার দাবি না করে আপনার ডেটার কিছু মূল বৈশিষ্ট্য ক্যাপচার করে থেকে আঁকা ঠিক তাত্ত্বিক বিতরণ। জর্জ বক্সকে কিছুটা ভুল জিজ্ঞাসা করতে,সমস্ত মডেল "ভুল", তবে কিছু দরকারী। আপনি যদি মডেলিং পদ্ধতির বিষয়ে চিন্তাভাবনা করে থাকেন তবে আপনি কী বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করতে চান এবং আপনার মডেলটি কতটা জটিল বা পার্সামোনিয়াস হতে চান তা বিবেচনা করা উচিত।
হচ্ছে ইতিবাচক স্কিউ বন্টন আছে, কিন্তু নির্দিষ্ট যা বন্ধ-বালুচর বন্টন হয় "" উপযুক্ত মডেল পাসে আসে না যে একটি সম্পত্তি বর্ণনাকারী একটি উদাহরণ। এটি কিছু প্রার্থীকে বাতিল করে দেয় না, উদাহরণস্বরূপ গাউসীয় (যেমন স্বাভাবিক) বিতরণে শূন্য স্কু থাকে তাই যদি স্কু একটি গুরুত্বপূর্ণ বৈশিষ্ট্য হয় তবে আপনার ডেটা মডেল করা উপযুক্ত হবে না। আপনার কাছে ডেটাগুলির অন্যান্য বৈশিষ্ট্যও রয়েছে যা আপনার পক্ষেও গুরুত্বপূর্ণ, যেমন এটি অবিমোচনীয় (কেবল একটি শিখর রয়েছে) বা এটি 0 থেকে 24 ঘন্টা (বা 0 এবং 1 এর মধ্যে সীমাবদ্ধ) যদি আপনি এটি ভগ্নাংশ হিসাবে লিখছেন তবে দিনের), বা যে শূন্যে কেন্দ্রীভূত হওয়ার সম্ভাবনা রয়েছে (যেহেতু এমন কোনও লোক রয়েছে যারা নির্দিষ্ট দিনে ইউটিউব দেখেন না)।কুরটোসিস । এবং এটি মনে রাখা উচিত যে আপনার বিতরণে যদি "হাম্প" বা "বেল-কার্ভ" আকৃতি এবং শূন্য বা কাছাকাছি-শূন্য স্কু থাকে, এটি স্বয়ংক্রিয়ভাবে অনুসরণ করে না যে এটির জন্য সাধারণ বিতরণটি "সঠিক"? অন্যদিকে, স্যাম্পলিংয়ের ত্রুটির কারণে আপনার জনসংখ্যার ডেটা আসলে কোনও নির্দিষ্ট বন্টনকে যথাযথভাবে অনুসরণ করেছিলআপনার ডেটাসেটটি এর সাথে সাদৃশ্যপূর্ণ নয়। ছোট ডেটা সেটগুলি "গোলমাল" হওয়ার সম্ভাবনা রয়েছে, এবং আপনি কিছু নির্দিষ্ট বৈশিষ্ট্য যেমন দেখতে পাচ্ছেন কিনা তা অস্পষ্ট হতে পারে, যেমন অতিরিক্ত ছোট কুঁচি বা অসামান্য লেজগুলি, অন্তর্নিহিত জনসংখ্যার বৈশিষ্ট্য যা ডেটা আঁকা হয়েছিল (এবং সম্ভবত তাই সংযোজন করা উচিত আপনার মডেলটিতে) বা সেগুলি কেবল আপনার নির্দিষ্ট নমুনা থেকে শিল্পী (এবং মডেলিংয়ের উদ্দেশ্যে অগ্রাহ্য করা উচিত)। আপনার যদি একটি ছোট ডেটা সেট থাকে এবং স্কিউ শূন্যের কাছাকাছি থাকে তবে অন্তর্নিহিত বিতরণটি আসলে প্রতিসাম্যিক হলেও এটি প্রশংসনীয়। আপনার ডেটা সেট যত বড় হবে এবং স্কিউনেস তত বৃহত্তর হবে, ততই আপনি এটি তাত্পর্যপূর্ণ পরীক্ষা করতে পারেন - তবে আপনার ডেটা যে পরিমাণ জনসংখ্যার থেকে আঁকানো হয়েছিল তাতে সঙ্কুচিত হওয়ার প্রমাণ কীভাবে নিশ্চিত তা প্রমাণ করার জন্য, এটি একটি সাধারণ (বা অন্যান্য শূন্য স্কিউ) বিতরণ মডেল হিসাবে উপযুক্ত কিনা তা এই বিন্দুটি হারিয়ে যেতে পারে ...
আপনি যে উদ্দেশ্যে এটির মডেল তৈরি করতে চান তার জন্য ডেটার কোন বৈশিষ্ট্য সত্যই গুরুত্বপূর্ণ? মনে রাখবেন যে যদি স্কুটি যুক্তিসঙ্গতভাবে ছোট হয় এবং আপনি যদি এটির বিষয়ে খুব বেশি চিন্তা করেন না তবে এমনকি অন্তর্নিহিত জনসংখ্যা সত্যিকার অর্থে স্কিউড থাকলেও আপনি এখনও সাধারণ বিতরণটিকে দেখার সময়গুলির এই সত্য বন্টনের আনুমানিক জন্য একটি দরকারী মডেল পেতে পারেন। তবে আপনার চেক করা উচিত যে এটি নির্বোধ ভবিষ্যদ্বাণীগুলি শেষ করে না। কারণ একটি সাধারণ বিতরণের কোনও সর্বোচ্চ বা সর্বনিম্ন সম্ভাব্য মান নেই, তবে চূড়ান্ত উচ্চ বা নিম্ন মানগুলি ক্রমশ অসম্ভব হয়ে উঠলেও, আপনি সর্বদা দেখতে পাবেন যে আপনার মডেলটি ভবিষ্যদ্বাণী করেছে কিছু আছেপ্রতিদিন নেতিবাচক সংখ্যক ঘন্টা বা 24 ঘন্টাের বেশি দেখার সম্ভাবনা। যদি এই ধরনের অসম্ভব ঘটনার পূর্বাভাস সম্ভাবনা বেশি হয়ে যায় তবে এটি আপনার জন্য আরও সমস্যাযুক্ত হবে। স্বাভাবিকের মতো প্রতিসাম্য বন্টন ভবিষ্যদ্বাণী করে যে অনেক মানুষ দৈর্ঘ্যের জন্য যেমন গড়ের তুলনায় 50% এর চেয়ে বেশি সময় দেখবে, গড় হিসাবে 50% এর চেয়ে কম ঘড়ি হিসাবে দেখবে। যদি দেখার সময়গুলি খুব স্কিউড হয় তবে এই ধরণের পূর্বাভাসটি মূর্খ হওয়ার মতো অবাস্তবও হতে পারে এবং যদি আপনি আপনার মডেলটির ফলাফলগুলি গ্রহণ করছেন এবং সেগুলি অন্য কোনও উদ্দেশ্যে ইনপুট হিসাবে ব্যবহার করছেন তবে আপনাকে বিভ্রান্তিকর ফলাফল দেবে (উদাহরণস্বরূপ, আপনি 'অনুকূল বিজ্ঞাপনের সময়সূচী গণনা করার জন্য দেখার সময়গুলির সিমুলেশন চালাচ্ছেন)। যদি স্কিউনেসটি লক্ষণীয় হয় তবে আপনি এটি আপনার মডেলের অংশ হিসাবে ক্যাপচার করতে চান, তবেস্কিউ সাধারণ বিতরণ আরও উপযুক্ত হতে পারে। যদি আপনি স্কিউনেস এবং কুর্তোসিস উভয়ই ক্যাপচার করতে চান তবে স্কিউ টি বিবেচনা করুন । আপনি শারীরিকভাবে সম্ভব উচ্চ এবং নিম্ন সীমা নিগমবদ্ধ চান, তাহলে ব্যবহারের বিষয়ে বিবেচনা ছেঁটে ফেলা এই ডিস্ট্রিবিউশন সংস্করণ। অন্যান্য অনেক সম্ভাব্য বিতরণ উপস্থিত রয়েছে যা এফ বা গামা বিতরণের মতো স্কিউড এবং ইউনিমোডাল (উপযুক্ত প্যারামিটার পছন্দগুলির জন্য) হতে পারে এবং আবার আপনি এগুলি কেটে ফেলতে পারেন যাতে তারা অসম্ভব উচ্চ পর্যবেক্ষণের সময় পূর্বাভাস না দেয়। একটি বিটা বিতরণআপনি যদি অতিবাহিত দিনের যে অংশটি দেখার জন্য ব্যয় করেছেন তার মডেলিং করা ভাল পছন্দ হতে পারে, কারণ এটি সর্বদা 0 এবং 1 এর মধ্যে আবদ্ধ থাকে যাতে আরও কাটা ছাড়াই প্রয়োজনীয় হয়। যদি আপনি অ-প্রহরীদের কারণে সম্ভাব্যতার ঘনত্বকে ঠিক শূন্যে অন্তর্ভুক্ত করতে চান তবে একটি বাধা মডেল হিসাবে বিল্ডিং বিবেচনা করুন ।
তবে আপনি যে তথ্যটি নিজের ডেটা থেকে সনাক্ত করতে পারেন এবং যে একটি আরও অত্যাধুনিক মডেল তৈরি করতে পারেন সেই বৈশিষ্ট্যটি ছুঁড়ে ফেলার চেষ্টা করছেন, সম্ভবত আপনার নিজেকে জিজ্ঞাসা করা উচিত কেন আপনি এটি করছেন কেন ? একটি সহজ মডেলের কি কোনও সুবিধা থাকবে, উদাহরণস্বরূপ গণিতের সাথে কাজ করা সহজ হওয়া বা অনুমান করার জন্য কম পরামিতি থাকা? আপনি যদি উদ্বিগ্ন হন যে এই জাতীয় সরলকরণ আপনাকে আপনার আগ্রহের সমস্ত সম্পত্তি ক্যাপচারে অক্ষম রাখবে, তবে এটি ভাল হতে পারে যে কোনও "অফ-দ্য শেল্ফ" বিতরণ আপনি যা চান তা তেমন করে না। তবে আমরা নামযুক্ত বিতরণগুলির সাথে কাজ করার মধ্যে সীমাবদ্ধ নেই যার গাণিতিক বৈশিষ্ট্যগুলি পূর্বে বর্ণিত হয়েছে uc পরিবর্তে, একটি অভিজ্ঞতা অভিজ্ঞতা বিতরণ ফাংশন নির্মাণ করতে আপনার ডেটা ব্যবহার বিবেচনা করুন। এটি আপনার ডেটাতে উপস্থিত সমস্ত আচরণ ক্যাপচার করবে, তবে আপনি এটিকে আর "সাধারণ" বা "গামা" এর মতো নাম দিতে পারবেন না, বা আপনি কেবল কোনও নির্দিষ্ট বিতরণের সাথে সম্পর্কিত গাণিতিক বৈশিষ্ট্য প্রয়োগ করতে পারবেন না। উদাহরণস্বরূপ, "95% উপাত্তে গড়ের 1.96 স্ট্যান্ডার্ড বিচ্যুতির মধ্যে রয়েছে" নিয়মটি সাধারণত বিতরণ করা ডেটার জন্য এবং এটি আপনার বিতরণে প্রযোজ্য নয়; তবে মনে রাখবেন যে কিছু বিধি সমস্ত বিতরণে প্রযোজ্য যেমন, চেবিশেভের অসমতার গ্যারান্টি কমপক্ষেআপনার ডেটা 75% অবশ্যই স্কিউ নির্বিশেষে গড়ের দুটি স্ট্যান্ডার্ড বিচরণের মধ্যে থাকা উচিত। দুর্ভাগ্যক্রমে ইমিরিকাল ডিস্ট্রিবিউশন আপনার তাত্পর্যপূর্ণভাবে সেট করা সমস্ত তথ্যের অধিকারী হবে যা কেবলমাত্র অন্তর্নিহিত জনসংখ্যার অধিকারী নয়, কেবলমাত্র নমুনা ত্রুটির মাধ্যমে উত্পন্ন হয়েছে, সুতরাং আপনি খুঁজে পেতে পারেন যে আপনার গবেষণামূলক বিতরণের কোনও হিস্টোগ্রামে কিছুটা কুঁকড়ে গেছে এবং জনসংখ্যা নিজেই নয় । আপনি নমুনা আকার বাড়িয়ে ধীরে ধীরে অভিজ্ঞতামূলক বিতরণ ফাংশনগুলি তদন্ত করতে চাইতে পারেন বা আরও ভাল।
সংক্ষিপ্তসারে: যদিও সাধারণ বিতরণ শূন্য স্কু থাকে, আপনার ডেটা স্কিউড হওয়ার বিষয়টি সাধারণ মডেল হিসাবে কার্যকর বিতরণটিকে অস্বীকার করে না, যদিও এটি প্রস্তাব দেয় যে আরও কিছু বিতরণ আরও উপযুক্ত হতে পারে। আপনার মডেলটি বেছে নেওয়ার সময় আপনার স্কু ছাড়াও ডেটার অন্যান্য বৈশিষ্ট্যগুলি বিবেচনা করা উচিত এবং আপনি যে মডেলটির জন্য মডেলটি ব্যবহার করতে চলেছেন সেগুলিও বিবেচনা করুন। এটি বলা নিরাপদ যে আপনার দেখার সময়গুলির সঠিক জনসংখ্যা হ'ল কিছু বিখ্যাত, নামযুক্ত বিতরণ অনুসরণ করে না, তবে এর অর্থ এই নয় যে এই জাতীয় বন্টন একটি মডেল হিসাবে অকেজো হতে পারে। যাইহোক, কিছু উদ্দেশ্যে আপনি এটিতে একটি আদর্শ বন্টন ফিট করার চেষ্টা না করে কেবল অভিজ্ঞতা অভিজ্ঞতা বিতরণ করতে পছন্দ করতে পারেন।