স্বাভাবিক বিতরণের জন্য স্কিউনেস এবং কুর্তোসিসের মানগুলির ব্যাপ্তি


11

আমি জানতে চাই যে স্কিউনেস এবং কুর্তোসিসের মানগুলির পরিসীমা কী যার জন্য ডেটা সাধারণত বিতরণ করা হয় বলে মনে করা হয়?

আমি অনেক যুক্তি পড়েছি এবং বেশিরভাগ ক্ষেত্রেই আমি মিশ্রিত উত্তর পেয়েছি। কিছু বলছেন বক্রতা জন্য এবং সূঁচালতা জন্য স্বাভাবিকভাবে বিতরণ হচ্ছে একটি গ্রহণযোগ্য পরিসর। কেউ কেউ বলেন skewness জন্য একটি গ্রহণযোগ্য পরিসীমা। আমি এখানে একটি বিশদ আলোচনা পেয়েছি: এই সমস্যা সম্পর্কিত ডেটার সাধারণ বিতরণের জন্য স্কিউনেস এবং কুর্তোসিসের গ্রহণযোগ্য পরিসরটি কী । তবে আমি কোনও সিদ্ধান্তমূলক বিবৃতি পাইনি।(1,1)(2,2)(1.96,1.96)

এই ধরনের ব্যবধান সিদ্ধান্ত নেওয়ার ভিত্তি কী? এটি কি বিষয়ভিত্তিক পছন্দ? নাকি এই অন্তরগুলির পিছনে কোনও গাণিতিক ব্যাখ্যা আছে?


3
কি বা কে "গ্রহণযোগ্য" সংজ্ঞা দেয়?
গ্লেন_বি -রিনস্টেট মনিকা

এটা একটা ভালো প্রশ্ন. এর জন্য আমার স্পষ্ট উত্তর নেই।
অন্ধকার_কানাইট

আমি কি এই ভেবে সঠিক হয়েছি যে আপনার প্রশ্নের পিছনে রাখা কিছু অন্তর্নিহিত পদ্ধতি, এর ধারায় কিছু: "এই মডেলটি অনুমান করার / পরীক্ষাটি সম্পাদন করার আগে, নমুনা স্কিউনেস এবং কুর্তোসিস পরীক্ষা করুন they যদি তারা উভয় কিছু পূর্বনির্ধারিত রেঞ্জের মধ্যে কিছু ব্যবহার করে তবে সাধারণ তত্ত্বের পদ্ধতি, অন্যথায় অন্য কিছু ব্যবহার করুন। ...?
গ্লেন_বি -রিনস্টেট মনিকা

যদি তা হয় তবে সাধারণ-অনুমানের সাথে আপনি কী এমন পদ্ধতি ব্যবহার করতে পারেন সেই পদ্ধতিগুলি কী কী? আপনি এটিতে কী পরিবর্তনশীল পরীক্ষা করবেন? আপনি কীভাবে বিকল্প পদ্ধতি ব্যবহার করবেন যদি আপনি সিদ্ধান্তে পৌঁছে যে তারা কিছু মানদণ্ডের দ্বারা "গ্রহণযোগ্য" না হয়?
গ্লেন_বি -রাইনস্টেট মনিকা

এছাড়াও - এবং এটি প্রসঙ্গের জন্য গুরুত্বপূর্ণ হতে পারে, বিশেষত যে ক্ষেত্রে কিছু সীমানা বেছে নেওয়ার জন্য কিছু যুক্তি দেওয়া হয় - আপনি যে কোনও উদ্ধৃতি অন্তর্ভুক্ত করতে পারেন যা আপনি ধরে রাখতে পারেন (বিশেষত যেখানে প্রস্তাবিত রেঞ্জগুলি বেশ বিভিন্ন)? এমন একটি বিষয় যা এই জাতীয় প্রেক্ষাপট থেকে জানতে কার্যকর হবে - তারা কোন পরিস্থিতিতে এই ধরণের জিনিস ব্যবহার করছে?
গ্লেন_বি -রাইনস্টেট মনিকা

উত্তর:


6

মূল পোস্টটি কয়েকটি প্রধান পয়েন্ট মিস করে: (1) কোনও "ডেটা" কখনও সাধারণভাবে বিতরণ করা যায় না। অগত্যা ডেটা আলাদা হয়। বৈধ প্রশ্নটি হ'ল, "এমন প্রক্রিয়া যা ডেটা উত্পাদন করে যা সাধারণত বিতরণ করা হয়?" তবে (২) দ্বিতীয় প্রশ্নের উত্তর সর্বদা "না", তথ্যের ভিত্তিতে কোনও পরিসংখ্যান পরীক্ষা বা অন্যান্য মূল্যায়ন আপনাকে যা দেয় তা নির্বিশেষে is সাধারণত বিতরিত প্রক্রিয়াগুলি অসীম ধারাবাহিকতা, নিখুঁত প্রতিসাম্য এবং স্ট্যান্ডার্ড বিচ্যুতি ব্যাপ্তিগুলির (যেমন 68৮-৯৯ -৯৯..7) মধ্যে নির্দিষ্টভাবে নির্দিষ্ট সম্ভাবনার সাথে ডেটা উত্পাদন করে, যার মধ্যে কোনওটিই প্রসেসের জন্য ঠিক সঠিক নয় যা ডেটা জন্মায় যা আমরা যা দিয়ে পরিমাপ করতে পারি আমরা মানুষ ব্যবহার করতে পারি পরিমাপ ডিভাইস।

সুতরাং আপনি কখনই ডেটাটিকে সাধারণভাবে বিতরণ করা হিসাবে বিবেচনা করতে পারবেন না এবং আপনি কখনই সেই প্রক্রিয়াটিকে বিবেচনা করতে পারবেন না যা ডেটা উত্পন্ন করে তা সাধারণভাবে বিতরণকৃত প্রক্রিয়া হিসাবে বিবেচনা করে। তবে, যেমন গ্লেন_বি ইঙ্গিত করেছে, আপনি ডেটা দিয়ে যা করার চেষ্টা করছেন তার উপর নির্ভর করে এটি খুব বেশি গুরুত্ব পাবে না।

অসুবিধা এবং কুর্তোসিসের পরিসংখ্যান আপনাকে আপনার ডেটা উত্পন্নকরণের প্রক্রিয়াটির স্বাভাবিকতা থেকে কিছু ধরণের বিচ্যুতি মূল্যায়নে সহায়তা করতে পারে। যদিও এগুলি অত্যন্ত পরিবর্তনশীল পরিসংখ্যান। উপরে বর্ণিত স্ট্যান্ডার্ড ত্রুটিগুলি কার্যকর হয় না কারণ এগুলি কেবলমাত্র স্বাভাবিকতার অধীনে বৈধ, যার অর্থ তারা কেবলমাত্র স্বাভাবিকতার পরীক্ষা হিসাবে দরকারী, এটি মূলত অকেজো অনুশীলন। সেগুলির সন্ধানের জন্য বুটস্ট্র্যাপ ব্যবহার করা ভাল, যদিও সঠিক সেগুলির জন্য বড় নমুনাগুলির প্রয়োজন হবে।

এছাড়াও, কার্টোসিসটি উপরোক্ত পোস্টের বিপরীতে ব্যাখ্যা করা খুব সহজ। এটি Z মানগুলির গড় (বা প্রত্যাশিত মান), প্রত্যেকটি চতুর্থ শক্তিতে নিয়ে যায়। বড় | জেড | | মানগুলি অপ্রদর্শক এবং কুর্তোসিসে প্রচুর অবদান রাখে। ছোট | জেড | মানগুলি, যেখানে বিতরণের "শীর্ষস্থান" সেখানে Z Z 4 মানগুলি ক্ষুদ্রতর দেয় এবং কুর্তোসিসে মূলত কিছুই অবদান রাখে না। আমি আমার নিবন্ধটি https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ এ প্রমাণ করেছি যে জুর ^ 4 * আই (| জেড |> 1) মানগুলির গড় দ্বারা কুর্তোসিস খুব ভালভাবে অনুমেয়। অতএব কুর্তোসিস বিদেশী উত্পাদন করতে ডেটা তৈরির প্রক্রিয়াটির প্রবণতা পরিমাপ করে।


কেবল পরিষ্কার করার জন্য, "সাধারণত বিতরণ প্রক্রিয়া" বলতে আপনার অর্থ কী? আমি এলোমেলো পরিবর্তন এবং র্যান্ডম ভেরিয়েবলের ধারাবাহিকতা সম্পর্কে যা বলছি তা পেয়েছি তবে কেন্দ্রীয় সীমাবদ্ধ তত্ত্বটি ব্যবহার করে তৈরি করা যেতে পারে এমন সাধারণ বিতরণ সম্পর্কিত অনুমানের কী?
অন্ধকার_কানাইট

সিএলটি এখানে প্রাসঙ্গিক নয় - আমরা বিতরণ সম্পর্কে কথা বলছি যা পৃথক ডেটা মান তৈরি করে, গড় হয় না। একটি "সাধারণত বিতরণ প্রক্রিয়া" এমন একটি প্রক্রিয়া যা সাধারণত বিতরণ করা এলোমেলো ভেরিয়েবলের উত্পাদন করে। একটি নিখুঁত সাধারণ কম্পিউটার এলোমেলো নম্বর জেনারেটর একটি উদাহরণ হতে পারে (যেমন একটি জিনিস বিদ্যমান নেই, তবে আমরা যে সফটওয়্যারটি ব্যবহার করি তাতে তারা খুব সুন্দর হয়))
পিটার ওয়েস্টফল

এছাড়াও, যেহেতু আমরা বিশ্লেষণ করতে পারি এমন ডেটা তৈরি করার কোনও প্রক্রিয়া একটি সাধারণ প্রক্রিয়া নয়, এটিও অনুসরণ করে যে এই জাতীয় কোনও প্রক্রিয়া দ্বারা উত্পাদিত গড়ের বিতরণ কখনই নমুনার আকার নির্বিশেষে স্বাভাবিকভাবে হয় না। তবে হ্যাঁ, এই জাতীয় গড়গুলির বিতরণ সিএলটি অনুসারে সাধারণ বিতরণের কাছাকাছি হতে পারে। এ জাতীয় বিতরণের স্বাভাবিকের ঘনিষ্ঠতা নির্ভর করে (i) নমুনা আকার এবং (ii) ডেটা-উত্পন্ন প্রক্রিয়াটির অ-স্বাভাবিকতার ডিগ্রি যা পৃথক ডেটা মানগুলি উত্পাদন করে।
পিটার ওয়েস্টফল

4
হাই পিটার - আপনি কি "উপরের" মতো রেফারেন্স এড়াতে পারবেন কারণ সাজানোর ক্রম পরিবর্তন হবে। আপনার জন্য যা উপরে রয়েছে তা পরবর্তী ব্যক্তির দেখার জন্য উপরে নাও থাকতে পারে। যদি আপনি বোঝেন গং এর পোস্ট বা আমার পোস্ট (এখনও সম্পাদনায়, আমি এর বিভিন্ন দিক নিয়ে কাজ করছি) তবে আপনি কেবল তাদের লেখক দ্বারা তাদের সনাক্ত করতে পারবেন।
গ্লেন_বি -রিনস্টেট মনিকা

আপনি উপরের অংশে দৃ as়ভাবে মনে করছেন যে উচ্চতর কুর্তোসিস বহিরাগতদের উত্পাদন করার জন্য উচ্চতর প্রবণতা বোঝায়। আপনি যতক্ষণ না বিদেশিদের সংশোধন করেন (অর্থ দাবীটি সত্য করে তোলেন), এটি সাধারণ বিবরণে সত্য নয় এমন বক্তব্য নয়। উদাহরণস্বরূপ, ভারী পুচ্ছযুক্তের সাথে কার্টোসিস কম রয়েছে এমন বিতরণগুলির জোড়গুলি তৈরি করা যুক্তিসঙ্গতভাবে সহজ।
গ্লেন_বি -রিনস্টেট মনিকা

5

আপনি এখানে যা চাইছেন বলে মনে হচ্ছে তা সাধারণ জনগণের কাছ থেকে নেওয়া নমুনার স্কিউনেস এবং কুর্তোসিসের জন্য একটি স্ট্যান্ডার্ড ত্রুটি । মনে রাখবেন স্কিউনেস বা ফ্যাট-টেইলেডনেস ( কুর্তোসিস ) এর মতো জিনিসগুলি অনুমান করার বিভিন্ন উপায় রয়েছে যা মানক ত্রুটিটি কী হবে তা স্পষ্টভাবে প্রভাবিত করবে। লোকেরা যে সর্বাধিক সাধারণ ব্যবস্থাগুলি মনে করে সেগুলি আরও প্রযুক্তিগতভাবে তৃতীয় এবং চতুর্থ মানযুক্ত মুহুর্ত হিসাবে পরিচিত।

এই মেট্রিকগুলির কিছু জটিলতা বিবেচনা করার মতো। লোকজনের সন্দেহ (সিএফ, এখানে ) যেভাবে সাধারণ স্কিউনেস পরিসংখ্যান তা প্রতিসমতার যথেষ্ট পরিমাপ নয় । কুর্তোসিস আরও বেশি সংশ্লেষিত হতে পারে। এটির থেকে সম্ভাব্য ব্যাপ্তি রয়েছে , যেখানে সাধারণ বিতরণে কার্টোসিস থাকে । ফলস্বরূপ, লোকেরা সাধারণত "অতিরিক্ত কুর্তোসিস" ব্যবহার করে যা । তারপরে পরিসীমাটি । তবে, অনুশীলনে কুর্তোসিসটি নীচে থেকে দ্বারা আবদ্ধ এবং উপরে থেকে আপনার নমুনা আকারের (প্রায় ) একটি ফাংশন দ্বারা আবদ্ধ । তদ্ব্যতীত, স্কুরনেস না থাকলে কুর্তোসিসটি ব্যাখ্যা করা আরও শক্ত[1,)3kurtosis3[2,)skewness2+124/N0 । এই বাস্তবতাগুলি মানুষের প্রত্যাশার চেয়ে ব্যবহার করা আরও কঠিন করে তোলে।

এর মূল্য কী, তার জন্য আদর্শ ত্রুটিগুলি হ'ল:

SE(skewness)=6N(N1)(N2)(N+1)(N+3)SE(kurtosis)=2×SE(skewness)N21(N3)(N+5)

একটি সাধারণ জনগণের কাছ থেকে কী প্রত্যাশা করা হবে তার থেকে আমরা আমাদের নমুনার স্নিগ্ধতা এবং কুর্তোসিসকে আলাদা করতে পারি কিনা এই বিষয়টি নির্ধারণ করে আপনি থেকে বিচ্যুতি কতটা বড় তাও জিজ্ঞাসা করতে পারেন । থাম্বের যে নিয়মগুলি আমি শুনেছি (তাদের মূল্য তাদের জন্য) সাধারণত: 0

  • <|.5|ছোট
  • [|.5|,|1|) মাধ্যম
  • |1|বড়

স্কিউনেস এবং কুর্তোসিসের একটি ভাল প্রাথমিক সংক্ষিপ্ত বিবরণ এখানে পাওয়া যাবে


3

[এরপরে আমি অনুমান করছি যে আপনি "নমুনা স্কিউনেস এবং কুর্তোসিস পরীক্ষা করুন, যেমন তারা কিছু পূর্বনির্ধারিত রেঞ্জের মধ্যে কিছু সাধারণ তত্ত্ব পদ্ধতি ব্যবহার করেন, অন্যথায় অন্য কিছু ব্যবহার করুন" এর মতো কিছু প্রস্তাব করছেন os]

এর অনেকগুলি দিক রয়েছে, যার মধ্যে আমাদের হাতে রয়েছে কেবলমাত্র কয়েকগুণ বিবেচনার জন্য। আমি এই জাতীয় মানদণ্ড ব্যবহার করে ঝাঁপ দেওয়ার আগে গুরুত্বপূর্ণ বিষয়গুলি কী হতে পারে সেগুলি তালিকাভুক্ত করে শুরু করব। আমি ফিরে আসার চেষ্টা করব এবং প্রতিটি আইটেম সম্পর্কে পরে লিখব:

বিবেচনা করার বিষয়গুলি

  1. আমরা যা করছি তার সাথে বিভিন্ন ধরণের অস্বাভাবিকতা কীভাবে খারাপ লাগবে?

  2. নমুনা স্কিউনেস এবং কুর্তোসিসের রেঞ্জগুলি ব্যবহার করে এই বিচ্যুতিগুলি গ্রহণ করা কতটা কঠিন?

    প্রস্তাবের সাথে আমি একমত যা - এটি গুরুত্বের পরিবর্তে প্রভাব আকার ( স্বাভাবিকতা থেকে কতটা বিচ্যুতি) সম্পর্কিত একাধিক পদক্ষেপের দিকে নজর দেয়। সেই অর্থে এটি কার্যকর কিছুকে সম্বোধন করার কাছাকাছি চলে আসবে যা একটি আনুষ্ঠানিক অনুমানের পরীক্ষার ফলে বড় আকারের নমুনা আকারে এমনকি তুচ্ছ বিচ্যুতির বিষয়টিও প্রত্যাখ্যান করতে পারে, যখন অনেক বড় (এবং আরও কার্যকর) বিচ্যুতির প্রত্যাখ্যানকে মিথ্যা সান্ত্বনা প্রদান করে while ছোট নমুনা আকার। (হাইপোথিসিস পরীক্ষাগুলি এখানে ভুল প্রশ্নের সমাধান করে)

    অবশ্যই ছোট নমুনা আকারে এটি এখনও এই সমস্যায় সমস্যাযুক্ত যে ব্যবস্থাগুলি খুব "গোলমাল", তাই আমরা এখনও সেখানে পথভ্রষ্ট হতে পারি (একটি আত্মবিশ্বাসের বিরতি আমাদের এটি দেখতে কতটা খারাপ হতে পারে তা দেখতে সহায়তা করবে)।

    এটি আমাদের জানায় না যে স্কিউনেস বা কুর্তোসিসের বিচ্যুতি কীভাবে সমস্যার সাথে সম্পর্কিত যার জন্য আমরা স্বাভাবিকতা চাই - এবং অ-স্বাভাবিকতার প্রতিক্রিয়ায় বিভিন্ন পদ্ধতিগুলি বেশ আলাদা হতে পারে।

    আমাদের স্বাভাবিকতা থেকে বিচ্যুতি যদি এমন একরকম হয় যেখানে স্কিউনেস এবং কুর্তোসিস অন্ধ হয়ে যায় তবে এটি আমাদের সহায়তা করে না।

  3. যদি আপনি এই নমুনা পরিসংখ্যানকে দুটি পদ্ধতির মধ্যে সিদ্ধান্ত নেওয়ার ভিত্তি হিসাবে ব্যবহার করছেন তবে ফলাফলের অনুমানের বৈশিষ্ট্যের উপর কী প্রভাব পড়বে (যেমন একটি অনুমানের পরীক্ষার জন্য, আপনার তাত্পর্য স্তর এবং শক্তি এটি করার মতো দেখায় কী?)

  4. অসীম সংখ্যক বিতরণ রয়েছে যা সাধারণ বিতরণের মতো হুবুহু এবং কুর্তোসিসের সাথে ঠিক একই রকম তবে স্পষ্টতই অস্বাভাবিক। তারা এমনকি প্রতিসম হতে হবে না! এই জাতীয় জিনিসের অস্তিত্ব কীভাবে এই জাতীয় পদ্ধতি ব্যবহারে প্রভাব ফেলে? এন্টারপ্রাইজ কি প্রথম থেকেই বিনষ্ট?

  5. সাধারণ বিতরণ থেকে প্রাপ্ত নমুনাগুলিতে আপনি নমুনা স্কিউনেস এবং কুর্তোসিসের কতটা প্রকারের পরিবর্তন দেখতে পাচ্ছেন? (সাধারণ নমুনার কত অনুপাত আমরা কোনও নিয়মে টস আউট করতে হবে?)

    [অংশে এই সমস্যাটি গং তার উত্তরে যা আলোচনা করেছে তার সাথে কিছু সম্পর্কিত]]

  6. পরিবর্তে আরও ভাল কিছু করতে পারে?

অবশেষে, যদি এই সমস্ত বিষয় বিবেচনা করার পরে আমরা সিদ্ধান্ত নিই যে আমাদের এগিয়ে যাওয়া উচিত এবং এই পদ্ধতির ব্যবহার করা উচিত, আমরা আপনার প্রশ্ন থেকে উদ্ভূত বিবেচনায় পৌঁছে যাব:

  1. বিভিন্ন পদ্ধতির জন্য স্কিউনেস এবং কুর্তোসিসের ভাল সীমাগুলি কী রয়েছে? কোন পদ্ধতিতে আমাদের কী ভেরিয়েবলগুলি চিন্তা করতে হবে?

    (উদাহরণস্বরূপ, যদি আমরা রিগ্রেশন করছি, তবে নোট করুন যে কোনও আইভি এবং এমনকি কাঁচা ডিভি এর সাথে এইভাবে ডিল করা ভুল - এগুলির কোনওটিই সাধারণ সাধারণ বিতরণ থেকে আঁকা হয়েছে বলে ধরে নেওয়া যায় না)


আমি ফিরে এসে কিছু চিন্তা যুক্ত করব, তবে এর মধ্যে আপনার কাছে থাকা কোনও মন্তব্য / প্রশ্ন দরকারী হতে পারে।


আসলে আমার স্কিউনেস এবং কুর্তোসিসের দেওয়া মূল্যবোধের জন্য আমার পরীক্ষায় একটি প্রশ্ন ছিল, বিতরণের স্বাভাবিকতা সম্পর্কে কী বলা যেতে পারে? আমি বিশেষভাবে নিশ্চিত নই যে এই দুটি সংখ্যার উপর ভিত্তি করে কোনও উপসংহার তৈরি করা একটি ভাল ধারণা কারণ আমি বেশ কয়েকটি ক্ষেত্রে দেখেছি যেখানে স্কিউনেস এবং কুর্তোসিস মান কাছাকাছি এবং এখনও বিতরণটি স্বাভাবিকের থেকে আলাদা way 0
অন্ধকার_কানাইট

এবং আমি এও বুঝতে পারি না যে কেন কোনও স্বাভাবিকতা পরীক্ষা করার জন্য আমাদের স্কিউনেস এবং কুর্তোসিসের জন্য কোনও নির্দিষ্ট মানের মান দরকার?
অন্ধকার_কানাইট
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.