আমি কি বিতরণের নমুনার জন্য কোনও বিতরণের মুহুর্তগুলি ব্যবহার করতে পারি?


14

আমি পরিসংখ্যান / মেশিন লার্নিং পদ্ধতিগুলিতে লক্ষ্য করেছি, প্রায়শই কোনও গাউসিয়ান একটি বিতরণ প্রায় অনুমান করে এবং তারপরে গাউসিয়ান নমুনা ব্যবহারের জন্য ব্যবহৃত হয়। তারা বিতরণের প্রথম দুটি মুহুর্ত গণনা করে শুরু করে এবং এগুলি μ এবং σ2 অনুমান করার জন্য ব্যবহার করে । তারপরে তারা সেই গাউসিয়ান থেকে নমুনা নিতে পারেন।

আমি যত বেশি মুহুর্ত গণনা করি তা আমার কাছে মনে হয়, আমি যে নমুনাটি বানাতে চাই তার আনুমানিক পরিমাণ নির্ধারণের পক্ষে আমার আরও ভাল হওয়া উচিত।

আমি যদি 3 মুহুর্ত গণনা করি ... তবে কীভাবে আমি বিতরণ থেকে নমুনা ব্যবহার করতে পারি? এবং এটি এন মুহুর্তে বাড়ানো যেতে পারে?


2
তিনটি মুহূর্ত কোনও বিতরণ ফর্ম * নির্ধারণ করে না; যদি আপনি পছন্দ করে তিন পরামিতি, যা প্রথম তিনটি জনসংখ্যা মুহূর্ত সঙ্গে সম্পর্কযুক্ত সঙ্গে একটি ডিস্ট্রিবিউশন famiy, আপনি তিন পরামিতি অনুমান করার জন্য এবং তারপর যেমন একটি বন্টন থেকে মানগুলি উৎপন্ন মুহূর্ত ম্যাচিং ( "মুহূর্তের পদ্ধতি") করতে পারেন। এরকম অনেক বিতরণ রয়েছে।[*
সত্যই

ধন্যবাদ, @ গ্লেন_ বি! আমি কখন সম্ভব হবে তা বুঝতে "মুহুর্তের পদ্ধতি" সম্পর্কে পড়ব। আপনি কি আমাকে তত্ত্বের দিকে নির্দেশ করতে পারেন যা বর্ণনা করে যখন মুহুর্তগুলি বন্টন নির্ধারণের জন্য পর্যাপ্ত নয়?
কৌতূহলী_দান

"মুহুর্তের পদ্ধতি" মুহুর্তগুলি থেকে প্যারামিটারগুলি কীভাবে অনুমান করা যায় তা কেবল আপনাকে বলে। আপনার মন্তব্যের বাকী অংশটি একটি নতুন প্রশ্ন (আমি মনে করি এটি ইতিমধ্যে সাইটে উত্তর দেওয়া হয়েছে); সংক্ষিপ্তভাবে - যদি মুহুর্ত তৈরির ফাংশন উপস্থিত থাকে (0 এর আশেপাশে) তবে এটি অনন্যভাবে একটি বিতরণ সনাক্ত করে (প্রযুক্তিগতভাবে, আপনি নীতিগতভাবে একটি বিপরীত ল্যাপ্লেস রূপান্তর করতে পারেন)। অবশ্যই কিছু মুহুর্ত সীমাবদ্ধ না হলে এর অর্থ হ'ল এমজিএফের অস্তিত্ব নেই, তবে এমন অনেকগুলি ঘটনাও রয়েছে যেখানে সমস্ত মুহুর্ত সীমাবদ্ধ থাকে তবে এমজিএফএফ 0 এর আশেপাশে নেই ...
গ্লেন_বি -রেইনস্টেট মনিকা

আমি আমার মন্তব্যের ভিত্তিতে একটি উত্তর লিখছি।
গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:


22

তিনটি মুহূর্ত কোনও বিতরণ ফর্ম নির্ধারণ করে না; আপনি যদি প্রথম তিনটি জনসংখ্যার মুহুর্তের সাথে সম্পর্কিত তিনটি পরামিতি সহ বিতরণ-ফামিয়ি চয়ন করেন তবে তিনটি পরামিতি অনুমান করতে আপনি মুহুর্তের মিল ("মুহুর্তের পদ্ধতি") করতে পারেন এবং তারপরে এই জাতীয় বিতরণ থেকে মান উত্পন্ন করতে পারেন। এরকম অনেক বিতরণ রয়েছে।

কখনও কখনও এমনকি সমস্ত মুহূর্ত একটি বিতরণ নির্ধারণের জন্য যথেষ্ট নয়। যদি মুহুর্তে উত্পাদনের ক্রিয়াটি উপস্থিত থাকে (0 এর আশেপাশে) তবে এটি অনন্যভাবে একটি বিতরণ সনাক্ত করে (আপনি নীতিগতভাবে এটি পাওয়ার জন্য একটি বিপরীত ল্যাপ্লেস রূপান্তর করতে পারেন)।

[যদি কিছু মুহুর্ত সীমাবদ্ধ না হয় তবে এর অর্থ হ'ল এমজিএফের অস্তিত্ব নেই, তবে এমন ঘটনাও রয়েছে যেখানে সমস্ত মুহুর্ত সীমাবদ্ধ তবে এমজিএফএফ 0 এর আশেপাশে এখনও নেই]]

বিতরণ করার একটি বিকল্প দেওয়া আছে, প্রথম তিন মুহুর্তে সীমাবদ্ধতার সাথে সর্বাধিক এনট্রপি সমাধান বিবেচনা করার জন্য প্ররোচিত হতে পারে, তবে আসল রেখায় এমন কোনও বিতরণ নেই যা এটি অর্জন করে (যেহেতু উদ্দীপকটিতে ঘনক্ষেত্র সীমিত হবে)।


প্রক্রিয়াটি কীভাবে বিতরণের নির্দিষ্ট পছন্দের জন্য কাজ করবে

γ1=μ3/μ23/2

আমরা এটি করতে পারি কারণ প্রাসঙ্গিক স্কিউনেস দিয়ে বিতরণ নির্বাচন করার পরে আমরা স্কেলিং এবং শিফটিংয়ের মাধ্যমে কাঙ্ক্ষিত গড় এবং প্রকরণটি খুঁজে বের করতে পারি।

আসুন একটি উদাহরণ বিবেচনা করা যাক। গতকাল আমি একটি বৃহত ডেটা সেট তৈরি করেছি (যা এখনও আমার আর অধিবেশনটিতে ঘটে) যার বিতরণে আমি কার্যকরী ফর্ম গণনা করার চেষ্টা করিনি (এটি এন এর একটি কাচির নমুনা পরিবর্তনের লগের মানগুলির একটি বড় সেট) = 10)। আমাদের যথাক্রমে 1.519, 3.597 এবং 11.479 হিসাবে প্রথম তিনটি কাঁচা মুহুর্ত রয়েছে, বা যথাক্রমে 1.518 এর গড়, 1.136 এর একটি স্ট্যান্ডার্ড বিচ্যুতি এবং 1.429 এর একটি ঘিঁচা (তাই এগুলি একটি বৃহত নমুনা থেকে নমুনার মান)।

সাধারণত, মুহুর্তের পদ্ধতিটি কাঁচা মুহুর্তগুলির সাথে মেলে দেখার চেষ্টা করতে পারে, তবে হিসাবটি সহজ হয় যদি আমরা স্কিউনেস দিয়ে শুরু করি (তিনটি সমীকরণকে তিনটি সমীকরণকে এক সাথে এক প্যারামিটারের সমাধান করার জন্য পরিণত করা, তবে আরও সহজ কাজ)।

* আমি ভিন্নতার উপর একটি এন-ডিনোমিনেটর ব্যবহার করার পার্থক্যটি হস্তান্তর করতে যাচ্ছি - যেমন মুহুর্তগুলির আনুষ্ঠানিক পদ্ধতির সাথে সামঞ্জস্য হয় - এবং একটি এন -1 ডিনোমিনেটর এবং কেবল নমুনা গণনা ব্যবহার করি।

σμγ

γ1=(eσ2+2)eσ21

সুতরাং আসুন এর অনুমান পেতে পছন্দসই নমুনা মানের সাথে এটি সমান করে শুরু করিσ2σ~2

γ12(τ+2)2(τ1)τ=eσ2τ3+3τ24=γ12τ~1.1995σ~20.1819γ1

μ

তবে আমরা সহজেই স্থানান্তরিত-গামা বা স্থানান্তরিত-ওয়েইবুল বিতরণ (বা একটি স্থানান্তরিত-এফ বা অন্যান্য পছন্দগুলির যে কোনও সংখ্যা) বেছে নিতে পারতাম এবং মূলত একই প্রক্রিয়াটি চালিয়ে যেতে পারি। তাদের প্রতিটি পৃথক হবে।

[আমি যে নমুনাটি নিয়ে কাজ করছিলাম তার জন্য, স্থানান্তরিত গামা সম্ভবত স্থানান্তরিত লগনরমালের তুলনায় যথেষ্ট ভাল পছন্দ হতে পারে, যেহেতু মানগুলির লগগুলির বিতরণটি স্কুতে রেখে যায় এবং তাদের ঘনক মূলের বিতরণটি প্রতিসমের খুব কাছাকাছি ছিল; এগুলি (আনশিফ্ট) গামা ঘনত্বগুলির সাথে আপনি কী দেখতে পাবেন তার সাথে সামঞ্জস্যপূর্ণ তবে লগগুলির বাম-স্কিউ ঘনত্ব কোনও স্থানান্তরিত লগনরমাল দিয়ে অর্জন করা যায় না]]

এমনকি কেউ পিয়ারসনের প্লটে স্কিউনেস-কুর্তোসিস ডায়াগ্রাম নিতে পারে এবং পছন্দসই স্কিউনেসে একটি লাইন আঁকতে পারে এবং এর মাধ্যমে দ্বি-পয়েন্ট বিতরণ, বিটা বিতরণের ক্রম, গামা বিতরণ, বিটা-প্রাইম বিতরণের ক্রম, একটি বিপরীত- গামা বিতরণ এবং পিয়ারসন ধরণের চতুর্থ ডিস্ট্রিবিউশনের ক্রম সমস্ত একই স্কিউনেস সহ।

β1=γ12β2

পিয়ারসনের প্লটটি কাঙ্ক্ষিত স্কিউনেস লাইনের সাথে আঁকা

γ12=2.042σ


আরও মুহুর্ত

মুহুর্তগুলি বিতরণগুলি খুব ভালভাবে পিন করে না, তাই আপনি অনেকগুলি মুহুর্ত নির্দিষ্ট করে দিলেও, এখনও অনেকগুলি বিভিন্ন বিতরণ হবে (বিশেষত তাদের চূড়ান্ত-লেজের আচরণের সাথে সম্পর্কিত) যা তাদের সাথে মেলে।

আপনি অবশ্যই কমপক্ষে চারটি প্যারামিটার সহ কিছু বিতরণকারী পরিবার চয়ন করতে পারেন এবং তিনটি মুহুর্তের বেশি মিলানোর চেষ্টা করতে পারেন; উদাহরণস্বরূপ, পিয়ারসন ডিস্ট্রিবিউশনগুলি আমাদের প্রথম চারটি মুহুর্তের সাথে মেলানোর অনুমতি দেয় এবং বিতরণের অন্যান্য পছন্দও রয়েছে যা একই ধরণের নমনীয়তার সুযোগ দেয়।

বিতরণ বৈশিষ্ট্যগুলির সাথে মেলে এমন বিতরণগুলি চয়ন করতে অন্য কৌশল অবলম্বন করতে পারে - মিশ্রণ বিতরণ, স্প্লাইনস ব্যবহার করে লগ-ঘনত্বের মডেলিং এবং আরও অনেক কিছু।

প্রায়শই, তবে যদি কেউ প্রাথমিক উদ্দেশ্যে ফিরে যায় যার জন্য যে কোনও বিতরণ সন্ধান করার চেষ্টা করছিল, তবে প্রায়শই দেখা যায় যে এখানে বর্ণিত কৌশলটির চেয়ে আরও ভাল কিছু করা যেতে পারে।


2

সুতরাং, উত্তরটি সাধারণত হয় না, আপনি এটি করতে পারবেন না, তবে কখনও কখনও আপনি পারেন।

যখন আপনি পারবেন না

কারণ আপনি এই ব্যবহার করতে পারবেন না সাধারণত দুই ভাঁজ আছে।

প্রথমত, যদি আপনার এন পর্যবেক্ষণ থাকে তবে সর্বাধিক আপনি N মুহুর্তগুলি গণনা করতে পারেন। অন্য মুহুর্তের কী হবে? আপনি এগুলি কেবল শূন্যে সেট করতে পারবেন না।

γ100=ixi100n

যখন আপনি পারেন

এখন, কখনও কখনও আপনি মুহুর্ত থেকে বিতরণ পেতে পারেন। এটি যখন আপনি কোনও ধরণের বিতরণ সম্পর্কে ধারণা তৈরি করেন। উদাহরণস্বরূপ, আপনি ঘোষণা করেন যে এটি সাধারণ। এই ক্ষেত্রে আপনার কেবলমাত্র দুটি মুহুর্ত প্রয়োজন, যা সাধারণত শালীন নির্ভুলতার সাথে গণনা করা যায়। মনে রাখবেন, যে সাধারন বন্টনের হয়েছে উচ্চতর মুহূর্ত প্রকৃতপক্ষে, যেমন সূঁচালতা তবে সেগুলি প্রয়োজন হবে না। আপনি যদি সাধারণ বিতরণের সমস্ত মুহুর্ত গণনা করেন (এটি স্বাভাবিক না ধরে) তবে বিতরণ থেকে নমুনার বৈশিষ্ট্যযুক্ত ফাংশনটি পুনরুদ্ধার করার চেষ্টা করেছিলেন, এটি কাজ করবে না। যাইহোক, আপনি যখন উচ্চতর মুহুর্তগুলি সম্পর্কে ভুলে যান এবং প্রথম দুটিতে আটকে যান, এটি কার্যকর হয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.