কীভাবে অজানা বিতরণের ডেটা সাধারণ করা যায়


12

আমি একটি নির্দিষ্ট ধরণের পুনরাবৃত্তি পরিমাপের ডেটার সর্বাধিক উপযুক্ত বৈশিষ্ট্যযুক্ত বিতরণ সন্ধান করার চেষ্টা করছি।

মূলত, ভূতত্ত্বের আমার শাখায়, আমরা প্রায়শই কোনও ঘটনা ঘটেছিল তা জানতে (নমুনা তাপমাত্রার নীচে শৈলটি শীতল হয়ে যায়) স্যাম্পলগুলি (শিলার অংশগুলি) থেকে খনিজগুলির রেডিওমেট্রিক ডেটিং ব্যবহার করি। সাধারণত, প্রতিটি নমুনা থেকে বেশ কয়েকটি (3-10) পরিমাপ করা হবে। তারপরে, গড় এবং মানক বিচ্যুতি নেওয়া হয়। এটি ভূতত্ত্ব, সুতরাং নমুনার শীতল বয়সগুলি পরিস্থিতি অনুসারে থেকে বছর পর্যন্ত স্কেল করতে পারে ।μσ105109

যাইহোক, আমার বিশ্বাস করার কারণ আছে যে পরিমাপগুলি গাউসিয়ান নয়: 'আউটলিয়ার্স', তা নির্বিচারে ঘোষণা করা হয়, বা কিছু মাপদণ্ডের মাধ্যমে যেমন পিয়ার্সের মাপদণ্ড [রস, 2003] বা ডিকসনের কিউ-পরীক্ষা [ডিন এবং ডিকসন, 1951] মোটামুটি সাধারণ (30-এ 1 বলুন) এবং এগুলি প্রায় সবসময়ই পুরানো হয় যা বোঝায় যে এই পরিমাপগুলি চরিত্রগতভাবে সঠিকভাবে স্কিউড। খনিজ সংক্রান্ত অমেধ্যগুলির সাথে এটি করার জন্য সুস্পষ্ট কারণ রয়েছে।

গড় বনাম মধ্যম নমুনা বয়স।  লাল রেখাটি বোঝায় মাঝারি = মাঝারি।  স্কেল পরিমাপের কারণে পুরানো উপায়গুলি নোট করুন।

অতএব, যদি আমি আরও ভাল বিতরণ পেতে পারি যা ফ্যাট লেজ এবং স্কিউ অন্তর্ভুক্ত করে, আমি মনে করি যে আমরা আরও অর্থবহ অবস্থান এবং স্কেল প্যারামিটারগুলি তৈরি করতে পারি, এবং এত তাড়াতাড়ি বিদেশীদের সরবরাহ করতে হবে না। উদাহরণস্বরূপ যদি এটি দেখানো যেতে পারে যে এই ধরণের পরিমাপগুলি লগনরমাল, বা লগ-ল্যাপ্লেসিয়ান বা যা কিছু হয় তবে সর্বাধিক সম্ভাবনার আরও উপযুক্ত ব্যবস্থা এবং চেয়ে বেশি ব্যবহার করা যেতে পারে যা অ-শক্তিশালী এবং সম্ভবত ক্ষেত্রে পক্ষপাতদুষ্ট are পদ্ধতিগতভাবে ডান স্কিউ ডেটা।μσ

আমি ভাবছি এটি করার সর্বোত্তম উপায়টি কী। এখনও অবধি, আমার কাছে প্রায় 600 টি নমুনা সহ একটি ডেটাবেস রয়েছে এবং 2-10-10 (বা তাই) প্রতি নমুনার প্রতিলিপি করা হয়। আমি প্রতিটি গড় বা মধ্য দিয়ে ভাগ করে নমুনাগুলিকে সাধারণকরণের চেষ্টা করেছি এবং তারপরে সাধারণ তথ্যগুলির হিস্টোগ্রামগুলি দেখেছি। এটি যুক্তিসঙ্গত ফলাফল উত্পন্ন করে, এবং মনে হয় যে ডেটাটি বৈশিষ্ট্যগতভাবে লগ-ল্যাপলাসিয়ান:

এখানে চিত্র বর্ণনা লিখুন

তবে, আমি নিশ্চিত নই যে এটি সম্পর্কে যাবার উপযুক্ত উপায় কিনা, বা যদি আমি অবগত না থাকি এমন সতর্কতাগুলি আমার ফলাফলকে পক্ষপাতদুষ্ট করে দিতে পারে তবে তারা এ জাতীয় চেহারা দেখায়। কারও কি এই ধরণের জিনিস নিয়ে অভিজ্ঞতা আছে এবং সেরা অনুশীলনগুলি জানেন?


4
যেহেতু 'নর্মালাইজ' এর অর্থ বিভিন্ন প্রসঙ্গে বিভিন্ন জিনিস বোঝাতে ব্যবহৃত হয়, তাই "নরমালাইজেশন" বলতে কী বোঝ? আপনি কোন তথ্যটি তথ্য থেকে বের করার চেষ্টা করছেন?
গ্লেন_বি -রিনস্টেট মনিকা

1
@ গ্লেন_বি: 'নরমালাইজ' করার মাধ্যমে আমি কেবলমাত্র মধ্যমা (বা গড়) দ্বারা মডেল (বা গড়, বা যাই হোক না কেন) দ্বারা প্রাপ্ত একটি নমুনার বয়সের সমস্ত আকারকে বোঝাই। পরীক্ষামূলক প্রমাণ রয়েছে যে বয়সের সাথে সাথে নমুনাগুলির বিস্তারটি রৈখিকভাবে বৃদ্ধি পায়। আমি ডেটাগুলির বাইরে যা চাই তা হ'ল এই ধরণের পরিমাপটি একটি সাধারণ, লগ-নরমাল, বা বিটা, বা যা কিছু বিতরণ দ্বারা সর্বাধিক বৈশিষ্ট্যযুক্ত কিনা তা সুনির্দিষ্ট অবস্থান এবং স্কেলটি প্রাপ্ত করা যায়, বা এল 1 বনাম see এল 2 রিগ্রেশন ন্যায়সঙ্গত ইত্যাদি এই পোস্টে আমি জিজ্ঞাসা করছি যে আমি কীভাবে ডেটা নিতে পারি যা আমি বর্ণনা করেছি এবং এটি অনুসন্ধান করতে পারি।
কোসাসটট

1
এই ক্ষেত্রটিতে আমার কোনও দক্ষতা নেই তবে আপনার গ্রাফগুলি এবং আপনি যে চিন্তাভাবনা করেছেন এটি ভাল দেখাচ্ছে। আপনি এটি ইতিমধ্যে দেখে ফেলেছেন
ওয়েইন

আমি নিশ্চিত যে আমি পুরোপুরি বুঝতে পেরেছি না, তবে বুটস্ট্র্যাপিংয়ের সাহায্য হতে পারে? আপনি যদি বুটস্ট্র্যাপিং পদ্ধতি ব্যবহার করে আপনার বিতরণের বিভিন্নতা পুনরুদ্ধার করেন তবে আপনি পুনরুদ্ধার করা তথ্যটি আপনার ডেটা স্বাভাবিক করতে ব্যবহার করতে পারেন। en.wikedia.org/wiki/Bootstrapping_(statistics)
123

উত্তর:


1

আপনি কি প্রতিটি নমুনা থেকে (3-10) পরিমাপের গড় গ্রহণ বিবেচনা করেছেন? এরপরে কি আপনি ফলাফলের বিতরণ দিয়ে কাজ করতে পারবেন - যা টি-বিতরণকে প্রায় আনুমানিক করবে, যা বৃহত্তর এন এর জন্য সাধারণ বিতরণকে আনুমানিক করবে?


1

আমি মনে করি না আপনি সাধারণভাবে এর অর্থ কী বোঝাতে চাইছেন, যা সাধারণত গড় এবং / বা বৈকল্পিকাকে স্বাভাবিক করার মতো এবং / অথবা হোয়াইটিংয়ের মতো, উদাহরণস্বরূপ।

আমি মনে করি আপনি যা করার চেষ্টা করছেন তা হ'ল একটি অ-রৈখিক পুনঃনির্ধারণ এবং / অথবা এমন বৈশিষ্ট্য যা আপনাকে আপনার ডেটাতে রৈখিক মডেলগুলি ব্যবহার করতে দেয়।

এটি অ-তুচ্ছ এবং এর কোনও সহজ উত্তর নেই। এ কারণেই ডেটা বিজ্ঞানীদের প্রচুর অর্থ প্রদান করা হয় ;-)

অ-রৈখিক বৈশিষ্ট্যগুলি তৈরি করার একটি অপেক্ষাকৃত সরলতম উপায় হ'ল ফিড-ফরোয়ার্ড নিউরাল নেটওয়ার্ক ব্যবহার করা, যেখানে স্তরগুলির সংখ্যা এবং প্রতি স্তর প্রতি নিউরনের সংখ্যা বৈশিষ্ট্য উত্পন্ন করার নেটওয়ার্কের ক্ষমতা নিয়ন্ত্রণ করে। উচ্চ ক্ষমতা => আরও অ-রৈখিকতা, আরও বেশি ফিট। নিম্ন ক্ষমতা => আরও লিনিয়ারিটি, উচ্চতর পক্ষপাত, নিম্ন বৈকল্পিক।

আরেকটি পদ্ধতি যা আপনাকে কিছুটা আরও নিয়ন্ত্রণ দেয় তা হল স্প্লাইন ব্যবহার করা।

অবশেষে, আপনি হাত দ্বারা এমন বৈশিষ্ট্য তৈরি করতে পেরেছিলেন, যা আমি মনে করি আপনি যা করার চেষ্টা করছেন তা কিন্তু, তবে 'ব্ল্যাক বক্স'-এর কোনও সহজ উত্তর নেই: আপনাকে সাবধানে ডেটা বিশ্লেষণ করতে হবে, নিদর্শনগুলি সন্ধান করতে হবে এবং আরও ।


গণিত এবং বিজ্ঞান জুড়ে সাধারণকরণের বিভিন্ন অর্থ রয়েছে; ব্যক্তিগতভাবে সর্বাধিক পরিচিত একটির অর্থ স্ট্যান্ডার্ড হ'ল ঘোষণা করা বেশিরভাগ লোকেরা প্রলোভন দেখায় তবে এটি অন্যের সাথে ধুয়ে যায় না। আরও গুরুতরভাবে, এটি বিষয়বস্তু থেকে শুরু হয় তবে তারপরে বন্ধ হয়ে যায়। ননলাইনার মডেলগুলির আগ্রহের ইঙ্গিত কোথায়? নিউরাল জাল? Splines? এগুলি বিতরণ বা বিতরণের পরিবার চিহ্নিত করার সাথে কী করার আছে, এটিই প্রশ্ন? আমি সংযোগটি দেখতে পাচ্ছি না, সুতরাং যা প্রাসঙ্গিক নয় তা কাটতে বা এটি কীভাবে প্রাসঙ্গিক তা দেখানোর জন্য এটি প্রসারিত করার প্রস্তাব দিন।
নিক কক্স

1

আপনি জনসনের (এসএল, এসইউ, এসবি, এসএন) বিতরণের পরিবারটি ব্যবহার করার চেষ্টা করতে পারেন যা চার-প্যারামিটার সম্ভাব্যতা বন্টন। প্রতিটি বিতরণ সাধারণ বিতরণে রূপান্তর উপস্থাপন করে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.