সংক্ষেপণের পরিসংখ্যানগত ন্যায়সঙ্গততা কী?


16

মনে করুন যে আমাদের দুটি পয়েন্ট রয়েছে (নিম্নলিখিত চিত্র: কালো চেনাশোনা) এবং আমরা তাদের (ক্রস) মধ্যে তৃতীয় পয়েন্টের জন্য একটি মান খুঁজে পেতে চাই। প্রকৃতপক্ষে আমরা আমাদের পরীক্ষামূলক ফলাফল, কালো পয়েন্টগুলির উপর ভিত্তি করে এটি অনুমান করতে যাচ্ছি। সবচেয়ে সহজ কেসটি হল একটি লাইন আঁকুন এবং তারপরে মানটি (যেমন লিনিয়ার ইন্টারপোলেশন) সন্ধান করুন। যদি আমাদের সমর্থনকারী পয়েন্ট থাকে যেমন, উভয় পক্ষের ব্রাউন পয়েন্ট হিসাবে আমরা তাদের কাছ থেকে সুবিধা পেতে এবং একটি অ-লিনিয়ার বক্ররেখা (সবুজ বক্ররেখা) ফিট করতে চাই।

প্রশ্নটি হল যে রেড ক্রসটিকে সমাধান হিসাবে চিহ্নিত করার জন্য পরিসংখ্যানগত যুক্তি কী? অন্যান্য ক্রসগুলি (যেমন, হলুদগুলি) কেন তারা উত্তর থাকতে পারে না? কোন ধরণের অনুক্রম বা (?) আমাদের লালটিকে গ্রহণ করতে চাপ দেয়?

আমি খুব সাধারণ প্রশ্নের উত্তর পেয়েছি তার ভিত্তিতে আমার মূল প্রশ্নটি বিকাশ করব।

এখানে চিত্র বর্ণনা লিখুন


7
এটি একটি খুব উত্থাপিত এবং আকর্ষণীয় প্রশ্ন। সময় সিরিজের অন্তর্নিহিত দিকনির্দেশনার কারণে আপনি সময় সিরিজ বিরতি এবং অন্তরঙ্গকরণের অন্যান্য ধরণের (যেমন স্প্লাইং বা স্থানিক প্রক্ষিপ্তকরণ) মধ্যে পার্থক্য করতে চাইতে পারেন।
whuber

1
আমার প্রশংসা এই খুব অনুপ্রেরণামূলক মন্তব্য যায়।
বিকাশকারী

উত্তর:


14

ফাংশন ফিটিংয়ের যে কোনও রূপ, এমনকি ননপ্যারমেট্রিকও (এটি সাধারণত বক্ররেখাটির মসৃণতার উপর অনুমান করে), অনুমানগুলি জড়িত থাকে এবং এইভাবে বিশ্বাসের একটি লাফিয়ে যুক্ত হয়।

লিনিয়ার ইন্টারপোলেশনের প্রাচীন সমাধানটি হ'ল 'ঠিক কাজ করে' যখন আপনার কাছে থাকা তথ্যটি যথেষ্ট পরিমাণে 'যথেষ্ট' থাকে (আপনি যদি খুব কাছাকাছি একটি বৃত্তের দিকে তাকান তবে এটি সমতলও দেখায় - কেবল কলম্বাসকে জিজ্ঞাসা করুন) এবং এটি সম্ভবও ছিল কম্পিউটার যুগের আগে (যা অনেক আধুনিক দিনের স্প্লাইন সমাধানগুলির ক্ষেত্রে হয় না) এই বিশ্বাসটি ধরে নেওয়া বোধগম্য যে এই ফাংশনটি দুটি পয়েন্টের মধ্যে 'একই (অর্থাত্ লিনিয়ার) বিষয়ে অব্যাহত থাকবে', তবে এর কোনও পূর্ববর্তী কারণ নেই (হাতে থাকা ধারণাগুলি সম্পর্কে জ্ঞান বাদ দেওয়া)।

এটি দ্রুত পরিষ্কার হয়ে যায় যখন আপনার তিনটি (বা আরও বেশি) ননকলাইনার পয়েন্ট রয়েছে (যেমন আপনি উপরের বাদামী পয়েন্টগুলি যুক্ত করার সময়), তাদের প্রত্যেকের মধ্যে যে লিনিয়ার প্রবৃদ্ধি শীঘ্রই তাদের প্রত্যেকটিতে তীক্ষ্ণ কোণ জড়িত হবে, যা সাধারণত অযাচিত হয়। অন্য বিকল্পগুলি এখানে লাফিয়ে।

তবে, ডোমেনের আরও জ্ঞান ছাড়াই, দৃ solution়তার সাথে বলার উপায় নেই যে একটি সমাধান অন্যের চেয়ে ভাল this (এর জন্য, আপনাকে অন্য পয়েন্টগুলির মান কী তা জানতে হবে , ফাংশনটি ফিট করার উদ্দেশ্যকে পরাস্ত করে প্রথম স্থান).

উজ্জ্বল দিকে, এবং সম্ভবত আপনার প্রশ্নের সাথে আরও প্রাসঙ্গিক, 'নিয়মিততা শর্তাবলীর' অধীনে (পড়ুন: অনুমান : আমরা যদি জানি যে ফাংশনটি উদাহরণস্বরূপ মসৃণ), উভয় লিনিয়ার ইন্টারপোলেশন এবং অন্যান্য জনপ্রিয় সমাধানগুলি 'যুক্তিসঙ্গত' হিসাবে প্রমাণিত হতে পারে অনুমান। তবুও: এটি অনুমানের প্রয়োজন, এবং এগুলির জন্য সাধারণত আমাদের পরিসংখ্যান নেই।


এটি একটি ভাল উত্তর এবং উত্তর হিসাবে চিহ্নিত করা আমার প্রার্থী। আমি বুঝতে পেরেছিলাম যে এ জাতীয় সাধারণ নির্বাচনের কোনও পরিসংখ্যানগত ন্যায়সঙ্গততা নেই, তাই না?
বিকাশকারী

সত্যিই আমি বিশ্বাস করি একটি নেই, না।
নিক সাব্বে 21

2
কিছু সাহিত্য (সুপরিচিত ডেটাসেটের নমুনাগুলি ছড়িয়ে দেওয়ার প্রতিযোগিতা জড়িত) এই উত্তরটিকে আংশিকভাবে বৈধ করে, তবে পুরোপুরি নয়। যে কোনও "নিয়মিততা শর্ত ছাড়াই" একা তথ্যের পরিসংখ্যানগত বিশ্লেষণের মাধ্যমে ডেটার স্থানিক পারস্পরিক সম্পর্ক সম্পর্কে অনেক কিছু শিখতে পারে। যা প্রয়োজন তা হ'ল (1) এরগোডিক হাইপোথিসিস এবং (বেশিরভাগ ক্ষেত্রে) (2) একরকম স্টেশরিটি অনুমানের সাথে স্টোকাস্টিক প্রক্রিয়াটির একটি উপলব্ধির নমুনা হিসাবে ডেটাগুলির একটি মডেল। এই কাঠামোর মধ্যে অন্তরঙ্গকরণ একটি প্রত্যাশার পূর্বাভাস হয়ে যায়, তবে এমনকি ননডেফেরেটিভ বক্ররেখা অনুমোদিত হয়।
whuber

1
@ ভুবার: আমি এখানে আমার আরাম অঞ্চল থেকে বেরিয়ে এসেছি, তবে আপনার মন্তব্যে "নিয়মিততা শর্ত" পরে সমস্ত কিছু অনুমানের মতো মোটামুটি শক্ত পরিমাণে পড়েছে (স্টাটারারিটি সম্ভবত নিয়মিততার শর্ত হিসাবে হবে, না?)। প্রকৃতপক্ষে, আমি মনে করি এটি কার্যকরী ফর্মের অনিয়মের বিষয়ে আপনার নমুনার আকার বড় কিনা তার উপর নির্ভর করবে ... আপনি কি কোনও কাগজের উল্লেখ করতে পারেন বা পছন্দগুলি যেখানে এটি নয়?
নিক সাব্বে

2
অনুমান ছাড়া আপনি কিছুই করতে পারবেন না, নিক! তবে নিয়মিততা (যেমন ফাংশনটির স্বচ্ছতা) প্রয়োজনীয় নয়: এটি ডেটা থেকে কমিয়ে নেওয়া যেতে পারে, কমপক্ষে যে পরিমাণে ফাংশনটি নমুনা দেওয়া হয়। (স্থিরতা মসৃণতার তুলনায় অনেক বেশি হালকা অনুমান is) আপনি সঠিক যে লার্জিশাল নমুনাগুলি প্রয়োজন, তবে 30-50 ভালভাবে নির্বাচিত নমুনা অবস্থানগুলি সহ 2 ডি তেও অনেক কিছু শেখা যায়। সাহিত্য বড়; উদাহরণস্বরূপ, গাণিতিক ভূতত্ত্বের বেশিরভাগ ইস্যু এতে নিবেদিত। কঠোর পরিচিতির জন্য, দেখুন ক্রেসির স্থানিক পরিসংখ্যান।
whuber

0

আপনি সেরা ফিটের জন্য লিনিয়ার সমীকরণটি কাজ করতে পারেন (উদাঃ y = 0.4554x + 0.7525) তবে এটি কেবল তখনই কাজ করবে যদি সেখানে লেবেলযুক্ত অক্ষ থাকে। তবে এটি আপনাকে অন্যান্য উত্তরগুলির ক্ষেত্রে সঠিক উত্তর দেবে না।


তবে রিগ্রেশন হ'ল বিযুক্তি নয় ।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

1
@ স্কোর্টচি আমি বিশ্বাস করি যে রিগ্রেশনকে অন্তরঙ্গ হিসাবে বোঝা যায়। তবে, সমাধান হিসাবে সমাধানের প্রস্তাব দেওয়া প্রশ্নের উত্তর দেয় না, যা আমাদেরকে কোনও ধরণের বিভক্তিকে কেন ন্যায়সঙ্গত বলে ব্যাখ্যা করতে বলে (এবং স্পষ্টতই এটি সমর্থন করার জন্য প্রয়োজনীয় অনুমানগুলি বর্ণনা করার জন্য আমন্ত্রণ জানিয়েছে)।
শুক্র

@ শুভ: ধন্যবাদ আমি অন্তঃপ্রবাহের কথা ভাবছিলাম, কমপক্ষে কমপক্ষে, যোগ-দ্য ডট হিসাবে - stats.stackexchange.com/a/33662/17230
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

@ স্কার্টচি এই থ্রেডটি একটি টেবিলের মধ্যে মূলত অন্তরঙ্গকরণের গাণিতিক ধারণাটিকে সম্বোধন করে । তার প্রশ্নের মন্তব্যে আমি অন্তরঙ্গকরণের প্রচলিত পরিসংখ্যানিক বোঝার দিকে ইঙ্গিত করেছিলাম , যা মোটামুটি ভিন্ন। রিগ্রেশন উভয় জগতে কাজ করে: একটি রিগ্রেশন ফাংশন একটি গাণিতিক ইন্টারপোলটার হিসাবে কাজ করতে পারে (একটি সুনির্দিষ্ট সংজ্ঞায়িত ফাংশনের জন্য যা একটি টেবিলে নমুনাযুক্ত হয়) পাশাপাশি একটি পরিসংখ্যানীয় ইন্টারপোলটর (কোনও স্টোকাস্টিক প্রক্রিয়ার মানগুলির পরিসংখ্যানগত ভবিষ্যদ্বাণীগুলির মাধ্যমে শর্তাধীন) এই প্রক্রিয়া থেকে প্রাপ্ত সীমাবদ্ধ সংখ্যা)।
whuber

1
nn
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.