কোনও রৈখিক মডেল লাগানোর পরে কি লাগানো অবশিষ্টাংশগুলিকে পক্ষপাত এবং বৈকল্পিকতায় পচন করা সম্ভব?


9

আমি আরও জটিল মডেলের প্রয়োজন, বা আরও জটিল মডেলের প্রয়োজন না হিসাবে ডেটা পয়েন্টগুলি শ্রেণিবদ্ধ করতে চাই। আমার বর্তমান চিন্তাভাবনা হ'ল সমস্ত তথ্য একটি সাধারণ রৈখিক মডেলের সাথে ফিট করে এবং এই শ্রেণিবদ্ধকরণটি করার জন্য অবশিষ্টাংশের আকার পর্যবেক্ষণ করে। আমি তখন ত্রুটির প্রতি পক্ষপাতিত্ব এবং প্রকরণের অবদান সম্পর্কে কিছু পড়েছিলাম এবং বুঝতে পেরেছিলাম যে আমি যদি সরাসরি পক্ষপাত গণনা করতে পারি তবে সম্পূর্ণ ত্রুটি (অবশিষ্ট বা মানকীয় অবশিষ্টাংশ) নিয়ে কাজ করা আরও ভাল ব্যবস্থা হতে পারে।

লিনিয়ার মডেলটি দিয়ে কি সরাসরি পক্ষপাত অনুমান করা সম্ভব? পরীক্ষার ডেটা সহ বা ছাড়াই? এখানে বৈধকরণ সহায়তা ক্রস করবে?

যদি তা না হয় তবে কেউ কি আনুমানিক পক্ষপাতিত্বের ক্ষেত্রে লিনিয়ার মডেলগুলির (যেমন আমি ব্যাগিং বলে মনে করি) গড় গড় বুটস্ট্র্যাপিং ব্যবহার করতে পারি?


1
হতে পারে এগুলি সমতুল্য (রেসিডুয়াল বনাম বায়াস) কারণ ধ্রুবকটির বৈকল্পিক?
kmace

1
আপনার পোস্টের প্রথম বিবৃতি দিয়ে আপনি কী বোঝাতে চেয়েছেন তা কি আপনি পরিষ্কার করতে পারেন? এতে আপনি "ডেটা পয়েন্ট" (স্বতন্ত্র পর্যবেক্ষণ?) কে "আরও জটিল জটিল প্রয়োজন, বা আরও জটিল মডেলের প্রয়োজন নেই" হিসাবে শ্রেণিবদ্ধ করতে চান। এটার অর্থ ঠিক কী তা আমার কাছে স্পষ্ট নয় (যদিও এটি আউটরিয়ার সনাক্তকরণ বা অন্যান্য ধরণের ধরণের সমস্যা বলে মনে হচ্ছে), বা পক্ষপাত নির্ধারণের পরবর্তী প্রশ্নগুলির সাথে এটি কীভাবে সম্পর্কিত।
রায়ান সিমন্স 13

আমার অর্থ হ'ল আমার নমুনার একটি সাবসেট রয়েছে যা আলাদা টার্গেট ফাংশন । সুতরাং আসুন আমরা বলি যে বেশিরভাগ নমুনাগুলির জন্য, সত্য টার্গেট ফাংশনটি নিম্নরূপ: এবং নমুনার একটি সংখ্যালঘুদের জন্য, লক্ষ্য ফাংশনটি: । যদি আমি আমার মডেলটিতে মিথস্ক্রিয়া শর্তগুলির জন্য অনুমতি না দিই (আমার অনুমানের সেটে সেগুলি ধারণ করে না), তবে আমার সমস্ত ডেটা মাপসই করা উচিত এবং দেখতে যে নমুনাগুলিতে বড় ত্রুটি রয়েছে সম্ভবত লক্ষ্য ফাংশনf(x)f1(x)=3x1+2x2f2(x)=3x1+2x2+x1x2f2
kmace

2
রায়ান যেমন ইতিমধ্যে ইঙ্গিত করেছে, প্রশ্ন খুব পরিষ্কারভাবে বলা হয় না। আপনার মন্তব্যটি "সদ্ব্যবহারের দিক দিয়ে" নির্দেশ করে। তবে এটিকে ঘুরিয়ে দেওয়া অসম্ভব। আপনার মনে মনে একটি পূর্ব ধারণা রয়েছে যা বিভ্রান্তিমূলক। আপনি যদি কোনও মডেল এবং কিছু ডেটা একত্রিত করেন এবং মডেল পরামিতিগুলি নির্ধারণ করেন তবে আপনি প্রচুর জিনিস গণনা করতে পারেন। তবে আপনি সর্বদা পরিসংখ্যানগতভাবে সীমাবদ্ধ ডেটা সেট দিয়ে শুরু করেন, এমন কোনও সত্য নেই যে আপনি আরও বেশি খনন করে বা আরও বেলচা দিয়ে উদ্ঘাটিত করতে পারবেন। আপনার প্রয়োগ করা কোনও পদ্ধতিই সত্য উপস্থাপন করবে না, তবে এটি আপনাকে ভুল হতে পারে তা নির্দেশ করতে পারে।
চাঁদের কণা

উত্তর:


12

আপনি সাধারণত ত্রুটি (অবশিষ্টাংশ) কে পক্ষপাত এবং বৈকল্পিক উপাদানগুলিতে বিচ্ছিন্ন করতে পারবেন না। এর সহজ কারণটি হ'ল আপনি সাধারণত সঠিক ফাংশনটি জানেন না। সেই স্মরণ করুন এবং যে আপনি অনুমান করতে চান সেই অজানা জিনিস।bias(f^(x))=E[f^(x)f(x)],f(x)

বুটস্ট্র্যাপিং সম্পর্কে কী? বুটস্ট্র্যাপিং করে কোনও অনুমানকারকের পক্ষপাতদর্শন অনুমান করা সম্ভব, তবে এটি ব্যাগিং মডেলগুলি সম্পর্কে নয় এবং আমি বিশ্বাস করি না যে এর পক্ষপাতিত্ব নির্ধারণের জন্য বুটস্ট্র্যাপ ব্যবহার করার কোনও উপায় আছে কারণ বুটস্ট্র্যাপিং এখনও রয়েছে সত্যের কিছু ধারণার ভিত্তিতে এবং এর নামের উত্স সত্ত্বেও কিছুই থেকে কিছু তৈরি করতে পারে না।f^(x),

স্পষ্ট করার জন্য: অনুমানকারী বুটস্ট্র্যাপ অনুমানটি হ'ল θ^

bias^B=θ^()θ^,

সঙ্গে আপনার পরিসংখ্যাত উপর নির্ণিত গড় হচ্ছে বুটস্ট্র্যাপ নমুনা । এই প্রক্রিয়াটি কিছু জনসংখ্যার থেকে নমুনা তৈরি করে এবং আপনার আগ্রহের পরিমাণ গণনা করে। এটি কেবল তখনই কাজ করে যদি নীতিগতভাবে জনসংখ্যার থেকে সরাসরি গণনা করা যায়। পক্ষপাতিত্বের বুটস্ট্র্যাপ অনুমানটি নির্ধারণ করে যে প্লাগ-ইন অনুমান mate যেমন কেবলমাত্র জনসংখ্যার পরিবর্তে কোনও নমুনায় একই গণনা করা ased পক্ষপাতদুষ্ট।θ^()B θ^

যদি আপনি কেবলমাত্র আপনার অবশিষ্টাংশগুলি মডেল ফিটকে মূল্যায়নের জন্য ব্যবহার করতে চান তবে এটি সম্পূর্ণ সম্ভব। আপনি যদি মন্তব্যগুলিতে বলেছিলেন, নেস্টেড মডেলগুলি এবং করতে চান, তবে বড় মডেলটি যোগফলকে উল্লেখযোগ্য পরিমাণ হ্রাস করে কিনা তা পরীক্ষা করতে আপনি করতে পারেন স্কোয়ার ত্রুটিf1(x)=3x1+2x2f2(x)=3x1+2x2+x1x2


8

একটি পরিস্থিতি যেখানে আপনি পঁচনের একটি অনুমান পেতে পারেন তা যদি আপনার প্রতিলিপিযুক্ত পয়েন্ট থাকে (যেমন ভবিষ্যদ্বাণীকারীদের বিভিন্ন সংমিশ্রণের জন্য একাধিক প্রতিক্রিয়া পাওয়া যায়)।

এটি বেশিরভাগ ক্ষেত্রে সীমাবদ্ধ যেখানে আপনার স্বতন্ত্র ভেরিয়েবলগুলির নিয়ন্ত্রণ রয়েছে (যেমন পরীক্ষাগুলিতে) বা যেখানে তারা সমস্ত বিচ্ছিন্ন (যখন খুব বেশি এক্স-সংমিশ্রণ নেই এবং আপনি একটি বৃহত পরিমাণে নমুনা নিতে পারেন যে এক্স-মান সংমিশ্রণ একাধিক পয়েন্ট পেতে)।

প্রতিলিপিযুক্ত পয়েন্ট আপনাকে শর্তসাপেক্ষ গড়টি অনুমান করার একটি মডেল-মুক্ত উপায় দেয়। এই ধরনের পরিস্থিতিতে স্কোয়ারের অবশিষ্ট অংশগুলি খাঁটি ত্রুটি এবং ফিটের অভাবে বিভক্ত হওয়ার সম্ভাবনা রয়েছে , তবে এক্স-ভ্যালুগুলির প্রতিটি সংমিশ্রণে আপনার পক্ষপাতের প্রত্যক্ষ (যদিও অট্টহাসি) সরাসরি অনুমানও রয়েছে যার জন্য আপনার একাধিক প্রতিক্রিয়া রয়েছে।


আমি মনে করি না এটি কাজ করবে। সেই ক্ষেত্রে বিবেচনা করুন যেখানে আপনি আপনার মডেল থেকে একটি গুরুত্বপূর্ণ ব্যাখ্যামূলক পরিবর্তনশীল বাদ দিয়েছেন। যদি এই ব্যাখ্যামূলক পরিবর্তনশীলটি অন্যান্য সমস্ত ব্যাখ্যামূলক ভেরিয়েবলের কাছে অর্থকোনাল হয় তবে আমি বিশ্বাস করি যে এটির প্রভাব (বা অভাব) সনাক্ত করা যাবে না এটি বা অন্য উত্তরে প্রস্তাবিত অন্য কোনও পদ্ধতি দ্বারা।
ক্যাগডাস ওজজেঙ্ক

2
@ ক্যাগডাস এটি সমস্ত পরিস্থিতিতে কাজ করে না; এটি অপ্রয়োজনীয় মডেল-ফর্ম থেকে পক্ষপাতিত্ব সনাক্ত করে, অগত্যা
অনুমানকারীদের

1

কিছুটা জটিল কালম্যান ফিল্টারিং রিয়ারিয়ামে, কখনও কখনও লোকেরা মডেল পরিবর্তনগুলি বা দোষের পরিস্থিতি সন্ধানের জন্য অবশিষ্টাংশগুলি (পর্যবেক্ষণযোগ্য পরিমাপ বিয়োগের পূর্বাভাস পরিমাপ) পরীক্ষা করে। তত্ত্ব অনুসারে, যদি মডেলটি নিখুঁত হয়, এবং শব্দটি গাউসিয়ান হয়, তবে অবশিষ্টাংশগুলিও শূন্য মধ্য দিয়ে গৌসিয়ান হওয়া উচিত এবং পূর্বাভাসিত কোভারিয়েন্স ম্যাট্রিক্সের সাথেও সামঞ্জস্যপূর্ণ হতে হবে। সিকোয়েন্সিয়াল সম্ভাব্যতা অনুপাত টেস্ট (এসপিআরটি) এর মতো ক্রমিক পরীক্ষার সাহায্যে লোকেরা ননজারো মানে পরীক্ষা করতে পারে। আপনার পরিস্থিতি আলাদা কারণ আপনার কাছে নতুন ডেটার অবিচ্ছিন্ন স্ট্রিমের পরিবর্তে ডেটাগুলির একটি নির্দিষ্ট ব্যাচ রয়েছে। কিন্তু অবশিষ্টাংশের নমুনা বন্টনের দিকে তাকানোর প্রাথমিক ধারণাটি এখনও প্রয়োগ হতে পারে।

আপনি ইঙ্গিত করেছেন যে আপনি মডেলিংয়ের প্রক্রিয়াটি মাঝেমধ্যে পরিবর্তিত হতে পারে। তারপরে, আপনার কাছে থাকা ডেটা দিয়ে আরও কিছু করার জন্য আপনাকে সম্ভবত সেই পরিবর্তনটির কারণ হিসাবে চিহ্নিত অন্যান্য কারণগুলি সনাক্ত করতে হবে। ২ টি সম্ভাবনা বিবেচনা করুন: (১) হতে পারে আপনার এক গ্লোবাল মডেলের পরিবর্তে স্থানীয় মডেলগুলির প্রয়োজন হবে, উদাহরণস্বরূপ, কারণ কেবলমাত্র কয়েকটি অপারেটিং অঞ্চলে মারাত্মক অরৈখিকতা রয়েছে, বা (২), সময়ের সাথে সাথে প্রক্রিয়াটি পরিবর্তিত হতে পারে।

যদি এটি কোনও দৈহিক ব্যবস্থা হয় এবং আপনার নমুনাগুলি প্রচুর সময়ের ব্যবধানে পৃথকভাবে নেওয়া না হয় তবে সম্ভব হয় যে এই প্রক্রিয়াগুলির পরিবর্তনগুলি উল্লেখযোগ্য সময়ের সাথে অব্যাহত থাকে। এটি হ'ল সত্য মডেলের প্যারামিটারগুলি মাঝেমধ্যে পরিবর্তিত হতে পারে এবং কিছু সময়ের জন্য স্থির থাকে। যদি আপনার ডেটা সময়ে স্ট্যাম্প করা থাকে তবে আপনি সময়ের সাথে সাথে অবশিষ্টাংশগুলিতে নজর দিতে পারেন। উদাহরণস্বরূপ, ধরুন আপনি আপনার সমস্ত ডেটা ব্যবহার করে, y এবং খ খুঁজে পেয়ে y = Ax + b ফিট করেছেন finding তারপরে ফিরে যান এবং রেসিডুয়াল সিকোয়েন্স r [k] = y [k] - Ax [k] - b পরীক্ষা করুন, যেখানে k ক্রম অনুসারে একটি সূচক হয় times সময়ের সাথে সাথে নিদর্শনগুলি দেখুন, যেমন, পিরিয়ড যেখানে সংক্ষিপ্ত পরিসংখ্যান || r [কে] || কিছু সময়ের জন্য স্বাভাবিকের চেয়ে বেশি থাকে। ক্রমযুক্ত পরীক্ষাগুলি বিভিন্ন ধরণের ত্রুটি, এসপিআরটি বা এমনকি পৃথক ভেক্টর সূচকগুলির জন্য এমনকি CUSUM এর মতো কিছু সনাক্ত করার ক্ষেত্রে সবচেয়ে সংবেদনশীল হবে।


1

উত্তরটি হ'ল না , কারণ পক্ষপাত এবং প্রকরণটি মডেল প্যারামিটারগুলির বৈশিষ্ট্য, পরিবর্তে তাদের হিসাবের জন্য ব্যবহৃত ডেটা। সেই বক্তব্যটির একটি আংশিক ব্যতিক্রম রয়েছে যা পূর্বাভাসকারী স্থানের মাধ্যমে পক্ষপাত এবং বৈচিত্র্য পরিবর্তিত (হ্যাঁ!) এর সাথে সম্পর্কিত; নীচে যে আরও। নোট করুন যে ভবিষ্যদ্বাণীকারী এবং প্রতিক্রিয়া ভেরিয়েবল সম্পর্কিত কিছু "সত্য" ফাংশন জানার সাথে এর পুরোপুরি কিছুই করার নেই।

হিসেব বিবেচনা রৈখিক রিগ্রেশনের মধ্যে , যেখানে একটি হল ভবিষ্যতবক্তা ম্যাট্রিক্স, একটি হল পরামিতি অনুমান ভেক্টর, এবং একটি প্রতিক্রিয়াগুলির একটি ভেক্টর। আসুন তর্কের পক্ষে ধরে নেওয়া যাক যে আমাদের কাছে অঙ্কনের মতো অগণিত জনসংখ্যা রয়েছে (এটি পুরোপুরি হাস্যকর নয়, যাইহোক - যদি আমরা কিছু শারীরিক প্রক্রিয়া থেকে সক্রিয়ভাবে ডেটা রেকর্ড করতাম তবে আমরা দ্রুত হারে ভবিষ্যদ্বাণী এবং প্রতিক্রিয়া ডেটা রেকর্ড করতে পারতাম , এভাবে ব্যবহারিকভাবে এই অনুমানটি সন্তুষ্ট করা)। সুতরাং আমরা পর্যবেক্ষণগুলি আঁকব , প্রতিটি একক প্রতিক্রিয়ার মান এবং এর প্রতিটিটির জন্য একটি মানββ^=(XTX)1XTYXN×Pβ^P×1YN×1NP ভবিষ্যদ্বাণী। তারপরে আমরা আমাদের অনুমান গণনা এবং মানগুলি রেকর্ড করি। আসুন আমরা এই পুরো প্রক্রিয়াটি গ্রহণ করি এবং এটি বার পুনরাবৃত্তি করি , প্রতিবার জনসংখ্যার থেকে আলাদা করে তোলে । আমরা অনুমানগুলি জমা করব যার উপর দিয়ে আমরা প্যারামিটার ভেক্টরের প্রতিটি উপাদানের বৈচিত্র গণনা করতে পারি। নোট করুন যে এই প্যারামিটার অনুমানের বৈকল্পিকটি পূর্বাভাসীদের অরথোগোনালটি ধরে ধরে উল্টোভাবে আনুপাতিক সমানুপাতিক এবং সমানুপাতিক ।β^NiterNNiterβ^NP

প্রতিটি প্যারামিটারের পক্ষপাতটি একইভাবে অনুমান করা যায়। যদিও আমাদের "সত্য" ফাংশনে অ্যাক্সেস নাও থাকতে পারে, ধরে নেওয়া যাক আমরা গণনা করার জন্য জনসংখ্যার থেকে নির্বিচারে বড় অঙ্কন করতে পারি , যা "সত্য" পরামিতি মানের জন্য প্রক্সি হিসাবে কাজ করবে । আমরা ধরে নেব যে এটি নিরপেক্ষ অনুমান (সাধারণ সর্বনিম্ন স্কোয়ার) এবং ব্যবহার করা পর্যবেক্ষণের সংখ্যাটি যথেষ্ট পরিমাণে এত বেশি যে এই অনুমানের বৈচিত্রটি নগন্য। প্রত্যেকের জন্য পরামিতি, আমরা কম্পিউট , যেখানে থেকে রেঞ্জ থেকে । আমরা এই পার্থক্যগুলির গড়টিকে সংশ্লিষ্ট প্যারামিটারের পক্ষপাতের অনুমান হিসাবে নিই।β^bestPβ^bestjβ^jj1Niter

উপাত্তের সাথে পক্ষপাত এবং বৈকল্পিক সম্পর্কিত সম্পর্কিত উপায় রয়েছে তবে তারা কিছুটা জটিল। আপনি দেখতে পাচ্ছেন যে লিনিয়ার মডেলগুলির জন্য পক্ষপাত এবং বৈকল্পিক অনুমান করা যেতে পারে তবে আপনার বেশ কয়েকটি হোল্ড-আউট ডেটা লাগবে। আরও কুখ্যাত সমস্যাটি হ'ল সত্য যে আপনি একবারে কোনও নির্দিষ্ট ডেটাसेट নিয়ে কাজ শুরু করার পরে, আপনার বিশ্লেষণগুলি আপনার ব্যক্তিগত বৈচিত্র দ্বারা দূষিত হয়ে যাবে , আপনি ইতিমধ্যে কাঁটা পথের বাগানে ঘুরে বেড়াতে শুরু করেছেন এবং কীভাবে তা জানার উপায় নেই knowing বহির্মুখী নমুনাটির প্রতিলিপি তৈরি করবে (যদি না আপনি কেবলমাত্র একটি একক মডেল নিয়ে এসেছেন এবং এই বিশ্লেষণ চালিয়েছেন এবং এটির পরে এটি একা রেখে যাওয়ার প্রতিশ্রুতিবদ্ধ) না।

ডেটাগুলির বিষয়গুলি নিজেরাই নির্দেশ করে, সর্বাধিক সঠিক (এবং তুচ্ছ) উত্তরটি হ'ল যদি এবং between between এর মধ্যে কোনও পার্থক্য থাকেYY^, আপনার আরও জটিল মডেল প্রয়োজন (ধরে নিচ্ছেন যে আপনি সমস্ত প্রাসঙ্গিক ভবিষ্যদ্বাণীকে সঠিকভাবে সনাক্ত করতে পারেন; আপনি পারবেন না)। "ত্রুটি" এর দার্শনিক প্রকৃতির উপর বিরক্তিকর কোনও গ্রন্থে না গিয়ে নীচের লাইনটি এমন কিছু ঘটেছিল যা আপনার মডেলটির চিহ্নটি হারিয়ে ফেলল। সমস্যাটি হ'ল জটিলতা যুক্তকরণের ফলে বৈকল্পিকতা বৃদ্ধি পায় যা এটি অন্যান্য ডেটার পয়েন্টগুলিতে চিহ্নটি মিস করতে পারে। অতএব, পৃথক ডেটা পয়েন্ট পর্যায়ে ত্রুটিযুক্তি সম্পর্কে উদ্বেগ প্রকাশ করা কোনও ফলস্বরূপ প্রচেষ্টা হওয়ার সম্ভাবনা নেই। ব্যতিক্রম (প্রথম অনুচ্ছেদে উল্লিখিত) থেকে দেখা যায় যে পক্ষপাত এবং বৈকল্পিকতা আসলে ভবিষ্যদ্বাণীকারীদের নিজস্ব ফাংশন, তাই আপনার কাছে ভবিষ্যদ্বাণীকারী জায়গার এক অংশে বড় পক্ষপাত এবং অন্যটিতে ছোট পক্ষপাত থাকতে পারে (বৈকল্পিকতার জন্য একই)।YY^অনেক সময় (যেখানে এবং উপর ভিত্তি করে অনুমান করা হয়নি ) এবং এর মানগুলির কার্যকারিতা হিসাবে এর পক্ষপাত (গড়) এবং বৈকল্পিকের পরিকল্পনা করা হয় । যাইহোক, আমি মনে করি এটি একটি বিশেষ বিশেষজ্ঞ উদ্বেগ।Y^=Xβ^β^ YX

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.