বিভিন্ন ধরণের মডেল কেন প্রায় অভিন্ন ফলাফল দিতে পারে?


10

আমি k 400k রেকর্ড এবং 9 ভেরিয়েবলের একটি ডেটা সেট বিশ্লেষণ করেছি নির্ভরশীল ভেরিয়েবল বাইনারি। আমি একটি লজিস্টিক রিগ্রেশন, একটি রিগ্রেশন ট্রি, একটি এলোমেলো বন এবং একটি গ্রেডিয়েন্ট বুস্টেড ট্রি লাগিয়েছি। আমি অন্য ডেটা সেটে এগুলিকে বৈধতা দিলে এগুলি সমস্তই ফিট সংখ্যার ভার্চুয়াল অভিন্ন ধার্মিকতা দেয়।

কেন এমন হয়? আমি অনুমান করছি যে এটি কারণ ভেরিয়েবল অনুপাত সম্পর্কে আমার পর্যবেক্ষণগুলি এত বেশি। যদি এটি সঠিক হয় তবে পরিবর্তনশীল অনুপাতের কোন পর্যবেক্ষণে বিভিন্ন মডেল বিভিন্ন ফলাফল দিতে শুরু করবে?

উত্তর:


7

এই ফলাফলগুলির অর্থ হ'ল আপনি যে কোনও পদ্ধতি ব্যবহার করুন না কেন আপনি যথাযথ সিদ্ধান্তের নিয়মের (ওরফে বায়েস বিধি ) কাছাকাছি যেতে পারবেন । অন্তর্নিহিত কারণগুলি হস্টি, তিবশিরানী এবং ফ্রেডম্যানের "পরিসংখ্যানগত শিক্ষার উপাদানসমূহ" এ ব্যাখ্যা করা হয়েছে । তারা ফিগসের তুলনা করে বিভিন্ন পদ্ধতি কীভাবে সম্পাদন করে তা প্রদর্শিত হয়েছিল। ২.১, ২.২, ২.৩, ৫.১১ (আমার প্রথম সংস্করণে - বহুমাত্রিক স্প্লাইনগুলির বিভাগে), 12.2, 12.3 (সমর্থন ভেক্টর মেশিন) এবং সম্ভবত কিছু অন্যান্য। আপনি যদি সেই বইটি না পড়ে থাকেন তবে আপনার এখনই ডানদিকে সবকিছু ফেলে দেওয়া উচিত । (আমি বোঝাতে চাইছি এটি আপনার চাকরি হারানোর পক্ষে নয়, তবে আপনি শিক্ষার্থী হলে একটি বা দুটি হোমওয়ার্ক মিস করার পক্ষে এটি মূল্যবান))

আমি ভেরিয়েবল অনুপাতের পর্যবেক্ষণগুলি ব্যাখ্যা বলে মনে করি না। উপরের প্রস্তাবিত আমার যৌক্তিকতার আলোকে, সীমান্তের তুলনামূলকভাবে সহজ রূপটি আপনার শ্রেণিগুলিকে বহুমাত্রিক জায়গাতে পৃথক করে যা আপনি চেষ্টা করেছেন এমন সমস্ত পদ্ধতি যেগুলি সনাক্ত করতে সক্ষম হয়েছে।


আমি আমার বসকে জিজ্ঞাসা করব যদি আমি সংস্থাটির জন্য অর্থ প্রদান করতে পারি।
জেনএসসিডিসি

1
ইএসএল তাদের হোমপেজ থেকে পিডিএফ হিসাবে 'ফ্রি' ... এছাড়াও ডাউনলোড করাও মূল্যবান আইএসএল (একই লেখকের অনেকের দ্বারা) - আরও ব্যবহারিক www-bcf.usc.edu/~gareth/ISL
seanv507

4

প্রশিক্ষণের ত্রুটিগুলি দেখার জন্য এটির মূল্য।

মূলত আমি আপনার বিশ্লেষণের সাথে একমত নই। যদি লজিস্টিক রিগ্রেশন ইত্যাদি সব একই ফলাফল দেয় তবে এটি সুপারিশ করবে যে 'সেরা মডেল' খুব সাধারণ একটি (যে সমস্ত মডেল সমানভাবে ফিট করতে পারে - যেমন মূলত লিনিয়ার)।

তাহলে প্রশ্নটি উঠতে পারে যে সেরা মডেলটি কেন একটি সাধারণ মডেল ?: এটি সম্ভবত আপনার ভেরিয়েবলগুলি খুব ভবিষ্যদ্বাণীপূর্ণ নয় বলে প্রস্তাব দিতে পারে। এটি অবশ্যই ডেটা না জেনে বিশ্লেষণ করা শক্ত।


1

@ সিনাভ ৫০ suggested হিসাবে পরামর্শ দেওয়া হয়েছে, একই রকমের পারফরম্যান্সটি কেবল লিনিয়ার মডেল দ্বারা ডেটা সবচেয়ে ভালভাবে আলাদা করার কারণে হতে পারে। তবে সাধারণভাবে, "ভেরিয়েবল অনুপাতের পর্যবেক্ষণগুলি এত বেশি যেহেতু" সঠিক নয় বলে বিবৃতিটি ভুল। এমনকি আপনার নমুনার আকারের ভেরিয়েবলের সংখ্যার অনুপাত অনন্তের দিকে চলে যাওয়ার পরেও, আপনি বিভিন্ন মডেলগুলি প্রায় একইরূপে সঞ্চালনের আশা করতে পারবেন না, যদি না তারা সমস্ত একই রকম অনুমানমূলক পক্ষপাত না করে থাকে।


নির্ভরশীল ভেরিয়েবলটি বাইনারি হওয়ার জন্য আমি কেবল আমার প্রশ্নটি সম্পাদনা করেছি ited অতএব, একটি লিনিয়ার মডেল উপযুক্ত নয়।
জেনএসসিডিসি

"যদি আপনারা সকলেই একই রকম ভবিষ্যদ্বাণীমূলক পক্ষপাত না প্রদান করেন তবে বিভিন্ন মডেলগুলি প্রায় অভিন্নভাবে সঞ্চালনের আশা করবেন না।" আমি এমএই এবং প্রকৃত অনুমানের ফলাফলের যথার্থতা হিসাবে বৈধতা ব্যবস্থা এবং অনুপাতগুলি খুব কাছাকাছি ব্যবহার করেছি।
জেনএসসিডিসি

1
অ্যান্ডি, আমি লজিস্টিক রিগ্রেশন (এবং লিনিয়ার এসভিএম) 'লিনিয়ার' মডেল হিসাবে অন্তর্ভুক্ত করব। এগুলি সমস্ত ইনপুটগুলির একটি ওজনযুক্ত যোগ করে ডেটা পৃথক করছে।
seanv507

1
@ seanv507 ঠিক - সিদ্ধান্তের সীমানা এখনও রৈখিক। বাইনারি শ্রেণিবদ্ধকরণ করা হচ্ছে তা পরিবর্তিত হয় না।
বগাট্রন

গাছের কী হবে? এগুলি সত্যই আমার কাছে রৈখিক বলে মনে হয় না।
জেনএসসিডিসি

0

আমি অনুমান করছি যে এটি কারণ ভেরিয়েবল অনুপাত সম্পর্কে আমার পর্যবেক্ষণগুলি এত বেশি।

আমি মনে করি এই ব্যাখ্যাটি সঠিকভাবে বোঝায়।

যদি এটি সঠিক হয় তবে পরিবর্তনশীল অনুপাতের কোন পর্যবেক্ষণে বিভিন্ন মডেল বিভিন্ন ফলাফল দিতে শুরু করবে?

এটি সম্ভবত আপনার নির্দিষ্ট ডেটার উপর নির্ভর করবে (উদাহরণস্বরূপ, এমনকি আপনার নয়টি ভেরিয়েবলগুলি অবিচ্ছিন্ন, উপাদান, সাধারণ বা বাইনারি) এবং সেই সাথে আপনার মডেলটি ফিট করার সময় কোনও সিদ্ধান্ত গ্রহণের সিদ্ধান্ত নিয়েছেন decisions

তবে আপনি পর্যবেক্ষণ-থেকে-পরিবর্তনশীল অনুপাতের সাথে চারপাশে খেলতে পারেন - ভেরিয়েবলের সংখ্যা বাড়িয়ে নয়, পর্যবেক্ষণের সংখ্যা হ্রাস করে। এলোমেলোভাবে 100 টি পর্যবেক্ষণ আঁকুন, মডেল ফিট করুন এবং দেখুন বিভিন্ন মডেল বিভিন্ন ফলাফল দেয় কিনা। (আমার ধারণা তারা এগুলি করবে)) আপনার মোট পর্যবেক্ষণের সংখ্যা থেকে আঁকা বিভিন্ন নমুনা সহ এটি একাধিকবার করুন। তারপরে 1000 টি পর্যবেক্ষণের উপস্থাগুলি দেখুন ... 10,000 টি পর্যবেক্ষণ ... এবং আরও অনেক কিছু।


1
এইচ এম কেন? আরও পর্যবেক্ষণগুলি সিদ্ধান্তের সীমানা আরও জটিল হওয়ার সম্ভাবনাটি বাড়িয়ে দেয় বলে মনে হচ্ছে - অবশ্যই লিনিয়ার না। এবং এই মডেলগুলি জটিল ক্ষেত্রে বিভিন্ন জিনিস করে এবং সাধারণ ক্ষেত্রেও এটি করার প্রবণতা রয়েছে।
শন ওভেন

@ সিয়ানওউইন: আমি মনে করি আমি আপনার মন্তব্য বুঝতে পারছি না। আমার উত্তরের কোন অংশটি "কেন" তা উল্লেখ করে? ওপি লিনিয়ার সিদ্ধান্তের সীমানা ব্যবহার সম্পর্কে কিছুই বলেনি - সর্বোপরি, তিনি ভবিষ্যদ্বাণীকারীদের কোনওভাবে রূপান্তরিত করেই পারেন।
স্টিফান কোলাসা

কেন আরও পর্যবেক্ষণগুলি বিভিন্ন শ্রেণিবদ্ধদের আরও অনুরূপ সিদ্ধান্ত দেবে? আমার অন্তর্দৃষ্টি বিপরীত। হ্যাঁ, আমি কেবল লিনিয়ার সিদ্ধান্তের সীমানার কথা ভাবছি না। সর্বোত্তম সীমানা যত জটিল হবে তত কম তারা সমস্ত কিছু এই সীমানার মতো কিছু ফিট করবে। এবং সীমানা আরও পর্যবেক্ষণের সাথে আরও জটিল হতে থাকে।
শান ওভেন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.