বাউন্ডেড টার্গেট ভেরিয়েবল কীভাবে মডেল করবেন?


18

আমার 5 টি ভেরিয়েবল রয়েছে এবং আমি আমার টার্গেট ভেরিয়েবলটি পূর্বাভাস দেওয়ার চেষ্টা করছি যা অবশ্যই 0 থেকে 70 এর মধ্যে থাকা উচিত।

আমি কীভাবে এই লক্ষ্যটির টুকরোটি আমার লক্ষ্যকে আরও উন্নত করতে মডেল করতে পারি?

উত্তর:


21

max(0,min(70,y^))y^

তবে, সীমাবদ্ধ পরিসীমা নির্ভরশীল ভেরিয়েবল ( ) এবং স্বতন্ত্র ভেরিয়েবল ( ) এর মধ্যে একটি অলৈখিক সম্পর্কের সম্ভাবনা বাড়িয়ে তোলে । এর অতিরিক্ত কিছু সূচকগুলির মধ্যে রয়েছে:yxi

  • রেঞ্জের উভয় প্রান্তে অবশিষ্টাংশের পরিবর্তনের তুলনায় its তার পরিসরের মাঝামাঝি অবস্থিত যখন অবশেষ মানগুলিতে বৃহত্তর প্রকরণ ।y^

  • নির্দিষ্ট অ-রৈখিক সম্পর্কের জন্য তাত্ত্বিক কারণ।

  • মডেল ভুল-নির্দিষ্টকরণের প্রমাণ (সাধারণ উপায়ে প্রাপ্ত)।

  • তে চতুষ্কোণ বা উচ্চ-অর্ডার শর্তগুলির তাৎপর্য ।xi

এই শর্তগুলির মধ্যে কোনওটি ধরে রাখলে একটি অ-রৈখিক পুনঃপ্রকাশের বিষয়টি বিবেচনা করুন ।y

এক্স i এর সাথে আরও লিনিয়ার সম্পর্ক তৈরির জন্য পুনরায় প্রকাশ করার অনেকগুলি উপায় রয়েছে । উদাহরণস্বরূপ, কোনো বৃদ্ধি ফাংশন ব্যবধান সংজ্ঞাসমূহ [ 0 , 70 ] করতে পারেন "গুটান" হতে এর মাধ্যমে একটি প্রতিসম বৃদ্ধি ফাংশন তৈরি করতে Y ( Y ) - ( 70 - Y ) । যদি তার যুক্তি 0 এর কাছাকাছি আসার সাথে সাথে নির্বিচারে বড় এবং নেতিবাচক হয়ে যায় , ভাঁজ করা সংস্করণটি মানচিত্র করবেyxif[0,70]yf(y)f(70y)f0f[0,70]সমস্ত আসল সংখ্যায় এই জাতীয় ফাংশনগুলির উদাহরণগুলির মধ্যে লোগারিদম এবং কোনও নেতিবাচক শক্তি অন্তর্ভুক্ত। লগারিদম ব্যবহার করা @ ব্যবহারকারী 603 দ্বারা প্রস্তাবিত "লগইট লিঙ্ক" এর সমান। আর একটি উপায় হ'ল কে কোনও সম্ভাব্যতা বিতরণের বিপরীত সিডিএফ হতে দেওয়া এবং সংজ্ঞায়িত করাG। একটি সাধারণ বিতরণ ব্যবহার করে "প্রবিট" রূপান্তর ঘটে।f(y)=G(y/70)

রূপান্তরগুলির পরিবারগুলির শোষণের একটি উপায় পরীক্ষা করা: সম্ভাব্য রূপান্তরের চেষ্টা করা, এক্স i এর বিপরীতে রূপান্তরিত এর একটি দ্রুত রিগ্রেশন করা , এবং অবশিষ্টাংশগুলি পরীক্ষা করা: এগুলি y এর পূর্বাভাসিত মানগুলির চেয়ে পৃথক হওয়া উচিত (সমকামী এবং অসংলগ্ন) )। এগুলি স্বাধীন ভেরিয়েবলের সাথে লিনিয়ার সম্পর্কের লক্ষণ। পিছনে রূপান্তরিত পূর্বাভাসিত মানগুলির অবশিষ্টাংশ যদি ছোট থাকে তবে এটিও সহায়তা করে । এটি রূপান্তরটি ফিটের উন্নতি করেছে বলে ইঙ্গিত দেয়। বহিরাগতদের প্রভাব প্রতিরোধ করতে, শক্তিশালী রিগ্রেশন পদ্ধতিগুলি ব্যবহার করুন যেমন পুনরাবৃত্তভাবে কমপক্ষে স্কোয়ারগুলি পুনরায় দেখা যায়yxiy


1
+1 দুর্দান্ত উত্তর! কেন আপনি "এক্সট্রোপোলেট" করতে পারেন বা কেন "y_hat তার পরিসরের মাঝখানে অবস্থিত, যখন রেঞ্জের উভয় প্রান্তে অবশিষ্টাংশের পরিবর্তনের তুলনায়" অবশিষ্টের মানগুলির মধ্যে বৃহত্তর প্রকরণ "অ-লৈখিকতার ইঙ্গিত?
অ্যান্ডি ম্যাককেঞ্জি

1
@ অ্যান্ডি তত্ত্ব অনুসারে, এই জাতীয় ভিন্নতার সাথে অনৈখিকতার কোনও প্রত্যক্ষ যোগসূত্র নেই, তবে বাস্তবে এটি বেশিরভাগ ক্ষেত্রেই দেখা যায় যে একটি ভিন্নতা-স্থিতিশীল রূপান্তর সম্পর্কের লিনিয়ারাইজেশন করে। ন্যূনতম (০ টির মতো) থেকে সর্বোচ্চ (like০ এর মতো) অব্যাহতভাবে যে কোনও বক্ররেখা উঠতে পারে সেই পরিসরের মাঝখানে কোথাও একটি সর্বাধিক opeাল হবে, প্রায়শই সেখানেও বৃহত্তর অবশিষ্টাংশের পরিবর্তন ঘটে। সে কারণেই আমরা আশা করব যে অবশিষ্টাংশগুলি মাঝের দিকে আরও প্রসন্নতা এবং প্রান্তে কম দেখাবে। যদি এটি না হয়, আমরা অপ্রত্যাশিত পরিবর্তনশীলের সাথে লিনিয়ার সম্পর্কের জন্য আশা করতে পারি ।
হোবার

5

আপনার মানগুলি 0-70 সীমার মধ্যে কেন আবদ্ধ তা বিবেচনা করা গুরুত্বপূর্ণ । উদাহরণস্বরূপ, যদি তারা 70-প্রশ্ন পরীক্ষায় সঠিক উত্তরগুলির সংখ্যা হয়, তবে আপনাকে "সাফল্যের সংখ্যা" ভেরিয়েবলগুলির মডেলগুলি বিবেচনা করা উচিত, যেমন অতিরিক্ত মাত্রায় দ্বি-দ্বীনের রিগ্রেশন। অন্যান্য কারণ আপনাকে অন্যান্য সমাধানের দিকে নিয়ে যেতে পারে।


2

ডেটা ট্রান্সফরমেশন: [0,1] থাকাতে আপনার ডেটা পুনরুদ্ধার করুন এবং লগিট লিঙ্কের সাথে একটি গ্ল্যাম মডেল ব্যবহার করে এটি মডেল করুন।

সম্পাদনা: আপনি যখন কোনও ভেক্টরকে পুনরায় স্কেল করেন (অর্থাত্ বৃহত্তম প্রবেশাধিকার দ্বারা সমস্ত উপাদানগুলি ভাগ করে নিন), এটি করার আগে, বিদেশিদের জন্য স্ক্রিন (আইবোলস)।

হালনাগাদ

ধরে নেওয়া যাক আপনি আর এক্সেস আছে, আমি একটি সঙ্গে মডেলিং অংশ বহন করে শক্তসমর্থ glm রুটিন দেখতে glmrob() প্যাকেজের মধ্যে robustbase


3
এখানে প্রস্তাবিত হিসাবে ডেটা ক্ল্যাম্পিং একটি রিগ্রেশন theালু পক্ষপাতিত্ব করবে।
হোবার

1
এছাড়াও, আমি নমুনা কোয়ান্টাইলের উপর ভিত্তি করে ক্ল্যাম্পিংয়ের তাত্ক্ষণিক মানটি দেখতে পাই না, যখন ডেটার সত্যিকারের পরিসরটি একটি অগ্রাধিকার হিসাবে পরিচিত হয়।
কার্ডিনাল

@ কার্ডিনাল পয়েন্টটি হ'ল (উদাহরণস্বরূপ) সম্ভবত ডেটাগুলির 99% [0,1] এবং বাকী মানগুলি সমান 70 এর মধ্যে থাকে: পরিসরে একটি কমপ্যাক্ট সীমাবদ্ধতা বহিরাগতদের অনুপস্থিতির নিশ্চয়তা দেয় না! সুতরাং আমি প্রস্তাবিত পদ্ধতির সম্ভাব্য পক্ষপাত সম্পর্কে আমার উদ্বেগ সত্ত্বেও @ @ ব্যবহারকারী 603 দ্বারা প্রদত্ত পরামর্শের চেতনার সাথে আমি একমত।
হোবার

@ হুইবার: এই জাতীয় সেটিংয়ের প্রতি আমার প্রবণতা হ'ল এমন একটি জিএলএম ব্যবহার করা হবে যা এই ধরণের বাতাড়ানোর চেয়ে বরং বিদেশীদের প্রতিরোধী ছিল। তারপরে মডেলটিকে "ইন্টারসেপ্ট" এবং "opeাল" সহগের মাধ্যমে সামঞ্জস্য করুন।
কার্ডিনাল

@ কার্ডিনাল হ্যাঁ, এটি একটি কার্যকর সমাধান। আমি আশা করি যে এ জাতীয় একটি জিএলএম ব্যবহারের পরেও অবশিষ্টাংশের (আনুমানিক) লাইনারিটি এবং স্বাধীনতা যাচাই করার জন্য ডায়াগনস্টিক পদ্ধতিগুলি উপস্থিত থাকবে।
হোবার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.