আমি কি রৈখিক মডেলটির অ-উল্লেখযোগ্য স্তরের কারণগুলির জন্য সহগকে উপেক্ষা করতে পারি?


15

এখানে লিনিয়ার মডেল সহগগুলির সম্পর্কে স্পষ্টতা খোঁজার পরে আমার ফ্যাক্টর স্তরের সহগের জন্য নন-সাইনফিসেন্ট (উচ্চ পি মান) সম্পর্কিত একটি ফলোআপ প্রশ্ন আছে।

উদাহরণ: যদি আমার লিনিয়ার মডেলটিতে 10 টি স্তরযুক্ত একটি ফ্যাক্টর অন্তর্ভুক্ত থাকে এবং কেবলমাত্র 3 টি স্তরের সাথে তাদের সাথে উল্লেখযোগ্য পি মান রয়েছে, যখন ওয়াইয়ের পূর্বাভাস দেওয়ার জন্য মডেলটি ব্যবহার করার সময় আমি বিষয়টির কোনওটির মধ্যে পড়ে যদি আমি সহগ পদটি অন্তর্ভুক্ত না করতে পারি অ-স্বাক্ষরকারী স্তর?

আরও মারাত্মকভাবে, 7 টি অ-তাত্পর্যপূর্ণ স্তরকে এক স্তরে পরিণত করে পুনরায় বিশ্লেষণ করা কি ভুল হবে?


2
ঠিক আছে, আপনি তা করে পক্ষপাতদুষ্ট অনুগ্রহ পেতে পারেন - উদাহরণস্বরূপ, আপনি যদি ভবিষ্যদ্বাণী অন্তর গঠন করে থাকেন তবে কভারেজ সম্ভাব্যতা সম্ভবত 7 তুচ্ছ স্তরের যে কোনও ব্যক্তির পক্ষে ভুল হতে পারে।
ম্যাক্রো

1
আপনি এখানে কিছু ভাল উত্তর পেয়েছেন তবে উচ্চ পি-মান সহ কারণগুলি বাদ দেওয়া কেন অনুচিত তা আপনার আগ্রহীও হতে পারে। এটি আপনার কাছে কম্পিউটারের পরিবর্তে এটি করার পরিবর্তে এটি স্বয়ংক্রিয়ভাবে মডেল নির্বাচন প্রক্রিয়াটির সাথে যৌক্তিক সমতুল্য বলে উল্লেখ করা দরকার worth এই প্রশ্নটি পড়ার সাথে সাথে দেওয়া উত্তরগুলি ডাব্লু / বুঝতে সহায়তা করতে পারে কেন এই বিষয়গুলি সত্য।
গুং - মনিকা পুনরায়

1
এই কিউতে নভেম্বর ২০১২ থেকে হুবহু ডুপ্লিকেট রয়েছে: stats.stackexchange.com/questions/18745/… । সেখানেও কিছুটা চিন্তা-চেতনামূলক তথ্য রয়েছে।
Rolando2

2
এটি এমন একটি গুরুত্বপূর্ণ প্রশ্ন, এবং তত্ত্বের সাথে তর্ককে সমর্থন করার কোনও উত্তর নেই। এটি দাঁড়িয়ে হিসাবে, তারা কেবল মতামত। এমনকি উত্তরের একটিতে লিঙ্কযুক্ত বইটিও (যা অন্য উত্তরগুলির সাথে উপসংহারে পৃথক) উল্লেখ সরবরাহ করে না। যেমনটি দাঁড়িয়েছে, আমি তাদের কোনওটির উপরেই বিশ্বাস করি না এবং এর পরিবর্তে কিছুই করতে চাই না (অর্থাত্ সমস্ত বিভাগ / উপাদানগুলি এতে রাখুন)।
luchonacho

উত্তর:


13

আপনি যদি একাধিক স্তরের সাথে পূর্বাভাসকারী ভেরিয়েবল স্থাপন করে থাকেন তবে আপনি হয় ভেরিয়েবলটি রেখে দিন বা আপনি তা করেন না, আপনি স্তরগুলি বাছাই বা চয়ন করতে পারবেন না। স্তরের সংখ্যা হ্রাস করার জন্য আপনি আপনার ভবিষ্যদ্বাণী ভেরিয়েবলের স্তরগুলিকে পুনর্গঠন করতে চাইতে পারেন (যদি এটি আপনার বিশ্লেষণের প্রসঙ্গে বোঝায়)) তবে, আমি নিশ্চিত নই যে এটির কারণে যদি কিছু ধরণের পরিসংখ্যান অবৈধ হয় তবে আপনি যদি তা করেন না ক্রপিং লেভেল কারণ আপনি দেখেন যে এগুলি তাত্পর্যপূর্ণ নয়।

pppα>.0001


(আমার পি-মান টাইপো সংশোধন করেছেন।) এখানে ভাল পয়েন্ট। সুতরাং স্তরের পতন, তবে এটি অধ্যয়নের প্রেক্ষাপটে যুক্তিযুক্ত কিছু বাস্তব-জগত এবং যৌক্তিক কারণের ভিত্তিতে তৈরি করা হয়েছে (এটি তাত্পর্য বিরতির পাশাপাশি তাদের পার্স করার বিষয়টিও ঘটতে পারে) যুক্তিসঙ্গত, তবে কেবল তাদের তাত্পর্যের ভিত্তিতে এগুলি নির্বিচারে লম্পট করা নয় । বুঝেছি.
গাছগুলি

15

@ এলির প্রতিক্রিয়া ভাল।

আপনি যদি কয়েকটি স্তর সহ একটি পরিবর্তনশীল রাখছেন তবে আপনার বিশ্লেষণে আপনাকে সে সমস্ত স্তর বজায় রাখতে হবে। তাত্পর্যপূর্ণ স্তরের উপর ভিত্তি করে বাছাই এবং চয়ন করা উভয়ই আপনার ফলাফলকে পক্ষপাতিত্ব করবে এবং আপনার অনুমানের জন্য খুব অদ্ভুত জিনিস করবে, এমনকি যদি কিছু অলৌকিকভাবে আপনার অনুমানগুলি একইরকমভাবে পরিচালিত করে, কারণ আপনার বিভিন্ন স্তরের তুলনায় আপনার অনুমানের প্রভাবগুলি ফাঁক করে দেবে পরিবর্তনশীল।

আমি ভবিষ্যদ্বাণীকের প্রতিটি স্তরের জন্য আপনার অনুমানগুলি গ্রাফিকভাবে বিবেচনা করব। আপনি মাত্রা উপরে যাওয়ার সাথে সাথে আপনি কি একটি প্রবণতা দেখছেন, বা এটি অনিয়মিত?

সাধারণভাবে বলতে গেলে, আমি পরিসংখ্যান পরীক্ষার উপর ভিত্তি করে ভেরিয়েবলগুলি পুনর্নির্মাণের বিরোধিতা করছি - বা খাঁটি পরিসংখ্যানের মুহুর্তগুলির উপর ভিত্তি করে। আপনার পরিবর্তনশীলটির বিভাগগুলি আরও দৃ firm়তার ভিত্তিতে হওয়া উচিত - যৌক্তিকভাবে অর্থবহ কাট-পয়েন্ট, নির্দিষ্ট স্থানান্তরের ক্ষেত্রে ক্ষেত্রের আগ্রহ ইত্যাদি etc.


8

ইতিমধ্যে আপনি যে দুটি ভাল উত্তর পেয়েছেন সে সম্পর্কে বিস্তৃত করা যাক, এটিকে যথেষ্ট পরিমাণে দেখুন। ধরা যাক আপনার নির্ভরশীল পরিবর্তনশীল আয় (বলুন) এবং আপনার স্বতন্ত্র পরিবর্তনশীল (বলুন) জাতিসত্তা, প্রতি আদমশুমারীর সংজ্ঞা অনুসারে (সাদা, কালো / আফ্রিকান আমেরিকান, আমেরিকান, ভারতীয় / আলাস্কা নেটিভ, এশীয়, নেটিভ হাওয়াই / প্যাক দ্বীপপুঞ্জক, অন্যান্য এবং বহুজাতীয়)। ধরা যাক যে আপনি সাদা রঙের রেফারেন্স বিভাগ হিসাবে এটি ডামি কোড এবং আপনি পান

আমিএনমি=0+ +1বিএকজনএকজন+ +2একজনআমিএকজনএন+ +3একজনএস+ +4এনএইচপিআমি+ +5হে+ +6এমআর

আপনি যদি নিউইয়র্ক সিটিতে এই গবেষণাটি করে থাকেন তবে সম্ভবত আপনি খুব কম নেটিভ হাওয়াইয়ান / প্যাসিফিক দ্বীপপুঞ্জক পাবেন। আপনি এগুলি অন্যদের সাথে অন্তর্ভুক্ত করার (যদি থাকে তবে) সিদ্ধান্ত নিতে পারেন। তবে আপনি সম্পূর্ণ সমীকরণটি ব্যবহার করতে পারবেন না এবং কেবল সেই গুণাগুণকে অন্তর্ভুক্ত করবেন না। তারপরে ইন্টারসেপ্টটি ভুল হবে এবং আয়ের জন্য যে কোনও পূর্বাভাসিত মান থাকবে।

তবে আপনার বিভাগগুলি কীভাবে একত্রিত করা উচিত?

অন্যরা যেমন বলেছিল, তা বোঝার প্রয়োজন


4

একটি ভিন্ন মতামত দিতে: কেন এলোমেলো প্রভাব হিসাবে এটি অন্তর্ভুক্ত করবেন না? এটি দুর্বল সমর্থন সহ সেই স্তরগুলিকে দণ্ডিত করে এবং এফেক্টের আকার ন্যূনতম কিনা তা নিশ্চিত করা উচিত। এইভাবে আপনি মূর্খ ভবিষ্যদ্বাণী না পাওয়ার চিন্তা না করে এগুলি সবগুলিতে রাখতে পারেন।

এবং হ্যাঁ, এলোমেলো প্রভাবগুলির সম্পূর্ণ "সমস্ত সম্ভাব্য স্তরের নমুনা" এর চেয়ে এলোমেলো প্রভাবগুলির বায়েশিয়ান দৃষ্টিভঙ্গি থেকে এটি আরও অনুপ্রাণিত।


0

আমি ভাবছিলাম যে আমি উল্লেখযোগ্য নয় এমন বিভাগগুলি রেফারেন্স বিভাগের সাথে একত্রিত করতে পারি কিনা। "বিজনেস ইন্টেলিজেন্সের জন্য ডেটা মাইনিং" বইয়ের নিম্নলিখিত বিবৃতিগুলি XLMiner® সহ মাইক্রোসফ্ট অফিস এক্সেল-এ ধারণাগুলি, কৌশল এবং অ্যাপ্লিকেশন, গ্যালিট শমুয়েলির দ্বিতীয় সংস্করণ, নিতিন আর প্যাটেল, পিটার সি ব্রুস ", p87-89 (মাত্রা) হ্রাস বিভাগ) ( গুগল অনুসন্ধান ফলাফল ) @ এলির প্রতিক্রিয়াটির দ্বিতীয় বাক্যটিকে সমর্থন করছে বলে মনে হচ্ছে:

  • "ফিটেড রিগ্রেশন মডেলগুলি আরও একই ধরণের বিভাগগুলিকে একত্রিত করতে ব্যবহার করা যেতে পারে: যে বিভাগগুলির সহগ আছে যা পরিসংখ্যানগতভাবে তাত্পর্যপূর্ণ নয় (যেমন একটি উচ্চ পি-মান রয়েছে) রেফারেন্স বিভাগের সাথে সংযুক্ত করা যেতে পারে কারণ রেফারেন্স বিভাগ থেকে তাদের পার্থক্যটির কোনও উপস্থিতি নেই বলে মনে হয় আউটপুট ভেরিয়েবলের উপর উল্লেখযোগ্য প্রভাব "
  • "একই সংখ্যার মানগুলি (এবং একই চিহ্ন) সহ বিভাগগুলি প্রায়শই একত্রিত হতে পারে কারণ আউটপুট ভেরিয়েবলের উপর তাদের প্রভাব একই রকম হয়"

তবে আমি বিষয় বিশেষজ্ঞদের সাথে যাচাই করার পরিকল্পনা করছি যে বিভাগগুলির সংমিশ্রণটি যৌক্তিক ধারণা তৈরি করে কিনা (যেমন পূর্ববর্তী উত্তর / মন্তব্যে বোঝানো হয়েছে, যেমন @ ফোমাইট, @ গং)।


এই উত্তরটি এখানে অন্য উত্তরগুলির সাথে বিরোধী।
কেজিটিল বি হালওয়ারসেন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.