একাধিক রিগ্রেশন পরিচালনা করার সময়, আপনি কখন আপনার পূর্বাভাসক ভেরিয়েবলগুলি কেন্দ্র করবেন এবং কখন সেগুলি মানদণ্ডে আনতে হবে?


281

কিছু সাহিত্যে, আমি পড়েছি যে একাধিক ব্যাখ্যামূলক ভেরিয়েবলগুলির সাথে একটি রিগ্রেশন, যদি বিভিন্ন ইউনিটে হয়, মানিক করা দরকার। (স্ট্যান্ডার্ডাইজিং মানে গড় বিয়োগ করে এবং স্ট্যান্ডার্ড বিচ্যুতি দ্বারা বিভক্ত হয়ে থাকে)) কোন অন্যান্য ক্ষেত্রে আমার ডেটা মানক করার দরকার আছে? এমন কোনও মামলা রয়েছে যেখানে আমার কেবলমাত্র আমার ডেটা কেন্দ্র করা উচিত (অর্থাত্ স্ট্যান্ডার্ড বিচ্যুতির দ্বারা ভাগ না করে)?


11
অ্যান্ড্রু গেলম্যানের ব্লগে একটি সম্পর্কিত পোস্ট

31
ইতিমধ্যে প্রদত্ত দুর্দান্ত উত্তরের পাশাপাশি, আমি উল্লেখ করতে পারি যে রিজ রিগ্রেশন বা লাসোর মতো শাস্তি প্রদানের পদ্ধতি ব্যবহার করার ফলে ফলাফল আর মানিকতার জন্য অদম্য হয় না। তবে এটি প্রায়শই মানসম্মত করার পরামর্শ দেওয়া হয়। এক্ষেত্রে সরাসরি ব্যাখ্যার সাথে সম্পর্কিত কারণে নয়, তবে শাস্তি দেওয়ার কারণে আরও সমান পদক্ষেপে বিভিন্ন ব্যাখ্যামূলক পরিবর্তনশীল আচরণ করা হবে।
এনআরএইচ

6
@Mathieu_r সাইটে স্বাগতম! আপনি দুটি অত্যন্ত জনপ্রিয় প্রশ্ন পোস্ট করেছেন। উভয় প্রশ্নের উত্তরের জন্য আপনি যে উত্তম উত্তর পেয়েছেন তার কয়েকটি উত্সাহ / গ্রহণ গ্রহণ বিবেচনা করুন;)
ম্যাক্রো


1
আমি যখন এই প্রশ্নোত্তরটি পড়ি তখন এটি আমাকে ইউনেট সাইটটির কথা মনে করিয়ে দেয় যা আমি বহু বছর আগে FAQs.org/faqs/ai-faq/neura-nets/part2/section-16.html এ সমস্যার মুখোমুখি হয়েছি যখন কেউ তথ্যটিকে সাধারণীকরণ / মানক করা / পুনরুদ্ধার করতে চায়। আমি এখানে উত্তরগুলিতে এটি উল্লিখিত কোথাও দেখতে পাই নি। এটি মেশিন লার্নিং দৃষ্টিকোণ থেকে বিষয়টিকে চিকিত্সা করে তবে এটি এখানে আসতে কাউকে সহায়তা করতে পারে।
পল

উত্তর:


212

রিগ্রেশনে, প্রায়শই এটি ভেরিয়েবলগুলি কেন্দ্র করার জন্য সুপারিশ করা হয় যাতে ভবিষ্যদ্বাণীকারীদের মানে । ভবিষ্যদ্বাণীকারী মানগুলি সেট করা থাকে তখন এটি এর প্রত্যাশিত মান হিসাবে ব্যাখ্যা করা হয় । অন্যথায়, ভবিষ্যদ্বাণীকারীদের 0 তে সেট করা পরে এর প্রত্যাশিত মান হিসাবে ব্যাখ্যা করা হয় , যা কোনও বাস্তববাদী বা ব্যাখ্যাযোগ্য পরিস্থিতি নাও হতে পারে (উদাহরণস্বরূপ ভবিষ্যদ্বাণীকারীদের উচ্চতা এবং ওজন যদি হত?) রিগ্রেশন স্কেলিংয়ের আর একটি ব্যবহারিক কারণ হ'ল যখন কোনও ভেরিয়েবলের খুব বড় পরিমাণ থাকে, যেমন আপনি যদি কোনও দেশের জনসংখ্যার আকারকে ভবিষ্যদ্বাণী হিসাবে ব্যবহার করেন। সেক্ষেত্রে, রিগ্রেশন সহগগুলি খুব বেশি হতে পারে0Y i Y i 10 - 6YiYiআকারের ছোট ক্রম (উদাহরণস্বরূপ which) যা আপনি যখন কম্পিউটার আউটপুট পড়ছেন তখন কিছুটা বিরক্তিকর হতে পারে, সুতরাং আপনি পরিবর্তনশীলকে রূপান্তর করতে পারেন, উদাহরণস্বরূপ, লক্ষ লক্ষ লোকের আকার। আপনার পূর্বাভাসগুলির মানিক করা কনভেনশনটি মূলত উপস্থিত থাকে যাতে রিগ্রেশন সহগের ইউনিটগুলি একই থাকে।106

যেমন @ গুং ইলেডুয়েস এবং @ এমএনটিটি স্পষ্টভাবে দেখায় (উভয়কে +1, বিটিডাব্লু), কেন্দ্রীকরণ / স্কেলিং রিগ্রেশন মডেলগুলিতে আপনার পরিসংখ্যানিক অনুক্রমকে প্রভাবিত করে না - অনুমানগুলি যথাযথভাবে সামঞ্জস্য করা হয় এবং মূল্যগুলি একই হবে।p

অন্যান্য পরিস্থিতি যেখানে কেন্দ্রিং এবং / বা স্কেলিং দরকারী হতে পারে:

  • যখন আপনি বিভিন্ন আকারের উপর ভিত্তি করে চলকগুলি গড় বা গড় ভ্যারিয়েবলের চেষ্টা করছেন , সম্ভবত কোনও কোনও সংমিশ্রণ স্কোর তৈরি করতে। স্কেলিং ব্যতীত, এটি এমন ক্ষেত্রে হতে পারে যে কোনও ভেরিয়েবলের পরিমাপের জন্য বিশুদ্ধভাবে তার স্কেলের যথাযথ পরিমাণে বৃহত্তর প্রভাব পড়ে, যা অনাকাঙ্ক্ষিত হতে পারে।

  • গণনা এবং স্বরলিপি সহজ করার জন্য। উদাহরণস্বরূপ, তাদের নমুনা অর্থ কেন্দ্রিক মানগুলির একটি ম্যাট্রিক্সের নমুনা কোভেরিয়েন্স ম্যাট্রিক্স কেবল । একইভাবে, যদি একটি অবিচ্ছিন্ন র্যান্ডম ভেরিয়েবল কেন্দ্রিকভাবে চিহ্নিত করা হয়, তবে এবং তারতম্যগুলি পর্যবেক্ষণের বর্গক্ষেত্রের নমুনা গড়টি দেখে একটি নমুনা থেকে অনুমান করা যেতে পারে মান।XXXvar(X)=E(X2)

  • পূর্বোক্ত সম্পর্কিত সম্পর্কিত, পিসিএ কেবল তখনই ডেটা ম্যাট্রিক্সের একক মান পচন হিসাবে ব্যাখ্যা করা যেতে পারে যখন কলামগুলি প্রথমে তাদের মাধ্যমে কেন্দ্র করে করা হয়েছিল।

নোট করুন যে আমি উল্লিখিত শেষ দুটি বুলেট পয়েন্টগুলিতে স্কেলিংয়ের প্রয়োজন নেই এবং আমি উল্লেখ করা প্রথম বুলেটে কেন্দ্রীকরণের প্রয়োজন হতে পারে না, তাই দুজনকে সর্বদা হাত মিলিয়ে চলার দরকার নেই।


2
+1, এগুলি ভাল পয়েন্ট যা আমি ভেবে দেখিনি। স্পষ্টতার জন্য, আমাকে এমন কিছু কংক্রিট উদাহরণগুলি তালিকা করতে দাও যেখানে কোনও গবেষক রিগ্রেশন চালানোর আগে ব্যাখ্যামূলক ভেরিয়েবলগুলি একত্রিত করতে চান এবং এইভাবে মানককরণের প্রয়োজন। একটি ক্ষেত্রে শিশুদের আচরণগত ব্যাধি নিয়ে গবেষণার জন্য হতে পারে; গবেষকরা বাবা-মা এবং শিক্ষক উভয়ের কাছ থেকে রেটিং পেতে পারেন এবং তারপরে এগুলি একক পরিমাপের সাথে একত্রিত করতে চান। অন্য কেসটি হ'ল নার্সিং হোমের ক্রিয়াকলাপ স্তরের উপর বাসিন্দাদের দ্বারা স্ব / রেটিং এবং ক্রিয়াকলাপের জন্য সাইন-আপ শীটগুলিতে স্বাক্ষরের সংখ্যা সম্পর্কে অধ্যয়ন হতে পারে।
গাং

2
তবে কেন আমরা তাত্ত্বিকভাবে কেন্দ্রীকরণ / স্কেলিংয়ের জন্য জনসংখ্যার গড় এবং স্ট্যান্ডার্ড বিচ্যুতি ব্যবহার করব না? অনুশীলনে, এটি কি নমুনা মানে / এসডি ব্যবহার করার মতোই সহজ বা আরও কিছু আছে?
আলেফসিন

3
সম্পূর্ণতার স্বার্থে, এই সুন্দর উত্তরে আমি যুক্ত করতে পারি যে কেন্দ্রিক এবং পারস্পরিক সম্পর্ক ম্যাট্রিক্স। এক্সXXX
সিবিলেটগুলি

1
@ আলেফসিন: আপনি জনসংখ্যার গড় / এসডি ব্যতীত অন্য কিছু ব্যবহার করতে চাইতে পারেন, আমার উত্তর দেখুন। তবে আপনার বক্তব্য যে কেন্দ্রীকরণ / স্কেলিংয়ের জন্য আমাদের কী ব্যবহার করা উচিত তা চিন্তা করা উচিত।
সিবিলেটগুলি

@ আলেফসিন, আমার সমস্ত মন্তব্য আপনি ধরে নিলেন যে নমুনা গড় / এসডি ব্যবহার করছেন তা ধরে নিলাম। যদি আপনি নমুনা দ্বারা কেন্দ্র করে থাকেন তবে যদি ভবিষ্যদ্বাণীকারীরা তাদের নমুনার উপায় নির্ধারণ করে তবে of এর প্রত্যাশিত মান ব্যতীত ব্যাখ্যাটির অর্থ এখনও একইরকম থাকে । আমার তিনটি বুলেট পয়েন্টের তথ্য এখনও প্রয়োগ হয় যখন আপনি নমুনার পরিমাণ দ্বারা কেন্দ্র / স্কেল করেন। এটি লক্ষণীয় যে আপনি যদি নমুনাটির মধ্য দিয়ে কেন্দ্র করে থাকেন তবে ফলাফলটি গড় 0 এর সাথে পরিবর্তনশীল তবে নমুনার মানক বিচ্যুতি দ্বারা স্কেলিং করা হয় না, সাধারণভাবে স্ট্যান্ডার্ড বিচ্যুতি 1 (উদাহরণস্বরূপ টি-স্ট্যাটিস্টিক) দিয়ে ফলাফল তৈরি করে না। Yi
ম্যাক্রো

142

আপনি একটি সাধারণ বিশ্বাস জুড়ে এসেছেন। তবে, সাধারণভাবে, একাধিক প্রতিরোধের জন্য আপনাকে আপনার ডেটা কেন্দ্র বা মানক করার প্রয়োজন নেই। বিভিন্ন বর্ণনামূলক ভেরিয়েবলগুলি প্রায়শই বিভিন্ন স্কেলে থাকে (অর্থাত্ বিভিন্ন ইউনিটে পরিমাপ করা হয়)। এটা কোন সমস্যা না; বিটাগুলি এমনভাবে অনুমান করা হয় যে তারা প্রতিটি বর্ণনামূলক ভেরিয়েবলের ইউনিটগুলিকে যথাযথভাবে প্রতিক্রিয়ার ভেরিয়েবলের ইউনিটে রূপান্তর করে। লোকেদের মাঝে মাঝে একটি কথা বলে থাকে যে আপনি যদি প্রথমে আপনার ভেরিয়েবলগুলি মানক করে থাকেন তবে আপনি এরপরেই বিটাগুলি গুরুত্বের পদক্ষেপ হিসাবে ব্যাখ্যা করতে পারেন। উদাহরণস্বরূপ, যদি এবংβ 2 = .3β1=.6β2=.3, তারপরে প্রথম ব্যাখ্যামূলক পরিবর্তনশীল দ্বিতীয়টির চেয়ে দ্বিগুণ গুরুত্বপূর্ণ। যদিও এই ধারণাটি আবেদনকারী, দুর্ভাগ্যক্রমে, এটি বৈধ নয়। বেশ কয়েকটি সমস্যা রয়েছে তবে সম্ভবত অনুসরণ করা সবচেয়ে সহজ হ'ল আপনার চলকগুলিতে সম্ভাব্য সীমার সীমাবদ্ধতার জন্য নিয়ন্ত্রণ করার কোনও উপায় নেই। একে অপরের সাথে সম্পর্কিত বিভিন্ন বর্ণনামূলক ভেরিয়েবলের 'গুরত্ব' নির্দেশ করা খুব জটিল দার্শনিক বিষয়। এর মধ্যে কোনওটিই প্রস্তাব দেয় না যে মানদণ্ডটি খারাপ বা ভুল , কেবল এটি সাধারণত প্রয়োজন হয় না ।

আমি কেবলমাত্র মাথার উপরের অংশটিকেই ভাবতে পারি যেখানে কেন্দ্রিং সহায়ক is বলুন যে আপনার একটি পরিবর্তনশীল, , যা 1 থেকে 2 এর মধ্যে রয়েছে তবে আপনি প্রতিক্রিয়ার ভেরিয়েবলের সাথে একটি বক্ররেখার সম্পর্ক সন্দেহ করেন এবং তাই আপনি একটি শব্দটি তৈরি করতে চান । আপনি যদি প্রথমে কেন্দ্র করেন না , তবে আপনার স্কোয়ারড শব্দটি সাথে খুব বেশি সংযুক্ত হবে , যা বিটার অনুমানকে ম্লান করতে পারে। প্রথমে কেন্দ্রীভূত করা এই সমস্যার সমাধান করে। এক্স 2 এক্স এক্সXX2XX


(আপডেটটি অনেক পরে যুক্ত হয়েছে :) একটি অ্যানালগাস কেস যা আমি উল্লেখ করতে ভুলে গেছি তা ইন্টারঅ্যাকশন শর্ত তৈরি করা । যদি 0 টি কেন্দ্রিক নয় এমন দুটি ভেরিয়েবল থেকে কোনও ইন্টারঅ্যাকশন / পণ্য শব্দটি তৈরি করা হয়, তবে কিছু পরিমাণ কলিনারিটি প্ররোচিত হবে (বিভিন্ন কারণের উপর নির্ভর করে সঠিক পরিমাণের সাথে)। প্রথমে কেন্দ্রীভূত করা এই সম্ভাব্য সমস্যার সমাধান করে। পূর্ণাঙ্গ ব্যাখ্যার জন্য, @ আফফিনের এই দুর্দান্ত উত্তরটি দেখুন: ইন্টারঅ্যাকশন শব্দটি অন্তর্ভুক্ত করা হলেই কোলাইনারিটি ডায়াগনস্টিকস সমস্যাযুক্ত


12
যদি কেউ আগ্রহী হন তবে আমি এখানে আত্মীয়তার 'গুরুত্ব' নির্ধারণের জন্য প্রমিত বিটাগুলি ব্যবহারের ভুল ধারণা সম্পর্কেও কথা বলি: একাধিক-লিনিয়ার-রিগ্রেশন-ফর-হাইপোথিসিস-টেস্টিং
গং

আপনার উত্তর দেওয়ার জন্য ধন্যবাদ. আমি মনে করি আমি এরই মধ্যে এটি আবিষ্কার করেছি: এক্সটি নিজের সাথে ইন্ট্যারাক্ট করার সাথে সাথে স্কোয়ার টার্মটি ভাবতে পারে, সুতরাং কথা বলতে এবং ইন্টারেক্টিভ ভেরিয়েবলের বিষয়ে আপনার বক্তব্য আরও সাধারণ হতে পারে।
অভিমন্যু অরোরা

6
বেলসলে, কুহ এবং ওয়েলেশের 1980-এর বই রিগ্রেশন ডায়াগনস্টিক্সে এই পরিস্থিতির একটি চিন্তাশীল বিশ্লেষণ আছে have (বিশদগুলির জন্য পরিশিষ্ট 3 বি দেখুন)) তারা আপনাকে এই সিদ্ধান্তে পৌঁছে দিয়েছে যে আপনি ভুল করেছেন যে উদ্ধার সহায়তা দেয় না। তাদের বিশ্লেষণ সমাধান পদ্ধতির সংখ্যাগত স্থায়িত্বের পরিপ্রেক্ষিতে যা তথ্য ম্যাট্রিক্স শর্ত সংখ্যা অনুসারে পরিমাপ করা হয় । এই শর্ত সংখ্যাটি খুব বেশি হতে পারে যখন ভেরিয়েবলগুলি বিচ্ছিন্ন ব্যাপ্তির সাথে স্কেলগুলিতে পরিমাপ করা হয়। পুনরায় সঞ্চালন স্কেলের কারণগুলির মধ্যে বেশিরভাগ "দুষ্টতা" শোষণ করবে । ফলস্বরূপ সমস্যাটি আরও ভাল শর্তযুক্ত হবে। এক্সXX
হোবার

বিটা 1 = 0.6 এবং বিটা 2 = 0.3 সম্পর্কে, আমি নিশ্চিত না যে বিটা 1 বলা বিটা 2 এর চেয়ে দ্বিগুণ গুরুত্বপূর্ণ কিনা তা আমি নিশ্চিত নই, তবে আমি ভেবেছিলাম যে তারা মানক হওয়ার কারণে তারা একই 'স্কেল' এ রয়েছে, অর্থাৎ ইউনিটগুলি আদর্শ বিচ্যুতি গড় থেকে এটি বলার পরে, বিটা 2 এর চেয়ে ওয়াইয়ের প্রতিক্রিয়া বিটা 1 (হোল্ডিং এক্স 1 ধ্রুবক) এর চেয়ে দ্বিগুণ হবে। রাইট? নাকি পথে কিছু ভুল বুঝলাম?
চাও

@ চাও, আপনি যে ইউনিটগুলিকে 2 ভেরিয়েবলের সাথে অন্তর্নিহিত তা থেকে সত্যই মুক্তি পান নি; আপনি কেবল তাদের লুকিয়ে রেখেছেন। এখন, এক্স 1 এর ইউনিটগুলি প্রতি 13.9 সেন্টিমিটার, এবং এক্স 2 এর ইউনিটগুলি প্রতি 2.3 ডিগ্রি সেলসিয়াস হয়।
গাং

80

অন্যান্য উত্তরে মন্তব্য ছাড়াও, আমি এটি উল্লেখ করতে চাই যে ব্যাখ্যাযোগ্য ভেরিয়েবলগুলির স্কেল এবং অবস্থান কোনওভাবেই রিগ্রেশন মডেলের বৈধতাকে প্রভাবিত করে না ।

মডেলটি বিবেচনা করুন ।y=β0+β1x1+β2x2++ϵ

লিস্ট স্কোয়ার estimators এর নাড়াচাড়া দ্বারা প্রভাবিত হয় না। কারণটি হ'ল এটি হ'ল ফিটিং পৃষ্ঠের the যদি আপনি এক ইউনিট পরিবর্তন করেন তবে পৃষ্ঠটি কতটা পরিবর্তন করে । এটি অবস্থানের উপর নির্ভর করে না। ( অবশ্য করে।β1,β2,x1,x2,β0

অনুমানকারীদের সমীকরণগুলি দেখে আপনি দেখতে পারেন যে স্কেলিং একটি ফ্যাক্টরের সাথে স্কেল দ্বারা একটি ফ্যাক্টর । এটি দেখতে, এটি নোট করুনx1aβ^11/a

β^1(x1)=i=1n(x1,ix¯1)(yiy¯)i=1n(x1,ix¯1)2.

এইভাবে

β^1(ax1)=i=1n(ax1,iax¯1)(yiy¯)i=1n(ax1,iax¯1)2=ai=1n(x1,ix¯1)(yiy¯)a2i=1n(x1,ix¯1)2=β^1(x1)a.

(উদাহরণস্বরূপ) সম্পর্কিত সূত্রটি দেখে এটি (আশাবাদী) স্পষ্ট যে এই স্কেলিংটি অন্যান্য opালগুলির অনুমানকারীকে প্রভাবিত করে না।β^2

সুতরাং, স্কেলিং সহজভাবে সম্পর্কিত slালু স্কেলিংয়ের সাথে মিলে যায়।

গুং উল্লেখ করেছে যে, কিছু লোক স্ট্যান্ডার্ড বিচ্যুতি দ্বারা পুনরুদ্ধার করতে আশা করে যে তারা বিভিন্ন পরিবর্তনশীলগুলি কতটা "গুরুত্বপূর্ণ" তা ব্যাখ্যা করতে সক্ষম হবে। এই অভ্যাস প্রশ্ন তোলা যেতে পারে, তাহলেও এটি লিপিবদ্ধ করা যেতে পারে যে, এই নির্বাচন অনুরূপ উপরে কম্পিউটেশন, যেখানে স্ট্যান্ডার্ড ডেভিয়েশন হয় (একটি অদ্ভুত জিনিস মধ্যে দিয়ে শুরু করতে বলতে যা, যেহেতু হয় ডিটারমিনিস্টিক বলে ধরে নেওয়া)।s i x 1 x iai=1/sisix1xi


1
খুব স্কিউবলযুক্ত ভেরিয়েবলগুলি স্ট্যান্ডার্ডাইজ করা কি ভাল ধারণা বা প্রতিসম বিতরণযোগ্য ভেরিয়েবলগুলিকে মানিক করা আরও ভাল? আমাদের কি কেবল ইনপুট ভেরিয়েবলগুলি বা ফলাফলগুলি স্টারডাইজ করা উচিত?
স্ক্যান

31

আপনি যদি আপনার মডেলটিকে ফিট করার জন্য গ্রেডিয়েন্ট বংশোদ্ভূত হন তবে মানকীয় কোয়ারিয়েটগুলি একত্রিত হওয়ার গতি বাড়িয়ে তুলতে পারে (কারণ যখন আপনি আনসার্কেড কোভারিয়েটগুলি করছেন তখন সংশ্লিষ্ট প্যারামিটারগুলি অনুপযুক্তভাবে গ্রেডিয়েন্টকে প্রাধান্য দিতে পারে)। এটি চিত্রিত করার জন্য কিছু আর কোড:

> objective <- function(par){ par[1]^2+par[2]^2}  #quadratic function in two variables with a minimum at (0,0)
> optim(c(10,10), objective, method="BFGS")$counts  #returns the number of times the function and its gradient had to be evaluated until convergence
    function gradient 
          12        3 
> objective2 <- function(par){ par[1]^2+0.1*par[2]^2}  #a transformation of the above function, corresponding to unscaled covariates
> optim(c(10,10), objective2, method="BFGS")$counts
function gradient 
      19       10 
> optim(c(10,1), objective2, method="BFGS")$counts  #scaling of initial parameters doesn't get you back to original performance
function gradient 
      12        8

এছাড়াও, এসভিএমগুলির কিছু অ্যাপ্লিকেশনগুলির জন্য, স্কেলিং ভবিষ্যদ্বাণীপূর্ণ কার্যকারিতা উন্নতি করতে পারে: সমর্থন ভেক্টর ডেটা বিবরণে বৈশিষ্ট্য স্কেলিং


25

আমি কেন্দ্রীকরণ এবং মানককরণ উভয়ের জন্যই "দৃ reasons় কারণগুলি" পছন্দ করি (তারা খুব প্রায়ই বিদ্যমান)। সাধারণভাবে, তাদের ডেটা বিশ্লেষণ পদ্ধতির চেয়ে ডেটা সেট এবং সমস্যাটির সাথে আরও কাজ করতে হয়।

খুব প্রায়ই, আমি অন্যান্য পয়েন্টগুলিতে কেন্দ্রীভূত করতে পছন্দ করি (অর্থাত্ ডেটার উত্সটি স্থানান্তরিত করি) যা শারীরিক / রাসায়নিকভাবে / জৈবিকভাবে / ... গড়ের চেয়ে বেশি অর্থবহ (ম্যাক্রোর উত্তরও দেখুন), যেমন

  • একটি নিয়ন্ত্রণ গ্রুপের গড়

  • ফাঁকা সংকেত

সংখ্যার স্থায়িত্ব হ'ল কেন্দ্র এবং / বা স্কেল ডেটা সম্পর্কিত একটি অ্যালগরিদম সম্পর্কিত কারণ।

এছাড়াও, মানীকরণ সম্পর্কে অনুরূপ প্রশ্নটি দেখুন । যা "শুধুমাত্র কেন্দ্র" জুড়ে রয়েছে।


24

@ কেবেলাইটস দ্বারা উল্লিখিত সংখ্যার স্থায়িত্ব ইস্যুটি চিত্রিত করার জন্য, "ব্রেক" কীভাবে করা যায় সে সম্পর্কে সাইমন উডের একটি উদাহরণ এখানে lm()। প্রথমে আমরা কিছু সাধারণ ডেটা তৈরি করব এবং একটি সাধারণ চতুষ্কোণ বক্ররেখা ফিট করব।

set.seed(1); n <- 100
xx <- sort(runif(n))
y <- .2*(xx-.5)+(xx-.5)^2 + rnorm(n)*.1
x <- xx+100
b <- lm(y ~ x+I(x^2))

plot(x,y)
lines(x, predict(b), col='red')

এখানে চিত্র বর্ণনা লিখুন

তবে আমরা যদি 900 এ X যুক্ত করি, তবে ডানায় স্থানান্তরিত হওয়া ছাড়া ফলাফলটি বেশ কিছুটা একই হওয়া উচিত, না? দুর্ভাগ্যবশত না...

X <- x + 900
B <- lm(y ~ X+I(X^2))
plot(X,y)
lines(X, predict(B), col='blue')

এখানে চিত্র বর্ণনা লিখুন

@ স্কার্টচির মন্তব্যে যুক্ত করার জন্য সম্পাদনা করুন - আমরা যদি এলএম () দ্বারা প্রত্যাবর্তিত বস্তুর দিকে লক্ষ্য করি তবে আমরা দেখতে পাই যে চতুর্ভুজ শব্দটি অনুমান করা হয়নি এবং এটি এনএ হিসাবে দেখানো হয়েছে।

> B
Call:
lm(formula = y ~ X + I(X^2))

Coefficients:
(Intercept)            X       I(X^2)  
  -139.3927       0.1394           NA  

এবং প্রকৃতপক্ষে @ স্কার্টির পরামর্শ অনুসারে, আমরা যদি ম্যাট্রিক্সের মডেলটি দেখি এবং সরাসরি সমাধান করার চেষ্টা করি, তবে এটি "ব্রেক"।

> X <- model.matrix(b) ## get same model matrix used above
> beta.hat <- solve(t(X)%*%X,t(X)%*%y) ## direct solution of ‘normal equations’
Error in solve.default(t(X) %*% X, t(X) %*% y) : 
  system is computationally singular: reciprocal condition number = 3.9864e-19

তবে, আর -৩.১.১- এর লাইনে lm()থাকা NAএস ব্যতীত আমাকে কোনও সতর্কতা বা ত্রুটি বার্তা দেয় না । অন্যান্য অ্যালগরিদম অবশ্যই বিভিন্ন উপায়ে বিভিন্ন উপায়ে "ভাঙ্গা" হতে পারে।I(X^2)summary(B)


10
(+1) নোটটি lmচতুর্ভুজ শর্তের জন্য একটি গুণফলের অনুমান করতে ব্যর্থ হয়েছে, এবং একটি একক ডিজাইনের ম্যাট্রিক্স সম্পর্কে একটি সতর্কতা দেয় - সম্ভবত এই প্লটগুলির চেয়ে সমস্যার আরও সরাসরি চিত্রণযোগ্য।
স্কর্চচি

3

আমি নির্দিষ্টভাবে সন্দেহ করি যে মূল ডেটা কেন্দ্রিককরণ বা মানককরণ মূলত বহুবিধ লাইনারিটি সমস্যা হ্রাস করতে পারে কিনা যখন স্কোয়ার শর্তাদি বা অন্যান্য ইন্টারঅ্যাকশন শর্তাদি রিগ্রেশন অন্তর্ভুক্ত করা হয়, যেমন আপনার কয়েকটি, বিশেষত গুং, উপরে সুপারিশ করেছেন।

আমার কথাটি বর্ণনা করার জন্য আসুন একটি সহজ উদাহরণ বিবেচনা করা যাক।

ধরা যাক সত্য স্পেসিফিকেশন নীচের ফর্মটি এমন গ্রহণ করে

yi=b0+b1xi+b2xi2+ui

সুতরাং সম্পর্কিত ওএলএস সমীকরণ দ্বারা দেওয়া হয়

yi=yi^+ui^=b0^+b1^xi+b2^xi2+ui^

যেখানে এর লাগানো মান , অবশিষ্ট হয় - বোঝাতে OLS ঔজ্জ্বল্যের প্রেক্ষাপটে জন্য অনুমান - -। পরামিতি যে আমরা শেষ পর্যন্ত আগ্রহী সরলতার জন্য, দিন তারপরে।yi^yiuib0^b2^b0b2zi=xi2

সাধারণত, আমরা জানি এবং এর সাথে খুব বেশি সম্পর্কযুক্ত হওয়ার সম্ভাবনা রয়েছে এবং এটি মাল্টিকাল্লাইনারিটির সমস্যার কারণ হতে পারে। এটিকে হ্রাস করতে, একটি জনপ্রিয় পরামর্শ স্কোয়ার শর্ত যুক্ত করার আগে থেকে অর্থ বিয়োগ করে মূল ডেটাটি কেন্দ্র করে ।xx2yiyi

এটা তোলে দেখাতে হবে যে গড় মোটামুটি সহজ দেওয়া হয় নিম্নরূপ: যেখানে , , যথাক্রমে , এবং অর্থ বোঝায় ।yi

y¯=b0^+b1^x¯+b2^z¯
y¯x¯z¯yixizi

তাই, বিয়োগ থেকে দেয়y¯yi

yiy¯=b1^(xix¯)+b2^(ziz¯)+ui^

যেখানে , , এবং কেন্দ্রিক পরিবর্তনশীল। এবং - অনুমান করার মতো প্যারামিটারগুলি মূল ওএলএস রিগ্রেশন-এর মতোই থাকে।yiy¯xix¯ziz¯b1^b2^

তবে, এটি পরিষ্কার যে আমার উদাহরণে, কেন্দ্রিক আরএইচএস-ভেরিয়েবল এবং এর অবৈধ এবং , যেমন ie as ।এক্স 2 এক্স এক্স 2 Corr ( এক্স , z- র ) = Corr ( এক্স - ˉ এক্স , z- র - ˉ z- র )xx2xx2corr(x,z)=corr(xx¯,zz¯)

সংক্ষেপে, যদি কেন্দ্রীকরণ সম্পর্কে আমার বোঝা সঠিক হয়, তবে আমি মনে করি না যে কেন্দ্রিক তথ্যগুলি স্কোয়ার শর্তাদি বা অন্যান্য উচ্চতর অর্ডার শর্তাদিকে রিগ্রেশনে অন্তর্ভুক্ত করে এমসি-সমস্যা হ্রাস করতে কোনও সহায়তা করবে।

আমি আপনার মতামত শুনে খুশি হবে!


2
আপনার অবদানের জন্য ধন্যবাদ, @ rudi0086021। আপনি ঠিক থাকতে পারেন, কিন্তু আমি এখানে বেশ কয়েকটি সমস্যা দেখতে পাচ্ছি। 1 ম, কেন্দ্রিকটি x এর মধ্যফলকে বিয়োগ করার বিষয়ে, y এর গড় বিয়োগ সম্পর্কে নয় ; 2 য়, আপনাকে প্রথমে সেন্টার করতে হবে, আপনার নোট অনুসারে আউটওয়ার্ডগুলি কেন্দ্র করে কোনও প্রভাব নেই has বিবেচনা করুন: x = c(1,2,3); x2 = x^2; cor(x, x2); # [1] 0.9897433; xc = c(-1,0,1); xc2 = xc^2; cor(xc, xc2) # [1] 0
গাং

আপনার উত্তর, ধন্যবাদ, ধন্যবাদ। এই আমার চিন্তা। প্রথমত, ব্যক্তিগতভাবে আমি নির্ভরশীল এবং স্বতন্ত্র ভেরিয়েবলগুলির সাথে আলাদাভাবে আচরণ করার কোনও দৃinc়প্রত্যয়ী কারণ দেখিনি, এটি হ'ল স্বতন্ত্র ভেরিয়েবলের কাছে, যদিও নির্ভরশীল ভেরিয়েবলগুলির জন্য এটি না করা।
rudi0086021

2
দ্বিতীয়ত, যেমন আপনি বলেছেন, সম্ভবত স্কোয়ার শর্তাবলী তৈরি করার আগে আমাদের ডেটাটি কেন্দ্র করা উচিত। এ জাতীয় অনুশীলন এমসির সমস্যা প্রশমিত করবে। তবে এটি পক্ষপাতদুষ্ট অনুমান বা আরও দৃ concrete়তার সাথে বাদ দেওয়া পরিবর্তনশীল পক্ষপাত (OVB) হতে পারে। উদাহরণস্বরূপ, নীচের উদাহরণটি দেখুন: ধরুন সত্য স্পেসিফিকেশনটি হ'ল: y = b0 + b1 * x + b2 * x ^ 2 + u। পূর্বে ডেটা কেন্দ্র করে দেবে: y = b0 + b1 * (x-xhar) + b2 * (x-xbar) ^ 2 + v, যেখানে নতুন ত্রুটির শব্দ v = u + b1 * xbar-b2 * xbar ^ 2 + 2b2 * xbar * এক্স। এটি পরিষ্কার যে cov (x-xbar, v)! = 0। সুতরাং, দুর্ভাগ্যক্রমে, ডেটা আগে থেকেই কেন্দ্রিয় করা পক্ষপাতদুষ্ট অনুমানের দিকে নিয়ে যায়।
rudi0086021

@ rudi0086021 এটি আপনার শেষ মন্তব্যে মনে হচ্ছে আপনি ধরে নিয়েছেন যে কেন্দ্রভিত্তিক ডেটা ফিট করার সময় আপনি একই সহগগুলি পেয়ে যাবেন অনির্ধারিত ডেটা ফিটিং করার সময় আপনার মতো হবে। তবে বর্গক্ষেত্র নেওয়ার আগে কেন্দ্রীভূত করা কোনও ধ্রুবক দ্বারা সাধারণ স্থানান্তর নয়, সুতরাং একই গুনাগুন পাওয়ার আশা করা উচিত নয়। কেন্দ্রের পরে সর্বোত্তম ফিট B0 + B1 * (x-xbar) + বি 2 * (এক্স-এক্সবার) ^ 2 দ্বারা দেওয়া হয়েছে যেখানে বি 0 = বি 0 + বি 1 * এক্সবার + বি 2 * এক্সবার ^ 2, বি 1 = বি 1 + 2 * বি 2 * এক্সবার এবং বি 2 = বি 2। সুতরাং, v = u। এই মন্তব্যে তাই বিরক্তির সাথে প্রতিক্রিয়া জানাতে দুঃখিত, তবে আমার মতো অন্যরাও থাকতে পারেন যারা আজ প্রথমবারের মতো এটি দেখতে পাচ্ছেন।
টিম গুডম্যান
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.