"লিনিয়ার" বনাম "অ-রৈখিক" রিগ্রেশন মধ্যে পার্থক্য করা কেন গুরুত্বপূর্ণ?


12

লিনিয়ার এবং অ-লিনিয়ার মডেলগুলির মধ্যে পার্থক্যের গুরুত্ব কী? প্রশ্নটি ননলাইনার বনাম বনাম জেনারেলাইজড লিনিয়ার মডেল: আপনি কীভাবে লজিস্টিক, পোইসন ইত্যাদি রিগ্রেশনকে বোঝেন? এবং এর উত্তরটি সাধারণত রৈখিক মডেলগুলির লিনিয়ারিটি / অ-লৈখিকতার এক চূড়ান্ত সহায়ক ব্যাখ্যা ছিল। রৈখিকহীন মডেলগুলি থেকে রৈখিক পার্থক্য করা সমালোচনামূলকভাবে গুরুত্বপূর্ণ বলে মনে হচ্ছে তবে কেন এটি আমার কাছে পরিষ্কার নয়? উদাহরণস্বরূপ, এই রিগ্রেশন মডেলগুলি বিবেচনা করুন:

(1)E[YX]=β0+β1X(2)E[YX]=β0+β1X+β2X2(3)E[YX]=β0+β12X(4)E[YX]={1+exp([β0+β1X]}1

মডেল 1 এবং 2 উভয়ই লিনিয়ার এবং র সমাধানগুলি বদ্ধ আকারে বিদ্যমান, একটি স্ট্যান্ডার্ড ওএলএস অনুমানকারী ব্যবহার করে সহজেই পাওয়া যায়। তাই মডেল 3 এবং 4, যা অরৈখিক কারণ (এর মধ্যে) -এর ডেরাইভেটিভস জন্য wrt এখনও কার্যাবলী হয় ।βE[YX]ββ

অনুমান করার জন্য এক সহজ সমাধান মডেল 3 সেটিংস এর দ্বারা মডেল রৈখিকরণ হয় , অনুমান একটি রৈখিক মডেল ব্যবহার করে, এবং তারপর কম্পিউট ।β1γ=β12γβ1=γ

মডেল ৪-এর পরামিতিগুলি অনুমান করার জন্য, আমরা অনুমান করতে পারি যে দ্বিপদী বিতরণ অনুসরণ করে (ক্ষতিকারক পরিবারের সদস্য), এবং, মডেলটির লজিস্টিক ফর্মটি ক্যানোনিকাল লিঙ্ক, মডেলটির আরএসএসকে লিনিয়ার করুন using এটি নেলদার এবং ওয়েদারবার্নের চূড়ান্ত অবদান ছিল।Y

তবে এই অ-লৈখিক্যতা কেন প্রথমে সমস্যা? বর্গক্ষেত্রের ফাংশনটি লিনিয়ারিং না করে, বা GLM গুলি না করে মডেল 4 কে মডেল 3 সমাধান করার জন্য কেন কেউ কিছু পুনরাবৃত্ত আলগোরিদিম ব্যবহার করতে পারে না। আমি সন্দেহ করি যে বিস্তৃত গণনামূলক শক্তির আগে, পরিসংখ্যানবিদরা সবকিছুকে লিনিয়ারাইজ করার চেষ্টা করছিলেন। যদি সত্য হয়, তবে সম্ভবত ননলাইন দ্বারা প্রবর্তিত "সমস্যাগুলি" কি অতীতের অবশেষ? অ-রৈখিক মডেলগুলির দ্বারা প্রবর্তিত জটিলতাগুলি কি নিছক গণনাভিত্তিক, বা এমন আরও কিছু তাত্ত্বিক সমস্যা রয়েছে যা লিনিয়ার মডেলগুলির তুলনায় অ-রৈখিক মডেলগুলিকে ডেটার সাথে মানিয়ে নিতে আরও চ্যালেঞ্জিং করে?


1
আপনি যদি অনুমান করতে চান তবে সহজেই (সাধারণ লিনিয়ার রিগ্রেশন) এবং তারপরে ...E[Y|X]=β0+β12XE[Y|X]=β0+γXβ1=γ
টিম

@ টিম, মন্তব্যের জন্য ধন্যবাদ। আমি সম্ভাবনা হিসাবে এই রূপান্তর সম্পর্কে সচেতন ছিলাম, তবে কিছুটা আলাদা প্রশ্ন জিজ্ঞাসা করার চেষ্টা করছিলাম। আমি প্রশ্নটি যথেষ্ট পরিমাণে সম্পাদনা করেছি, আশা করি আরও ভাল।
ব্যবহারকারী 1849779

উত্তর:


5

আমি দুটি প্রধান পার্থক্য দেখতে পাচ্ছি:

  • রৈখিকতা এটিকে সহজ এবং মজবুত করে তোলে। উদাহরণস্বরূপ, (রৈখিক) ওএলএস অজানা ঝামেলা বিতরণের অধীনে নিরপেক্ষ अनुमानক। সাধারণভাবে, জিএলএম এবং অ-লিনিয়ার মডেলগুলি হয় না। ওএলএস বিভিন্ন ত্রুটি কাঠামোর মডেল (র্যান্ডম এফেক্টস, ক্লাস্টারিং ইত্যাদি) এর জন্যও দৃust়, যেখানে অ-রৈখিক মডেলগুলিতে আপনাকে সাধারণত এই শর্তগুলির সঠিক বিতরণ অনুমান করতে হয়।

  • এটি সমাধান করা সহজ: মাত্র কয়েকটি ম্যাট্রিক্স গুণমান + 1 বিপরীত। এর অর্থ আপনি প্রায় সর্বদা এটি সমাধান করতে পারেন এমনকি এমন ক্ষেত্রেও যেখানে উদ্দেশ্যমূলক কার্যটি প্রায় সমতল (বহুবিধ) রয়েছে te আজকাল কোনও ইস্যুতে কম হবেন না। কম্পিউটারগুলি দ্রুত পায়, তবে ডেটা আরও বড় হয়। 1 জি পর্যবেক্ষণে কোনও লগইট রিগ্রেশন চালানোর চেষ্টা করেছেন?

তদ্ব্যতীত, রৈখিক মডেলগুলি ব্যাখ্যা করা সহজ। রৈখিক মডেলগুলিতে সহগের সমান প্রান্তিক প্রভাব এবং এক্স মানগুলির থেকে পৃথক (যদিও বহুপদী শর্তাবলী এই সরলতাকে স্ক্রু দেয়))


আমি সুবিধার হিসাবে প্রধানত সুবিধা বা mainlyতিহাসিক ব্যবহার এক।
মার্থা

2

জীববিজ্ঞানের অনেকগুলি মডেল (এবং অন্যান্য ক্ষেত্রগুলি) ননলাইনার, তাই ননলাইনার রিগ্রেশন সহ সেরা ফিট। গণিত অবশ্যই খুব আলাদা। তবে ডেটা বিশ্লেষকের দৃষ্টিকোণ থেকে সত্যই একটি গুরুত্বপূর্ণ পার্থক্য রয়েছে।

ননলাইনার রিগ্রেশন প্রতিটি প্যারামিটারের জন্য প্রাথমিক আনুমানিক মানগুলি প্রয়োজন। যদি এই প্রাথমিক অনুমানগুলি বন্ধ হয়ে যায়, অ-লাইন সংক্রান্ত প্রতিরোধের প্রোগ্রামটি একটি ন্যূনতম সর্বনিম্নে রূপান্তর করতে পারে এবং অকেজো বা বিভ্রান্তিমূলক ফলাফল দিতে পারে।


2
এটি অবশ্যই উত্তরের একটি অংশ। তবে, কেবলমাত্র পার্থক্যটি প্রমাণ করার মাধ্যমে একটি ছোটখাট প্রযুক্তিগততার পরিমাণ হ'ল, আপনি ননলাইনার মডেলের সমস্যাগুলি অত্যধিকভাবে হ্রাস করছেন। উদাহরণস্বরূপ, জীববিজ্ঞানের মধ্যে উত্থাপিত কিছু সাধারণের আলাদা আলাদা স্থানীয় মিনিমা থাকতে পারে, এগুলির সবগুলি বিশ্বব্যাপী মিনিমার কাছাকাছি। এই মৌলিক গুণগত ইস্যুটি উন্নত কম্পিউটিং শক্তি বা আরও ভাল অপ্টিমাইজেশনের কৌশলগুলির দ্বারা সমাধান করা হয় না: অনেক ননলাইনারের মডেলগুলির প্রকৃতি লিনিয়ার মডেলগুলির থেকে এতটাই আলাদা যে তাদের অর্থ এবং ব্যাখ্যা সম্পর্কে তাদের গভীর চিন্তাভাবনা প্রয়োজন।
whuber

1

প্রথমত আমি 'মডেল' শব্দটির পরিবর্তে 'রিগ্রেশন' শব্দের পরিবর্তে যাচ্ছি। আমি মনে করি যে উভয় শব্দের জন্য একজন সত্যই জিজ্ঞাসা করছেন যে মডেল সংজ্ঞায়িত প্রাসঙ্গিক সমীকরণগুলি কি এবং নির্ভরশীল পরিবর্তনশীলের মানগুলি এবং সমীকরণ / মডেল দ্বারা পূর্বাভাসিত মানগুলি সম্পর্কিত প্রাসঙ্গিক অনুমান কি? আমি মনে করি যে 'মডেল' শব্দটি আরও বেশি প্রমিত। আপনি যদি এর সাথে একমত হন তবে পড়ুন।

ধ্রুপদী প্রশিক্ষিত সম্ভাব্য ও পরিসংখ্যানবিদ এমন একজন সহকর্মীর মন্তব্যে প্রতিবিম্বের প্রতি আমার সত্যই reallyণী তিনি বহুগুণীয় রিগ্রেশনকে অ-লিনিয়ার হিসাবে অভিহিত করে এমন একটি বইয়ের প্রতি হিংস্র আপত্তি করেছিলেন এবং এটি তখনই যখন আমি লিনিয়ার মডেলগুলি সম্পর্কে আরও গুরুত্ব সহকারে পড়ি। আমি বিশ্বাস করি যে সঠিক উত্তরটি হ'ল একটি রৈখিক মডেল ধরে নেয় যে ত্রুটি শব্দটি গাউসিয়ান যেখানে একটি সাধারণীকরণীয় রৈখিক মডেল ত্রুটি শর্তের জন্য আরও সাধারণীকরণ ফর্ম ধরে। যদি কোনও ফাংশনের সেট হয় তবে কেউ one রৈখিক মডেল তৈরির চেষ্টা করতে পারেন । উদাহরণস্বরূপ যদি , তবে আমরা একটি বহুপদী রিগ্রেশন পাই। পার্থক্য if যদি এটি লিনিয়ার মডেল হয়ϕ 1 , , ϕ n ϕ i = x i ϵ i = y i - a i j x jϕ1,,ϕnϕ1,,ϕnϕi=xiϵi=yiaijxjগাউসিয়ান। ইমো, আমি মনে করি উইকিপিডিয়ায় সাধারণ লিনিয়ার মডেলগুলির একটি খুব যুক্তিসঙ্গত ব্যাখ্যা রয়েছে। আমি মনে করি এটিই মূল বাক্য - "জিএলএম একটি লিংক ফাংশনের মাধ্যমে লিনিয়ার মডেলটিকে প্রতিক্রিয়া পরিবর্তনের সাথে সম্পর্কিত হতে এবং প্রতিটি পরিমাপের প্রকরণের প্রস্থতাকে তার পূর্বাভাসিত মানের একটি ফাংশন হিসাবে অনুমতি দিয়ে লিনিয়ার রিগ্রেশনকে সাধারণীকরণ করে। " সুতরাং একটি গ্ল্যাম আরও সাধারণ ত্রুটি শর্তের অনুমতি দেয়। এটি মডেলিংয়ে আরও নমনীয়তার সুযোগ দেয়। মূল্য ? সঠিক মডেল গণনা করা আরও শক্ত। সহগের হিসাব করার সহজ পদ্ধতি আর কারও কাছে নেই। লিনিয়ার রিগ্রেশন এর সহগগুলি একটি চতুষ্কোণ কার্যকরী হ্রাস করে পাওয়া যাবে যা একটি অনন্য মিমিয়াম রয়েছে। বোরাটের কথায়, একটি গ্ল্যামের জন্য, এতটা নয়। মাইলে হিসাব করতে হয়,


1
একটি ননলাইনার মডেল ধরেও নিতে পারে যে অবশিষ্টাংশগুলি গাউসীয় বিতরণ থেকে নমুনাযুক্ত। একটি সহজ উদাহরণ হ'ল সাবস্ট্রেট কনসেন্ট্রেশন (এক্স) এর ক্রিয়া হিসাবে এনজাইম ক্রিয়াকলাপ (ওয়াই)। Y = Vmax * X / (Km + X) এটি অনুমান করা সাধারণ এবং বোধগম্য যে অবশিষ্টাংশগুলি গাউসিয়ান, তবুও এটি একটি অনৈখিক সমীকরণ যা ননলাইনারের প্রতিরোধের সাথে উপযুক্ত।
হার্ভি মোটুলস্কি

2
ননলাইনার মডেলগুলি জিএলএম থেকে অনেক বেশি সমন্বিত। জিএলএমগুলি জনপ্রিয় কারণ তারা প্যারামিটারগুলিতে "প্রায়" লিনিয়ার: সমস্ত অরৈখিকতা একক ভেরিয়েবলের ফাংশনে সীমাবদ্ধ, "লিঙ্ক"। এটি তুলনামূলকভাবে দক্ষ, নির্ভরযোগ্য সমাধানের অনুমতি দেয়। অন্যান্য অরৈখিক মডেলগুলি খুব কম ট্র্যাকটেবল are রৈখিকতার ধারণাটি অবশিষ্টাংশগুলির প্রকৃতি থেকে মূলত পৃথক, যদিও কিছু ক্ষেত্রে অ্যাডিটিভ অবশিষ্টাংশগুলিকে অন্যান্য প্রকারের পরিবর্তনের থেকে পৃথক করা সুবিধাজনক ।
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.