লিনিয়ার রিগ্রেশন সম্পর্কে খুব সাধারণ কিছু ভুল ধারণা কী কী?


70

আমি কৌতুহলী, আপনারা যারা অন্যান্য গবেষকদের সাথে সহযোগিতা করার বিস্তৃত অভিজ্ঞতা অর্জন করেছেন তাদের ক্ষেত্রে, লিনিয়ার রিগ্রেশন সম্পর্কে আপনার প্রচলিত কিছু ভুল ধারণা যা আপনার মুখোমুখি হয়?

আমি মনে করি যে আগে সময়ের আগে সাধারণ ভুল ধারণা সম্পর্কে ভাবা একটি দরকারী অনুশীলন হতে পারে

  1. মানুষের ভুল অনুমান করুন এবং কেন কিছু ভুল ধারণা ভুল তা সফলভাবে বলতে সক্ষম হোন

  2. আমি নিজেই কিছু ভুল ধারণা পোষণ করছি যদি বুঝতে পারি!

আমি ভাবতে পারি এমন কয়েকটি মৌলিক বিষয়:

স্বতন্ত্র / নির্ভরশীল ভেরিয়েবলগুলি সাধারণত বিতরণ করতে হবে

সঠিক ব্যাখ্যার জন্য ভেরিয়েবলগুলি মানসম্পন্ন করতে হবে

অন্য কেউ?

সমস্ত প্রতিক্রিয়া স্বাগত।


5
এটি সম্ভবত সিডব্লিউ করা উচিত, যেহেতু এটি সম্ভাবনার তালিকার জন্য আমন্ত্রিত করে এবং এটি বলা মুশকিল যে অবাস্তবভাবে 'সঠিক উত্তর'।
গাং

আমি জানি এমন অনেক লোক এখনও তাদের ডেটাতে লিনিয়ারীকরণ সম্পাদন করার এবং এটি ছেড়ে দেওয়ার জন্য জোর দিয়ে থাকে, এমনকি যখন তারা যে কম্পিউটিং পরিবেশটি ব্যবহার করেন তাদের ননলাইনারি প্রতিরোধের জন্য ভাল সমর্থন রয়েছে। (লিনিয়ারীকরণগুলি অবশ্যই ননলাইনার ফিটগুলির জন্য পয়েন্ট শুরু হিসাবে দরকারী, তবে এই লোকেরা তা বুঝতেও পারে না))
জেএম

1
@ গুং: কমিউনিটি উইকি কি এখনও একটি জিনিস? বেশিরভাগই নেটওয়ার্ক-বিস্তৃত অবহেলিত, সিডাব্লু কখনই প্রান্তিক, বিস্তৃতভাবে জিজ্ঞাসিত বড় তালিকার প্রশ্ন জেল ফ্রি কার্ড থেকে বেরিয়ে আসা বা সুনামের লোকদের ডাকাতি করার বিষয়ে কখনই ছিল না, যদি প্রশ্নটি প্রথম দিকে অন্বেষণ করা হত। আপনি যদি কোনও মডারেটরকে এটি করতে জিজ্ঞাসা করেন তবে আপনি কেবল এটি কোনও প্রশ্নে রাখার একমাত্র উপায়।
রবার্ট হার্ভে

1
Godশ্বর যদি বিশ্বকে রৈখিক করে তুলতেন তবে অ-রৈখিক প্রতিরোধের ব্যবস্থা থাকত না।
মার্ক এল স্টোন

1
@RobertHarvey: হ্যাঁ, এটা হল এখনও খুব CrossValidated উপর একটা জিনিস (আমার মতে, দুর্ভাগ্যবশত)। এটি সম্পর্কে আমাদের কিছু উত্তপ্ত মেটা আলোচনা হয়েছে ( উদাহরণস্বরূপ এটি ) তবে বর্তমান স্থিতিটি হ'ল সিডাব্লু স্ট্যাটাসটি সমস্ত মতামত ভিত্তিক বা বড়-তালিকা প্রশ্নের উপর প্রয়োগ করা হচ্ছে যেগুলি খোলা থাকার জন্য পর্যায়ে যথেষ্ট বিবেচিত হয়।
অ্যামিবা

উত্তর:


38

β^0

Yβ0+βXX+εYβ0+βXX+βX2X2+εYβ0+βXX+βX2X2+βX3X3+ε

একটি তৃতীয় মিথ্যা প্রতিজ্ঞা যে আনুমানিক সংখ্যা বাড়ছে পরামিতি অগত্যা পরিসংখ্যানগত ক্ষমতার একটি ক্ষতি ফলাফল। এটি সত্য হতে পারে যখন সত্য সম্পর্কটি অ-রৈখিক হয় এবং একাধিক প্যারামিটারের অনুমানের প্রয়োজন হয় (উদাহরণস্বরূপ "ভাঙ্গা লাঠি" ফাংশনটির জন্য কেবল একটি সরল লাইনের ইন্টারসেপ এবং opeাল শর্তাদি প্রয়োজন হয় না , তবে pointাল পরিবর্তন হয় এবং কতটা পয়েন্ট প্রয়োজন opeাল দ্বারা পরিবর্তন হয় অনুমানগুলিও): ভুল বর্ণিত মডেলের অবশিষ্টাংশগুলি (উদাহরণস্বরূপ একটি সরল রেখা) বেশ বড় হতে পারে (সঠিকভাবে নির্দিষ্ট কার্যকরী সম্পর্কের তুলনায়) কম প্রত্যাখ্যান হওয়ার সম্ভাবনা এবং বিস্তৃত আত্মবিশ্বাসের বিরতি এবং ভবিষ্যদ্বাণী ব্যবস্থার (অনুমানের পাশাপাশি পক্ষপাতিত্বমূলক) ।


4
(+1) কোয়েবলস: (1) আমি এমনকি প্রাথমিক গ্রন্থগুলি বোঝায় না যে সমস্ত বক্ররেখা বহুবচনীয় ফাংশন, বরং তারা বহুবর্ষীয় ক্রিয়াকলাপগুলির দ্বারা প্রদত্ত পরিসরে যথেষ্ট পরিমাণে অনুমান করা যায়। সুতরাং তারা "হাইপারপ্যারামিটার" দ্বারা নিয়ন্ত্রিত উইগগ্লুইটিটি নির্দিষ্ট করে "হাইপারপ্যারামিটার" দ্বারা পরিচালিত "রিগ্রেশন পন্থাগুলি যে কোনও নির্দিষ্ট ক্রিয়ামূলক রূপ গ্রহণ করে না" শ্রেণীর মধ্যে পড়ে: লসের স্প্যান, না। একটি স্প্লাইন ভিত্তিতে রিগ্রেশন জন্য গিঁট, বহুত্বের ভিত্তিতে রিগ্রেশন ডিগ্রি। (আমি polynomials জন্য একটি পতাকা waving নই - এটা ভাল পরিচিত বেশি সময় আমরা চাই প্রান্তে প্রায় প্রহার করা থাকে - ...
Scortchi

2
... কেবল তাদের প্রাপ্য প্রদান।) (২) রৈখিক মডেল কাঠামোর মধ্যে একটি সাইনোসয়েড এমনভাবে উপযুক্ত হতে পারে; একটি অ-রৈখিক মডেল (একটি আয়তক্ষেত্রাকার হাইপারবোলা, বলে) ব্যবহার করে একটি স্যাচুরেশন প্রভাব; সি। অবশ্যই আপনি অন্যথায় বলেন নি, তবে এটি সম্ভবত এটি উল্লেখ করার মতো যে আপনি যদি জানেন যে একটি চক্র বা একটি অ্যাসিম্পটোট রয়েছে তবে আপনার মডেলটিতে এই সীমাবদ্ধতাগুলি প্রয়োগ করা সহায়ক হবে।
স্কর্চচি

2
@ স্কোর্টচি আমি আরও একমত হতে পারি না! (প্রকৃতপক্ষে, বহুগুণে সীমাহীন সংখ্যক প্রদত্ত যে কোনও ফাংশন নিখুঁতভাবে উপস্থাপিত হতে পারে)) সংক্ষিপ্ত দিকে লক্ষ্য রেখেছিল। :)
অ্যালেক্সিস

2
@ অ্যালেক্সিস বহুভুক্ত দ্বারা কনওয়ের বেস 13 ফাংশনটি প্রায় অনুমান করার চেষ্টা করুন। :)
সলোমনফের সিক্রেট

1
χQ

22

yxx

xxyxx

x

y=Xβ+εy

(ক্রমবর্ধমান সাধারণ ক্রমে: আমার সম্ভবত আরও কিছু সাধারণ ত্রুটি-ইন-ভেরিয়েবল মডেলের সাথে লিঙ্ক করা উচিত: অরথোগোনাল রিগ্রেশন , ডেমিং রিগ্রেশন এবং মোট সর্বনিম্ন স্কোয়ার ))

তথ্যসূত্র


এই নোটটিতে: এই কৌশলটি ব্যবহারের জন্য এটি একটি কারণ যা "মোট সর্বনিম্ন স্কোয়ার্স" বা "অর্থোগোনাল রিগ্রেশন" (আপনি যে রেফারেন্সটি পড়ছেন তার উপর নির্ভর করে) বলা হয়; এটি প্লেইন ন্যূনতম স্কোয়ারগুলির তুলনায় উল্লেখযোগ্যভাবে জটিল, তবে আপনার সমস্ত পয়েন্ট যদি ত্রুটি দ্বারা দূষিত হয় তবে তা করা উপযুক্ত।
জেএম

@ জেএম ধন্যবাদ - হ্যাঁ, আসলে আমি মূলত টিএলএস-এর একটি লিঙ্ক রেখেছিলাম, তবে স্মিথ এবং ফিলিপস নিবন্ধের দ্বারা বিভ্রান্ত হয়ে পড়েছি!
সিলভারফিশ

2
+1 এই বিষয়টিতে দুর্দান্ত সংযোজন। আমি প্রায়শই আমার কাজের মধ্যে ইআইভি মডেল বিবেচনা করেছি। তবে "ত্রুটি অনুপাত" সম্পর্কে তাদের জটিলতা বা জ্ঞানের উপর নির্ভরতা বাদে আরও একটি ধারণাগত বিষয় বিবেচনা করতে হবে: অনেকগুলি চাপ, বিশেষত তত্ত্বাবধানে শেখা বা ভবিষ্যদ্বাণীতে পর্যবেক্ষিত ভবিষ্যদ্বাণীকে পর্যবেক্ষণের ফলাফলগুলির সাথে সম্পর্কিত করতে চায় । অন্যদিকে, আইআইভি মডেলরা গড় ভবিষ্যদ্বাণীকারী এবং গড় প্রতিক্রিয়ার মধ্যে অন্তর্নিহিত সম্পর্ক সনাক্ত করার চেষ্টা করে ... কিছুটা আলাদা প্রশ্ন।

2
সুতরাং, যাকে কেউ "সত্য" রিগ্রেশন (বৈজ্ঞানিক প্রসঙ্গে) "দুর্বলতা" বলবে তাকে "ভবিষ্যদ্বাণীমূলক ইউটিলিটির অনুপস্থিতি" বা ভবিষ্যদ্বাণী প্রসঙ্গে এমন কিছু বলা হবে।

21

p

আমার মনে হয় একাধিক ভুল বোঝাবুঝি একাধিক প্রতিরোধের জন্য নির্দিষ্ট are

  1. p
  2. YXXYZ1,,Z5Z6,,Z20

12
ভাল জিনিস. এই উত্তরটি আরও বেশি কার্যকর হতে পারে যদি এটি ব্যাখ্যা করে যে কেন দুটি ভুল এবং এর পরিবর্তে কোনটি করা উচিত?
ডিডাব্লু

14

আমি বলব যে আপনি তালিকাভুক্ত প্রথমটি সম্ভবত সবচেয়ে সাধারণ - এবং সম্ভবত সেইভাবে সর্বাধিক বিস্তৃতভাবে শেখানো হয়েছে - যে বিষয়গুলি স্পষ্টতই ভুল হিসাবে দেখা যায়, তবে এখানে এমন কিছু অন্যান্য রয়েছে যা কিছু পরিস্থিতিতে কম পরিষ্কার ( সেগুলি সত্যই প্রয়োগ হয় কিনা) তবে আরও বিশ্লেষণে এবং সম্ভবত আরও গুরুতরভাবে প্রভাব ফেলতে পারে। এগুলি প্রায়শই কখনই উল্লেখ করা হয় না যখন পীড়নের বিষয়টি চালু হয়।

  • পর্যবেক্ষণের আগ্রহের সেটগুলির জনসংখ্যা থেকে এলোমেলো নমুনা হিসাবে আচরণ করা যা সম্ভবত প্রতিনিধিদের কাছাকাছি থাকতে পারে না (এলোমেলোভাবে নমুনা দেওয়া যাক)। [কিছু গবেষণা পরিবর্তে সুবিধাযুক্ত নমুনার নিকটতম কিছু হিসাবে দেখা যেতে পারে]

  • পর্যবেক্ষণের তথ্য সহ, কেবলমাত্র প্রক্রিয়াটির গুরুত্বপূর্ণ চালকদের ছেড়ে দেওয়ার পরিণতিগুলি উপেক্ষা করা যা অবশ্যই অবশ্যই অন্তর্ভুক্ত ভেরিয়েবলগুলির সহগের অনুমানের পক্ষপাতিত্ব করবে (অনেক ক্ষেত্রে, এমনকি সম্ভবত তাদের চিহ্ন পরিবর্তন করেও), ডিল করার উপায় বিবেচনা করার কোনও প্রচেষ্টা ছাড়াই তাদের সাথে (সমস্যাটি অজ্ঞতার বাইরে বা কেবল কিছুই করা যায় না সে সম্পর্কে অসচেতন থাকুক না কেন) [কিছু গবেষণার ক্ষেত্রে অন্যদের তুলনায় এই সমস্যাটি বেশি রয়েছে, তা যে ধরণের ডেটা সংগ্রহ করা হয় সে কারণে বা কিছু অ্যাপ্লিকেশন অঞ্চলে লোকেরা এই বিষয় সম্পর্কে আরও বেশি বেশি শিখিয়েছিল বলে মনে হয়]]

  • স্পিউরিয়াস রিগ্রেশন (বেশিরভাগ সময়ের সাথে সংগৃহীত ডেটা সহ)। [এমনকি লোকেদের সচেতন হওয়ার পরেও এটি ঘটে যাওয়ার পরে, অন্য একটি সাধারণ ধারণা রয়েছে যে সমস্যাটিকে সম্পূর্ণরূপে এড়াতে কেবল স্টেশানারি স্টোরের থেকে আলাদা করা যথেষ্ট]]

অবশ্যই আরও অনেকে উল্লেখ করতে পারেন (স্বতন্ত্র উপাত্ত হিসাবে বিবেচনা করা যা অবশ্যই অবশ্যই ক্রমিকভাবে সম্পর্কিত হতে পারে বা এমনকি সংহতও হতে পারে সাধারণ হিসাবে, উদাহরণস্বরূপ)।

আপনি লক্ষ্য করতে পারেন যে সময়ের সাথে সংগৃহীত ডেটা পর্যবেক্ষণের অধ্যয়নগুলি এগুলি একবারে একবারে আঘাত করতে পারে ... তবুও গবেষণার এমন অনেক ক্ষেত্রে গবেষণার ক্ষেত্রে এই ধরণের অধ্যয়ন খুব সাধারণ বিষয় যেখানে রিগ্রেশন একটি স্ট্যান্ডার্ড হাতিয়ার। তারা কীভাবে কোনও একক পর্যালোচক বা সম্পাদক ছাড়াই তাদের মধ্যে কমপক্ষে একজন সম্পর্কে জেনেছে এবং অন্তত সিদ্ধান্তে কিছু স্তরের দাবি অস্বীকার করার প্রয়োজন তা আমাকে উদ্বেগিত করে চলেছে।

মোটামুটি সাবধানতার সাথে নিয়ন্ত্রিত পরীক্ষাগুলি (যখন এতটা সাবধানতার সাথে নিয়ন্ত্রিত বিশ্লেষণগুলির সাথে মিলিত না হয়) যখন ডিল করার সময় পরিসংখ্যান অপূর্বর ফলাফলের সমস্যায় ভরা থাকে, সুতরাং সেই সীমার বাইরে এক ধাপ এগিয়ে যাওয়ার সাথে সাথে পুনরুত্পাদনযোগ্যতার পরিস্থিতি কতটা খারাপ হতে হবে?


6
yx

2
@ সিলভারফিশ আমি সম্পূর্ণ লয় আপনার সাথে একমত
মার্ক এল স্টোন

@ সিলভারফিশ এটি সিডাব্লু যাতে আপনার মত উপযুক্ত সংযোজন সম্পাদনা করার জন্য অতিরিক্ত-মুক্ত বোধ করা উচিত।
Glen_b

@ সিলভারফিশের একটি কারণ আছে যখন আপনি এটি উল্লেখ করার আগে আমি নিজেই এটি যুক্ত করেছিলাম না ... আমি মনে করি এটি সম্ভবত একটি নতুন উত্তরের জন্য মূল্যবান
Glen_b

12

আমি সম্ভবত এই ভ্রান্ত ধারণাগুলি বলব না, তবে সম্ভবত বিভ্রান্তি / হ্যাং-আপগুলির সাধারণ পয়েন্টগুলি এবং কিছু ক্ষেত্রে, এমন সমস্যাগুলির বিষয়ে যা গবেষকরা অবগত নন।

  • মাল্টিকোলাইনারিটি (ডেটা পয়েন্টের চেয়ে বেশি ভেরিয়েবলের ক্ষেত্রে সহ)
  • Heteroskedasticity
  • স্বাধীন ভেরিয়েবলের মানগুলি শব্দের সাপেক্ষে
  • স্কেলিং (বা স্কেলিং না) সহগের ব্যাখ্যাগুলিকে কীভাবে প্রভাবিত করে
  • একাধিক বিষয় থেকে ডেটা কিভাবে চিকিত্সা করা যায়
  • সিরিয়াল সম্পর্কগুলির সাথে কীভাবে ডিল করবেন (যেমন সময় সিরিজ)

জিনিসগুলির ভুল ধারণা থাকা:

  • y=ax2+bx+cx
  • সেই 'রিগ্রেশন' অর্থ সাধারণ সর্বনিম্ন স্কোয়ার বা লিনিয়ার রিগ্রেশন
  • সেই নিম্ন / উচ্চ ওজন নির্ভরশীল ভেরিয়েবলের সাথে অবশ্যই দুর্বল / শক্তিশালী সম্পর্ককে বোঝায়
  • নির্ভরশীল এবং স্বতন্ত্র ভেরিয়েবলের মধ্যে যে নির্ভরশীলতা অগত্যা জোড়ায় নির্ভরতা হ্রাস করা যেতে পারে।
  • প্রশিক্ষণের সেটটিতে যে উচ্চতর ধার্মিকতা রয়েছে তা একটি ভাল মডেলকে বোঝায় (অর্থাত্ ওভারফিটিংয়ের অবহেলা)

7

আমার অভিজ্ঞতায় শিক্ষার্থীরা প্রায়শই এই দৃষ্টিভঙ্গিটি গ্রহণ করে যে স্কোয়ার ত্রুটিগুলি (বা ওএলএস রিগ্রেশন) ব্যবহার করার জন্য একটি সহজাতভাবে যথাযথ, সঠিক এবং সামগ্রিক ভাল জিনিস, বা এমনকি বিকল্প ছাড়াই রয়েছে। আমি প্রায়শই ওএলএসকে এই মন্তব্য সহ বিজ্ঞাপন দিয়ে দেখেছি যে এটি "আরও চরম / বিচ্যুত পর্যবেক্ষণকে আরও বেশি ওজন দেয়", এবং বেশিরভাগ সময় কমপক্ষে এটি অন্তর্ভুক্ত করা হয় যে এটি একটি পছন্দসই সম্পত্তি। এই ধারণাটি পরে সংশোধিত হতে পারে, যখন বহিরাগতদের এবং দৃ rob় পদ্ধতির চিকিত্সা চালু করা হয়, তবে সেই সময়ে ক্ষতি হয়ে যায় damage যুক্তিযুক্তভাবে, স্কোয়ার ত্রুটির ব্যাপক ব্যবহার matheতিহাসিকভাবে রিয়েল-ওয়ার্ল্ড ত্রুটির ব্যয়ের প্রাকৃতিক আইনগুলির চেয়ে তাদের গাণিতিক সুবিধার সাথে আরও বেশি কিছু করেছে।

সামগ্রিকভাবে, ত্রুটি ফাংশনের পছন্দটি কিছুটা স্বেচ্ছাচারী তা বোঝার জন্য আরও বেশি জোর দেওয়া যেতে পারে। আদর্শভাবে, একটি অ্যালগরিদমের মধ্যে জরিমানার যে কোনও পছন্দ সম্ভাব্য ত্রুটির সাথে সম্পর্কিত (যেমন, সিদ্ধান্ত গ্রহণের কাঠামো ব্যবহার করে) সম্পর্কিত রিয়েল-ওয়ার্ল্ড ব্যয় ফাংশন দ্বারা পরিচালিত হওয়া উচিত। কেন প্রথমে এই নীতিটি প্রতিষ্ঠা করবেন না এবং তারপরে দেখুন আমরা কতটা ভাল করতে পারি?


2
পছন্দটি প্রয়োগ-নির্ভর। ওএলএস বীজগণিতের জন্য কার্যকর, ওয়াই-অক্ষগুলি ফিট তবে কম জ্যামিতিক অ্যাপ্লিকেশনগুলির ক্ষেত্রে, যেখানে সর্বনিম্ন স্কোয়ারগুলি (বা অর্থোগোনাল দূরত্বের ভিত্তিতে কিছু অন্যান্য ব্যয় ফাংশন) আরও বোধগম্য করে।
উইলি হুইলার

4

আর একটি সাধারণ ভুল ধারণাটি হ'ল ত্রুটি শব্দটি (বা একনোমেট্রিক্স পার্লেন্সে ব্যাঘাত) এবং অবশিষ্টাংশগুলি একই জিনিস।

ত্রুটি শব্দটি সত্য মডেল বা ডেটা উত্পন্ন প্রক্রিয়াতে একটি এলোমেলো পরিবর্তনশীল এবং প্রায়শই একটি নির্দিষ্ট বিতরণ অনুসরণ করে অনুমান করা হয়, যেখানে অবশিষ্টাংশগুলি লাগানো মডেল থেকে পর্যবেক্ষণ করা ডেটার বিচ্যুতি। যেমন, অবশিষ্টাংশগুলি ত্রুটির অনুমান হিসাবে বিবেচনা করা যেতে পারে।


আমি বাজি ধরছি যে লোকেরা কেন এটি গুরুত্বপূর্ণ তা নিয়ে বা কী ধরণের ক্ষেত্রে ব্যাখ্যা করতে আগ্রহী।
রোল্যান্ডো 2

4

সবচেয়ে সাধারণ ভুল ধারণাটি আমার মুখোমুখি হয় যে লিনিয়ার রিগ্রেশন ত্রুটির স্বাভাবিকতা ধরে নেয়। এটা না। লিনিয়ার রিগ্রেশন সম্পর্কিত কিছু দিক যেমন ছোট সহকারীর নমুনা বৈশিষ্ট্য যেমন সহগের আত্মবিশ্বাসের সীমাবদ্ধতার ক্ষেত্রে সাধারণতা কার্যকর useful এমনকি এই জিনিসগুলির জন্য অ-স্বাভাবিক বিতরণের জন্য অ্যাসেম্পোটিক মান উপলব্ধ।

দ্বিতীয়টি হ'ল এন্ডোজেনিটির ক্ষেত্রে বিভ্রান্তির একটি ক্লাস্টার, যেমন ফিডব্যাক লুপগুলি সম্পর্কে সতর্কতা অবলম্বন না করা। ওয়াই থেকে এক্স পর্যন্ত কোনও প্রতিক্রিয়া লুপ থাকলে এটি একটি সমস্যা।


4

Y=aX+b
X=1aYba

সম্ভবত এটি ওএলএস এবং সর্বনিম্ন সর্বনিম্ন বর্গক্ষেত্র বা প্রথম প্রধান উপাদানগুলির মধ্যে পার্থক্যের সাথেও সম্পর্কিত।


3

বাস্তবে যেটি আমি প্রায়শই দেখেছি তা লিনিয়ার রিগ্রেশন প্রয়োগের ক্ষেত্রে একটি ভুল ধারণা।

উদাহরণস্বরূপ, আসুন আমরা বলি যে যে পরিবর্তনশীল আমরা আগ্রহী তা হ'ল কিছু গণনা (উদাহরণ: ওয়েবসাইটটিতে দর্শক) বা কোনও কিছুর অনুপাত (উদাহরণ: রূপান্তর হার)। এই জাতীয় ক্ষেত্রে, পায়সন (গণনা), বিটা (অনুপাত) ইত্যাদি লিঙ্ক ফাংশনগুলি ব্যবহার করে চলকটি আরও ভাল মডেল করা যায় So সুতরাং আরও উপযুক্ত লিঙ্ক ফাংশন সহ সাধারণীকরণ করা মডেল ব্যবহার করা আরও উপযুক্ত। তবে কেবল পরিবর্তনশীলটি শ্রেণিবদ্ধ নয়, আমি সাধারণ লিনিয়ার রিগ্রেশন (লিঙ্ক ফাংশন = পরিচয়) দিয়ে লোকদের শুরু করতে দেখেছি। এমনকি যদি আমরা নির্ভুলতার প্রভাবগুলি উপেক্ষা করি তবে মডেলিং অনুমানগুলি এখানে একটি সমস্যা।


2

আমার মনে হয় এমন এক যা গবেষকরা প্রায়শই উপেক্ষা করছেন:

  • পরিবর্তনীয় ইন্টারঅ্যাকশন: গবেষকরা প্রায়শই পৃথক ভবিষ্যদ্বাণীকারীদের বিচ্ছিন্ন বিটাগুলি দেখেন এবং প্রায়শই মিথস্ক্রিয়া শর্তাদিও নির্দিষ্ট করেন না। কিন্তু বাস্তব জগতে জিনিসগুলি ইন্টারঅ্যাক্ট করে। সমস্ত সম্ভাব্য মিথস্ক্রিয়া শর্তগুলির যথাযথ বিবরণ ছাড়াই, আপনি কীভাবে আপনার "ভবিষ্যদ্বাণীকারীরা" একসাথে ফলাফল গঠনে নিযুক্ত হন তা জানেন না। এবং আপনি যদি পরিশ্রমী হতে এবং সমস্ত মিথস্ক্রিয়া নির্দিষ্ট করতে চান তবে ভবিষ্যদ্বাণীকারীদের সংখ্যা বিস্ফোরিত হবে। আমার গণনা থেকে আপনি কেবলমাত্র 100 টি বিষয়ের সাথে 4 টি ভেরিয়েবল এবং তাদের মিথস্ক্রিয়া অনুসন্ধান করতে পারেন। আপনি যদি আরও একটি পরিবর্তনশীল যুক্ত করেন তবে আপনি খুব সহজেই ওভারফিট করতে পারেন।

0

আর একটি সাধারণ ভুল ধারণাটি হ'ল অনুমানগুলি (লাগানো মানগুলি) রূপান্তরগুলিতে অদ্বিতীয় নয়, যেমন

f(y^i)f(yi)^
y^i=xiTβ^

f()

log()

এটি সমস্ত সময় আসে যখন আপনি আপনার ডেটার লগ রুপান্তর করেন, একটি লিনিয়ার রিগ্রেশন ফিট করেন, তারপরে লাগানো মানটি প্রকাশ করুন এবং লোকেদের এটি রিগ্রেশন হিসাবে পড়বে। এটি গড় নয়, এটি মাধ্যম (যদি জিনিসগুলি সত্যই লগ-সাধারনত বিতরণ করা হয়)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.