কোনও পরিসংখ্যান ব্যাকগ্রাউন্ড নেই এমন লোকদেরকে আপনি সাধারণীকরণীয় রৈখিক মডেলগুলি কীভাবে ব্যাখ্যা করবেন?


16

আমার কাছে কোনও পরিসংখ্যান ব্যাকগ্রাউন্ড না নিয়ে দর্শকদের কাছে পরিসংখ্যান কৌশলগুলি ব্যাখ্যা করতে সবসময়ই কঠিন সময় হয়। যদি আমি এই ধরণের দর্শকদের কাছে জিএলএম কী তা ব্যাখ্যা করতে চাই (স্ট্যাটিস্টিকাল জারগন ছাড়াই), তবে সবচেয়ে ভাল বা কার্যকর উপায় কী হবে?

আমি সাধারণত তিনটি অংশ দিয়ে জিএলএমকে ব্যাখ্যা করি - (1) এলোমেলো উপাদান যা প্রতিক্রিয়াশীল হয়, (2) পদ্ধতিগত উপাদান যা লিনিয়ার প্রেডিক্টর এবং (3) লিঙ্ক ফাংশন যা সংযোগের "কী" (1) এবং (2)। তারপরে আমি লিনিয়ার বা লজিস্টিক রিগ্রেশন এর উদাহরণ দেব এবং প্রতিক্রিয়ার ভেরিয়েবলের ভিত্তিতে লিঙ্ক ফাংশনটি কীভাবে নির্বাচন করা হয়েছে তা ব্যাখ্যা করব। সুতরাং এটি দুটি উপাদানকে সংযুক্ত করার কী হিসাবে কাজ করে।


দর্শকদের কী ধরণের পটভূমি রয়েছে? একজন গণিতবিদ বা জীববিজ্ঞানীকে জিএলএম ব্যাখ্যা করা খুব আলাদা।

1
@ প্রলিটিনেটর, এমন কোনও অংকসংখ্যক পটভূমি নেই, যারা অল্পসংখ্যক হবেন। তবে আপনার বক্তব্যটি একটি ভাল: উদ্দেশ্যপ্রণোদিত শ্রোতাদের একটি পরিষ্কার ধারণা থাকা উত্তরগুলি ধারাবাহিক এবং কেন্দ্রীভূত রাখতে সহায়তা করবে। আপনি কেন এই বিষয়ে প্রসারিত করতে প্রশ্ন সম্পাদনা করতে আপত্তি করবেন?
whuber

1
আমি আপনার বক্তব্যটি দেখতে পাচ্ছি, @ প্রলিনেটর তবে আমি প্রত্যাশা করছিলাম সবার কাছে (গণিতবিদ এবং / বা জীববিজ্ঞানীদের) সহজেই বোঝার উত্তর পাব, কারণ যদি আমার কাছে গণিত বা জীববিজ্ঞানের ব্যাকগ্রাউন্ড না থাকে (তবে এটি হয়), আমি কীভাবে তাদের পটভূমির প্রতি শ্রদ্ধা জানাতে জিএলএমকে ব্যাখ্যা করব তা আমি জানতাম না।
কেন

4
আমি মনে করি এটি মনে রাখা জরুরী যে আপনি স্নাতক, স্নাতকোত্তর বা এমনকি জীববিজ্ঞানে ডক্টরেট করতে পারেন, এমনকি কোনও একাধিক স্তরের একটি বিশ্ববিদ্যালয়ে এমনকি কোনও স্ট্যাটিস্টিক ক্লাস না নিয়েই। বায়োকেমিস্ট্রি বিষয়ে আমার ডিগ্রিটির জন্য দুটি সেমিস্টেরের প্রারম্ভিক ক্যালকুলাস এবং একটি সেফের ডিফারেনশিয়াল সমীকরণের প্রয়োজন ছিল। এই ক্লাসগুলির পদার্থগুলি দ্রুত ভুলে যায় কারণ অনেক শিক্ষার্থী আর কখনও এই দক্ষতা ব্যবহার করবে না! সুতরাং আমি সত্যিই সাধারণ অ-পরিসংখ্যানবিদদের জন্য ব্যাখ্যাটি নিস্তেজ করা প্রয়োজন বলে মনে করি।
আলেকজান্ডার

নীচে উত্তরগুলি যুক্ত করার জন্য একটি মন্তব্য; যদি আপনি কোনও লাইন ফিট করতে পারেন (যেমন লিংক ফাংশন এবং লিনিয়ার ভবিষ্যদ্বাণী) তবে দক্ষ বিপরীত ভারসাম্যের ওজনটির সাথে যোগাযোগ করা এতটা কঠিন নয়; আমরা কেবল সঠিক অবদানগুলি ওজন করতে এবং বাকিগুলিকে কম ওজন করতে চাই। এটি আপনাকে ফলাফলের এলোমেলোতা সম্পর্কে খুব প্রযুক্তিগত কিছু বলতে এড়াতে দেয়। এনবি জিএলএমগুলি (ন্যায়সঙ্গত) মডেল হিসাবে তৈরি হয়েছিল যেখানে আইডাব্লুএলএস এমএলই দিতে দিতে ব্যবহার করা যেতে পারে, তাই উপরে বর্ণিত তাদের সম্পর্কে চিন্তাভাবনার উপায়টি কেন তারা আসলে কার্যকর তা বেশিরভাগই ক্যাপচার করে।
অতিথি

উত্তর:


25

যদি শ্রোতার সত্যিই কোনও পরিসংখ্যানগত পটভূমি না থাকে তবে আমি মনে করি আমি ব্যাখ্যাটি আরও কিছুটা আরও সহজ করার চেষ্টা করব। প্রথমে, আমি বোর্ডের উপর একটি লাইন সহ একটি সমন্বিত বিমান আঁকবো, যেমন:

y = mx + b

আপনার আলাপের প্রত্যেকেই একটি সাধারণ লাইনের সমীকরণের সাথে পরিচিত হবেন, y = m x + b , কারণ এটি এমন কিছু যা গ্রেড স্কুলে শিখেছে। সুতরাং আমি অঙ্কন পাশাপাশি প্রদর্শিত হবে। তবে আমি এটিকে পিছন দিকে লিখতে চাই: y=mx+b

 mx+b=Y

আমি বলব যে এই সমীকরণটি একটি সাধারণ রৈখিক প্রতিরোধের উদাহরণ। আমি তখন ব্যাখ্যা করব যে কীভাবে আপনি (বা কোনও কম্পিউটার) ডেটা পয়েন্টের একটি বিক্ষিপ্ত প্লটের সাথে এই সমীকরণটি ফিট করতে পারেন, যেমন এই চিত্রটিতে প্রদর্শিত মত:

ছত্রভঙ্গ প্লট

আমি বলব যে এখানে, আমরা যে জীবের অধ্যয়ন করছি তার বয়সটি আমরা এটি কত বড় তা অনুমান করতে ব্যবহার করছি এবং ফলস্বরূপ লিনিয়ার রিগ্রেশন সমীকরণ যেটি আমরা পেয়েছি (চিত্রটিতে দেখানো হয়েছে) অনুমান করতে ব্যবহার করা যেতে পারে যে জীবটি কত বড় আমরা যদি তার বয়স জানি।

 mx+b=Y

তারপরে আমি আবার ব্যাখ্যা করব যে এটি একটি সাধারণ লিনিয়ার রিগ্রেশন সমীকরণের একটি উদাহরণ এবং এখানে আরও জটিল বিভিন্ন প্রকার রয়েছে। উদাহরণস্বরূপ, লজিস্টিক রিগ্রেশন নামে পরিচিত বিভিন্ন ক্ষেত্রে y এর কেবলমাত্র 1 বা 0 এর হতে পারে। আপনি যদি "হ্যাঁ" বা "না" উত্তরটি ভবিষ্যদ্বাণী করতে চেষ্টা করেন তবে কারওর কোনও রোগ আছে কিনা তা যেমন কেউ এই ধরণের মডেলটি ব্যবহার করতে চাইতে পারেন। আর একটি বিশেষ বৈচিত্র্য হ'ল পোইসন রিগ্রেশন নামে পরিচিত যা "গণনা" বা "ইভেন্ট" ডেটা বিশ্লেষণ করতে ব্যবহৃত হয় (সত্যই প্রয়োজন না হলে আমি এর মধ্যে আরও কিছু জানাতে চাই না)।

আমি তখন ব্যাখ্যা করব যে লিনিয়ার রিগ্রেশন, লজিস্টিক রিগ্রেশন এবং পইসন রিগ্রেশন আসলেই আরও সাধারণ পদ্ধতির সমস্ত বিশেষ উদাহরণ, এটি একটি "জেনারালাইজড লিনিয়ার মডেল" নামে পরিচিত। "জেনারালাইজড লিনিয়ার মডেলগুলি" সম্পর্কে দুর্দান্ত জিনিসটি হ'ল তারা আমাদের "প্রতিক্রিয়া" ডেটা ব্যবহার করার অনুমতি দেয় যা কোনও মূল্য নিতে পারে (যেমন কোনও জীব রৈখিক প্রতিরোধে কত বড়) যেমন নিতে পারে, কেবল 1 এর বা 0 এর (যেমন কারও কাছে আছে বা নেই) লজিস্টিক রিগ্রেশন রোগ), বা পৃথক গণনা গ্রহণ (পয়সন রিগ্রেশন ইভেন্ট সংখ্যা হিসাবে)।

আমি তখন বলব যে এই ধরণের সমীকরণগুলিতে x এর (ভবিষ্যদ্বাণীকারী) y এর (প্রতিক্রিয়াগুলি) সাথে এমন কিছু সংযুক্ত থাকে যা পরিসংখ্যানবিদরা "লিঙ্ক ফাংশন" বলে। আমরা এই "লিঙ্ক ফাংশনগুলি" ব্যবহার করি সেই ক্ষেত্রে উদাহরণস্বরূপ যেগুলি x এর লিনিয়ার পদ্ধতিতে y এর সাথে সম্পর্কিত নয়।

যাইহোক, এই বিষয়গুলিতে আমার দুটি সেন্ট! হতে পারে আমার প্রস্তাবিত ব্যাখ্যাটি কিছুটা হোকি এবং বোবা লাগছে, তবে এই অনুশীলনের উদ্দেশ্য যদি কেবল শ্রোতাদের কাছে "সংক্ষেপ" পাওয়া যায় তবে সম্ভবত এর মতো ব্যাখ্যা খুব খারাপ নয়। আমি মনে করি যে ধারণাটি একটি স্বজ্ঞাত উপায়ে ব্যাখ্যা করা উচিত এবং আপনি "এলোমেলো উপাদান", "পদ্ধতিগত উপাদান", "লিংক ফাংশন", "নির্ধারক", "লজিট ফাংশন" ইত্যাদি শব্দগুলির চারপাশে ছড়িয়ে দেওয়া এড়ানো উচিত avoid সাধারণ মানুষের জীববিজ্ঞানী বা চিকিত্সকের মতো সত্যিকারের কোনও পরিসংখ্যানগত পটভূমি নেই এমন লোকদের সাথে কথা বলছি, এই শব্দগুলি শুনে তাদের চোখগুলি কেবল জ্বলজ্বল করে চলেছে। সম্ভাব্যতা বিতরণ কী তা তারা জানে না, তারা কখনও কোনও লিঙ্ক ফাংশন শুনেনি, এবং তারা জানে না যে "লজিট" কী

কোনও অ-পরিসংখ্যান দর্শকের কাছে আপনার ব্যাখ্যায় আমি কখন বিভিন্ন ধরণের মডেল ব্যবহার করব সেদিকেও মনোনিবেশ করব। সমীকরণের বাম দিকে আপনাকে কতগুলি ভবিষ্যদ্বাণীকারী অন্তর্ভুক্ত করার অনুমতি দেওয়া হয়েছে সে সম্পর্কে আমি কথা বলতে পারি (আমি দশটি দ্বারা ভাগ করে আপনার নমুনার আকারের চেয়ে বেশি থাম্বের নিয়ম শুনেছি)। ডেটা সহ একটি উদাহরণ স্প্রেড শিট অন্তর্ভুক্ত করা এবং শ্রোতাদের একটি মডেল উত্পন্ন করার জন্য কীভাবে একটি পরিসংখ্যান সংক্রান্ত সফ্টওয়্যার প্যাকেজ ব্যবহার করতে হয় তা দর্শকদের বোঝাতেও ভাল লাগবে। আমি তখন ধাপে ধাপে model মডেলটির আউটপুটটি নিয়ে যাব এবং সমস্ত বর্ণ এবং সংখ্যাগুলির অর্থ কী তা বোঝানোর চেষ্টা করব। জীববিজ্ঞানীরা এই জিনিস সম্পর্কে অজ্ঞাতসারে এবং এসপিএসএসের জিইউআইয়ের পিছনে গণিতের উপলব্ধি করার পরিবর্তে কী পরীক্ষাটি ব্যবহার করতে হবে তা জানতে আগ্রহী!

আমি আমার প্রস্তাবিত ব্যাখ্যা সম্পর্কিত কোনও মন্তব্য বা পরামর্শের প্রশংসা করব, বিশেষত যদি কেউ ত্রুটিগুলি নোট করে বা ব্যাখ্যা করার জন্য আরও ভাল উপায়ের কথা চিন্তা করে!


4
সবাই লাইনের সমীকরণের সাথে পরিচিত নয়; এমনকি সমস্ত গ্র্যাজুয়েট শিক্ষার্থীরাও নয়, পিএইচডি সহ সমস্ত লোকও নয়।
পিটার ফ্লুম - মনিকা পুনরায়

6
আমি বলতে চাই, আমি নিশ্চিত যে একটি স্নাতক শিক্ষার্থী পৃথিবীতে সেখানে উপস্থিত রয়েছে যারা কোনও লাইনের সমীকরণ জানে না, তবে সম্ভবত এমন একটি শ্রোতা যা আপনি জেনারালাইজড লিনিয়ার মডেলগুলি ব্যাখ্যা করতে চান, কমপক্ষে উচ্চ সম্পর্কে অর্ধেক ক্লু থাকতে পারে স্কুল স্তরের বীজগণিত! : -ও
আলেকজান্ডার

আমি আপনার সাথে আলেকজান্ডারের সাথে একমত এবং আপনার পদ্ধতি আমার কাছে খুব স্বাভাবিক বলে মনে হচ্ছে। আমি গ্ল্যামের "জি" তে খুব বেশি মনোযোগ দেই না (বা খুব তাড়াতাড়ি) এবং এলোমেলো বনাম স্থিরতার মধ্যেও পার্থক্য করতে যাব না। অবশ্যই আপনাকে এই সমস্ত কিছু ব্যাখ্যা করতে হবে তার পরিমাণের উপর নির্ভর করে।
ডমিনিক কম্টোইস

ওয়াই=αএক্স+ +βα

10

আমি প্রতিক্রিয়াটিকে এলোমেলো উপাদান বলব না। এটি একটি ডিস্ট্রিমেন্টিক এবং একটি এলোমেলো উপাদানগুলির সংমিশ্রণ।

লগ(পি/(1-পি))[0,1]


3
"প্রতিক্রিয়া" এর এই ব্যবহার সম্পর্কে আমি অবাক হই। আমাদের উদ্দিষ্ট শ্রোতা সম্ভবত বুঝতে হবে যে মানে পর্যবেক্ষিত প্রতিক্রিয়া: হ্যাঁ বা না, 0 বা 1, ইত্যাদি পণ্য সরবরাহ সংশ্লেষণ আমরা মডেল কিছু অলক্ষিত (এবং কখনও সরাসরি পর্যবেক্ষণযোগ্য); যথা, প্রতিক্রিয়াটির অনুমানমূলক সুযোগ। "লিঙ্ক" নিছক সম্ভাবনা হিসাবে বরং লগ প্রতিক্রিয়া হিসাবে এই সম্ভাবনা প্রকাশ করার বিষয়। লজিস্টিক রিগ্রেশন ধরে নেয় লগের প্রতিক্রিয়াগুলি আইভিগুলির সাথে রৈখিকভাবে পরিবর্তিত হয়। ("মডেল," "ধরে নেওয়া," এবং "অনুমানমূলক" এর পরিবর্তে আমার ব্যবহার "হ'ল" এবং "ভবিষ্যদ্বাণী করা" এর পরিবর্তে অন্যরকম জ্ঞানীয় এবং
অনাত্মতাত্ত্বিক

1
শুভ পয়েন্ট হুবহু
মাইকেল আর চেরনিক

-2

আমি এটি ব্যাখ্যা করে বলব যে মাঝে মাঝে আমার পূর্বাভাসের জিনিসগুলির প্রয়োজন হয়। উদাহরণস্বরূপ, কোনও বাড়ির দাম সম্পর্কে কিছু তথ্য দেওয়া হয়েছে। বলুন, এর আকার, অবস্থান, নির্মাণটি কত বছরের পুরানো ইত্যাদি ইত্যাদি I

এখন একটি উপ-উদাহরণ গ্রহণ করে বলি, আমি কেবল বাড়ির আকার বিবেচনা করি। এটি ইঙ্গিত দেয় যে অন্য কোনও কিছুই দামকে প্রভাবিত করে না। এটি একই ক্ষেত্রে হতে পারে যেখানে আমি একই অঞ্চলে যে বাড়িগুলি তুলনা করছি, একই সময়ে নির্মিত হয়েছিল etc. ইত্যাদি Or বা এটি হতে পারে যে আমি নিজের জন্য বিষয়গুলিকে জটিল করতে চাই না এবং তাই বাস্তব জীবনটি কীভাবে মেনে চলতে চাই আমি ভাবতে পারি চলতে চলতে, আমি এমন একটি মডেল তৈরি করি যেখানে আমার কাছে একই ধরণের সংস্থানীয় সম্পত্তির সাথে সম্পর্কিত দামের তালিকা রয়েছে (বলুন, বিক্রয় যেগুলি সম্প্রতি ঘটেছিল সেগুলি থেকে ... তবে এটি বিক্রয়যোগ্য নয় এমন ঘরগুলি থেকে গুরুতর পক্ষপাতী হবে এবং তাই দামকে প্রভাবিত করে যে বাড়ির ঘর but তবে তা এড়ানো যাক)।

এখন আমি দেখতে পাচ্ছি যে 100 বর্গফুট বাড়ির দাম 1 মিলিয়ন ডলার yourself সুতরাং, স্বাভাবিকভাবেই আপনি 200 বর্গফুটের বাড়ির দ্বিগুণ ব্যয় করতে পারেন। এবং এটিই আমরা "লিনিয়ার প্যাটার্ন" বলব। অবশ্যই যখন আমরা ডেটা সংগ্রহ করি এবং প্লটের আকার বনাম দাম, আমরা দেখতে পাই এটি ঠিক দ্বিগুণ নয়। তবে অবশ্যই একটি ক্রমবর্ধমান প্রবণতা রয়েছে।

তাই আমি প্রবণতাটি মাপার চেষ্টা করি। প্রতি বর্ধিত বর্গফুটের জন্য কত বৃদ্ধি? এটি লিনিয়ার রিগ্রেশন।

পরিসংখ্যানের মানচিত্র অন্তর্ভুক্ত করুন এবং পরিসংখ্যানের ধারণাগুলি দিয়ে চালিয়ে যান। এলোমেলো এবং পদ্ধতিগত উপাদানটি ব্যাখ্যা করার একটি উপায় হতে পারে আপনি যা মডেল করতে ভুলে গিয়েছিলেন বা সম্ভবত গেজ করতে পারেননি তা এলোমেলো। আপনি যা কিছু করতে পারেন তা নিয়মতান্ত্রিক। (উদাহরণস্বরূপ, বলুন এটি ২০০৮ এবং আপনি একটি বাড়ি বিক্রি করতে চান))

এই মডেলটির অন্তর্নিহিত অনুমানগুলি যে স্ক্যাটারপ্লটটি রডের মতো হওয়া উচিত। যা X এবং Y উভয়ই "নরমাল"। এবং সমস্ত একই বৈকল্পিক আছে।

যদি এটি না হয় তবে জিএলএম প্রবেশ করুন। এবং এখন লিঙ্ক ফাংশন এন সমস্ত ব্যাখ্যা।

এটি সরল করা হয়েছে তবে এটি ভূমিকা হিসাবে কাজ করা উচিত।

আপনি জিএলএম এবং ফ্যাক্টরিয়াল মডেলগুলির ইতিহাস স্থাপন করতে পারেন। যেখানে ফিশারকে একসাথে আলাদা হতে শুরু করার জন্য জিনিসগুলির প্রয়োজন ছিল এবং এই কাঠামোটি সেই ধরণের জটিলতার জন্য উপযুক্ত।

আশাকরি এটা সাহায্য করবে...


1
আমরা আপনার প্রচেষ্টার প্রশংসা করি তবে আপনি যতক্ষণ না লিখতে পারবেন আপনার উপাদান পোস্ট করার দরকার নেই। বর্তমান আকারে, এটি শেষের দিকে স্পার্স ক্রিপ্টিক নোটগুলিতে যেভাবে সিদ্ধান্ত নিয়েছে তা পাঠকদের হতাশ করবে।
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.