জুডিয়া পার্ল এর বইয়ের বই: কেন তিনি পরিসংখ্যানকে মারছেন?


79

আমি পড়া করছি কেন বই যিহূদিয়া পার্ল দ্বারা, এবং এটা আমার চামড়ার নিচে হচ্ছে 1 । বিশেষত, আমার কাছে এটি প্রতীয়মান হয় যে তিনি শর্তহীনভাবে "ধ্রুপদী" পরিসংখ্যানগুলিকে মারাত্মকভাবে স্ট্র ম্যান যুক্তি দিয়ে বলছেন যে পরিসংখ্যান কখনই কার্যকারণীয় সম্পর্কের বিষয়ে তদন্ত করতে সক্ষম হয় না, কারণ এটি কখনও কার্যকারণীয় সম্পর্কের ক্ষেত্রে আগ্রহী নয়, এবং সেই পরিসংখ্যান "একটি মডেল হিসাবে পরিণত হয়েছে" - সংযুক্ত ডেটা-হ্রাস এন্টারপ্রাইজ "। পরিসংখ্যান তার বইতে একটি কুরুচিপূর্ণ এস-শব্দ হয়ে ওঠে।

উদাহরণ স্বরূপ:

পরিসংখ্যানবিদরা ভেরিয়েবলগুলি কীসের জন্য নিয়ন্ত্রণ করা উচিত এবং কী করা উচিত নয় তা নিয়ে প্রচুর বিভ্রান্ত হয়ে পড়েছেন, তাই ডিফল্ট অনুশীলনটি হ'ল প্রতিটি যা পরিমাপ করতে পারে তার জন্য নিয়ন্ত্রণ করা হয়েছিল। [...] এটি অনুসরণ করা একটি সুবিধাজনক, সহজ পদ্ধতি, তবে এটি উভয়ই অপব্যয় এবং ত্রুটিযুক্ত idden এই বিভ্রান্তির অবসান ঘটাতে কার্যকারণ বিপ্লবের একটি মূল অর্জন ছিল।

একই সময়ে, পরিসংখ্যানবিদরা এই অর্থে নিয়ন্ত্রণ নিয়ন্ত্রণ করে যে তারা কার্যকারিতা সম্পর্কে মোটেই কথা বলতে অপছন্দ [...]

তবে কার্যকারণীয় মডেলগুলি চিরকালের মতো পরিসংখ্যানগুলিতে ছিল। আমি বলতে চাইছি, একটি রিগ্রেশন মডেলটি মূলত একটি কার্যকারক মডেল ব্যবহার করা যেতে পারে, যেহেতু আমরা মূলত ধরে নিই যে একটি পরিবর্তনশীল কারণ এবং অন্যটি প্রভাব (তাই পারস্পরিক সম্পর্কটি রিগ্রেশন মডেলিং থেকে আলাদা পদ্ধতির) এবং পরীক্ষা করা হয় যে এই কার্যকারণ সম্পর্কটি পর্যবেক্ষণকৃত নিদর্শনগুলি ব্যাখ্যা করে ।

আরেকটি উক্তি:

এতে অবাক হওয়ার কিছু নেই যে বিশেষত পরিসংখ্যানবিদরা এই ধাঁধাটি [দ্য মন্টি হলের সমস্যা] বুঝতে অসুবিধে হয়েছেন। তারা অভ্যস্ত, যেমন আরএ ফিশার (১৯২২) বলেছিল, "ডেটা হ্রাস" এবং ডেটা তৈরির প্রক্রিয়া উপেক্ষা করে।

অ্যান্ড্রু গেলম্যান বেইশিয়ান এবং ঘন ঘন বিশেষজ্ঞদের উপর বিখ্যাত এক্সকেসিডি কার্টুনকে যে জবাব লিখেছিলেন তা মনে করিয়ে দেয় : "তবুও, আমি মনে করি পুরোভাবে কার্টুনটি অন্যায় যে এটি একটি বুদ্ধিমান বায়েশিয়ানকে একটি ঘন ঘন অল্প বয়স্ক পরিসংখ্যানবিদদের সাথে তুলনা করে যারা অন্ধভাবে অল্প শিথিল পাঠ্যপুস্তকের পরামর্শ অনুসরণ করে। । "

জুডিয়া পার্লস বইয়ে এস-শব্দের ভুল উপস্থাপনের পরিমাণ যা আমাকে বুঝতে পেরেছিল তা আমাকে কার্যকারিতা অনুভূতিকে (যা এখন পর্যন্ত বৈজ্ঞানিক অনুমানের 2 গঠন ও পরীক্ষার একটি দরকারী এবং আকর্ষণীয় উপায় হিসাবে উপলব্ধি করেছিল) তা অবাক করে দিয়েছে ।

প্রশ্নগুলি: আপনি কি ভাবেন যে জুডিয়া পার্ল পরিসংখ্যানকে ভুলভাবে উপস্থাপন করছে এবং যদি হ্যাঁ, তবে কেন? কেবল কার্যকারণ সূচনার চেয়ে বড় শব্দটি তৈরি করার জন্য? আপনি কি মনে করেন যে কার্যকারণ অনুকরণটি একটি বড় আর এর সাথে একটি বিপ্লব যা সত্যই আমাদের সমস্ত চিন্তাভাবনার পরিবর্তন করে?

সম্পাদনা:

উপরের প্রশ্নগুলি আমার মূল সমস্যা, তবে যেহেতু তারা স্বীকৃত, মতামতযুক্ত, তাই এই নিরপেক্ষ প্রশ্নের উত্তর দিন (1) "কারণ বিপ্লব" এর অর্থ কী? (২) এটি "গোঁড়া" পরিসংখ্যান থেকে কীভাবে আলাদা?

১. এছাড়াও কারণ তিনি এমন একজন বিনয়ী লোক।
২. আমার অর্থ বৈজ্ঞানিক নয়, পরিসংখ্যানগত দিক থেকে নয়।

সম্পাদনা : অ্যান্ড্রু গেলম্যান জুডিয়া পার্লস বইটিতে এই ব্লগ পোস্টটি লিখেছেন এবং আমি মনে করি যে তিনি আমার চেয়ে এই বইটির সাথে আমার সমস্যাগুলি ব্যাখ্যা করার চেয়ে আরও ভাল একটি কাজ করেছিলেন। এখানে দুটি উদ্ধৃতি দেওয়া হয়েছে:

বইয়ের 66 66 পৃষ্ঠায়, পার্ল এবং ম্যাকেনজি লিখেছেন যে পরিসংখ্যানগুলি "একটি মডেল-ব্লাইন্ড ডেটা হ্রাস করার উদ্যোগ হয়ে দাঁড়িয়েছে” "আরে! তুমি কী আবোল - তাবোল বলছো?? আমি একজন পরিসংখ্যানবিদ, আমি ৩০ বছর ধরে পরিসংখ্যান করে যাচ্ছি, রাজনীতি থেকে বিষাক্তবিদ্যার ক্ষেত্রগুলিতে কাজ করছি। "মডেল-ব্লাইন্ড ডেটা হ্রাস"? এটাই তো বুলশিট। আমরা সব সময় মডেল ব্যবহার করি।

এবং অন্য একটি:

দেখুন। আমি বহুত্ববাদী এর দ্বিধা সম্পর্কে জানি। একদিকে, পার্ল বিশ্বাস করে যে তার পদ্ধতিগুলি যা কিছু ঘটেছিল তার চেয়ে ভাল। ফাইন। তার জন্য এবং আরও অনেকের পক্ষে কার্যকারণ অনুমানের অধ্যয়নের জন্য সেগুলি সর্বোত্তম সরঞ্জাম। একই সাথে, বহুবচনবাদী বা বৈজ্ঞানিক ইতিহাসের শিক্ষার্থী হিসাবে আমরা বুঝতে পারি যে কেক বেক করার অনেকগুলি উপায় রয়েছে। আপনি সত্যিকার অর্থে আপনার পক্ষে কাজ করেন না এমন পদ্ধতির প্রতি শ্রদ্ধা প্রদর্শন করা চ্যালেঞ্জিং, এবং এক পর্যায়ে এটি করার একমাত্র উপায় হ'ল পিছনে ফিরে আসা এবং বুঝতে হবে যে আসল লোকেরা আসল সমস্যাগুলি সমাধান করার জন্য এই পদ্ধতিগুলি ব্যবহার করে। উদাহরণস্বরূপ, আমি মনে করি পি-মান ব্যবহার করে সিদ্ধান্ত গ্রহণ করা একটি ভয়ানক এবং যৌক্তিকভাবে অসংলগ্ন ধারণা যা প্রচুর বৈজ্ঞানিক বিপর্যয়ের দিকে পরিচালিত করে; একই সময়ে, অনেক বিজ্ঞানী পি-মানগুলি শেখার সরঞ্জাম হিসাবে ব্যবহার করতে পরিচালনা করেন manage আমি এটা চিনতে পারি একইভাবে, আমি প্রস্তাব দিচ্ছি যে পার্লটি স্বীকৃতি দেয় যে পরিসংখ্যান, শ্রেণিবিন্যাসের রেগ্রেশন মডেলিং, মিথস্ক্রিয়া, পোস্টট্রিটিফিকেশন, মেশিন লার্নিং ইত্যাদির যন্ত্রপাতি কার্যকারিতা নির্ধারণের ক্ষেত্রে প্রকৃত সমস্যা সমাধান করে। পার্লের মতো আমাদের পদ্ধতিগুলিও গণ্ডগোল করতে পারে — জিআইজিও! — এবং সম্ভবত পার্লের ডান যে আমরা সকলেই তার পদ্ধতির দিকে যেতে চেয়ে আরও ভাল। তবে আমি মনে করি না যে তিনি যখন আমাদের কাজগুলি সম্পর্কে ভুল বিবৃতি দেয় তখন এটি সহায়তা করে।


41
লিনিয়ার রিগ্রেশন কোনও কার্যকারক মডেল নয়। সরল রৈখিক রিগ্রেশনের হয় একই pairwise পারস্পরিক সম্পর্ক হিসেবে শুধু পার্থক্য standarization হয় । সুতরাং আপনি যদি বলেন যে রিগ্রেশন কার্যকারণীয়, তবে পরস্পরের সম্পর্কের ক্ষেত্রেও একই হওয়া উচিত। পারস্পরিক সম্পর্ক কারণ? আপনি যেকোন প্রাকৃতিক ভেরিয়েবলের (বাজেয়াপ্তভাবে "অনেকগুলি" গুরুত্বপূর্ণ "ফলাফল সহ) এর মধ্যে বোকা সম্পর্কগুলির পূর্বাভাস দিতে রিগ্রেশন ব্যবহার করতে পারেন।
টিম

8
পার্ল, রুবিন, হেকম্যান এবং অন্যদের মধ্যে পরিসংখ্যানগুলিতে কার্যকারিতা সম্পর্কে যুক্তি দেখানোর ক্ষেত্রে যে মতবিরোধ রয়েছে তা সবচেয়ে বেশি উত্তপ্ত হয়েছে বলে মনে হয় এবং আমি মনে করি যে পার্লের সুরটি হতাশায় পরিণত হচ্ছে। তাকে যে সত্যিকারের অন্তর্দৃষ্টি দেওয়া উচিত তা থেকে আপনাকে বিভ্রান্ত না করে। তার আগের বইটি কার্যকারিতাটি পড়ুন, এটি আপনার ত্বকের নিচে কম।
ক্লোজটোক

7
@ ক্লোসটোক আমি যুক্ত করব যে পার্ল, রুবিন এবং হেকম্যান একভাবে সমস্ত কাঠামোর মধ্যে কাজ করছে (যেমন, যুক্তিসঙ্গত সমতুল্য কাঠামোগুলি, এখানে stats.stackex بدل.com/questions/249767/… দেখুন ), সুতরাং তাদের বিরোধগুলি আলাদা "লিনিয়ার রিগ্রেশন একটি কার্যকারক মডেল" এর মতো বিষয়গুলির তর্ক থেকে স্তর
কার্লোস সিনেলি

9
বইটি শুনে আমি নিজেই বিরক্ত হয়েছি। সেখানে কিছু খালি পরিসংখ্যানগত দাবি রয়েছে (এখনই উদ্ধৃত করা যায় না, মার্জিনগুলিতে আমার নোটযুক্ত বইটি ঘরে রয়েছে) যা আমাকে অবাক করে দিয়েছিল যে কেবল সাংবাদিক যে পার্লকে বইটি লেখতে সহায়তা করেছিল বা পার্ল নিজেও একজন গরিব পরিসংখ্যানবিদ ছিল কিনা। (এটি বলাই বাহুল্য, আমি এইরকম একজন শ্রদ্ধেয় বিজ্ঞানীর কাজে এই ধরনের নির্মম ভুলগুলি আবিষ্কার করে খুব অবাক হয়েছি।) তার কাগজপত্রগুলি আরও ভাল, যদিও সেখানে কেউ বিনয়ের জন্য পার্লকে দোষ দেয় না ...
রিচার্ড হার্ডি

15
আমার কিছু উদ্বেগ আছে যে এই থ্রেডটি ইতিমধ্যে একসাথে জড়িয়ে পড়েছে (ক) খুব স্মার্ট ব্যক্তির একটি নির্দিষ্ট বই (খ) সেই স্মার্ট ব্যক্তির ব্যক্তিত্ব এবং বিতর্ক করার ধরণ (গ) কোনও নির্দিষ্ট দৃষ্টিভঙ্গি সঠিক, অতিরঞ্জিত বা যাই হোক না কেন।
নিক কক্স

উত্তর:


59

আমি পুরোপুরি একমত যে পার্লের সুরটি অহংকারী এবং তাঁর "পরিসংখ্যানবিদদের" চরিত্রায়ন সরলতাবাদী এবং একতরফা is এছাড়াও, আমি তাঁর লেখাটি বিশেষভাবে পরিষ্কার দেখতে পাই না।

তবে আমার মনে হয় তার একটা কথা আছে।

কার্যকারণ যুক্তি আমার আনুষ্ঠানিক প্রশিক্ষণের (এমএসসি) অংশ ছিল না: আমি এই বিষয়ের নিকটে সবচেয়ে কাছাকাছি ছিলাম পরীক্ষামূলক ডিজাইনের একটি নির্বাচনী কোর্স, অর্থাত্ যে কোনও কার্যকারিতা দাবী আমাকে পরিবেশকে শারীরিকভাবে নিয়ন্ত্রণ করার প্রয়োজন ছিল। মুক্তির এই বইয়ের কারণটি আমার প্রথম ধারণা ছিল। স্পষ্টতই আমি সমস্ত পরিসংখ্যানবিদ এবং পাঠ্যক্রমের পক্ষে কথা বলতে পারি না, তবে আমি আমার নিজের দৃষ্টিকোণ থেকে পার্লের পর্যবেক্ষণে সাবস্ক্রাইব করি যে কার্যকারণ যুক্তি পরিসংখ্যানগুলিতে অগ্রাধিকার নয়।

এটি সত্য যে পরিসংখ্যানবিদরা কখনও কখনও কঠোরভাবে প্রয়োজনের চেয়ে বেশি পরিবর্তনশীলগুলির জন্য নিয়ন্ত্রণ করেন তবে এটি খুব কমই ত্রুটির দিকে পরিচালিত করে (অন্তত আমার অভিজ্ঞতায়)।

এটি এমন একটি বিশ্বাস যা ২০১০ সালে পরিসংখ্যানে এমএসসি নিয়ে স্নাতক হওয়ার পরে আমি ধরেছিলাম।

তবে এটি গভীরভাবে ভুল। আপনি যখন কোনও সাধারণ প্রভাবের জন্য নিয়ন্ত্রণ করেন (বইটিতে "কলসিডার" নামে পরিচিত), আপনি নির্বাচন পক্ষপাত প্রবর্তন করতে পারেন। এই উপলব্ধিটি আমার কাছে বেশ অবাক করে দিয়েছিল এবং আমার কার্যকারিত অনুমানকে গ্রাফ হিসাবে উপস্থাপন করার কার্যকারিতা সম্পর্কে সত্যই আমাকে নিশ্চিত করেছিল।

সম্পাদনা: আমাকে বাছাই পক্ষপাতদুটি সম্পর্কে বিস্তারিত বলতে বলা হয়েছিল। এই বিষয়টি বেশ সূক্ষ্ম, আমি কার্যত ডায়াগ্রামে edX MOOC অনুধাবন করার পরামর্শ দিচ্ছি , গ্রাফগুলির খুব সুন্দর পরিচয় যা নির্বাচন পক্ষপাতকে উত্সর্গীকৃত একটি অধ্যায় রয়েছে।

খেলনা উদাহরণের জন্য, বইটিতে উদ্ধৃত এই কাগজটির প্যারাফ্রেজ করতে : এ = আকর্ষণীয়তা, বি = সৌন্দর্য, সি = যোগ্যতা বিবেচনা করুন। ধরুন যে খ এবং সি সাধারণ জনগণের মধ্যে কার্যত সম্পর্কযুক্ত নয় (অর্থাত্ সৌন্দর্যে দক্ষতার সৃষ্টি হয় না, যোগ্যতা সৌন্দর্য সৃষ্টি করে না, এবং সৌন্দর্য এবং যোগ্যতা একটি সাধারণ কারণ ভাগ করে না)) মনে করুন যে বি বা সি এর যে কোনও একটিই আকর্ষণীয় হওয়ার জন্য যথেষ্ট, অর্থাৎ A একটি সংঘর্ষকারী। এ-তে কন্ডিশনিং বি এবং সি এর মধ্যে একটি উত্সাহী সমিতি তৈরি করে

আরও গুরুতর উদাহরণ "জন্মের ওজনের প্যারাডক্স", যা অনুসারে গর্ভাবস্থায় একজন মায়ের ধূমপান (এস) শিশুর মৃত্যুর হার (এম) হ্রাস করে বলে মনে হয়, যদি শিশুটির ওজন কম হয় (ইউ) U প্রস্তাবিত ব্যাখ্যাটি হ'ল জন্মগত ত্রুটিগুলি (ডি) এছাড়াও কম জন্মের ওজন সৃষ্টি করে এবং মৃত্যুহারেও অবদান রাখে। সংশ্লিষ্ট কার্যকারণ চিত্রটি হ'ল {এস -> ইউ, ডি -> ইউ, ইউ -> এম, এস -> এম, ডি -> এম} যাতে ইউ সংঘর্ষকারী; এটিতে কন্ডিশনার জালিয়াতি সমিতি পরিচয় করিয়ে দেয়। এর পিছনে স্বজ্ঞাততাটি হ'ল মা যদি ধূমপায়ী হন তবে ত্রুটির কারণে কম জন্মের ওজন কম হওয়ার সম্ভাবনা থাকে।


8
+1 টি। কীভাবে এটি নির্বাচনের পক্ষপাতদুষ্ট পরিচয় করিয়ে দেয় আপনি কী আরও কিছুটা বিশদভাবে ব্যাখ্যা করতে পারেন? সম্ভবত কিছু দৃ concrete় উদাহরণ এটি বেশিরভাগ পাঠকদের জন্য পরিষ্কার করে দেবে।
অ্যামিবা

2
সম্পাদনার জন্য ধন্যবাদ। এগুলি খুব স্পষ্ট উদাহরণ।
অ্যামিবা

সুতরাং, ধূমপায়ীদের 'বাচ্চাদের' নিম্ন জন্মের ওজন সম্পর্কে অন্তর্দৃষ্টি সঠিক, তাই না?
ম্যালাদি

@ ম্যালান্দি: এই মডেলটি ডেটার সাথে সামঞ্জস্যপূর্ণ এবং স্বজ্ঞাত অর্থে তৈরি করে। আমি জানি না এটি সঠিক কিনা।
মিচুস


71

আপনার খুব প্রশ্নটি পার্ল কী বলছে তা প্রতিফলিত করে!

একটি সাধারণ লিনিয়ার রিগ্রেশন মূলত একটি কার্যকারক মডেল

না, লিনিয়ার রিগ্রেশন একটি স্ট্যাটিস্টিকাল মডেল, কার্যকারিতা নয়। ধরা যাক একটি বহুবিধ সাধারণ বিতরণ সহ এলোমেলো পরিবর্তনশীল। তারপরে আপনি লিনিয়ার রিগ্রেশন ব্যবহার করে লিনিয়ার প্রত্যাশাগুলি সঠিকভাবে অনুমান করতে পারেন , , , ইত্যাদি এখানে এমন কিছু নেই যা বলে যে এই পরিমাণগুলির কোনও কার্যকারক কিনা।Y,X,ZE[YX]E[XY]E[YX,Z]E[ZY,X]

অন্যদিকে, লিনিয়ার কাঠামোগত সমীকরণ একটি কার্যকারক মডেল। তবে প্রথম পদক্ষেপটি পরিসংখ্যানগত অনুমানগুলি (পর্যবেক্ষিত যৌথ সম্ভাব্যতা বন্টনের ক্ষেত্রে বাধা) এবং কার্যকারণ অনুমানের (কার্যকারণের মডেলের প্রতিবন্ধকতা) এর মধ্যে পার্থক্য বোঝা।

আপনি কি মনে করেন যে জুডিয়া পার্ল পরিসংখ্যানকে ভুলভাবে উপস্থাপন করছে এবং যদি হ্যাঁ, তবে কেন?

না, আমি এটি মনে করি না, কারণ আমরা প্রতিদিন এই ভ্রান্ত ধারণাগুলি দেখি। অবশ্যই, পার্ল কিছু সাধারণীকরণ করছেন, যেহেতু কিছু পরিসংখ্যানবিদগণ কার্যকারণ অনুক্রমের সাথে কাজ করে (ডন রুবিন সম্ভাব্য ফলাফলগুলি প্রচারে অগ্রণী ছিলেন ... এছাড়াও, আমি একটি পরিসংখ্যানবিদও!)! তবে তিনি এই কথাটি সঠিক বলেছেন যে প্রচুর traditionalতিহ্যবাহী পরিসংখ্যান শিক্ষার কারণ কার্যকারিতা থেকে বিরত থাকে, এমনকি কার্যকারণ প্রভাব কী তা আনুষ্ঠানিকভাবে সংজ্ঞায়িত করতেও ।

এটি স্পষ্ট করার জন্য, আমরা যদি কোনও পরিসংখ্যানবিদ / একনোমেট্রিকিয়ানকে নিয়মিত প্রশিক্ষণের সাথে জিজ্ঞাসা করি যে আমরা যদি উপর হস্তক্ষেপ করি তবে এর প্রত্যাশিত মান কী তা গণিতের সাথে সংজ্ঞায়িত করার জন্য , তিনি সম্ভবত লিখবেন (এখানে একটি উদাহরণ দেখুন) ! তবে এটি একটি পর্যবেক্ষণের পরিমাণ, এটিই আপনি কার্যকারণ প্রভাবকে কীভাবে সংজ্ঞায়িত করেন না ! অন্য কথায়, বর্তমানে, কেবলমাত্র একটি traditional পরিসংখ্যান কোর্সের শিক্ষার্থীর কাছে এই পরিমাণটি গাণিতিকভাবে ( বা ) সাথে সঠিকভাবে সংজ্ঞায়িত করার ক্ষমতা নেই যদি আপনি এর সাথে পরিচিত না হন কাঠামোগত / কার্যকারণের তত্ত্ব !YXE[Y|X] [ ওয়াই এক্স ] [ ওয়াই | ডি ( এক্স ) ]E[Yx]E[Y|do(x)]

বইটি থেকে আপনি যে উক্তিটি নিয়ে এসেছেন তাও একটি দুর্দান্ত উদাহরণ। আপনি গতানুগতিক পরিসংখ্যান বইতে কোনও বিবাদক কী তা সম্পর্কে সঠিক সংজ্ঞা পাবেন না বা পর্যবেক্ষণে পড়াশুনায় কোনও সমবায়িকের জন্য আপনার কখন (বা করা উচিত নয়) সে সম্পর্কে দিকনির্দেশনা পাবেন না। সাধারণভাবে, আপনি "পারস্পরিক সম্পর্কীয় মানদণ্ড" দেখতে পান, যেমন "যদি কোভেরিয়েট চিকিত্সার সাথে এবং ফলাফলের সাথে যুক্ত হয় তবে আপনার এটির জন্য সামঞ্জস্য করা উচিত"। এই বিভ্রান্তির একটি উল্লেখযোগ্য উদাহরণ সিম্পসনের প্যারাডক্স-এ দেখা যায় opposite বিপরীত চিহ্নগুলির দুটি অনুমানের মুখোমুখি হলে, কোনটি আপনার ব্যবহার করা উচিত, সামঞ্জস্য করা বা অযৌক্তিক? উত্তরটি অবশ্যই কার্যকারণীয় মডেলের উপর নির্ভর করে।

এবং যখন পার্ল বলছেন যে এই প্রশ্নটির অবসান ঘটেছিল তখন কী বোঝায়? রিগ্রেশন মাধ্যমে সাধারণ সামঞ্জস্যের ক্ষেত্রে, তিনি পিছনের দিকের মানদণ্ডকে উল্লেখ করছেন (এখানে আরও দেখুন) । এবং সাধারণভাবে সনাক্তকরণের জন্য --- সাধারণ সামঞ্জস্যের বাইরে --- তার অর্থ আমাদের যে কোনও অর্ধ-মার্কোভিয়ান ডিএজি-র জন্য কার্যকারক প্রভাবগুলি সনাক্তকরণের জন্য এখন সম্পূর্ণ অ্যালগরিদম রয়েছে।

এখানে আরেকটি মন্তব্য করা মূল্যবান। এমনকি পরীক্ষামূলক গবেষণায় ! যেখানে প্রথাগত পরিসংখ্যান নিশ্চয় পরীক্ষায় নকশা সঙ্গে গুরুত্বপূর্ণ কাজ অনেক করেছেন - - দিনের শেষে আপনি এখনও একটি কার্যকারণ মডেল প্রয়োজন পরীক্ষাগুলি কমপ্লায়েন্সের অভাব থেকে, অনুসরণ ব্যর্থতা থেকে বাছাই পক্ষপাত হতে পারে ... এছাড়াও আপনি বেশিরভাগ সময় আপনার গবেষণার ফলাফলগুলি নির্দিষ্ট বিশ্বে নির্দিষ্ট বিশ্লেষণের মধ্যে সীমাবদ্ধ রাখতে চান না, আপনি আপনার সাধারণীকরণ করতে চান বিস্তৃত / বিভিন্ন জনগোষ্ঠীর পরীক্ষামূলক ফলাফল। এখানে, আবার কেউ জিজ্ঞাসা করতে পারেন: আপনার কিসের জন্য সামঞ্জস্য করা উচিত? আপনার কাছে ডেটা এবং সংক্ষিপ্ত জ্ঞান কি এ জাতীয় এক্সট্রাপোলেশন অনুমোদনের জন্য যথেষ্ট? এগুলি সমস্ত কার্যকারণ ধারণা, সুতরাং কার্যত অনুমানগুলি আনুষ্ঠানিকভাবে প্রকাশ করার জন্য আপনার প্রয়োজন এমন একটি ভাষা প্রয়োজন এবং যা যা চান তা করার অনুমতি দেওয়ার জন্য সেগুলি যথেষ্ট কিনা কিনা তা খতিয়ে দেখুন!

সংক্ষেপে, এই ভুল ধারণাটি পরিসংখ্যান এবং একনোমেট্রিক্সে ব্যাপক, ক্রস ভ্যালিডেটে এখানে বেশ কয়েকটি উদাহরণ রয়েছে যেমন:

এবং আরো অনেক.

আপনি কি মনে করেন যে কার্যকারণ অনুকরণটি একটি বড় আর এর সাথে একটি বিপ্লব যা সত্যই আমাদের সমস্ত চিন্তাভাবনার পরিবর্তন করে?

অনেক বিজ্ঞানের বর্তমান পরিস্থিতি বিবেচনা করে, আমরা কতটা এগিয়েছি এবং কত দ্রুতগতিতে পরিবর্তন হচ্ছে এবং আমরা এখনও কতটা করতে পারি, আমি বলব এটি সত্যই একটি বিপ্লব।

পিএস : পার্ল ইউসিএলএর কার্যকারিতা ব্লগে তাঁর দুটি পোস্টের পরামর্শ দিয়েছেন যা এই আলোচনার পক্ষে আগ্রহী হবে, আপনি এখানে এবং এখানে পোস্টগুলি খুঁজে পেতে পারেন।

পিএস 2 : জানুয়ারী তার নতুন সম্পাদনায় যেমন উল্লেখ করেছে, অ্যান্ড্রু গেলম্যানতার ব্লগেএকটি নতুন পোস্ট করেছেন। গেলম্যানের ব্লগে বিতর্ক ছাড়াও, পার্ল টুইটারে (নীচে) জবাবও দিয়েছেন:

# বুকোফাইয়ের জেলম্যানের পর্যালোচনাটি আগ্রহী হওয়া উচিত কারণ এটি এমন একটি মনোভাবের প্রতিনিধিত্ব করে যা পরিসংখ্যান গবেষকদের বিস্তৃত বৃত্তকে পঙ্গু করে দেয়। আমার প্রাথমিক প্রতিক্রিয়া এখন https://t.co/mRyDcgQtEc সম্পর্কিত পোস্টে পোস্ট করা হয়েছে:https://t.co/xUwR6eCGrZ এবংhttps://t.co/qwqV3oyGUy

- জুডিয়া পার্ল (@ ইউডাপার্ল) জানুয়ারী 9, 2019


4
ধন্যবাদ. তবে - ভাল, সরলভাবে লেখার জন্য, আমি E [X | Y] পাশাপাশি E [Y | X] গণনা করতে পারি, তবে আমি একটি ডিএজে X ← Y পাশাপাশি এক্স → ওয়াই লিখতে পারি। এক উপায় বা অন্যভাবে, আমি অবশ্যই একটি বৈজ্ঞানিক অনুমান বা একটি মডেল দিয়ে শুরু করব। আমার অনুমান, আমার মডেল - আমার পছন্দ। আমি যে কিছু করতে পারি তা হ'ল এটি করা উচিত নয়, তা করে।
জানুয়ারী

3
@ জানুয়ারী এর অর্থ এই নয় যে আপনার উচিত, এখানে বিন্দুটি কেবলমাত্র আপনি যা অনুমান করতে চান (কার্যকারণ অনুমান) সঠিকভাবে উচ্চারণ করতে সক্ষম হচ্ছেন, আপনার কার্যকারণ অনুমানগুলি যথাযথভাবে স্পষ্ট করে দিন (কার্যকারণ এবং পরিসংখ্যানগত অনুমানের পার্থক্য পরিষ্কার করে), যাচাই করা এই কার্যকারণ অনুমানের যৌক্তিক প্রভাব এবং আপনার কার্যকারণ অনুমানগুলি + ডেটা আপনার প্রশ্নের উত্তর দেওয়ার জন্য যথেষ্ট কিনা তা বুঝতে সক্ষম হয়ে।
কার্লোস সিনেলি

3
@January বলে একটি পর্যবেক্ষণমূলক গবেষণা আছে এবং এর কার্যকারণ প্রভাব অনুমান করতে চান উপর । আপনি কীভাবে সিদ্ধান্ত নেবেন যে কোন রাজ্যকে আপনার প্রতিরোধে অন্তর্ভুক্ত করা উচিত? ওয়াইXY
কার্লোস সিনেলি

4
আমার মনে হয়: আপনার গড় পরিসংখ্যানবিদ সম্ভবত এটি নিয়ন্ত্রিত পরীক্ষাগুলি থেকে কার্যনির্বাহী দক্ষতা এবং কার্যকারণের সাথে বিভ্রান্তিকর সম্পর্কের কোনও ঝুঁকির মধ্যে নির্ভরযোগ্য না হলেও পর্যবেক্ষণে কার্যকারণ নির্ধারণে কিছুটা নড়বড়ে হতে পারে এমন পরামর্শ দেওয়া সম্পূর্ণ অন্যায় বলে মনে হয় না ডেটা। আমি উদ্ধৃতিটির প্রসঙ্গে (আমি বইটি পড়িনি) সর্বশেষে নিচ্ছি এবং এটি এমন কিছু যা এই পোস্টের কিছু পাঠক নাও নিতে পারে।
স্কর্চচি

5
@ জানুয়ারী সংক্ষেপে "covariates জন্য সামঞ্জস্য" এর অর্থ এই নয় যে আপনি এই পরিবর্তনশীলগুলি থেকে কার্যকরী প্রভাব অনুমানের ক্ষেত্রে পক্ষপাত নির্মূল করেছেন।
অ্যালেক্সিস

31

আমি জুডিয়ার লেখার ভক্ত, এবং আমি কার্যকারিতা (প্রেম) এবং কেন বইয়ের বই (পছন্দ) পড়েছি।

আমি মনে করি না যে জুডিয়া পরিসংখ্যানকে প্রশ্রয় দিচ্ছে। সমালোচনা শোনা মুশকিল। কিন্তু এমন কোনও ব্যক্তি বা ক্ষেত্রের বিষয়ে আমরা কী বলতে পারি যা সমালোচনা নেয় না? এরা মহত্ত্ব থেকে আত্মতৃপ্তির দিকে ঝোঁক। আপনার অবশ্যই জিজ্ঞাসা করা উচিত: সমালোচনা কি সঠিক, প্রয়োজনীয়, দরকারী এবং এটি বিকল্প প্রস্তাব করে? এই সমস্তটির উত্তর একটি জোরালো "হ্যাঁ"।

সঠিক? আমি কয়েক ডজন কাগজ পর্যালোচনা করেছি এবং সহযোগিতা করেছি, বেশিরভাগ পর্যবেক্ষণের তথ্য বিশ্লেষণ করে এবং খুব কমই মনে হয় যে কার্যকারণের যথেষ্ট আলোচনা রয়েছে। "সামঞ্জস্য" পদ্ধতির মধ্যে ভেরিয়েবলগুলি নির্বাচন করা জড়িত কারণ এগুলি ডিডি থেকে "দরকারী" "প্রাসঙ্গিক" "গুরুত্বপূর্ণ" বা অন্যান্য বাজে কথা বলে হাতছাড়া হয়েছিল। 1

দরকার হয়েছে? বড় বড় এক্সপোজারগুলির স্বাস্থ্যের প্রভাবগুলি সম্পর্কে মিডিয়া আপাতদৃষ্টিতে স্ববিরোধী বক্তব্য নিয়ে উদ্বিগ্ন। ডেটা বিশ্লেষণের সাথে অসঙ্গতি প্রমাণকে স্থবির করে দিয়েছে যা আমাদের কার্যকর নীতি, স্বাস্থ্যসেবা পদ্ধতি এবং উন্নত জীবনযাপনের জন্য সুপারিশের অভাব বজায় রাখে।

কাজে লাগল? জুডিয়ার মন্তব্য প্রাসঙ্গিক এবং বিরতি দেওয়ার জন্য যথেষ্ট নির্দিষ্ট। এটি কোনও পরিসংখ্যানবিদ বা ডেটা বিশেষজ্ঞের মুখোমুখি হতে পারে এমন কোনও ডেটা বিশ্লেষণের সাথে সরাসরি প্রাসঙ্গিক।

এটি বিকল্প প্রস্তাব কি? হ্যাঁ, জুডিয়া আসলে উন্নত পরিসংখ্যানগত পদ্ধতির সম্ভাবনা এবং এমনকি তারা কীভাবে পরিচিত পরিসংখ্যান কাঠামোর (স্ট্রাকচারাল সমীকরণ মডেলিংয়ের মতো) এবং রিগ্রেশন মডেলগুলির সাথে তাদের সংযোগের বিষয়ে আলোচনা করে তা আলোচনা করে। মডেলিংয়ের পদ্ধতির দিকে পরিচালিত বিষয়বস্তু জ্ঞানের একটি স্পষ্ট বক্তব্যের জন্য এটি সমস্ত ফোটে।

জুডিয়া কেবল এই প্রস্তাব দিচ্ছে না যে আমরা সমস্ত পরিসংখ্যান পদ্ধতি (যেমন রিগ্রেশন) ডিফেনস্ট্রেট করি। বরং তিনি বলছেন যে মডেলদের ন্যায্যতা জানাতে আমাদের কিছু কার্যকরী তত্ত্ব গ্রহণ করা দরকার।

1 অভিযোগটি হ'ল শেষ পর্যন্ত মডেলিংয়ের ভুল দৃষ্টিভঙ্গিটি কি তা ন্যায়সঙ্গত করার জন্য দৃinc়প্রত্যয়ী এবং অবাস্তব ভাষা ব্যবহার সম্পর্কে। ওভারল্যাপ হতে পারে, নির্লজ্জভাবে, তবে পার্ল একটি কার্যকারক ডায়াগ্রামের (ডিএজি) উদ্দেশ্য এবং কীভাবে ভেরিয়েবলগুলি "বিবাদী" হিসাবে শ্রেণীবদ্ধ করা যায় সে সম্পর্কে স্পষ্ট about


3
চমৎকার উত্তর. নোট করুন যে একটি পরিসংখ্যানবিদ নন তবে বহু বছর ধরে পরিসংখ্যান এবং জীববিজ্ঞানের মধ্যে একটি ইন্টারফেস হিসাবে কাজ করেছেন, আমার কাছে পরিসংখ্যানবিদদের কোনও সমালোচনা শুনতে এতটা কঠিন নয় ;-) তবে, আপনি কি সত্যিই মনে করেন যে "গোঁড়া পরিসংখ্যান" কার্যকারিতা পরিচালনা করতে পারে না? মোটেও, যেমন পার্ল স্পষ্টভাবে বলেছে?
জানুয়ারী

4
@January অহ contraire । আমি মনে করি যে পরিসংখ্যানবিদদের তাদের বিশ্লেষণগুলিতে কার্যকারণ সূত্র গ্রহণের ক্ষেত্রে যে ঘাটতি রয়েছে তা ঘনঘনবাদী অনুমান বোঝার ক্ষেত্রে তাদের ঘাটতির সাথে সরাসরি জড়িত। এটি পাল্টা বাস্তব যুক্তি যে অভাব আছে।
আদম

4
+1 টি "" সমন্বয় দরকারী "" প্রাসঙ্গিক "" গুরুত্বপূর্ণ "বা অন্যান্য আজেবাজে কথা" অভিগমন ভেরিয়েবল নির্বাচন তারা হচ্ছে ডিডি থেকে সযত্মে হয়েছে কারণ জড়িত " আসলে তাদের মধ্যে নির্দিষ্ট কার্যকারণ সম্পর্ক সম্পর্কে আনুষ্ঠানিক অনুমানের একত্রিত ছাড়া ( একটি লা ডিএজি-র আনুষ্ঠানিক ব্যবহার) " সম্পাদনা যুক্ত। :)
অ্যালেক্সিস

মন্তব্যগুলি বর্ধিত আলোচনার জন্য নয়; এই কথোপকথন চ্যাটে সরানো হয়েছে ।
স্কর্চচি

23

আমি এই বইটি পড়িনি, তাই আপনি যে নির্দিষ্ট উক্তিটি দিচ্ছেন তা কেবল আমিই বিচার করতে পারি। যাইহোক, এমনকি এই ভিত্তিতে, আমি আপনার সাথে একমত হই যে এটি পরিসংখ্যান পেশার পক্ষে অত্যন্ত অনুচিত বলে মনে হচ্ছে। আমি প্রকৃতপক্ষে মনে করি যে পরিসংখ্যানবিদরা সর্বদা পরিসংখ্যানগত সংঘের (পারস্পরিক সম্পর্ক ইত্যাদি) এবং কার্যকারিতার মধ্যে পার্থক্যকে জোর দিয়ে এবং দুজনের সংমিশ্রণের বিরুদ্ধে সতর্ক করার ক্ষেত্রে একটি দুর্দান্ত কাজ করেছেন done প্রকৃতপক্ষে, আমার অভিজ্ঞতায় পরিসংখ্যানবিদরা সাধারণত কারণ এবং সম্পর্কের মধ্যে সর্বব্যাপী বিভ্রান্তির বিরুদ্ধে লড়াই করা প্রাথমিক পেশাগত শক্তি force পরিসংখ্যানবিদরা "... কার্যকারিতা সম্পর্কে মোটেই কথা বলতে ঘৃণা করেন না" দাবি করা একদম মিথ্যা (এবং কার্যত অপবাদ) is আমি দেখতে পাচ্ছি যে আপনি কেন এইভাবে অহঙ্কারী ঘোড়া পড়তে বিরক্ত হন।

আমি বলব যে এটি অ-পরিসংখ্যানবিদদের পক্ষে যুক্তিযুক্তভাবে সাধারণযারা পরিসংখ্যানগত মডেল ব্যবহার করেন তা পরিসংখ্যানগত সমিতি এবং কার্যকারিতার মধ্যে সম্পর্কের সম্পর্কে দুর্বল বোঝাপড়া করতে। কারও কারও কাছে অন্যান্য ক্ষেত্র থেকে ভাল বৈজ্ঞানিক প্রশিক্ষণ রয়েছে, এক্ষেত্রে তারা বিষয়টি সম্পর্কে ভালভাবে সচেতনও হতে পারে তবে অবশ্যই কিছু লোক আছে যারা এই বিষয়গুলির পরিসংখ্যান খুব সহজেই পরিসংখ্যান মডেল ব্যবহার করেন। এটি অনেকগুলি প্রয়োগ করা বৈজ্ঞানিক ক্ষেত্রে সত্য যেখানে অনুশীলনকারীদের পরিসংখ্যানগুলির প্রাথমিক প্রশিক্ষণ রয়েছে, তবে এটি গভীর স্তরে শিখেন না। এই ক্ষেত্রে প্রায়শই পেশাদার পরিসংখ্যানবিদরা যারা অন্যান্য গবেষকদের এই ধারণাগুলি এবং তাদের সঠিক সম্পর্কের মধ্যে পার্থক্য সম্পর্কে সতর্ক করেন। পরিসংখ্যানবিদরা প্রায়শই আরসিটিগুলির মূল ডিজাইনার এবং কার্যকারিতা বিচ্ছিন্ন করার জন্য নিয়ন্ত্রণযুক্ত অন্যান্য পরীক্ষাগুলির মূল ডিজাইনার are এগুলিকে প্রায়শই র্যান্ডমাইজেশন, প্লেসবোস, এবং অন্যান্য প্রোটোকল যা সম্ভাব্য বিস্ময়কর ভেরিয়েবলগুলির সাথে সম্পর্ক ছিন্ন করার চেষ্টা করতে ব্যবহৃত হয়। এটি সত্য যে পরিসংখ্যানবিদরা কখনও কখনও কঠোরভাবে প্রয়োজনের চেয়ে বেশি পরিবর্তনশীলগুলির জন্য নিয়ন্ত্রণ করেন তবে এটি খুব কমই ত্রুটির দিকে পরিচালিত করে (অন্তত আমার অভিজ্ঞতায়)। আমি মনে করি বেশিরভাগ পরিসংখ্যানবিদরা এর মধ্যে পার্থক্য সম্পর্কে অবগত আছেনবিস্ময়কর ভেরিয়েবল এবং কলসিডার ভেরিয়েবলগুলি যখন কার্যকারণ সূত্রের জন্য দৃষ্টিভঙ্গি দিয়ে রিগ্রেশন বিশ্লেষণ করে এবং এমনকি তারা সর্বদা নিখুঁত মডেল তৈরি না করে, তারা বিবেচনা করে যে কোনওভাবে কার্যকারিতা বিবেচনা থেকে দূরে রাখা সহজভাবে হাস্যকর।

আমি মনে করি যে জুডিয়া পার্ল কার্যকারিতা নিয়ে তাঁর কাজ নিয়ে পরিসংখ্যানগুলিতে খুব মূল্যবান অবদান রেখেছেন, এবং এই দুর্দান্ত অবদানের জন্য আমি তার কাছে কৃতজ্ঞ। তিনি কিছু অত্যন্ত কার্যকর রীতি তৈরি করেছেন এবং পরীক্ষা করেছেন যা কার্যকারণীয় সম্পর্কগুলি বিচ্ছিন্ন করতে সহায়তা করে এবং তাঁর কাজটি একটি ভাল পরিসংখ্যান শিক্ষার মূল হয়ে উঠেছে। আমি তাঁর কার্যকারিতা বইটি পড়েছিআমি যখন গ্রেড ছাত্র ছিলাম, এবং এটি আমার তাক এবং অন্যান্য অনেক পরিসংখ্যানবিদদের তাকগুলিতে ছিল। এই আনুষ্ঠানিকতার বেশিরভাগ অংশ প্রতিধ্বনিত হয় যা পরিসংখ্যানবিদদের কাছে বীজগণিত ব্যবস্থায় আনুষ্ঠানিক হওয়ার আগে থেকেই স্বজ্ঞাতভাবে জানা ছিল, তবে এটি যে কোনও ক্ষেত্রেই অত্যন্ত মূল্যবান এবং এটি স্পষ্টতই অতিক্রম করে। (আমি আসলে ভাবছি ভবিষ্যতে আমরা সম্ভাব্য বীজগণিতটি একটি অডিওজিমেটিক স্তরে সংঘটিত হওয়ার সাথে "ডু" অপারেশনটি একত্রীকরণ করতে দেখব এবং অবশেষে এটি সম্ভবত সম্ভাবনার তত্ত্বের মূল হয়ে উঠবে I আমি এটি সরাসরি পরিসংখ্যান শিক্ষায় দেখে যেতে চাই , যাতে আপনি কার্যকারিতা মডেল এবং "সম্ভাব্যতা ব্যবস্থা" সম্পর্কে শিখলে "do" অপারেশন সম্পর্কে শিখেন))

এখানে একটি চূড়ান্ত বিষয় মনে রাখতে হবে যে এখানে পরিসংখ্যানগুলির অনেকগুলি প্রয়োগ রয়েছে যেখানে লক্ষ্যটি ভবিষ্যদ্বাণীপূর্ণ , যেখানে অনুশীলনকারী কারণ নির্ণয়ের জন্য অনুসন্ধানী নয়। এই ধরণের অ্যাপ্লিকেশন পরিসংখ্যানগুলিতে অত্যন্ত সাধারণ, এবং এই জাতীয় ক্ষেত্রে নিজেকে কার্যকারণীয় সম্পর্কের মধ্যে সীমাবদ্ধ না রাখাই গুরুত্বপূর্ণ । এটি অর্থ, এইচআর, কর্মশক্তি মডেলিং এবং অন্যান্য অনেক ক্ষেত্রে পরিসংখ্যানের বেশিরভাগ প্রয়োগগুলিতে সত্য। কারও প্রসঙ্গের পরিমাণটিকে হ্রাস করা উচিত নয় যেখানে ভেরিয়েবলগুলি নিয়ন্ত্রণ করতে পারে না বা করা উচিত নয়।


আপডেট: আমি লক্ষ্য করেছি যে আমার উত্তর কার্লোসের সরবরাহকারীর সাথে একমত নয় । "আমরা কেবলমাত্র একটি নিয়মিত প্রশিক্ষণ সহ একটি পরিসংখ্যানবিদ / একনোমেট্রিকিয়ান" গঠনের বিষয়ে আমরা একমত নই। আমি যাকে "পরিসংখ্যানবিদ" বলব তার সাধারণত কমপক্ষে স্নাতক-স্তরের শিক্ষা থাকে এবং সাধারণত যথেষ্ট পেশাগত প্রশিক্ষণ / অভিজ্ঞতা থাকে। (উদাহরণস্বরূপ, অস্ট্রেলিয়ায়, আমাদের জাতীয় পেশাদার সংস্থার সাথে "স্বীকৃত পরিসংখ্যানবিদ" হওয়ার জন্য অনার্স ডিগ্রির পরে কমপক্ষে চার বছরের অভিজ্ঞতা থাকতে হবে, বা নিয়মিত স্নাতক ডিগ্রির পরে ছয় বছরের অভিজ্ঞতা প্রয়োজন।) যে কোনও ক্ষেত্রে, একজন শিক্ষার্থী পরিসংখ্যান অধ্যয়ন কোন পরিসংখ্যানবিদ নয়

আমি লক্ষ্য করেছি যে পরিসংখ্যানবিদদের দ্বারা কার্যকারিতা সম্পর্কে বোঝার অভাবের প্রমাণ হিসাবে, কার্লোসের উত্তর সিভি.এসইতে বেশ কয়েকটি প্রশ্নের দিকে ইঙ্গিত করেছে যা রিগ্রেশনটিতে কার্যকারিতা সম্পর্কে জিজ্ঞাসা করে। এগুলির প্রতিটি ক্ষেত্রেই প্রশ্নটি এমন কেউ জিজ্ঞাসা করেছেন যিনি স্পষ্টতই একজন নবজাতক (কোনও পরিসংখ্যানবিদ নন) এবং কার্লোস এবং অন্যরা প্রদত্ত উত্তরগুলি (যা সঠিক ব্যাখ্যাটি প্রতিফলিত করে) উচ্চ-উত্সাহিত উত্তর। প্রকৃতপক্ষে, বেশ কয়েকটি ক্ষেত্রে কার্লোস কার্যকারিতার বিশদ বিবরণ দিয়েছেন এবং তার উত্তরগুলি সবচেয়ে বেশি ভোট দেওয়া হয়েছে up এটি অবশ্যই প্রমাণ করে যে পরিসংখ্যানবিদরা কার্যকারিতা বোঝেন

কিছু অন্যান্য পোস্টার উল্লেখ করেছেন যে কার্যকারিতা বিশ্লেষণ প্রায়শই পরিসংখ্যান পাঠ্যক্রমের অন্তর্ভুক্ত নয়। এটি সত্য এবং এটি একটি অত্যন্ত লজ্জার বিষয়, তবে বেশিরভাগ পেশাদার পরিসংখ্যানবিদরা সাম্প্রতিক স্নাতক নন এবং তারা একটি স্ট্যান্ডার্ড মাস্টার্স প্রোগ্রামে অন্তর্ভুক্ত রয়েছে তার থেকে অনেক বেশি শিখেছেন। আবার, এই ক্ষেত্রে, এটি প্রদর্শিত হয় যে আমার কাছে অন্যান্য পোস্টারগুলির তুলনায় পরিসংখ্যানবিদদের গড় স্তরের জ্ঞানের উচ্চতর দৃষ্টিভঙ্গি রয়েছে।


12
আমি একজন অ-পরিসংখ্যানবিদ, যার পরিসংখ্যানগুলির আনুষ্ঠানিক প্রশিক্ষণ একই ক্ষেত্রের অ-পরিসংখ্যানবিদদের দ্বারা হয়েছিল এবং আমি পরিসংখ্যান প্রয়োগকারী নন-স্ট্যাটিস্টিয়ানদের সাথে শিক্ষা এবং গবেষণা করি। আমি আপনাকে আশ্বস্ত করতে পারি যে নীতিটি (যেমন) পারস্পরিক সম্পর্ক কার্যকারণ নয়, এবং তা ছিল আমার ক্ষেত্রে একটি পুনরাবৃত্তি মন্ত্র। প্রকৃতপক্ষে আমি এমন লোকদের মধ্যে আসছি না যারা দেখতে পাচ্ছেন না যে বৃষ্টিপাত এবং গমের ফলনের মধ্যে পারস্পরিক সম্পর্ক কেবল তাদের মধ্যে এবং অন্তর্নিহিত প্রক্রিয়াগুলির মধ্যে সম্পর্ক সম্পর্কে বলা দরকার। সাধারণত, আমার অভিজ্ঞতায় অ-পরিসংখ্যানবিদরাও দীর্ঘকাল ধরে এটি চিন্তা করেছেন।
নিক কক্স

8
একজন মহামারীবিদ হিসাবে, আমি এই মন্ত্রটি দ্বারা আরও বেশি বিরক্ত হচ্ছি। @ নিককক্স যেমন বলেছেন, এটি এমন কিছু যা এমনকি অ-বিজ্ঞানীরাও বুঝতে পারেন। আমার সমস্যাটি হ'ল যখন প্রত্যেকে "পারস্পরিক সম্পর্ক বলতে কার্যকারণ বোঝায় না!" এর ব্যান্ডওয়্যাগনে লাফ দেয়! যখনই একটি পর্যবেক্ষণ গবেষণা (কেস-নিয়ন্ত্রণ গবেষণা, বলুন) প্রকাশিত হয়। হ্যাঁ, পারস্পরিক সম্পর্ক বলতে কার্যকারিতা বোঝায় না তবে গবেষকরা সাধারণত এটি সম্পর্কে বেশ সচেতন হন এবং গবেষণাকে এমনভাবে ডিজাইন ও বিশ্লেষণ করার জন্য সমস্ত কিছু করবেন যাতে কার্যকারণ ব্যাখ্যা কমপক্ষে প্রশংসনীয় হয়।
COOLSerdash

5
@ নিক কক্স: আমি আরও নির্ভুলভাবে সম্পাদনা করেছি যে এখানে অনেক অ-পরিসংখ্যানবিদ যারা এগুলি ভাল করে বোঝেন। শুধুমাত্র স্ট্রেস যে সমস্যা হয় - ওটা অন্য জীবিকা উপর dispersions কাস্ট করার জন্য আমার উদ্দেশ্য ছিল না অত্যন্ত ভাল স্ট্যাটিসটিসিয়ান বোঝা।
বেন

7
@ নিককক্স "পারস্পরিক সম্পর্ক কার্যকারণ নয়" এর চেয়ে কার্যকারিতা সম্পর্কে পার্লের অবদানের আরও অনেক কিছুই রয়েছে। আমি এখানে কার্লোসের সাথে আছি। কার্যকারিতা সম্পর্কে যথেষ্ট শিখতে হবে যে এটি সম্পূর্ণ কোর্স হওয়া উচিত। আমি যতদূর জানি, বেশিরভাগ পরিসংখ্যান বিভাগগুলি এ জাতীয় কোর্স দেয় না।
নিল জি

12
@ বেন: মুক্তা পরিসংখ্যানবিদদের বিভ্রান্তিকর সম্পর্ক এবং কারণ হিসাবে অভিযুক্ত করে না। তিনি তাদের উপর বেশিরভাগ কার্যকারণ যুক্তি ছাড়াই স্টিয়ারিংয়ের অভিযোগ করেন। আমি আপনার সাথে একমত যে তাঁর সুরটি অহংকারী, তবে আমার মনে হয় তার একটি বক্তব্য রয়েছে।
মিচুস

11

একটি সাধারণ লিনিয়ার রিগ্রেশন মূলত একটি কার্যকারক মডেল

এখানে আমি একটি উদাহরণ নিয়ে এসেছি যেখানে লিনিয়ার রিগ্রেশন মডেল কার্যকারিতা হতে ব্যর্থ হয়। আসুন একটি অগ্রাধিকার বলি যে কোনও ওষুধ সময় 0 ( টি = 0 ) নেওয়া হয়েছিল এবং এটি হার্ট অ্যাটাকের হারের উপর টি = 1 এ কোনও প্রভাব ফেলেনি । এ হার্ট এটাক টি = 1 এ হার্ট এটাক প্রভাবিত টি = 2 (অর্থাত পূর্ববর্তী ক্ষতি হৃদয় আরো ক্ষতি সমর্থ তোলে)। T = 3 এ বেঁচে থাকা কেবলমাত্র তার উপর নির্ভর করে যে লোকেদের হার্ট অ্যাটাক হয়েছে কি না = t = 2 - টি = 1 তে হার্ট অ্যাটাক আসলেই ট = 3 এ বেঁচে থাকার প্রভাব ফেলবে , তবে আমাদের পক্ষে একটি তীর থাকবে না সরলতা।

কিংবদন্তিটি এখানে:

ড্যাগ কিংবদন্তি

এখানে আসল কার্যকারণ গ্রাফ: কলসিডার পক্ষপাতিত্ব

এর সাজা যে আমরা যে হার্ট এটাক জানি না যাক টন = 1 এ ড্রাগ গ্রহণ স্বাধীন টন = 0 তাই আমরা এ হার্ট অ্যাটাক উপর ড্রাগ প্রভাব অনুমান করার জন্য একটি সহজ রৈখিক রিগ্রেশনের মডেল গঠন করা টন = 0 । এখানে আমাদের পূর্বাভাসক ড্রাগ t = 0 হবে এবং আমাদের ফলাফল পরিবর্তনশীল হবে হার্ট অ্যাটাক টি = 1 । আমাদের কাছে কেবলমাত্র ডেটা এমন লোকেরা যারা t = 3 এ টিকে থাকে , তাই আমরা সেই ডেটাতে আমাদের রিগ্রেশন চালাব।

এখানে t % 0 এর সহগের জন্য 95% বায়েশিয়ান বিশ্বাসযোগ্য বিশ্বাসের ব্যবধান রয়েছে : 95% বিশ্বাসযোগ্য ব্যবধান, কলসিডার পক্ষপাতিত্ব

আমরা দেখতে পাচ্ছি সম্ভাবনার বেশিরভাগটি 0 এর চেয়ে বেশি, সুতরাং মনে হচ্ছে এটির কোনও প্রভাব আছে! তবে, আমরা একটি অগ্রাধিকার জানি যে 0 এর প্রভাব আছে। জুডিয়া পার্ল এবং অন্যদের দ্বারা বিকাশকৃত কার্যকারণের গণিত এটি দেখতে আরও সহজ করে তোলে যে এই উদাহরণে পক্ষপাতিত্ব থাকবে (কোনও সংঘর্ষকারীর বংশধরের অবস্থার কারণে)। জুডিয়ার কাজের দ্বারা বোঝা যাচ্ছে যে এই পরিস্থিতিতে আমাদের সম্পূর্ণ ডেটা সেট ব্যবহার করা উচিত (যেমন কেবলমাত্র বেঁচে থাকা লোকদের দিকে তাকান না), যা পক্ষপাতদুষ্ট পথগুলি সরিয়ে দেবে:

কোন পক্ষপাতিত্ব নেই

পূর্ণ ডেটা সেটটি দেখার সময় এখানে 95% বিশ্বাসযোগ্য অন্তর্বর্তী (যেমন যারা বেঁচেছেন তাদের কন্ডিশনার নয়)।

95% বিশ্বাসযোগ্য ব্যবধান, কোনও পক্ষপাত নেই

এটি 0 তে ঘন কেন্দ্রিক, যা মূলত কোনও সংযোগ দেখায় না।

বাস্তব জীবনের উদাহরণগুলিতে জিনিসগুলি এত সহজ নাও হতে পারে। আরও অনেকগুলি ভেরিয়েবল থাকতে পারে যা সিস্টেমেটিক পক্ষপাত হতে পারে (বিভ্রান্তিমূলক, নির্বাচন পক্ষপাত ইত্যাদি)। কী বিশ্লেষণের জন্য সামঞ্জস্য করতে পার্ল তা গণিত করেছে; অ্যালগরিদমগুলি কোন চলকটির জন্য সামঞ্জস্য করতে পারে তা প্রস্তাব করতে পারে বা ব্যবস্থাবদ্ধ পক্ষপাত দূর করার জন্য যখন সামঞ্জস্য করা পর্যাপ্ত নয় তখনও আমাদের বলতে পারে। এই আনুষ্ঠানিক তত্ত্বটি স্থিরভাবে স্থাপন করার সাথে, কীসের জন্য সামঞ্জস্য করতে হবে এবং কোনটির জন্য সামঞ্জস্য করা হবে না সে বিষয়ে আমাদের তর্ক করতে এত সময় ব্যয় করার দরকার নেই; আমাদের ফলাফলগুলি সুস্পষ্ট কিনা তা আমরা দ্রুত সিদ্ধান্তে পৌঁছে যেতে পারি। আমরা আমাদের পরীক্ষাগুলি আরও ভালভাবে ডিজাইন করতে পারি, আমরা পর্যবেক্ষণের তথ্য আরও সহজে বিশ্লেষণ করতে পারি।

মিগুয়েল হার্নেনের কার্যকরী ডিএজিগুলিতে অনলাইনে অবাধে উপলভ্য কোর্স এখানে রয়েছে। এটির বাস্তব জীবনের কেস স্টাডি রয়েছে যেখানে অধ্যাপকরা / বিজ্ঞানী / পরিসংখ্যানবিদরা হাতে থাকা প্রশ্ন সম্পর্কে বিপরীত সিদ্ধান্তে এসেছেন। তাদের মধ্যে কিছু প্যারাডক্সের মতো মনে হতে পারে। তবে আপনি সহজেই এটিকে জুডিয়া পার্লের ডি-বিচ্ছেদ এবং ব্যাকডোর-মাপদণ্ডের মাধ্যমে সমাধান করতে পারেন ।

রেফারেন্সের জন্য, এখানে ডেটা তৈরির প্রক্রিয়াটির কোড এবং উপরে দেখানো বিশ্বাসযোগ্য ব্যবধানগুলির কোড:

import numpy as np
import pandas as pd
import statsmodels as sm
import pymc3 as pm
from sklearn.linear_model import LinearRegression

%matplotlib inline

# notice that taking the drug is independent of heart attack at time 1.
# heart_attack_time_1 doesn't "listen" to take_drug_t_0
take_drug_t_0 = np.random.binomial(n=1, p=0.7, size=10000)
heart_attack_time_1 = np.random.binomial(n=1, p=0.4, size=10000)

proba_heart_attack_time_2 = []

# heart_attack_time_1 increases the probability of heart_attack_time_2. Let's say
# it's because it weakens the heart and makes it more susceptible to further
# injuries
# 
# Yet, take_drug_t_0 decreases the probability of heart attacks happening at
# time 2
for drug_t_0, heart_attack_t_1 in zip(take_drug_t_0, heart_attack_time_1):
    if drug_t_0 == 0 and heart_attack_t_1 == 0:
        proba_heart_attack_time_2.append(0.1)
    elif drug_t_0 == 1 and heart_attack_t_1 == 0:
        proba_heart_attack_time_2.append(0.1)
    elif drug_t_0 == 0 and heart_attack_t_1 == 1:
        proba_heart_attack_time_2.append(0.5)
    elif drug_t_0 == 1 and heart_attack_t_1 == 1:
        proba_heart_attack_time_2.append(0.05)

heart_attack_time_2 = np.random.binomial(
    n=2, p=proba_heart_attack_time_2, size=10000
)

# people who've had a heart attack at time 2 are more likely to die by time 3

proba_survive_t_3 = []
for heart_attack_t_2 in heart_attack_time_2:
    if heart_attack_t_2 == 0:
        proba_survive_t_3.append(0.95)
    else:
        proba_survive_t_3.append(0.6)

survive_t_3 = np.random.binomial(
    n=1, p=proba_survive_t_3, size=10000
)

df = pd.DataFrame(
    {
        'survive_t_3': survive_t_3,
        'take_drug_t_0': take_drug_t_0,
        'heart_attack_time_1': heart_attack_time_1,
        'heart_attack_time_2': heart_attack_time_2
    }
)

# we only have access to data of the people who survived
survive_t_3_data = df[
    df['survive_t_3'] == 1
]

survive_t_3_X = survive_t_3_data[['take_drug_t_0']]

lr = LinearRegression()
lr.fit(survive_t_3_X, survive_t_3_data['heart_attack_time_1'])
lr.coef_

with pm.Model() as collider_bias_model_normal:
    alpha = pm.Normal(name='alpha', mu=0, sd=1)
    take_drug_t_0 = pm.Normal(name='take_drug_t_0', mu=0, sd=1)
    summation = alpha + take_drug_t_0 * survive_t_3_data['take_drug_t_0']
    sigma = pm.Exponential('sigma', lam=1)           

    pm.Normal(
        name='observed', 
        mu=summation,
        sd=sigma,
        observed=survive_t_3_data['heart_attack_time_1']
    )

    collider_bias_normal_trace = pm.sample(2000, tune=1000)

pm.plot_posterior(collider_bias_normal_trace['take_drug_t_0'])

with pm.Model() as no_collider_bias_model_normal:
    alpha = pm.Normal(name='alpha', mu=0, sd=1)
    take_drug_t_0 = pm.Normal(name='take_drug_t_0', mu=0, sd=1)
    summation = alpha + take_drug_t_0 * df['take_drug_t_0']
    sigma = pm.Exponential('sigma', lam=1)           

    pm.Normal(
        name='observed', 
        mu=summation,
        sd=sigma,
        observed=df['heart_attack_time_1']
    )

    no_collider_bias_normal_trace = pm.sample(2000, tune=2000)

pm.plot_posterior(no_collider_bias_normal_trace['take_drug_t_0'])

4

দুটি কাগজপত্র, দ্বিতীয়টি ক্লাসিক, যা সহায়তা (আমার মনে হয়) জুডিয়ার পয়েন্টগুলিতে এবং আরও সাধারণভাবে এই বিষয়গুলিতে অতিরিক্ত আলোকপাত করেছে। এটি এমন কারও কাছ থেকে আসে যিনি এসইএম ব্যবহার করেছেন (যা পারস্পরিক সম্পর্ক এবং প্রতিস্থাপন) বারবার এবং তাঁর সমালোচনাগুলির সাথে অনুরণিত হয়:

https://www.sciencedirect.com/science/article/pii/S0022103111001466

http://psycnet.apa.org/record/1973-20037-001

মূলত কাগজপত্রগুলি বর্ণনা করে যে সম্পর্ক সম্পর্কিত মডেলগুলি (রিগ্রেশন) সাধারণভাবে কোনও শক্তিশালী কার্যকারণ সূচক হিসাবে বোঝা যায় না। অ্যাসোসিয়েশনগুলির যে কোনও প্যাটার্ন একটি প্রদত্ত কোভেরিয়েন্স ম্যাট্রিক্সের (যেমন, দিকের অ স্পেসিফিকেশন এবং পরিবর্তনশীলগুলির মধ্যে সম্পর্ক) ফিট করতে পারে। সুতরাং পরীক্ষামূলক নকশা, পাল্টা প্রতিস্থাপন ইত্যাদির মতো জিনিসগুলির প্রয়োজনীয়তা এটি এমনকি তখনও প্রযোজ্য যখন কারও কাছে তাদের ডেটাতে একটি অস্থায়ী কাঠামো থাকে যেখানে পুতাত্মক কারণের পূর্বে সময়সীমার কারণ ঘটে।


1

"... যেহেতু আমরা মূলত ধরে নিচ্ছি যে একটি পরিবর্তনশীল কারণ এবং অন্যটি এর প্রভাব (তাই পারস্পরিক সম্পর্ক হ'ল রিগ্রেশন মডেলিং থেকে ভিন্ন পদ্ধতির) ..."

রিগ্রেশন মডেলিং অবশ্যই স্পষ্টভাবে এই অনুমান করে না make

"... এবং এই কার্যকরী সম্পর্কটি পর্যবেক্ষণকৃত নিদর্শনগুলি ব্যাখ্যা করে কিনা তা পরীক্ষা করে দেখছি।"

আপনি যদি কার্যকারিতা ধরে নিচ্ছেন এবং পর্যবেক্ষণের বিরুদ্ধে এটি বৈধতা দিচ্ছেন, আপনি SEM মডেলিং করছেন বা পার্ল যা এসসিএম মডেলিং বলে। আপনি পরিসংখ্যানের ডোমেনের সেই অংশটি কল করতে চান কিনা তা বিতর্কযোগ্য। তবে আমি মনে করি বেশিরভাগ এটিকে ক্লাসিক্যাল স্ট্যাটাস বলবেন না।

সাধারণভাবে পরিসংখ্যানগুলিতে ঝাঁকুনির পরিবর্তে, আমি বিশ্বাস করি যে পার্ল কার্যকারণার্থক শব্দার্থতাকে সম্বোধন করার জন্য পরিসংখ্যানবিদদের নমনীয়তার সমালোচনা করছে। তিনি এই গুরুতর সমস্যা হিসাবে বিবেচনা করেছেন কারণ কার্ল সাগান "গেট ইন আউট আউট" প্রপঞ্চ বলেছিলেন, যেখানে আপনি একটি গবেষণা রেখেছেন যা বলেছে "মাংস খাওয়া 'দৃ li়ভাবে লিবিডো'র সাথে যুক্ত রয়েছে, পি <.05" এবং তারপরে জেনে বেরোন পুরোপুরি ভালভাবে দুটি ফলাফল জনগণের মনে কার্যকারণে যুক্ত হতে চলেছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.