কোনও মডেল তৈরি করার সময় যে পরিসংখ্যানগত দিক থেকে তাত্পর্যপূর্ণ নয় সেগুলি কী 'রাখা উচিত'?


39

মডেলটির জন্য আমার গণনায় বেশ কয়েকটি কোভারিয়েট রয়েছে এবং সেগুলি সমস্তই পরিসংখ্যানগত দিক থেকে গুরুত্বপূর্ণ নয়। আমি কি তাদের অপসারণ করব?

এই প্রশ্নটি ঘটনাটি নিয়ে আলোচনা করে, তবে আমার প্রশ্নের উত্তর দেয় না: কীভাবে আনকোভাতে কোনও কোভারিয়েটের অ-উল্লেখযোগ্য প্রভাব ব্যাখ্যা করা যায়?

এই প্রশ্নের উত্তরে এমন কিছু নেই যা প্রস্তাব দেয় যে অ-তাৎপর্যপূর্ণ কোভেরিয়েটগুলি বের করে দেওয়া উচিত, তবে, এখনই আমি বিশ্বাস করি যে তাদের মধ্যেই থাকতে হবে that উত্তরটি পড়ার আগেও আমি একটি সমবায়িক হিসাবে থেকেই একই ভাবছিলাম অল্প অল্প অল্প পরিমাণ (তাত্পর্য থ্রেশহোল্ড, যা আমি covariates হিসাবে প্রযোজ্য হিসাবে দেখছি না) ছাড়িয়ে অল্প পরিমাণে ব্যাখ্যা না করেই এখনও কিছু বৈকল্পিকতা (এবং এইভাবে মডেলটিকে সহায়তা করে) ব্যাখ্যা করতে পারি।

সিভিতে অন্য কোথাও অন্য একটি প্রশ্ন রয়েছে যার উত্তর থেকে মনে হয় যে কোনও গুরুত্ব ছাড়াই কোভারিটেটদের রাখা উচিত, তবে এটি পরিষ্কার নয়। (আমি এই প্রশ্নের সাথে লিঙ্ক করতে চাই, তবে আমি এখনই এটি আবার সন্ধান করতে পারিনি))

সুতরাং ... যে পরিসংখ্যানগুলি পরিসংখ্যানগতভাবে তাত্পর্যপূর্ণ হিসাবে দেখায় না তাদের মডেল হিসাবে গণনায় রাখা উচিত? (আমি এই প্রশ্নটি পরিষ্কার করেই সম্পাদনা করেছি যে কোনওভাবে গণনা অনুসারে কোভারিটি মডেল আউটপুটে থাকে না))

জটিলতা যুক্ত করার জন্য, যদি কোভেরিয়্যাটগুলি পরিসংখ্যানগতভাবে ডেটাগুলির কিছু উপ-পর্বের জন্য (যা সাবলেটগুলি পৃথকভাবে প্রক্রিয়াজাত করতে হয়) জন্য তাত্পর্যপূর্ণ হয় what আমি এই জাতীয় একটি covariate রাখা ডিফল্ট হবে, অন্যথায় হয় বিভিন্ন মডেল ব্যবহার করতে হবে বা আপনি একটি ক্ষেত্রে একটি পরিসংখ্যানগতভাবে উল্লেখযোগ্য covariate অনুপস্থিত হবে। যদিও এই বিভাজন মামলার আপনার কাছে কোনও উত্তর রয়েছে, তবে দয়া করে এটি উল্লেখ করুন।


6
সাধারণভাবে বলতে গেলে আমি বলব যে আপনার ভেরিয়েবলগুলি রাখা উচিত যা তাত্ত্বিকভাবে গুরুত্বপূর্ণ বা পূর্ববর্তী গবেষণায় গুরুত্বপূর্ণ ছিল যদিও আপনার ডেটা তাদের প্রভাবকে সমর্থন করে না। এটিই বলা হচ্ছে, আরও সুনির্দিষ্ট উত্তর পাওয়ার জন্য, আমি মনে করি আপনার মডেল এবং এর উদ্দেশ্য ব্যাখ্যা করার জন্য আপনার কয়েকটি লাইন যুক্ত করা উচিত (যেমন ঝুঁকির কারণগুলি চিহ্নিত করা, ভবিষ্যদ্বাণী করা, ...)।
ocram

আমি বলতে চাই এটি নির্ভর করে। টেস্টগুলি কেবল সূচক। যদি আপনি বিশ্বাস করেন যে একটি ছোট নির্ভরতা থাকা উচিত তবে মডেলটি রাখার বিষয়ে চিন্তা করুন। আপনি যদি বিশ্বাস করেন যে নির্ভরতা সেখানে থাকা উচিত নয় তবে এটিকে ছেড়ে দিন।
বেনি

ঠিক আছে, তাই আপনি উভয় বলছে অ-তাৎপর্য নেই নির্দেশ একটি covariate বিবেচনা থেকে সরানো হচ্ছে, তাই আপনি উভয় আসলে আমার প্রশ্নের উত্তর আছে। আমার প্রশ্নটি আমার প্রকৃতপক্ষে আরও স্পষ্টভাবে ইঙ্গিত করা উচিত যে আমি যা জিজ্ঞাসা করছি তা হ'ল কোনও সমবায়ীয় ব্যক্তির তাত্পর্যপূর্ণ তাত্পর্য রাখার জন্য প্রয়োজনীয় শর্ত কিনা (" কোনও সমবায়ীর অ-তাত্পর্যপূর্ণ অর্থ কি এটি সরানো উচিত ..."), এবং আমি আপনার মতামত দুটি উত্তর হিসাবে গ্রহণ করব।
পূর্বাহ্ণ

যদিও আমি এটি করার আগে, আমি নিশ্চিত করতে চাই যে আমি সঠিক পরিভাষা ব্যবহার করছি। মূলত আমি "মডেলটিতে রক্ষিত" লিখেছিলাম, তবে এটি সঠিক বলে মনে হয়নি কারণ কোভেরিয়েটরা কখনও মডেলটিতে উপস্থিত হয় না। আমি " মডেলের জন্য গণনায় রাখা " (এবং " বিবেচনা থেকে সরানো ") জন্য স্থির হয়েছি , তবে এটি বলার আরও ভাল উপায় আছে কি? কোভেরিয়েটটি রাখা হচ্ছে বা সেখান থেকে সরানো হচ্ছে তার সঠিক শব্দটি কী?
এএম

3
এই জাতীয় নির্বাচন পদ্ধতির সঠিক পারফরম্যান্স আপনাকে যাচাই করতে হবে। অন্যরা ব্যর্থ হয়েছে।
ফ্র্যাঙ্ক হ্যারেল

উত্তর:


32

আপনি ইতিমধ্যে বেশ কয়েকটি ভাল উত্তর পেয়েছেন। Covariates রাখার কারণ এবং covariates বাদ দেওয়ার কারণ রয়েছে। সংখ্যাগরিষ্ঠ ক্ষেত্রে পরিসংখ্যানগত তাত্পর্য একটি মূল কারণ হওয়া উচিত নয়।

  1. Covariates তারা সেখানে থাকতে হবে যে এতটুকু যথেষ্ট গুরুত্ব থাকতে পারে।
  2. কোনও কোভেরিয়েটের প্রভাবের আকার আরও বেশি হতে পারে, যদিও তা উল্লেখযোগ্য না হয়।
  3. কোভেরিয়েট মডেলটির অন্যান্য দিকগুলিকে প্রভাবিত করতে পারে।
  4. আপনার অনুমানটি কীভাবে শব্দযুক্ত হয়েছিল তার একটি অংশ হতে পারে কোভেরিয়াট।

আপনি যদি খুব অনুসন্ধানী মোডে থাকেন এবং সাহিত্যে কোভেরিয়াটটি গুরুত্বপূর্ণ না হয় এবং প্রভাবের আকার ছোট হয় এবং কোভারিয়েট আপনার মডেলটির উপরে খুব কম প্রভাব ফেলে এবং কোভেরিয়েটটি আপনার অনুমানের মধ্যে না থাকে, তবে আপনি সম্ভবত এটি সরলতার জন্য মুছে ফেলতে পারেন ।


6
একটি খুব গুরুত্বপূর্ণ তবে প্রায়শই অবহেলিত পরিস্থিতি এখানে # 4 দ্বারা আচ্ছাদিত রয়েছে তবে আমি এটি বানান করব। প্রায়শই - প্রকৃতপক্ষে - আপনার একই ফলাফলের সাথে পূর্ববর্তী কর্মীদের সাথে আপনার ফলাফলের তুলনা করতে হবে। অন্যরা যদি তাদের মডেলগুলির সাথে অন্তর্ভুক্ত করে নির্দিষ্ট কোভেরিয়টগুলি খুঁজে পেয়ে থাকে তবে আপনার সমবায়ীরা (প্রচলিত) তাত্পর্য স্তর অর্জন করে কিনা তা বিবেচনা না করে আপনার ফলাফলগুলি তাদের সাথে তুলনা করতে হবে। মনে রাখবেন যে কেসগুলি আপনি যে মডেলগুলি সিদ্ধান্ত নিয়েছেন তার প্রতিবেদন করা থেকে আলাদা হতে পারে (বিশেষত) আপনি যে মডেলগুলি সিদ্ধান্ত নিয়েছেন তা ঠিক নয় are
নিক কক্স

1
আমি অবশ্যই 'চালিয়ে যাও' (এবং প্রথম স্থানে covariates জন্য পি মান খুব বেশি না করা) ঝুঁকিতে ছিলাম, তবে আপনার উত্তরটি সংখ্যালঘু হওয়ার জন্য খুব সুন্দর একটি চেকলিস্ট তৈরি করেছে (ভাল ... দুই)। প্রভাবের আকারটি এমন কিছু যা আমি বিবেচনা করি নি এবং আমি হাইপোথেসিসগুলি বিবেচনা করার সময় খুব পছন্দ করেছি যে আপনি এটি অন্তর্ভুক্ত করেছেন, @ নিককক্সের কারণগুলির জন্য এবং কেবলমাত্র মাছ ধরা নিরুৎসাহিত করার জন্য।
পূর্বাহ্ণ

25

দীর্ঘ উত্তরটি "হ্যাঁ"। তাত্পর্যপূর্ণ ভবিষ্যদ্বাণীকারীদের অপসারণ করার কয়েকটি কারণ এবং তা না করার অনেকগুলি কারণ রয়েছে। যতদূর তাদের ব্যাখ্যা হিসাবে আপনি অন্য-ভবিষ্যদ্বাণীকে ব্যাখ্যা করতে পারেন ঠিক তেমনই ভ্যালুটিকে উপেক্ষা করে : ভবিষ্যদ্বাণীকের আকর্ষণীয় ব্যাপ্তির উপর প্রভাবের জন্য আত্মবিশ্বাসের অন্তর দিয়ে।P


10
দীর্ঘ উত্তরটি "হ্যাঁ"! +1 এবং একটি এলওএল।
পিটার ফ্লুম - মনিকা পুনরায়

যদি পি-মান না হয় তবে ভবিষ্যদ্বাণীকারীদের অপসারণের অন্যান্য কারণগুলি কী? আপনি আত্মবিশ্বাসের ব্যবধানের ব্যাখ্যার কথা উল্লেখ করেছেন তবে এটি "আকর্ষণীয় পরিসর" শূন্যের মতো মনে হবে, যার অর্থ মানুষ সিআই-কে অনেকগুলি পি-ভ্যালু (শূন্যের অন্তর্ভুক্তি বা বর্জন) এর মতো ব্যাখ্যা করবে।
মার্ক হোয়াইট

1
যখন এটি পরিসংখ্যানগত বৈশিষ্ট্য বিকৃত করে তখন ভবিষ্যদ্বাণীকারীদের অপসারণের কারণগুলি কী? আপনার প্রশ্ন এবং "শূন্য" সম্পর্কে পরিষ্কার নয়।
ফ্র্যাঙ্ক হ্যারেল

7

একটি দরকারী অন্তর্দৃষ্টি হ'ল পরিসংখ্যানগতভাবে বলতে গেলে কোনও কোভারিয়েট সম্পর্কে সত্যই নির্দিষ্ট কিছু নেই, দেখুন উদাহরণস্বরূপ রিগ্রেশন সূত্রে কোভারিয়েটগুলি লেখার ক্ষেত্রে সহায়তা করুন । ঘটনাচক্রে, এটি কোনও covariateট্যাগ নেই কেন তা ব্যাখ্যা করতে পারে । ফলস্বরূপ, লিনিয়ার মডেলটিতে অ-তাত্পর্যপূর্ণ শর্তাদি সম্পর্কে এখানে এবং অন্যত্র পদার্থ প্রাসঙ্গিক, যেমন পদক্ষেপের প্রতিরোধের সুপরিচিত সমালোচকরাও, যদিও এএনসিওওএর স্পষ্টভাবে উল্লেখ না করা হয়।

সাধারণভাবে বলতে গেলে, শুধুমাত্র তাত্পর্যতার ভিত্তিতে ভবিষ্যদ্বাণীকারী নির্বাচন করা খারাপ ধারণা। যদি কোনও কারণে আপনি আগে থেকেই মডেলটি নির্দিষ্ট করতে না পারেন তবে আপনার অন্যান্য পন্থাগুলি বিবেচনা করা উচিত তবে আপনি যদি এগুলিকে প্রথম স্থানে অন্তর্ভুক্ত করার পরিকল্পনা করেন, সেই অনুযায়ী ডেটা সংগ্রহ করেছেন এবং নির্দিষ্ট সমস্যার মুখোমুখি হচ্ছেন না (উদাহরণস্বরূপ আন্তঃসঙ্গতি), কেবল তাদের রাখুন।

এগুলি রাখার কারণগুলি সম্পর্কে, আপনি যে আপত্তিগুলি নিয়ে এসেছেন সেগুলি আমার কাছে যথাযথ বলে মনে হচ্ছে। আর একটি কারণ হ'ল মডেলটির উপর ভিত্তি করে অ-তাত্পর্যপূর্ণ ভবিষ্যদ্বাণীকারীদের বায়াসগুলি সরিয়ে ফেলা। তবুও এই সমস্ত কিছু দেখার জন্য অন্য উপায়টি জিজ্ঞাসা করা হয়েছে সত্যের পরে এই সমবায়ীদের সরিয়ে দিয়ে কী লাভ হবে।


4

এই প্রশ্নের উত্তর দিতে আমাদের লক্ষ্যগুলি সম্পর্কে আমাদের আরও সত্যিকারের প্রয়োজন। রিগ্রেশন দুটি মূল উদ্দেশ্যে ব্যবহৃত হয়:

  1. ভবিষ্যদ্বাণী
  2. অনুমান

ভবিষ্যদ্বাণীটি হ'ল যখন আপনার লক্ষ্যটি নমুনায় নেই এমন পর্যবেক্ষণগুলির জন্য ফলাফল পরিবর্তনশীলের মানগুলি অনুমান করতে সক্ষম হবেন (যদিও তারা সাধারণত নমুনা তথ্যের সীমার মধ্যে থাকে – অন্যথায়, আমরা কখনও কখনও "পূর্বাভাস" শব্দটি ব্যবহার করি)। ভবিষ্যদ্বাণী বিজ্ঞাপনের উদ্দেশ্যে, অর্থ ইত্যাদির জন্য দরকারী যদি আপনি কিছু ফলাফলের পরিবর্তনশীল সম্পর্কে ভবিষ্যদ্বাণী করতে আগ্রহী হন তবে আমার কাছে আপনাকে অফার করার মতো সামান্যই আছে।

মজা কোথায় হয় তা অনুমান করা হয় (অর্থ যেখানে থাকে তা না হলেও)। অনুমানটি হ'ল যেখানে আপনি নির্দিষ্ট মডেলের পরামিতিগুলি সম্পর্কে সিদ্ধান্তে নেওয়ার চেষ্টা করছেন – সাধারণত অন্যটিতে একটি ভেরিয়েবলের কার্যকারণ প্রভাব নির্ধারণ করতে। সাধারণ উপলব্ধি সত্ত্বেও, কার্যনির্বাহী অনুক্রমের জন্য রিগ্রেশন বিশ্লেষণ কখনই পর্যাপ্ত নয়। আপনার প্রতিরোধক কার্যকারণ প্রভাবটি ক্যাপচার করে কিনা তা জানতে আপনাকে অবশ্যই ডেটা উত্পন্নকরণ প্রক্রিয়া সম্পর্কে আরও সবসময় জানতে হবে। রিগ্রেশনগুলি থেকে কার্যকারিতা নির্ধারণের মূল সমস্যাটি হ'ল ত্রুটির শর্তসাপেক্ষ গড়টি (রেজিস্ট্রারদের শর্তাধীন) শূন্য কিনা। এটি রেজিস্টারগুলিতে পি-মানগুলি থেকে জানা যায় না। নিরপেক্ষ বা সামঞ্জস্যপূর্ণ এমন রিগ্রেশন অনুমান করা সম্ভব, তবে এর জন্য কেবল কিছুটা স্পষ্ট নিয়ন্ত্রণ নিয়ন্ত্রণের মধ্যে ফেলে দেওয়া এবং আশা করা যায় যে আপনি গুরুত্বপূর্ণগুলি পেয়েছেন তার চেয়ে আরও বেশি প্রচেষ্টা প্রয়োজন।মাস্টারিং 'মেট্রিক্স: কারণ থেকে প্রভাব এবং বেশিরভাগ ক্ষতিকারক একনোমেট্রিক্সের পথ )। মাস্টারিং মেট্রিকগুলি সহজ পঠনযোগ্য এবং বেশ সস্তা, তবে সতর্কতা অবলম্বন করুন যে এটি কীভাবে প্রতিক্রিয়াগুলি করতে হয় তার চিকিত্সা নয় বরং তারা কী বোঝায় তা বোঝায়। ভাল এবং খারাপ পর্যবেক্ষণমূলক গবেষণা ডিজাইনের উদাহরণগুলির ভাল কভারেজের জন্য, আমি ডেভিড ফ্রিডম্যানের (1991) "স্ট্যাটিস্টিকাল মডেলস এবং জুতো চামড়া", সমাজতাত্ত্বিক পদ্ধতি , খণ্ড 21 (আকর্ষণীয় উদাহরণ সহ একটি সংক্ষিপ্ত এবং সহজ পঠন ) প্রস্তাব দিই ।

অন্যদিকে: বেশিরভাগ কলেজ কোর্সে ভাল গবেষণা নকশার চেয়ে পরিসংখ্যান কৌশল সম্পর্কে আবেশটি আমার একটি শিক্ষাগত প্রবন্ধ।

এই বিষয়টির বর্তমান গুরুত্বকে উত্সাহিত করার জন্য দ্বিতীয় দিকে: ভবিষ্যদ্বাণী ও অনুমানের মধ্যে পার্থক্য হ'ল বড় ডেটা বিজ্ঞানের বিকল্প কেন নয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.