জনসংখ্যার মধ্যে পার্থক্য তদন্ত করা


9

বলুন আমাদের কাছে দুটি জনসংখ্যার নমুনা রয়েছে: Aএবং B। আসুন ধরে নেওয়া যাক এই জনসংখ্যাগুলি ব্যক্তি দ্বারা তৈরি এবং আমরা বৈশিষ্ট্যগুলির ক্ষেত্রে ব্যক্তিদের বর্ণনা করতে পছন্দ করি। এর মধ্যে কয়েকটি বৈশিষ্ট্য শ্রেণিবদ্ধ (যেমন তারা কাজ করতে গাড়ি চালায়?) এবং কয়েকটি সংখ্যাসূচক (যেমন তাদের উচ্চতা)। আসুন এই বৈশিষ্ট্যগুলি কল করুন: । আমরা এই শত শত বৈশিষ্ট্য সংগ্রহ করি (উদাঃ এন = 200), আসুন সরলতার জন্য ধরে নেওয়া যাক, সমস্ত ব্যক্তি জুড়ে কোনও ত্রুটি বা গোলমাল ছাড়াই।X1Xn

আমরা অনুমান করি দুটি জনসংখ্যা আলাদা। আমাদের লক্ষ্য নিম্নলিখিত দুটি প্রশ্নের উত্তর দেওয়া:

  1. তারা আসলে উল্লেখযোগ্যভাবে আলাদা?
  2. তাদের মধ্যে উল্লেখযোগ্যভাবে আলাদা কি?

সিদ্ধান্ত গাছের মতো পদ্ধতি (যেমন এলোমেলো বন) এবং লিনিয়ার রিগ্রেশন বিশ্লেষণ সহায়তা করতে পারে। উদাহরণস্বরূপ, এই দলগুলির মধ্যে কী পার্থক্য রয়েছে তা বোঝার জন্য কেউ এলোমেলো বনগুলিতে বা লিনিয়ার রিগ্রেশনে লাগানো সহগের বৈশিষ্ট্যগুলির বৈশিষ্ট্য এবং বৈশিষ্ট্য এবং জনসংখ্যার মধ্যে সম্পর্কের অন্বেষণ করতে পারে।

আমি এই পথে নামার আগে আমি এখানে আমার বিকল্পগুলির একটি ধারণা পেতে চাই, ভাল এবং আধুনিক বনাম খারাপ অভ্যাসটি কী। অনুগ্রহ করে নোট করুন যে আমার লক্ষ্যটি প্রতি সেফের পূর্বাভাস নয়, তবে গ্রুপগুলির মধ্যে কোনও গুরুত্বপূর্ণ পার্থক্য পরীক্ষা করে খুঁজে পাওয়া যায়।

এই সমস্যাটির সমাধানের জন্য কয়েকটি নীতিগত পন্থা কী কী ?

এখানে আমার কিছু উদ্বেগ রয়েছে:

  • লিনিয়ার রিগ্রেশন বিশ্লেষণের মতো পদ্ধতিগুলি পুরোপুরি উত্তর নাও দিতে পারে (২), তাই না? যেমন একটি একক ফিট কিছু পার্থক্য খুঁজে পেতে সহায়তা করতে পারে তবে সমস্ত উল্লেখযোগ্য পার্থক্য নয়। উদাহরণস্বরূপ, মাল্টি-কোলাইনারিটি আমাদের গোষ্ঠীগুলিতে কীভাবে সমস্ত বৈশিষ্ট্য পরিবর্তিত হয় তা খুঁজে পেতে বাধা দিতে পারে (কমপক্ষে একক ফিটের ক্ষেত্রে)। একই কারণে, আমি আশা করব যে আনোভা (2) এর পুরো উত্তর সরবরাহ করতে পারে না।

  • ভবিষ্যদ্বাণীমূলক পদ্ধতির উত্তর কীভাবে দেবে তা সম্পূর্ণ পরিষ্কার নয় (1)। উদাহরণস্বরূপ, আমাদের কোন শ্রেণিবদ্ধকরণ / ভবিষ্যদ্বাণী ক্ষতির ফাংশনটি ন্যূনতম করা উচিত? এবং আমরা কীভাবে পরীক্ষা করব যে আমাদের ফিট করার পরে গ্রুপগুলি উল্লেখযোগ্যভাবে আলাদা হয় কি না? অবশেষে, আমি উদ্বেগ প্রকাশ করছি যে আমি (1) এ পেয়েছি উত্তরটি আমি ব্যবহার করি এমন নির্দিষ্ট শ্রেণীর শ্রেণীর উপর নির্ভর করে।

উত্তর:


5

আসুন সমস্যাটি নিম্নরূপ ভাবেন।

বলুন এবং একটি বাইনারি পরিবর্তনশীল জনসংখ্যার জন্য দাঁড়িয়ে হল: মানে প্রথম জনসংখ্যা, মানে দ্বিতীয় জনসংখ্যা। নাল অনুমানটি বিভিন্ন সমতুল্য উপায়ে প্রকাশ করা যেতে পারে:X=(X1,X2,..Xn)YY=0Y=1

  • H0 : জনসংখ্যা একই রকম
  • H0 : দেওয়া এর বিতরণটি দেওয়া বিতরণের সমানXY=0XY=1
  • H0 : এবং স্বতন্ত্রXY
  • H0 : কোন ফাংশন জন্য মধ্যে , এবং স্বাধীনf{0,1}f(X)Y

আমি এলোমেলো বন সম্পর্কে খুব বেশি জানি না, তবে তারা সম্ভবত সমস্ত উদ্দেশ্যমূলক ভবিষ্যদ্বাণী হিসাবে বিবেচিত হতে পারে যা অতিরিক্ত ফিটনেস এড়ানো হয়। যদি আমরা এগুলিকে কিছুটা আদর্শ করি: এটি এবং কোনও প্রকারের বৈশিষ্ট্য এর মধ্যে কোনও প্রকারের সম্পর্ককে অতিরিক্ত ফিটনেস ছাড়াই সনাক্ত করতে সক্ষম ।YX

এর ভিত্তিতে কিছু চেষ্টা করা সম্ভব। মূল ডেটাसेटকে একটি প্রশিক্ষণ সেট এবং একটি পরীক্ষার সেটে বিভক্ত করুন। তারপর:

  • প্রশিক্ষণ সেট এ থেকে পূর্বাভাস দেয় এমন একটি এলোমেলো বন প্রশিক্ষণfYX
  • পরীক্ষার সেটটিতে এবং মধ্যে একটি সহজ চি-স্কোয়ার্ড স্বতন্ত্রতা পরীক্ষা (ঝুঁকি- ) করুনαf(X)Y

এই পরীক্ষাটি বেশ রক্ষণশীল। যদি এলোমেলো বনটি খুব খারাপ পদ্ধতি হয় তবে সবচেয়ে খারাপভাবে ডাম্ব আউটপুট দেয় , তবে এটি কোনওভাবে চেয়ে কম সম্ভাবনার সাথে প্রত্যাখ্যান করবে (যখন সত্য হবে)। ওভার-ফিটিং এমনকি সমস্যা হবে না যেহেতু আমরা একটি পরীক্ষা এবং একটি প্রশিক্ষণ সেট ব্যবহার করি। যাইহোক, পরীক্ষার শক্তি এলোমেলো বন পদ্ধতি (বা ব্যবহৃত কোনও ভবিষ্যদ্বাণীকারী) এর বুদ্ধিমত্তার উপর সরাসরি নির্ভর করে।f(X)H0αH0

নোট করুন যে আপনি বেশ কয়েকটি সম্ভাব্য ভবিষ্যদ্বাণী ব্যবহার করতে পারেন: যেমন প্লেইন পুরাতন লজিস্টিক রিগ্রেশন যেমন প্রথমে, তারপরে কিছু ক্রস বৈশিষ্ট্য সহ লজিস্টিক রিগ্রেশন, তারপরে কয়েকটি সিদ্ধান্ত গাছ, তারপরে একটি এলোমেলো বন ... তবে আপনি যদি এটি করেন তবে আপনার সংখ্যার সাথে সামঞ্জস্য করা উচিত "মিথ্যা আবিষ্কার" এড়ানোর জন্য পরীক্ষাগুলি। দেখুন: একাধিক পরীক্ষার জন্য আলফা সমন্বয়α


ধন্যবাদ বেনোইট (+1)। এটি প্রশ্নের (1) প্রযোজ্য বলে মনে হচ্ছে। এই (বিকল্প) বা বিকল্প পদ্ধতির সাহায্যে কীভাবে সামলানো যায় সে সম্পর্কে কোনও ধারণা?
আমেলিও ওয়াজকেজ-রেইনা

ডি জনসন দ্বারা নির্দেশিত হিসাবে, আরএফ ব্যাখ্যাযোগ্য নয়। লজিস্টিক রিগ্রেশন হতে পারে (কমপক্ষে একক বৈশিষ্ট্য সহ)। এটি সত্যই ভবিষ্যদ্বাণীকের উপর নির্ভর করে। আরএফের কাছাকাছি একটি ধারণার অনুসরণ করে, অনেকগুলি (এলোমেলো) সিদ্ধান্ত গাছ (ভালভাবে সমন্বিত সহ) ব্যবহার করা সম্ভব এবং গাছটিকে সবচেয়ে ছোট (= সেরা) পি-মান সহ প্রদর্শিত হবে display α
বেনোইট সানচেজ

ধন্যবাদ। আমি র্যান্ডম ডিটি ফিট করার পরামর্শ এবং চ-স্কোয়ার-জাতীয় পরীক্ষার মতো সর্বাধিক উল্লেখযোগ্য ফলাফল সহ তাদের খুঁজে বের করার পরামর্শটি পছন্দ করি। আমি ধরে নিয়েছি আপনি যখন একটি ভাল সমন্বিত ব্যবহারের কথা উল্লেখ করেছেন তখন আপনি বনফেরোনি সংশোধনের কথা উল্লেখ করছেন । আরএফ ব্যবহার এবং প্রতিটি গাছের পরীক্ষা করা থেকে এটি কীভাবে আলাদা হবে? α
আমেলিও ওয়াজকেজ-রেইনা

এছাড়াও, আরএফগুলির সাথে আমার আশাটি এমন বৈশিষ্ট্যগুলি সনাক্ত করা যা পার্থক্যগুলি ক্যাপচার করে (যেমন কমপক্ষে (2) এর একটি আংশিক উত্তর পান)। তারা ব্যাখ্যার জন্য আদর্শ নয় (যদিও আমি ধরে নিই যে তাদের উচ্চতা সীমাবদ্ধ করে কেউ এটি করতে পারে)। উভয় ক্ষেত্রেই ডিটিএস সম্পর্কে ঠিক একই কথা বলা যেতে পারে? আমি আপনার মন্তব্যটি ভালভাবে বুঝতে পেরেছি তা নিশ্চিত করেই।
আমেলিও ওয়াজকেজ-রেইনা

হ্যাঁ আমি Bonferroni রেফারেন্স। আরএফ দিয়ে আপনি অনেকগুলি ডিটি গড়ে গড়ে একটি একক ভবিষ্যদ্বাণী তৈরি করেন। তারপরে আপনি এই গড় দিয়ে একক পরীক্ষা করেন, প্রতিটি ডিটিই নয়, ফলস্বরূপ pha ঝুঁকি থাকে। বেশ কয়েকটি ডিটিটি দিয়ে আপনি পরীক্ষা করেন যার ফলস্বরূপ risk ঝুঁকি হয় (যদি না আপনি বনফেরোনি ব্যবহার করেন)। এটি অবশ্যই একাধিক পরীক্ষা হিসাবে বিবেচিত হবে যখন (একক) অনেক ডিটির গড় আরএফ একক পরীক্ষা। αn1(1α)n
বেনোইট সানচেজ

3

আপনি ডেটাতে কতগুলি বৈশিষ্ট্য উপলব্ধ তা বলবেন না। কয়েক, বহু, বিশাল? আমরা কি ধরে নিতে পারি যে জনসংখ্যার মধ্যে এগুলি একই বৈশিষ্ট্য, একই সরঞ্জাম, পদ্ধতি এবং পদ্ধতিগুলি ব্যবহার করে সমস্ত পরিমাপ করা হয়? যদি তা না হয় তবে আপনার একটি বড় সমস্যা রয়েছে যেখানে একটি ত্রুটি-ইন-ভেরিয়েবল পরিমাপ মডেল কাজ করতে পারে।

@ Benoitsanchez # 1 প্রশ্নের উত্তর দিয়েছেন বলে মনে হচ্ছে।

রাইটিং # 2), আমি নিশ্চিত না যে আরএফস সাহায্য করতে পারে। একাধিক আনুষ্ঠানিক মডেল যেমন একত্রে আনোভা একবারে একটি বৈশিষ্ট্যের জন্য প্রয়োগ করে, বৈশিষ্ট্যের জন্য জনসংখ্যার মধ্যে পার্থক্যের একটি পরীক্ষা বিকাশ করা যায়। সেই পরীক্ষার ফলাফলগুলির সংক্ষিপ্তসার হিসাবে, পরীক্ষার বিশালতার পাশাপাশি এর তাত্পর্যের ভিত্তিতে, বৈশিষ্ট্যগুলির মধ্যে কীভাবে জনসংখ্যার পার্থক্য রয়েছে তার একটি বর্ণনামূলক প্রোফাইল সম্ভব হয়ে ওঠে। এটি একটি স্বীকৃত অ্যাডহক এবং হিউরিস্টিক সমাধান যা আপনার স্বাদ, পছন্দ এবং প্রশিক্ষণের জন্য যথেষ্ট কঠোর হতে পারে না।

লেটেক্স-প্রকারের স্বরলিপিটিতে ভাল না হওয়া, আমাকে কেবল এই পরীক্ষাগুলি কীভাবে কার্যকর হতে পারে তা বর্ণনা করতে দিন: প্রথমে এমন এক ধরণের ম্যাক্রো লুপ তৈরি করুন যা সমস্ত বৈশিষ্ট্যগুলি দিয়ে যায়, একবারে একটি বৈশিষ্ট্য। লুপটির প্রতিটি পাসের সাথে, নতুন বৈশিষ্ট্যটি জনসংখ্যার জন্য ডামি ভেরিয়েবলের পাশাপাশি উপযুক্ত যে কোনও নিয়ন্ত্রণ ভেরিয়েবলের সমন্বয়ে এক্স সহ লক্ষ্য বা ডিভি হয়ে যায় । সুনির্দিষ্ট ডেটা নমুনাগুলির অসম্পূর্ণ বৈশিষ্ট্যগুলিকে পৃথকীকরণের বৈকল্পিকতা হ্রাস করে প্রতিটি বৈশিষ্ট্যের জন্য একই নিয়ন্ত্রণগুলি একই সাথে সমস্ত অন্তর্নিহিত ডেটা একইভাবে একইভাবে ব্যবহৃত হয় তা নিশ্চিত করুন। প্রতিটি বৈশিষ্ট্যের জন্য ডামি ভেরিয়েবলের জন্য F- পরীক্ষার মানগুলিকে একত্র করুন। এটি বৈশিষ্ট্যগুলির জুড়ে একটি মানক মেট্রিক সক্ষম করার তুলনা সরবরাহ করবে। এফ পরীক্ষার লাগানো বাঞ্ছনীয় হয় বিটাগুলির যেহেতু বিটাগুলিরমানক করা হয় না, ইউনিট এবং প্রতিটি পৃথক বৈশিষ্ট্যের std ডিভ মধ্যে প্রকাশ করা হচ্ছে।

আপনার শেষ মন্তব্য, "আমি উদ্বিগ্ন যে আমি যে উত্তরটি (1) এ পেয়েছি তা আমি যে শ্রেণিবদ্ধকরণ / রেগ্রেশন মডেলগুলি ব্যবহার করি তার নির্দিষ্ট সেটের উপর নির্ভর করে" সর্বদা সত্য। উত্তরগুলি ব্যবহৃত মডেল (গুলি) এর কার্যকারিতা হিসাবে পরিবর্তিত হতে পারে। এটি আরও দৃ strongly়তর তাত্ত্বিক এবং শ্রেণিকল্পিত প্রশিক্ষিত পরিসংখ্যানবিদদের মধ্যে একটি সাধারণ পর্যবেক্ষণের বিপর্যয়েরও প্রকাশ যাঁরা প্রয়োগকৃত পরিসংখ্যানগত মডেলিংয়ের অ-নিরস্তাত্মক প্রকৃতির স্বীকৃতি দিতে স্বাচ্ছন্দ্যবোধ করেন না বা সমস্যায় পড়েছেন। এই উপসর্গ জন্য একটি চমৎকার প্রতিষেধক এফরন এবং Hastie সাম্প্রতিক বই কম্পিউটার যুগের পরিসংখ্যান অনুমান । তারা পরিসংখ্যানগত মডেলিংকে 21 তম সিটিতে ডেটা সায়েন্স এবং মেশিন লার্নিংয়ের যুগে পুনরাবৃত্তি, আনুমানিক, সকলের ধর্মীয় প্রকৃতির স্বীকৃতি দিয়ে নিয়ে আসেমডেলগুলির একটি ত্রুটি শব্দ রয়েছে। এই পর্যবেক্ষণের অন্তর্নিহিত সত্যকে স্বীকৃতি দিতে কাউকে বায়েশিয়ান হতে হবে না। তাদের হ'ল একটি সতেজ দৃষ্টিভঙ্গি যা ধ্রুপদী, 20 তম পরিসংখ্যান অনুশীলনের কঠোর নির্ধারণীকরণের চেয়ে পৃথক, যখন কোনও ক্রস-পণ্য ম্যাট্রিক্স উল্টে না এবং / অথবা কিছু পেডেন্টিক মডেল অনুমান মেটেনি।


ধন্যবাদ @ ডি জনসন। আপনি যখন বলেছিলেন "প্রতিটি বৈশিষ্ট্যের জন্য ডামি ভেরিয়েবলের জন্য এফ-টেস্টের মানগুলি একত্রিত করুন" আপনি ইয়োর অর্থ কী? অর্থাত্ এই ফলাফলটি নিয়ে আপনি ঠিক কী করবেন? এছাড়াও, এই প্রসঙ্গে আপনি বেটাস বলতে কী বোঝাতে চান? শেষ পর্যন্ত এই পুনরাবৃত্তি পদ্ধতির কোনও ইন্টারঅ্যাকশন সীমাবদ্ধ হবে না? উদাহরণস্বরূপ আসল উদাহরণটি ব্যবহার করে, "কাজ করার জন্য যে ব্যক্তিদের উচ্চতা" এর মধ্যে উল্লেখযোগ্য পার্থক্য রয়েছে?
আমেলিও ওয়াজকেজ-রেইনা

এছাড়াও, কেন আপনি বহু-উপায় আনোভা করার বিপরীতে 1-উপায় আনোভা পরীক্ষার ক্রম নিয়ে এগিয়ে যাবেন?
আমেলিও ওয়াজকেজ-রেইনা

2
ভাল প্রশ্ন। ফলাফল বর্ণনামূলক প্রোফাইলের ক্ষেত্রে, আমি প্রতিটি বৈশিষ্ট্যের জন্য কেবল এফ-পরীক্ষা এবং সম্পর্কিত তাত্পর্য বা পি-মানগুলি রেকর্ড করার এবং তারপরে তাদের উচ্চ থেকে নীচে নামিয়ে আনার কথা ভাবছিলাম। যেহেতু এফ-টেস্টটি চি-স্কোয়ারের অনুপাত এবং তাই, প্রতিসম নয়, জনসংখ্যার অর্থ ফলাফলের দিকনির্দেশনা বোঝার জন্য রিপোর্টে যুক্ত করা যেতে পারে। বিকল্পভাবে, একটি টি-পরীক্ষা এই বোঝার ক্ষেত্রে সহায়তা করতে পারে। এই প্রোফাইলটি অন্তর্নিহিত জনগোষ্ঠীর একটি ক্রিয়াকলাপ হিসাবে বৈশিষ্ট্যগুলির দৈর্ঘ্য বা শক্তি উভয় বুঝতে সহায়তা করবে।
মাইক হান্টার

হিসাবে উল্লেখ করা হয়েছে, নিয়ন্ত্রণ ভেরিয়েবল যথাযথ হিসাবে যুক্ত করা উচিত। এগুলি ইন্টারঅ্যাকশন অন্তর্ভুক্ত করতে পারে, যতক্ষণ না তারা সব মডেল জুড়ে ধারাবাহিকভাবে ব্যবহৃত হয়। সংজ্ঞা অনুসারে অতিরিক্ত বিষয়গুলি উপস্থাপন করা মডেলটিকে একমুখী থেকে একাধিক রিগ্রেশন বা আনোভা পর্যন্ত প্রসারিত করবে।
মাইক হান্টার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.