আনোভা কোন প্রশ্নের উত্তর দেয়?

আমি আনোভা শিখতে চাই অ্যালগরিদম কীভাবে কাজ করে (কী গণনা করতে হবে) এবং এটি কেন কাজ করে তা শিখার আগে আমি প্রথমে জানতে চাই যে আমরা আসলে এনওভা দিয়ে কোন সমস্যাটি সমাধান করব, বা আমরা কোন উত্তর দেওয়ার চেষ্টা করব। অন্য কথায়: ইনপুট কী এবং অ্যালগরিদমের আউটপুট কী?

আমরা কী ইনপুট হিসাবে ব্যবহার করি তা বুঝতে পারি না। আমাদের সংখ্যার সেট আছে। প্রতিটি সংখ্যা এক বা একাধিক শ্রেণীবদ্ধ ভেরিয়েবলের মান সহ আসে ("ফ্যাক্টর" নামেও পরিচিত)। উদাহরণ স্বরূপ:

+------------+------------+-------+
|   factor 1 |   factor 2 | value |
+------------+------------+-------+
|     "A"    |     "a"    |  1.0  |
|     "A"    |     "a"    |  2.4  |
|     "A"    |     "b"    |  0.3  |
|     "A"    |     "b"    |  7.4  |
|     "B"    |     "a"    |  1.2  |
|     "B"    |     "a"    |  8.4  |
|     "B"    |     "b"    |  0.4  |
|     "B"    |     "b"    |  7.2  |
+------------+------------+-------+

এটি কি ঠিক বলা যায় যে আনোভা নাল অনুমানের পি-মান গণনা করে যা বলে যে মানগুলির গড়ের উপর কারণগুলির কোনও প্রভাব নেই? অন্য কথায়, আমরা উপরের প্রদত্ত ডেটাটি অ্যালগরিদমকে দেব এবং ফলস্বরূপ আমরা নাল অনুমানের পি-মান পাই?

যদি এটি হয় তবে আমরা পি-মান গণনা করতে আসলে কোন পরিমাপ ব্যবহার করি। উদাহরণস্বরূপ আমরা বলতে পারি যে নাল হাইপোথিসিস এম দেওয়া মাত্র 1% ক্ষেত্রে সুযোগ দ্বারা পর্যবেক্ষিত হিসাবে একটি (বা আরও উচ্চতর) হতে পারে। এম কি?

আমরাও এএনওওএ-র উপাদানগুলি আলাদাভাবে তদন্ত করি না? আনোভা কি বলতে পারে যে ফ্যাক্টর_এর একটি প্রভাব রয়েছে তবে ফ্যাক্টর_2 নেই? আনোভা কি বলতে পারে যে প্রদত্ত ফ্যাক্টর মানগুলির সাথে সম্পর্কিত যা মান "এ", "বি" এবং "সি" হিসাবে পরিসংখ্যানগতভাবে পৃথক হয় (উদাহরণস্বরূপ একই অর্থ হয়) তবে মান "ডি" এর প্রভাব আছে?

anova

— রোমান
সূত্র

আনোভা এর অর্থ "বিশ্লেষণের বিশ্লেষণ"। বরং আশ্চর্যজনকভাবে, এটি বৈকল্পিক বিশ্লেষণ করে।

আসুন আরও কিছুটা স্পষ্ট হয়ে উঠি। আপনার পর্যবেক্ষণগুলি কিছু বৈকল্পিকতা প্রদর্শন করবে। আপনি যদি আপনার পর্যবেক্ষণগুলি 1 টি ফ্যাক্টর দ্বারা গোষ্ঠী করেন তবে ফ্যাক্টর 1 দ্বারা সংজ্ঞায়িত গোষ্ঠীগুলির মধ্যে ভিন্নতা সামগ্রিক বৈকল্পিকের চেয়ে ছোট হবে। ফ্যাক্টর 1 "রূপটি ব্যাখ্যা করে"।

যাইহোক, এই ফ্যাক্টর 1 টিতে আসলে আপনার পর্যবেক্ষণগুলির সাথে একটি সম্পর্ক রয়েছে তা এই সিদ্ধান্তে পৌঁছানোর পক্ষে যথেষ্ট নয় ... কারণ যে কোনও কিছু দ্বারা গ্রুপিং করা তারতম্যকে "ব্যাখ্যা" করবে। ভাল কথাটি হ'ল আমরা জানি যে নাল অনুমানের অধীনে কতটা বৈচিত্র ব্যাখ্যা করা হবে যা আপনার ফ্যাক্টরটি আসলে আপনার পর্যবেক্ষণগুলির সাথে কোনও সম্পর্ক রাখে না। শূন্যের নীচে বর্ণিত এই পরিমাণ বৈচিত্রটি একটি দ্বারা বর্ণিত $F$ বন্টন।

সুতরাং, আনোভা-র কৌশলটি হ'ল সামগ্রিক বৈকল্পিক এবং গোষ্ঠীগুলির মধ্যে বৈকল্পিকগুলি (বর্গাকার পরিমাণ ব্যবহার করে) নির্ধারণ করা এবং এই আনুমানিক বৈকল্পিকগুলির অনুপাত গ্রহণ করা। এই অনুপাত হয় $F$ পরিসংখ্যাত। আমরা তারপর এটি তুলনা $F$ এর সমালোচনামূলক মানটির পরিসংখ্যান $F$ একতরফা পরীক্ষায় বিতরণ, আপনার ফলন $p$ মান। ফ্যাক্টর স্তরের সংখ্যা এর একটি প্যারামিটারে যায় $F$ বিতরণ (আরও ফ্যাক্টর স্তর নাল অনুমানের অধীনে আরও বৈকল্পিকতা ব্যাখ্যা করবে), এবং পর্যবেক্ষণের সংখ্যা এবং স্তরের সংখ্যা অন্যটিতে চলে যায়। আগের এই প্রশ্নটি সহায়ক হতে পারে।

(কেন একতরফা পরীক্ষা? কারণ, উপরে হিসাবে, কোন গোষ্ঠী, কিছু ভ্যারিয়েন্স ব্যাখ্যা করবে তাই এটি শুধুমাত্র জ্ঞান করে তোলে আপনার ফ্যাক্টর একটি উল্লেখযোগ্যভাবে ব্যাখ্যা কিনা তা যাচাই করতে বড় ভ্যারিয়েন্স পরিমাণ।)

"প্রেরণার উদাহরণ" উইকিপিডিয়া এন্ট্রির অধ্যায় , কিছু, এবং একটি সামগ্রিক ভ্যারিয়েন্সের অনেক যে খুব সামান্য ব্যাখ্যা কারণের কিছু খুব সুন্দর কনটেন্ট কপিরাইট আইনে পূর্বানুমতি প্রদান করে।

দ্বি-মুখী আনোভা এবং ইন্টারঅ্যাকশনগুলি যেমন আপনার উদাহরণ হিসাবে, পাশাপাশি আঙ্কোভাও তখন এই থিমটিতে কেবল সাধারণীকরণ। প্রতিটি ক্ষেত্রে, আমরা কিছু ব্যাখ্যামূলক ভেরিয়েবল যুক্ত করে উল্লেখযোগ্য পরিমাণে বৈকল্পিক ব্যাখ্যা করি কিনা তা তদন্ত করি।

একবার আমাদের সামগ্রিকভাবে একটি উল্লেখযোগ্যভাবে হয় $F$ পরীক্ষা, আমরা পরীক্ষা করতে পারি যে নির্দিষ্ট ফ্যাক্টর স্তরের পর্যবেক্ষণগুলি পোস্ট-হক পরীক্ষার ক্ষেত্রে অন্যদের তুলনায় উল্লেখযোগ্যভাবে পৃথক কিনা । উদাহরণস্বরূপ, ডি এ, বি এবং সি থেকে আলাদা হতে পারে তবে সেগুলি একে অপরের থেকে উল্লেখযোগ্যভাবে পৃথক নাও হতে পারে। আপনি সাধারণত ব্যবহার করবেন $t$ এই জন্য পরীক্ষা। এই তার আগে প্রশ্ন দরকারী, সেইসাথে হতে পারে এই এক ।

— স্টিফান কোলাসা
সূত্র

সুতরাং, আমরা সামগ্রিক বৈকল্পিক গণনা করতে সমস্ত সংখ্যা ব্যবহার করি

V

$V$ , তারপরে আমরা প্রতিটি গ্রুপের জন্য রূপগুলি গণনা করি

v_{i}

$v_i$ এবং পরিশেষে আমরা "পরিমাপ" পেতে এই সমস্ত রূপগুলি (সম্ভবত গ্রুপ আকারের সাথেও) একত্রিত করেছি:

M = M (V, v_{1}, v_{2}, . . ., v_{k}, n_{1}, n_{2}, . . ., n_{k})

$M = M (V, v_1, v_2, ..., v_k, n_1, n_2, ..., n_k)$ । তারপরে আমরা নাল অনুমানটি সঠিক বলে অনুমানের অধীনে এম এর বড় বা আরও বড় হওয়ার সম্ভাবনা গণনা করি।

— রোমান

যথাযথভাবে।

M

$M$ তোমার

F

$F$ পরিসংখ্যাত। আসল সূত্রটি এখানে।

— স্টিফান কোলাছা

সত্যি বলতে আমি এখনও কিছুটা বিভ্রান্ত। যতদূর আমি আপনাকে পেয়েছি, আনোভা নাল-অনুমানের পি-মান প্রদান করে। তবে অন্যদিকে, উইকিপিডিয়া থেকে "মোটিভেটিং উদাহরণ" থেকে যে কেউ সিদ্ধান্ত নিতে পারে যে আনোভা আমাদের সেরা ফ্যাক্টর (বা উপাদানগুলির সংমিশ্রণ) দেয় যা তথ্যকে সর্বোত্তমভাবে "ব্যাখ্যা করে"। সুতরাং, উদাহরণে আনোভা বলেছেন যে কুকুরের ওজন বোঝানোর জন্য জাতটিই সেরা ফ্যাক্টর।

— রোমান

"সেরা" লোড হয়। এটি স্টেওয়াইজ-মডেল-নির্বাচন-ভিত্তিক-পি-মান অঞ্চলগুলিতে বিভক্ত হয় এবং এটি সমস্যাযুক্ত। প্রেরণাদায়ী উদাহরণের মধ্যে খুব বেশি পড়বেন না। এটি সম্পর্কে সর্বোত্তম জিনিসটি ব্যাখ্যা করা বৈকল্পিক চিত্রণ (শূন্য, একটু, অনেক)। নীচে গিয়ে কীভাবে পড়বেন সে সম্পর্কে আরও ভাল

F

$F$ পরিসংখ্যানগুলি বর্গাকার অঙ্কের উপর ভিত্তি করে গণনা করা হয়, এবং মনে রাখবেন যে এই বর্গাকার যোগফলগুলি কেবল বৈকল্পিকগুলির অনুমানকারী।

— স্টিফান কোলাছা