ফ্যাক্টর বিশ্লেষণে বাইনারি ভেরিয়েবলের জন্য পিয়ারসন পারস্পরিক সম্পর্ক (টেট্রাকোরিকগুলির পরিবর্তে) গণনা করার ঝুঁকিগুলি কী?


10

আমি শিক্ষামূলক গেমগুলি নিয়ে গবেষণা করি এবং আমার বর্তমান প্রকল্পগুলির কয়েকটিতে গেমের নকশার উপাদানগুলির (যেমন, "দ্বিতীয় বিশ্বযুদ্ধের সেট"), "রোলিং ডাইস জড়িত" এর মধ্যে সম্পর্ক পরীক্ষা করার জন্য বোর্ডগেমজিক (বিজিজি) এবং ভিডিওগেমিক (ভিজিজি) থেকে ডেটা ব্যবহার করে জড়িত " ) এবং সেই গেমগুলির প্লেয়ার রেটিং (যেমন, 10 এর বাইরে স্কোর)। এই নকশার উপাদানগুলির প্রতিটি বিজিজি বা ভিজিজি সিস্টেমে একটি ট্যাগের সাথে সঙ্গতিপূর্ণ, তাই প্রতিটি উপাদান মূলত একটি দ্বৈতদৈর্ঘ্য পরিবর্তনশীল। একটি গেমের জন্য এটির ডাটাবেসে উপস্থিত প্রতিটি ট্যাগের জন্য একটি 1 এবং উপস্থিত নেই এমন প্রতিটি ট্যাগের জন্য একটি 0 রয়েছে।

এই কয়েক ডজন ট্যাগ রয়েছে, তাই আমি গেম ডিজাইনে নিদর্শনগুলি ক্যাপচার করে এমন একটি পরিচালনাযোগ্য সংখ্যক "জেনার" উপস্থিত করতে অনুসন্ধানী ফ্যাক্টর বিশ্লেষণ (ইএফএ) ব্যবহার করতে চাই । বিভিন্ন সূত্র পরামর্শকারী, আমি বুঝতে পারি যে, যেহেতু আমি সঙ্গে কাজ করছি dichotomous ভেরিয়েবল, আমি কর্তব্য ব্যবহার করতে polychoric সম্পর্কযুক্তরূপে ( tetrachoric পরিবর্তে, বিশেষ করে এখানে) পিয়ারসন বেশী যখন আমার কারণের সঙ্গে উত্ক্রান্ত (এছাড়াও আছে অন্যান্য অপশন মত প্রচ্ছন্ন বৈশিষ্ট্য analysis- হয় বাইরে আছে, তবে এটিই এখন আমি অন্বেষণ করছি)।

কৌতূহল থেকে, আমি দুটি সেট উপাদান নিয়ে এসেছি, একটি পিয়ারসন পারস্পরিক সম্পর্ক ব্যবহার করে এবং অন্যটি পলিকিওরিক সম্পর্কগুলি (প্রতিটি বারের মতো একই সংখ্যক) ব্যবহার করে। আমার সমস্যাটি হ'ল পিয়ারসন পারস্পরিক সম্পর্কগুলি ব্যবহার করে গণনা করা গুণকগুলি অনেক বেশি অর্থবোধ করে এবং পলিচোরিক সম্পর্কগুলি ব্যবহার করে গুণিতকগুলি তুলনায় ব্যাখ্যা করা সহজ। অন্য কথায়, কারণগুলির প্রথম সেট থেকে প্রাপ্ত "জেনারগুলি" স্বজ্ঞাত জ্ঞান তৈরি করে এবং গেমগুলি সাধারণত কীভাবে ডিজাইন করা হয় সে সম্পর্কে আমার বোঝার সাথে সামঞ্জস্য করে; এটি দ্বিতীয় কারণের ক্ষেত্রে নয়।

একদিকে, আমি নিশ্চিত করতে চাই যে আমি যে পরীক্ষাগুলি ব্যবহার করছি তার অনুমানগুলি আমি পূরণ করেছি, এমনকি যদি এটি আমার ফলাফলগুলি কম সুন্দর করে তোলে। অন্যদিকে, আমি অনুভব করি যে ফ্যাক্টর বিশ্লেষণের লক্ষ্যটির অংশটি (আরও বিস্তৃতভাবে) মডেল-বিল্ডিংয়ের জন্য দরকারী কিছু নিয়ে আসে এবং যখন আমি "বিধিগুলি ভঙ্গ করি" তখন আরও দরকারী তথ্য উদ্ভূত হয়। এই পরীক্ষার অনুমানকে লঙ্ঘন করার জন্য কি কোনও দরকারী মডেলটির প্রয়োজনীয়তা যথেষ্ট? পলিচোরিকের পরিবর্তে পিয়ারসন পারস্পরিক সম্পর্ক ব্যবহারের পরিণতি কী?


1
অন্তর্নিহিত মাল্টিভারিয়েট স্বাভাবিকের অনুমানগুলি তিন বা ততোধিকের বেশি মাত্রার ডেটার সাথে এতটাই দৃ are় যে বহুভুজ সম্পর্কিত সম্পর্কগুলি এতটা বোঝা বন্ধ করে। পলিচোরিক পারস্পরিক সম্পর্কের সাথে মডেল অপব্যবহারের ডিগ্রি সম্ভবত আপনার বিশ্লেষণকে বরং অকেজো করে। আমি নিশ্চিত না কেন আপনাকে এই সংযোগগুলি প্রথম স্থানে কেন দরকার, যদিও: আপনার যদি একটি পরিষ্কার ফলাফলের পরিবর্তনশীল (রেটিং) এবং ব্যাখ্যামূলক ভেরিয়েবলগুলির একটি গুচ্ছ (নকশা বৈশিষ্ট্য) থাকে তবে আপনার ফাংশন বিশ্লেষণ নয়, রিগ্রেশন বিশ্লেষণের প্রয়োজন।
স্টাসকে

@StasK রিগ্রেশন বিশ্লেষণ হয় আমার চূড়ান্ত লক্ষ্য, কিন্তু আমি 100 ব্যাখ্যামূলক ভেরিয়েবল আছে এবং একটি সামলানো নম্বরে যে কমাতে চাই।
স্পেনসার গ্রিনহালগ

তদুপরি, এই জাতীয় সমস্যার জন্য শ্রেণিবিন্যাস করা নিজের মধ্যে একটি লক্ষ্য।
পেরে

উত্তর:


7

লিনিয়ার ফ্যাক্টর বিশ্লেষণ তাত্ত্বিকভাবে , যৌক্তিকভাবে কেবল অবিচ্ছিন্ন পরিবর্তনশীলগুলির জন্য । যদি ভেরিয়েবলগুলি অবিচ্ছিন্ন না হয় তবে উদাহরণস্বরূপ দ্বিধাত্বক হয় তবে আপনার জন্য একটি উপায় হ'ল পিছনে অন্তর্নিহিত ক্রমাগত ভেরিয়েবলগুলি স্বীকার করে এবং ঘোষণা করতে হবে যে পর্যবেক্ষিত ভেরিয়েবলগুলি দ্বিখণ্ডিত অন্তর্নিহিত বা সত্যগুলি। আপনি বহিরাগত "গৃহশিক্ষক" ব্যতীত একটি দ্বিগুণ ভেরিয়েবলকে মাপদণ্ডে প্রমিত করতে পারবেন না, তবে আপনি এখনও সেই সম্পর্কগুলি নির্ধারণ করতে পারেন যা যদি আপনার ভেরিয়েবলগুলি বিনা না করা হয় এবং "মূল" ধারাবাহিকভাবে সাধারণভাবে বিতরণ না করা হত। এবং এটি টেট্রাকোরিকপারস্পরিক সম্পর্ক (বা পলিচোরিক, বাইনারি-এর জায়গায় যদি আপনার সাধারণ ভেরিয়েবল থাকে)। সুতরাং, ফি সংশ্লেষণের জায়গায় টাইট্রাকোরিক সংশ্লেষ (অনুমিত পিয়ারসন সম্পর্কিত সম্পর্ক) ব্যবহার করা (দ্বৈতত্ত্বযুক্ত ডেটার সাথে পিয়ারসন সম্পর্কিত সম্পর্কগুলি পর্যবেক্ষণ করা) একটি যৌক্তিক কাজ।

R=1RR, তবে দ্বিধাত্বক ভেরিয়েবলগুলিতে এই প্রভাবটি সবচেয়ে তীক্ষ্ণ হয় কারণ খুব কম মানই গ্রহণ করা যায় না So) সুতরাং, দ্বৈতদৈর্ঘ্য ভেরিয়েবলের বিপরীতে প্রান্তিক বিতরণের কারণে তাদের ম্যাট্রিক্সে ফাই পারস্পরিক সম্পর্ককে অসমভাবে বিচ্ছিন্ন হিসাবে দেখা যেতে পারে; আপনি জানেন না যে একটি সম্পর্ক অন্য "সত্যই" এর চেয়ে বড় বা এই দুটি জোড়া ভেরিয়েবলের বিভিন্ন কাট পয়েন্টের কারণে বড় due নিষ্কাশন করার কারণগুলির সংখ্যা (নিম্নলিখিত মানদণ্ড যেমন কায়সার "ইজেনভ্যালু> 1") স্ফীত হবে: কিছু নিষ্কাশিত "উপাদান" কাটা পয়েন্টগুলির অসমতা, বৈচিত্র্যের ফলাফল, - সুস্পষ্ট সুপ্ত কারণগুলি নয়। এটি ব্যবহারিক কারণেই ফাই সংযোগগুলি (কমপক্ষে তাদের কাঁচা - অবিচ্ছিন্ন) ফর্মটি ব্যবহার করবেন না।

সিমুলেশন / বিনিং স্টাডিতে প্রমাণ রয়েছে যে ম্যাট্রিক্সে অনেক শক্তিশালী (> 0.7) পারস্পরিক সম্পর্ক থাকলে টেট্রাকোরিক পারস্পরিক সম্পর্কের উপর ভিত্তি করে ফ্যাক্টর বিশ্লেষণ আরও খারাপ হয়। টেট্রাকোরিক পারস্পরিক সম্পর্ক আদর্শ নয়: যদি অন্তর্নিহিত সমিতিটি শক্তিশালী হয় তবে সংক্ষিপ্ত অন্তর্নিহিত ভেরিয়েবলগুলির কাট-পয়েন্টগুলি বিপরীতে থাকে (এবং সুতরাং দ্বিখণ্ডিত অঞ্চলে প্রান্তিক বিতরণগুলি বিপরীতভাবে স্কিউ হয়) তবে তেত্রাচিক সহগ এটি আরও বেশি বিবেচনা করে। আরও মনে রাখবেন যে টেট্রাকোরিক পারস্পরিক সম্পর্কের ম্যাট্রিক্স বড় নমুনাগুলিতে অগত্যা ইতিবাচক অর্ধসীমা নয় এবং এর জন্য সংশোধনের প্রয়োজন হতে পারে ("স্মুথিং")। তবুও, এটি প্লেয়ার পিয়ারসন (ফাই) সহগের উপর গুণনীয় বিশ্লেষণ করার চেয়ে অনেক ভাল উপায় হিসাবে বিবেচিত।

তবে কেন নাম করবেন বাইনারি ডেটাতে ফ্যাক্টর বিশ্লেষণ করবেন ? সুপ্ত বৈশিষ্ট্য / আইআরটি ("লজিস্টিক" ফ্যাক্টর বিশ্লেষণের একটি রূপ) এবং একাধিক চিঠিপত্রের বিশ্লেষণ (যদি আপনি আপনার বাইনারি ভেরিয়েবলকে নামমাত্র বিভাগ হিসাবে দেখেন) সহ অন্যান্য বিকল্প রয়েছে।

আরো দেখুন:

  • অনুমিতিলিনিয়ার ফ্যাক্টর বিশ্লেষণের ।
  • RR

এছাড়াও চেক করুন stats.stackexchange.com/a/219814/3277
ttnphns
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.