দ্বৈতদৈর্ঘ্য এবং ক্রমাগত পরিবর্তনশীল মধ্যে সম্পর্ক


10

আমি একটি দ্বৈত এবং একটি অবিচ্ছিন্ন পরিবর্তনশীল মধ্যে পারস্পরিক সম্পর্ক সন্ধান করার চেষ্টা করছি।

এটি সম্পর্কে আমার স্থল কাজ থেকে আমি জানতে পেরেছি যে আমাকে স্বাধীন টি-টেস্ট ব্যবহার করতে হবে এবং এর পূর্বশর্ত হ'ল ভেরিয়েবলের বিতরণ স্বাভাবিক হতে হবে।

আমি স্বাভাবিকতা পরীক্ষা করার জন্য কোলমোগোরভ-স্মারনভ পরীক্ষা করেছিলাম এবং দেখতে পেলাম যে অবিচ্ছিন্ন পরিবর্তনশীলটি নরমাল এবং স্কিউড (প্রায় 4,000 ডেটা পয়েন্টের জন্য)।

আমি ভেরিয়েবলের পুরো পরিসীমা জন্য কোলমোগোরভ-স্মারনভ পরীক্ষা করেছিলাম। আমি কি তাদের গ্রুপে বিভক্ত করে পরীক্ষা করব? অর্থাৎ, বলুন যদি আমার risk level( 0= ঝুঁকিপূর্ণ নয়, 1= ঝুঁকিপূর্ণ) এবং কোলেস্টেরলের মাত্রা থাকে তবে আমার উচিত:

  • তাদের দুটি গ্রুপে ভাগ করুন, যেমন

    Risk level =0 (Cholestrol level) -> Apply KS
    Risk level =1 (Cholestrol level) -> Apply KS
    
  • তাদের একসাথে নিয়ে পরীক্ষা প্রয়োগ করবেন? (আমি এটি কেবল পুরো ডেটাसेटে সঞ্চালন করেছি))

তারপরে, এটি এখনও স্বাভাবিক অবস্থায় না থাকলে আমার কোন পরীক্ষা করা উচিত?

সম্পাদনা: উপরের দৃশ্যপটটি আমি আমার সমস্যার জন্য সরবরাহ করার চেষ্টা করেছি এমন একটি বিবরণ ছিল। আমার কাছে একটি ডেটাসেট রয়েছে যাতে 1000 এরও বেশি ভেরিয়েবল এবং প্রায় 4000 নমুনা রয়েছে। এগুলি হয় নিরন্তর বা স্বভাবগত প্রকৃতির। আমার কাজটি হ'ল এই ভেরিয়েবলগুলির উপর ভিত্তি করে একটি দ্বিধাত্বক ভেরিয়েবলের পূর্বাভাস দেওয়া (সম্ভবত একটি লজিস্টিক রিগ্রেশন মডেল নিয়ে আসা)। সুতরাং আমি ভেবেছিলাম প্রাথমিক তদন্তে দ্বৈত এবং একটি অবিচ্ছিন্ন পরিবর্তনশীল মধ্যে পারস্পরিক সম্পর্ক খুঁজে পাওয়া জড়িত।

আমি ভেরিয়েবলগুলির বিতরণ কীভাবে তা দেখার চেষ্টা করছিলাম এবং তাই টি-টেস্টে যাওয়ার চেষ্টা করছিলাম। এখানে আমি একটি সমস্যা হিসাবে স্বাভাবিকতা খুঁজে পেয়েছি। কোলমোগোরভ-স্মারনভ পরীক্ষা এর বেশিরভাগ চলকগুলিতে 0.00 এর তাত্পর্যপূর্ণ মূল্য দেয়।

আমার কি এখানে স্বাভাবিকতা অনুমান করা উচিত? এই ভেরিয়েবলগুলির স্কিউনেস এবং কুর্তোসিসও দেখায় যে প্রায় সমস্ত ক্ষেত্রে ডেটা স্কিউড (> 0) হয়।

নীচে প্রদত্ত নোট অনুসারে আমি আরও বিন্দু-দ্বিপাক্ষিক সম্পর্কটি তদন্ত করব। তবে ভেরিয়েবল বিতরণ সম্পর্কে আমি এখনও অনিশ্চিত।


1
একটি ধারাবাহিক এবং একটি বাইনারি (গোষ্ঠী) ভেরিয়েবলের মধ্যে সম্পর্কের (কোনও প্রকারের), গ্রুপগুলির মধ্যে কেবলমাত্র (কিছু ধরণের গড় ...) তুলনা করার চেয়ে অনেক বেশি (এবং সম্ভবত কম ...) নয় usually এটা ঠিক করা ভাল করা উচিত!
কেজেটিল বি হালওয়ারসেন

উত্তর:


14

আমি একটু বিভ্রান্ত; আপনার শিরোনাম "পারস্পরিক সম্পর্ক" বলছে তবে আপনার পোস্টটি টি-পরীক্ষাকে বোঝায়। একটি টি-টেস্ট কেন্দ্রীয় অবস্থানের একটি পরীক্ষা - আরও নির্দিষ্টভাবে বলা যায় যে, একটি সেটের ডেটার অর্থ অন্য সেটের গড় থেকে আলাদা? অন্যদিকে, সম্পর্ক দুটি ভেরিয়েবলের মধ্যে সম্পর্ক দেখায়। বিভিন্ন ধরণের পারস্পরিক সম্পর্কের ব্যবস্থা রয়েছে, মনে হচ্ছে আপনার ক্ষেত্রে পয়েন্ট-বাইসারিয়াল পারস্পরিক সম্পর্ক উপযুক্ত।

আপনি সঠিক যে একটি টি-পরীক্ষা স্বাভাবিকতা ধরে নিয়েছে; তবে, স্বাভাবিকতার পরীক্ষাগুলি 4000 এন এর সাথে তুচ্ছ অস্বাভাবিকতার জন্যও উল্লেখযোগ্য ফলাফল দেয় give টি-টেস্টগুলি স্বাভাবিকতার থেকে পরিমিত বিচ্যুতির পক্ষে যথেষ্ট দৃ are় হয় যদি দুটি সেট ডেটারের পরিমাণগুলি প্রায় সমান হয় এবং নমুনা হয় আকার প্রায় সমান। তবে একটি ননপ্যারামেট্রিক পরীক্ষা আউটলিয়ারদের কাছে আরও মজবুত এবং তাদের বেশিরভাগ টি-টেস্টের মতো প্রায় উচ্চতর ক্ষমতা রাখে এমনকি বিতরণগুলি স্বাভাবিক হলেও।

তবে, আপনার উদাহরণে, আপনি "কোলেস্টেরল" ঝুঁকিপূর্ণ বা ঝুঁকিপূর্ণ হিসাবে ব্যবহার করেন না। এটি অবশ্যই একটি খারাপ ধারণা is অবিচ্ছিন্ন পরিবর্তনশীল ডিকোটমাইজ করা যাদুকরী চিন্তাকে ডেকে আনে। এটি বলে যে, কোনও এক সময়ে, কোলেস্টেরল "ঝুঁকিপূর্ণ নয়" থেকে "ঝুঁকিপূর্ণ" হয়ে যায়। ধরুন আপনি 200 কে আপনার কাট অফ হিসাবে ব্যবহার করেছেন - তারপরে আপনি বলছেন যে 201 এর কোলেস্টেরল রয়েছে এমন কেউ 400 এর কারও মতো, এবং 199 এর সাথে কেউ 100 এর মতো ব্যক্তির মতো This এটি বোঝা যায় না।


2
আমি সম্মত হই এবং আমি মনে করি আমাদের মধ্যে বেশিরভাগই একমত, যে দ্বিধাত্বকরণটি তথ্য অপচয় করে এবং এটি কোনও অপরিশোধিত বা মোটা বা আনাড়ি পদ্ধতি হতে পারে। আমি কেবল "যাদুকরী চিন্তাভাবনা" যুক্তিটিকে কিছুটা ছাপিয়ে দেখি। কোনও পার্থক্যের উপর চকচকে চয়ন করা কোনও পার্থক্য নেই বলে বিশ্বাস করার মতো নয়। আমি আশা করি এমন অনেক সময় থাকবে যখন আমি বিশ্লেষক বা রিপোর্টিংয়ের উদ্দেশ্যে, কিছু অবিচ্ছিন্ন পরিবর্তনশীল থেকে বিভাগগুলি তৈরি করার পক্ষে ট্রেড অফকে সুবিধাজনক এবং মূল্যবান মনে করব। শুধু আমার 2 সেন্ট।
রোল্যান্ডো 2

2
আর2

6

আসুন জিনিসগুলি সরল করুন। কোলেস্টেরল স্তরের জন্য এন = 4,000 এর সাথে, আপনার ফলাফলগুলি বিদেশী দ্বারা পক্ষপাতদুষ্ট হওয়াতে আপনার কোনও সমস্যা হওয়া উচিত নয়। সুতরাং আপনার নিজের প্রাথমিক বাক্য দ্বারা বোঝানো হিসাবে আপনি নিজেই সম্পর্কিত ব্যবহার করতে পারেন। আপনি পিয়ারসন, স্পিয়ারম্যান বা পয়েন্ট-বিসিকের পদ্ধতিতে পারস্পরিক সম্পর্কের মূল্যায়ন করছেন কিনা তাতে কিছুটা পার্থক্য হবে।

আপনি কি সত্যিই উচ্চ ঝুঁকি এবং কম ঝুঁকি দলের মধ্যে টিপিক্যাল কলেস্টেরল পার্থক্য পরিপ্রেক্ষিতে ফ্রেজ ফলাফল করার প্রয়োজন হলে পরিবর্তে, মান-হুইটনি ইউ পরীক্ষা ব্যবহার করার জন্য উত্তম, কিন্তু আপনি সেইসাথে আরো তথ্যপূর্ণ ব্যবহার করতে পারেন টন -test। এই এন দিয়ে (এবং আবারও, জ্যোতির্বিজ্ঞানের বহিরাগতদের সাথে এমন কোনও কিছু যা আপনি নিঃসন্দেহে বাতিল করতে পারেন), আপনার অস্বীকার করার দরকার নেই যে স্বাভাবিকতার অভাব আপনার ফলাফলকে আপস করবে।


আপনার উত্তর দেওয়ার জন্য ধন্যবাদ. তবে যদি আমাকে বিদেশিদের সম্পর্কে জানতে হয় তবে এটি একটি বড় বিকৃতি ঘটায় এটি সনাক্ত করার জন্য কুরটোসিস এবং স্কিউনেস ব্যবহার করা কি সঠিক? যদি কুর্তোসিস এবং স্কিউনেসের মানগুলির তুলনায় এটি সত্য হয় তবে আমি অনুমান করি যে বিতরণটি স্বাভাবিক নয়। আপনার জবাবের জন্য ধন্যবাদ
শ্রী অরবিন্দ

আমি সীমিত কন্টেন্ট জ্ঞানের উপর ভিত্তি করে ধরে নিচ্ছি যে কোলেস্টেরলের সাথে আপনার কাছে এমন কোনও মান থাকবে না যা অন্যদের চেয়ে অনেক বেশি আকারের অর্ডার। সে কারণেই আমি মনে করি আপনি প্যারামিট্রিক পদ্ধতি যেমন পারস্পরিক সম্পর্ক বা টি-টেস্ট ব্যবহার করতে পারেন। এটি এমন নয় যে আমি মনে করি বিতরণটি স্বাভাবিক। এটি আপনার স্বাভাবিক হওয়ার দরকার নেই। যাইহোক, পিটারের জবাবের আলোকে: আমি বিশ্বাস করি (এবং আশা করি) আপনার কাছে উচ্চ / নিম্ন ঝুঁকির স্থিতির কোনও উত্স ছিল যা কোলেস্টেরল স্কোর থেকে পৃথক ছিল। আমি সম্মত হই যে এটি সম্ভবত দ্বৈতকরণের পক্ষে সহায়ক নয়।
রোল্যান্ডো 2

2
আমি কি আপনাকে "মূল সম্পাদনা: ...." চিহ্নিত আপনার মূল প্রশ্নের সাথে একটি বিভাগ যুক্ত করার পরামর্শ দিতে পারি, যা আপনার পক্ষে কী প্রশ্নগুলি রয়ে গেছে যা উত্তর এবং মন্তব্যে আপনি এতক্ষণে সম্বোধন করেননি।
Rolando2

আপনার পরামর্শের জন্য ধন্যবাদ। আমিও এটি আপডেট করেছি first প্রথম অবস্থানে দ্বিধাহীন প্রশ্নের জন্য দুঃখিত T ধন্যবাদ
শ্রী অরবিন্দ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.