আমার ডেটা বিযুক্ত বা ধারাবাহিক হলে কীভাবে পরীক্ষা করবেন?


11

আমার কাছে মনে হয়েছে যে সঠিক পরিসংখ্যান সংক্রান্ত সরঞ্জামগুলি বেছে নেওয়ার জন্য, প্রথমে আমার ডেটাসেটটি বিযুক্ত বা ধারাবাহিক কিনা তা সনাক্ত করতে হবে।

আপনি কী আমাকে শিখিয়ে নিতে ভ্রান্ত হতে পারেন যে আমি কীভাবে পরীক্ষা করতে পারি যে আর এর সাথে ডেটাটি বিচ্ছিন্ন বা ধারাবাহিক কিনা?


আপনি কি বোঝাতে চেয়েছেন যে কোনও নির্দিষ্ট পরিবর্তনগুলি কোনও রিগ্রেশন টাইপ মডেলটিতে অবিচ্ছিন্ন হিসাবে বা শ্রেণিবদ্ধ (পৃথক) ভবিষ্যদ্বাণী হিসাবে যুক্ত করা দরকার কিনা?
নিক সাব্বে

কীভাবে ডেটা সংগ্রহ করা হয়েছিল এবং কীভাবে ভেরিয়েবলগুলি রেকর্ড করা হয়েছিল তা সম্ভবত আপনাকে সে সম্পর্কে কিছু সূত্র দেবে; এছাড়াও, আপনি আপনার ডেটাটিকে অবিচ্ছিন্ন বা বিযুক্ত হিসাবে মডেল করতে চান কিনা তার উপর নির্ভর করে (যেমন, লিকার্ট আইটেমগুলি সম্পর্কিত প্রশ্ন এবং স্বতন্ত্র স্কেল বিশ্লেষণ সম্পর্কিত প্রশ্ন দেখুন) on অপ্রাসঙ্গিক বিন্দু: আপনি যদি সবার জন্য একবার নিজের অ্যাকাউন্টটি নিবন্ধন করতে পারেন তবে ভাল হবে, এবং উত্তরগুলি গ্রহণ করতে বা আপনার আগের প্রশ্নগুলিকে সংশোধন করার বিষয়টি বিবেচনা করতে পারেন।
chl

একটি কিউএনএনআরএম করুন এবং বিন্দুগুলি সমস্ত তির্যক বরাবর থাকলে ডেটা অবিচ্ছিন্ন থাকে (যদি এটি দিগন্তীয় রেখাগুলিতে থাকে তবে এটি বিযুক্ত)
ব্যবহারকারী 222362

উত্তর:


14

এই সিদ্ধান্তের প্রয়োজনীয়তার জন্য আমি তাত্ক্ষণিকভাবে ভাবতে পারি, তা হ'ল কোনও রিগ্রেশনে ক্রমাগত বা শ্রেণিবদ্ধ হিসাবে কোনও পরিবর্তনকে অন্তর্ভুক্ত করার বিষয়ে সিদ্ধান্ত নেওয়া।

প্রথমে, কখনও কখনও আপনার কোনও পছন্দ থাকে না: চরিত্রের ভেরিয়েবল বা উপাদানগুলি (যেখানে ডেটা সরবরাহকারী কেউ আপনার পক্ষে সিদ্ধান্ত নিয়েছে) স্পষ্টতই শ্রেণিবদ্ধ হয়।

x1-1.52.5x

x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative

আমি বলতে চাই যে একটি ভেরিয়েবলের কেবল ৫% অনন্য মান রয়েছে তাকে নিরাপদে পৃথক বলা যেতে পারে (তবে, যেমনটি উল্লেখ করা হয়েছে: এটি বিষয়গত)। তবে: এটি এটি আপনার মডেলগুলিতে শ্রেণিবদ্ধ পরিবর্তনশীল হিসাবে অন্তর্ভুক্ত করার জন্য একটি ভাল প্রার্থী করে না: আপনার যদি 1000000 পর্যবেক্ষণ এবং 5% অনন্য মান রয়েছে তবে এটি 50000 'বিভাগ' ছেড়ে দেয়: আপনি যদি এটিকে শ্রেণিবদ্ধ হিসাবে অন্তর্ভুক্ত করেন তবে আপনি ' স্বাধীনতা অনেক ডিগ্রী একটি নরক ব্যয় করতে যাচ্ছেন।

আমার ধারণা এই কলটি আরও বেশি বিষয়গত এবং এটি নমুনার আকার এবং পছন্দের পদ্ধতির উপর অনেক বেশি নির্ভর করে। আরও প্রসঙ্গ না থাকলে এখানে গাইডলাইন দেওয়া শক্ত।

x012

[Y]=β0+ +β11এক্স1+ +β12এক্স2
এক্সআমিএক্স==আমি
[Y]=β0+ +β1এক্স
[Y]=β0+ +β1এক্স1+ +2β1এক্স2

χ2


3
+1 দুর্দান্ত উত্তরের সাথে বিজোড় প্রশ্নটিকে কীভাবে উন্নত করা যায় তার দুর্দান্ত উদাহরণ।

1
আসলে বাস্তবে যে কোনও অবিচ্ছিন্ন বৈশিষ্ট্য চিহ্নিত করা যেতে পারে, হিস্টোগ্রামগুলি তৈরি করে তা বাস্তবে এটি কীভাবে করা হয় তা কেবল তা দেখায়। সম্ভবত আমি গণনা সম্পর্কিত ডেটা (পূর্ণসংখ্যার মান ডেটা )গুলিকে শ্রেণিবদ্ধের সাথে মিশ্রিত করেছিলাম ... যদিও আমার প্রথম অনুমানটি কেবলমাত্র ডেটা পয়েন্ট (এবং ক্রেজিস্ট গবেষকগণ যা বিভাগগুলিতে প্রকৃত মান নির্ধারণ করে) সম্পর্কে নয়, তাই ... যাই হোক না কেন আমার মুছে ফেলা হয়েছে , যেহেতু ভাবেন না যে এটি সমস্যার সমাধান করে (+1)
দিমিত্রিজ সেলভ

1
দেখে মনে হচ্ছে @ দিমিত্রিজ তার উত্তর সরিয়ে দিয়েছেন, আপনি কি তার উত্তরটি পুনরায় সম্পাদন করতে পারেন? এটি একটি দুর্দান্ত উত্তর (+1), যাতে অ-বিদ্যমান সামগ্রীর উল্লেখটি কিছুটা আটকায়।
এমপিক্টাস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.