আমার একটি খুব বড় ডেটাসেট রয়েছে এবং প্রায় 5% এলোমেলো মান অনুপস্থিত। এই ভেরিয়েবলগুলি একে অপরের সাথে সম্পর্কিত হয়। নীচের উদাহরণটি আর ডেটাসেটটি ডমি কোলেলেটেড ডেটা সহ একটি খেলনার উদাহরণ।
set.seed(123)
# matrix of X variable
xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000)
colnames(xmat) <- paste ("M", 1:10000, sep ="")
rownames(xmat) <- paste("sample", 1:200, sep = "")
#M variables are correlated
N <- 2000000*0.05 # 5% random missing values
inds <- round ( runif(N, 1, length(xmat)) )
xmat[inds] <- NA
> xmat[1:10,1:10]
M1 M2 M3 M4 M5 M6 M7 M8 M9 M10
sample1 -1 -1 1 NA 0 -1 1 -1 0 -1
sample2 1 1 -1 1 0 0 1 -1 -1 1
sample3 0 0 1 -1 -1 -1 0 -1 -1 -1
sample4 1 0 0 -1 -1 1 1 0 1 1
sample5 NA 0 0 -1 -1 1 0 NA 1 NA
sample6 -1 1 0 1 1 0 1 1 -1 -1
sample7 NA 0 1 -1 0 1 -1 0 1 NA
sample8 1 -1 -1 1 0 -1 -1 1 -1 0
sample9 0 -1 0 -1 1 -1 1 NA 0 1
sample10 0 -1 1 0 1 0 0 1 NA 0
এই পরিস্থিতিতে নিখোঁজ মানগুলি বোঝানোর কোনও (সেরা) উপায় আছে? র্যান্ডম ফরেস্ট অ্যালগোরিদম সহায়ক? আর এর যে কোনও কার্যনির্বাহী সমাধান অনেক প্রশংসিত হবে।
সম্পাদনা:
(1) অনুপস্থিত মানগুলি ভেরিয়েবল এবং নমুনাগুলির মধ্যে এলোমেলোভাবে বিতরণ করা হয় vari যেমন ভেরিয়েবলের সংখ্যা খুব বড় (উদাহরণস্বরূপ - 10000), তবে উপরের ডামি উদাহরণে নমুনাগুলির সংখ্যা এখানে ছোট 200 এটি তাই যখন when আমরা সমস্ত ভেরিয়েবলের (10000) ওপরে যে কোনও নমুনা দেখি, প্রচুর সংখ্যক ভেরিয়েবলের কারণে - কিছু ভেরিয়েবলের মূল্য হ্রাস হওয়ার উচ্চ সম্ভাবনা রয়েছে। সুতরাং শুধু নমুনা মুছে ফেলা বিকল্প নয়।
(২) পরিবর্তনশীলকে অনুমিতকরণের প্রক্রিয়াতে উভয় পরিমাণগত বা গুণগত (বাইনারি) হিসাবে বিবেচনা করা যেতে পারে। একমাত্র রায় হ'ল আমরা এটি কতটা ভালভাবে ভবিষ্যদ্বাণী করতে পারি (নির্ভুলতা)। সুতরাং 1 এর পরিবর্তে 0.98 এর মতো ভবিষ্যদ্বাণীগুলি 0 বনাম 1 বা -1 বনাম 1 হিসাবে গ্রহণযোগ্য হতে পারে I আমার কম্পিউটিং সময় এবং নির্ভুলতার মধ্যে ট্রেডঅফের প্রয়োজন হতে পারে।
(৩) নমুনার সংখ্যার তুলনায় ভেরিয়েবলের সংখ্যা বড় হওয়ায় ওভারফিটিং কীভাবে ফলাফলগুলিকে প্রভাবিত করতে পারে তা আমি ভাবছি।
(৪) নিখোঁজ মানের মোট পরিমাণ প্রায় ৫% এবং এলোমেলোভাবে (কোনও ভেরিয়েবল বা নমুনায় কেন্দ্রীভূত হয়নি কারণ ভেরিয়েবলগুলি বা নমুনাগুলি খুব বেশি হারিয়ে যাওয়া মানগুলি সরিয়ে নিতে সাবধানতা নেওয়া হয়েছিল)
(5) বিশ্লেষণের জন্য ডেটা সম্পূর্ণ করা প্রথম উদ্দেশ্য এবং যথার্থতা গৌণ। নির্ভুলতার জন্য খুব সংবেদনশীল নয়।