ডেটা মাইনিং বা বড় ডেটাতে আমার শিল্পের অভিজ্ঞতা নেই তাই আপনাকে কিছু অভিজ্ঞতা ভাগ করে নিতে শুনে ভালো লাগবে।
লোকেরা কি আসলেই বড়-বড় ডেটাসেটে কে-মানে, প্যাম, ক্লারা ইত্যাদি চালায়? অথবা তারা এলোমেলোভাবে এটি থেকে একটি নমুনা বাছাই করে? যদি তারা কেবল ডেটাসেটের একটি নমুনা নেন, তবে ডাটাসেটটি সাধারণত বিতরণ না করা হলে ফলাফল নির্ভরযোগ্য হবে?
ব্যবহারিক পরিস্থিতিতে যখন এই অ্যালগরিদমগুলি চালিত হয়, আমরা কি বলতে পারি যে একত্রীকরণ না হওয়া অবধি সাধারণত কতগুলি পুনরাবৃত্তি লাগবে? অথবা সবসময় ডেটা আকারের সাথে পুনরাবৃত্তির সংখ্যা বৃদ্ধি পায়?
আমি এটি জিজ্ঞাসা করছি কারণ আমি একীকরণের আগে পুনরাবৃত্ত অ্যালগরিদমগুলি বন্ধ করার জন্য একটি পদ্ধতির বিকাশের কথা ভাবছি, এবং ফলাফলগুলি এখনও গ্রহণযোগ্য। আমি মনে করি এটি যদি পুনরাবৃত্তির সংখ্যা হয় তবে এটি চেষ্টা করা সার্থক, 1000 টিরও বেশি বলুন, যাতে আমরা কিছু গণনা ব্যয় এবং সময় সাশ্রয় করতে পারি। আপনি কি মনে করেন?
number of iterations always grow with the data size
অগত্যা।