নিম্নলিখিত অংশটি শোয়েজারের হেজ ফান্ড মার্কেট উইজার্ডস (মে ২০১২) এর ধারাবাহিকভাবে সফল হেজ ফান্ডের ব্যবস্থাপক জাফ্রে উড্রিফের একটি সাক্ষাত্কার:
এই প্রশ্নের উত্তর: "ডেটা মাইনিংয়ের ক্ষেত্রে লোকেদের মধ্যে সবচেয়ে খারাপ ত্রুটিগুলি কী কী?":
প্রচুর লোক মনে করে তারা ঠিক আছে কারণ তারা প্রশিক্ষণের জন্য নমুনা ডেটা এবং পরীক্ষার জন্য নমুনা ছাড়িয়ে ডেটা ব্যবহার করে। তারপরে তারা কীভাবে নমুনা ইন-স্যাম্পল ডেটাতে পারফরম্যান্সের উপর ভিত্তি করে মডেলগুলি বাছাই করে এবং নমুনা ছাড়াই ডেটা পরীক্ষা করার জন্য সেরাগুলি চয়ন করে। মানুষের প্রবণতা হ'ল এমন মডেলগুলি গ্রহণ করা যা নমুনা ছাড়াই ডেটাতে ভাল কাজ করে এবং সেই মডেলগুলিকে ব্যবসায়ের জন্য বেছে নেয়। এই ধরণের প্রক্রিয়াটি কেবলমাত্র নমুনা ছাড়াই ডেটা প্রশিক্ষণের ডেটার অংশে পরিণত করে কারণ এটি নমুনা ছাড়াই সময়ের সেরা মডেলগুলিকে চেরি-পিক করে। এটি লোকেদের মধ্যে করা সবচেয়ে সাধারণ ত্রুটিগুলির মধ্যে একটি এবং এটি সাধারণত ডেটা মাইনিং হিসাবে প্রয়োগ করার কারণে ভয়ঙ্কর ফলাফল পাওয়া যায়।
সাক্ষাত্কারকারীর চেয়ে জিজ্ঞাসা করা হয়নি: "পরিবর্তে আপনার কী করা উচিত?":
আপনি নিদর্শনগুলি সন্ধান করতে পারেন যেখানে গড়ে, নমুনা ছাড়াই সমস্ত মডেল ভাল করতে থাকে। আপনি জানেন যে নমুনার বাইরে থাকা মডেলগুলির গড় যদি ইন-স্যাম্পল স্কোরের একটি উল্লেখযোগ্য শতাংশ হয় you সাধারণভাবে বলতে গেলে, নমুনার বাইরে থাকা ফলাফলগুলি ইন-নমুনার 50 শতাংশের বেশি হলে আপনি সত্যিই কোথাও পাচ্ছেন getting কিএসআইএমের ব্যবসায়িক মডেল কখনই কাজ করতে পারত না যদি এসএএস এবং আইবিএম দুর্দান্ত ভবিষ্যদ্বাণীপূর্ণ মডেলিং সফ্টওয়্যার তৈরি করে।
আমার প্রশ্নগুলি এর
কোনও অর্থ দেয়? সে কি বোঝাচ্ছে? আপনার কি কোনও ক্লু রয়েছে - বা সম্ভবত প্রস্তাবিত পদ্ধতি এবং কিছু রেফারেন্সের একটি নাম? নাকি এই লোকটি পবিত্র কচুকাটি খুঁজে পেয়েছিল আর কেউ বুঝতে পারে না? এমনকি তিনি এই সাক্ষাত্কারে আরও বলেছেন যে তার পদ্ধতিটি সম্ভাব্যভাবে বিজ্ঞানের বিপ্লব ঘটাতে পারে ...