উত্তর:
আমি এই শর্তের আগে কখনও মুখোমুখি হই নি। আমি নিশ্চিত নই যে এটি পরিসংখ্যানগুলির উভয় ক্ষেত্রেই আলো বা অন্ধকার ছড়িয়ে দেবে: যারা মেশিন লার্নিং (যেখানে তদারকি করা এবং নিরীক্ষণযোগ্য পার্থক্য সমস্যা সমাধানের কেন্দ্রস্থল) এবং অনুমানমূলক পরিসংখ্যান (যেখানে রিগ্রেশন, নিশ্চিতকরণ বিশ্লেষণ এবং এনএইচএসটি বেশিরভাগ ক্ষেত্রে নিযুক্ত থাকে)।
এই দুটি দর্শন যেখানে ওভারল্যাপ হয়, সেখানে বেশিরভাগ রিগ্রেশন এবং সম্পর্কিত পরিভাষাগুলি কঠোরভাবে তদারকি করা বিন্যাসে ছড়িয়ে দেওয়া হয়। যাইহোক, আমি মনে করি নিরীক্ষণমূলক শিক্ষার অনেকগুলি ধারণাগুলি নিবিড়তা ভিত্তিক পদ্ধতির সাথে নিবিড়ভাবে সম্পর্কিত, বিশেষত যখন আপনি নির্বিকারভাবে প্রতিটি শ্রেণি বা বৈশিষ্ট্যকে ফলাফল হিসাবে পুনরাবৃত্তি করেন এবং ফলাফলগুলি সারণী করেন। এর একটি উদাহরণ হ'ল পিসিএ এবং বাইভারিয়েট পারস্পরিক সম্পর্ক বিশ্লেষণ। স্ট্রাকচারাল সমীকরণ মডেলিংয়ে (EFA অর্থে কঠোরভাবে) ধরে নেওয়া যায় এমন একাধিক ভেরিয়েবলের উপরে পুনরাবৃত্তভাবে সর্বোত্তম উপসেট রিগ্রেশন প্রয়োগ করে, আপনি খুব জটিল ধরণের নেটওয়ার্ক অনুমান করতে পারেন। এটি আমার কাছে মনে হয় রিগ্রেশন সহ একটি নিরীক্ষণযোগ্য শেখার সমস্যার মতো।
আমি সবচেয়ে কাছের জিনিসটি ভাবতে পারি এটি একটি কালো কালো যাদু যা কয়েক বছর আগে এটি ঘোষিত হওয়ার সময় মানুষকে আলোড়িত করেছিল, তবে আমি বিশ্বাস করি না যে এটি সম্প্রদায়ের কোনও সত্যিকারের পরিচয় পেয়েছে। লেখকরা একটি পরিসংখ্যান বিকাশ করেছিলেন তারা "সর্বাধিক তথ্য সহগ (এমআইসি)" বলে। তাদের পদ্ধতির পিছনে সাধারণ ধারণাটি হ'ল ডাইমেনশনাল ডেটা নেওয়া, জোড়ের সাথে প্রতিটি অন্যান্য ভেরিয়েবলের বিপরীতে প্রতিটি ভেরিয়েবল প্লট করা এবং তারপরে প্রতিটি প্লটে একটি আকর্ষণীয় উইন্ডো-বেনিং অ্যালগরিদম প্রয়োগ করা (যা সেই দুটি ভেরিয়েবলের জন্য এমআইসির গণনা করে) সেখানে আছে কিনা তা নির্ধারণ করতে সম্ভাব্য দুটি ভেরিয়েবলের মধ্যে একটি সম্পর্ক। কৌশলটি কেবলমাত্র রৈখিক নয়, ইচ্ছামত কাঠামোগত সম্পর্কগুলি সনাক্ত করতে শক্তিশালী বলে মনে করা হচ্ছে ।
কৌশলটি বেশ কয়েকটি ভেরিয়েবলকে লক্ষ্যবস্তু করে, তবে আমি নিশ্চিত যে এটি বহুবিধ সম্পর্কগুলি অনুসন্ধানের জন্য বাড়ানো যেতে পারে। প্রধান সমস্যাটি হ'ল আপনি আরও বেশি ভেরিয়েবলের ক্রমবর্ধনের জন্য অনুমতি দেওয়ার সাথে সাথে আপনাকে আরও বেশি পরিমাণে ভেরিয়েবলের সংমিশ্রণে কৌশল চালাতে হবে। আমি কল্পনা করি যে এটি সম্ভবত জোড়গুলির সাথে কিছুটা সময় নেয়: এমনকি এটি দূরবর্তী উচ্চতর মাত্রিক ডেটাতে ব্যবহার করার চেষ্টা করা এবং জোড়গুলির পরিবর্তে আরও জটিল সম্পর্কের বিষয়টি বিবেচনা করা জটিলতর দ্রুত হয়ে উঠবে।
বড় ডেটাসেটগুলিতে নভেল অ্যাসোসিয়েশনগুলি সনাক্ত করার কাগজটি উল্লেখ করুন (২০১১)
প্রদত্ত ইনপুট থেকে পুনর্গঠিত ইনপুটটিতে ম্যাট্রিক্সের ত্রুটি হ্রাস করার একটি উপায় ওয়েট রিগ্রেশন one
তত্ত্বাবধান করা এবং নিরীক্ষণ পদ্ধতিগুলির মধ্যে পার্থক্যটি গবেষণা করার সময় এই প্রশ্নটি আমার মনে এসেছিল। একনোমেট্রিক পটভূমি থেকে আগত আমি মডেলগুলিতে ভাবতে পছন্দ করি, যা পদ্ধতিগুলির উপর মনোযোগ নিবদ্ধ করে বেশিরভাগ মেশিন লার্নিং সাহিত্যের কারণে আমার বোঝার গতি কমিয়ে দেয়।
আমি এখন পর্যন্ত যা পেয়েছি তা হ'ল (নিরীক্ষণ) clustering
বনাম classification
(তদারকি করা) এর মধ্যে একটি কঠোর পার্থক্য করা উচিত । এই মডেল ডিজাইনগুলির মধ্যে সম্পর্কের অবিচ্ছিন্ন উপমাটি principal component analysis
(অকার্যকর) বনাম হবেlinear regression
(নিরীক্ষণ) (তদারকি)।
যাইহোক, আমি যুক্তি দেব যে ক্লাস্টারিং এবং শ্রেণিবিন্যাসের মধ্যে সম্পর্ক খাঁটি কাকতালীয়; এটি তখনই বিদ্যমান যখন আমরা উভয় মডেল ডিজাইনের একটি জ্যামিতিক সম্পর্কের বর্ণনা হিসাবে ব্যাখ্যা করি, যা আমি অনিচ্ছাকৃতভাবে সীমাবদ্ধ বলে মনে করি। যে সমস্ত অপ্রচলিত পদ্ধতিগুলি আমি জানি (কে-মানে, ইলাস্টিক ম্যাপ অ্যালগোরিদম যেমন কোহোনেন / নিউরাল গ্যাস, ডিবিএসসিএন, পিসিএ) এও সুপ্ত পরিবর্তনশীল মডেল হিসাবে ব্যাখ্যা করা যেতে পারে। ক্লাস্টারিং পদ্ধতির ক্ষেত্রে, এটি একটি ক্লাস্টারের সাথে সম্পর্কিত একটি রাষ্ট্র হিসাবে দেখা হিসাবে সমান, যা রাষ্ট্রীয় ডমি প্রবর্তন করে একটি সুপ্ত পরিবর্তনশীল মডেল হিসাবে কোড করা যেতে পারে।
সুপ্ত পরিবর্তনশীল মডেল হিসাবে ব্যাখ্যা দেওয়া, আপনি যে কোনও, সম্ভবত ননলাইনার, মডেল নির্দিষ্ট করে অবিরত সুপ্ত ভেরিয়েবলগুলির ক্ষেত্রে আপনার বৈশিষ্ট্যগুলি বর্ণনা করার জন্য নির্দ্বিধায় মুক্ত।