আমরা মেশিন লার্নিংয়ের মাধ্যমে মেশিন লার্নিং অধ্যয়ন করছি: একটি সম্ভাব্য দৃষ্টিভঙ্গি (কেভিন মারফি)। যদিও পাঠ্যটি প্রতিটি অ্যালগরিদমের তাত্ত্বিক ভিত্তি ব্যাখ্যা করে, এটি খুব কমই বলে যে কোন ক্ষেত্রে কোন অ্যালগরিদম ভাল, এবং যখন এটি হয়, তবে আমি বলব না যে আমি কোন ক্ষেত্রে আছি tell
উদাহরণস্বরূপ, কার্নেল নির্বাচনের জন্য, আমাকে বলা হয়েছে যে আমার ডেটা কতটা জটিল au সাধারণ 2 মাত্রিক ডেটাতে, আমি একটি লিনিয়ার বা রেডিয়াল কার্নেল উপযুক্ত কিনা তা প্লট করে দেখতে পারি। তবে উচ্চ মাত্রায় কী করবেন?
আরও সাধারণভাবে, লোকেরা যখন অ্যালগোরিদম বাছাইয়ের আগে "আপনার ডেটাটি জানুন" বলে তখন কী বোঝায়? এখনই আমি কেবল শ্রেণিবিন্যাস বনাম রিগ্রেশন অ্যালগরিদম এবং লিনিয়ার বনাম নন-লিনিয়ার অ্যালগোরিদম (যা আমি পরীক্ষা করতে পারি না) পার্থক্য করতে পারি।
সম্পাদনা: যদিও আমার মূল প্রশ্নটি সর্বদা সর্বজোটের নিয়ম সম্পর্কে, তবে আমাকে আমার বিশেষ সমস্যা সম্পর্কে আরও তথ্য সরবরাহ করতে বলা হয়েছে।
ডেটা: প্রতিটি সারিতে একটি প্যানেল একটি দেশ-মাস (মোট ~ 30,000 সারি, 15 বছরেরও বেশি সময় ধরে ~ 165 দেশকে কভার করে) being
প্রতিক্রিয়া: 5 টি বাইনারি সুদের আগ্রহ (যেমন প্রতিবাদ / অভ্যুত্থান / সংকট ইত্যাদি যে মাসে হয়)।
বৈশিষ্ট্যগুলি: previous 400 ভেরিয়েবল (একটানা, শ্রেণিবদ্ধ, বাইনারি মিশ্রণ) 2 পূর্ববর্তী দেশ-মাসের বৈশিষ্ট্যগুলির একগুচ্ছ বিশদ বিবরণ (দীর্ঘতর ব্যবধান তৈরি করা যেতে পারে)। লক্ষ্যটি পূর্বাভাস হওয়ায় আমরা কেবল লেগড ভেরিয়েবল ব্যবহার করি।
উদাহরণগুলির মধ্যে রয়েছে, বিনিময় হার, জিডিপি প্রবৃদ্ধি (ধারাবাহিক), মুক্ত প্রেসের স্তর (শ্রেণিবদ্ধ), গণতন্ত্র, প্রতিবেশী দ্বন্দ্ব রয়েছে কিনা (বাইনারি)। নোট করুন যে এই 400 টি বৈশিষ্ট্যগুলির মধ্যে অনেকগুলি ভেরিয়েবলের চেয়ে পিছিয়ে রয়েছে।