সংক্ষিপ্তসার: সমস্যা নিয়মিত করতে এবং অতিরিক্ত-ফিটিং এড়াতে এলডিএর আগে পিসিএ করা যায়।
স্মরণ করুন যে এলডিএ অনুমানগুলি সিগমা_বি এর ইজেনডিকোপজিশনের মাধ্যমে গণনা করা হয় , যেখানে এবং এর মধ্যে এবং শ্রেণির কোভেরিয়েন্সের মধ্যে রয়েছে। যদি চেয়ে কম ডাটা পয়েন্ট থাকে (যেখানে আপনার স্পেসের মাত্রিকতা, যেমন বৈশিষ্ট্যগুলি / ভেরিয়েবলের সংখ্যা হয়), তবে একবচন হবে এবং তাই উল্টানো যাবে না। এই ক্ষেত্রে সরাসরি এলডিএ করার কোনও উপায় নেই, তবে যদি কেউ প্রথমে পিসিএ প্রয়োগ করে তবে তা কার্যকর হবে। অ্যারন তার উত্তরের মন্তব্যে এই মন্তব্য করেছেন এবং আমি এর সাথে একমত হই (তবে সাধারণভাবে তার উত্তরটির সাথে একমত নই, আপনি এখনই দেখতে পাবেন)।Σ ডাব্লু Σ বি এন এন Σ ডাব্লুΣ- 1ওয়াটΣবিΣওয়াটΣবিএনএনΣওয়াট
তবে এটি সমস্যার একাংশ। বড় চিত্রটি হ'ল এলডিএ খুব সহজেই ডেটাগুলিকে অতিরিক্ত মানায়। নোট করুন যে শ্রেণির কোভেরিয়েন্সের ম্যাট্রিক্স এলডিএ গণনায় উল্টে যায়; হাই-ডাইমেনশনাল ম্যাট্রিক্সের জন্য বিপরীতটি একটি সংবেদনশীল অপারেশন যা কেবলমাত্র নির্ভরযোগ্যতার সাথে সম্পন্ন করা যেতে পারে যদি এর অনুমান সত্যিই ভাল হয়। তবে উচ্চ মাত্রায় , সম্পর্কে একটি সুনির্দিষ্ট প্রাক্কলন পাওয়া সত্যিই কঠিন , এবং অনুশীলন হিসাবে প্রায়শই একটি প্রাক্কলনটি ভাল বলে আশা করা শুরু করতে ডাটা পয়েন্টগুলির চেয়ে অনেক বেশি কিছু থাকতে হয়। অন্যথায় এন ≫ 1 Σ ডব্লু এন Σ ডাব্লুΣওয়াটএন। 1Σওয়াটএনΣওয়াট প্রায় একবচনের (অর্থাত্ কিছু আইগন্যালিউস খুব কম হবে) হয়ে যাবে এবং এর ফলে অতিরিক্ত মানানসই হবে, যেমন পরীক্ষার ডেটাতে সুযোগের পারফরম্যান্স সহ প্রশিক্ষণের ডেটাতে নিখুঁত-নিখুঁত শ্রেণির বিচ্ছেদ ঘটবে।
এই সমস্যাটি মোকাবেলা করার জন্য, সমস্যাটি নিয়মিত করা দরকার । এটি করার একটি উপায় হ'ল প্রথমে মাত্রিকতা হ্রাস করার জন্য পিসিএ ব্যবহার করা। আরও রয়েছে, তর্কযোগ্যভাবে আরও ভাল, উদাহরণস্বরূপ নিয়মিত এলডিএ (আরএলডিএ) পদ্ধতি যা ব্যবহার করে ছোট পরিবর্তে (এটি সংকোচনের প্রাক্কলনকারী বলা হয়) ), তবে প্রথমে পিসিএ করা আদর্শিকভাবে সহজ পদ্ধতির এবং প্রায়শই ঠিকঠাক কাজ করে।λ Σ ওয়াট( 1 - λ ) Σওয়াট+ λ আইλΣওয়াট
চিত্রণ
এখানে ওভার-ফিটিং সমস্যার উদাহরণ রয়েছে। আমি 10-, 50-, 100-, এবং 150-মাত্রিক স্থানগুলিতে স্ট্যান্ডার্ড গাউসীয় বিতরণ (মানে শূন্য, ইউনিট ভেরিয়েন্স) থেকে 3 শ্রেণিতে 60 টি ক্লাসে 60 টি নমুনা তৈরি করেছি এবং 2 ডি তে ডেটা প্রজেক্ট করতে এলডিএ প্রয়োগ করেছি:
ডাইমেনটিভিটি বাড়ার সাথে সাথে ক্লাসগুলি আরও ভাল এবং আরও পৃথক হয়ে ওঠে, যেখানে বাস্তবে শ্রেণীর মধ্যে কোনও পার্থক্য নেই Note
আমরা দেখতে পাচ্ছি যে আমরা ক্লাসগুলি কিছুটা আলাদা করে দিলে পিসিএ কীভাবে ওভারফিটিং প্রতিরোধে সহায়তা করে। আমি প্রথম শ্রেণির প্রথম স্থানাঙ্কে 1 জন, দ্বিতীয় শ্রেণির প্রথম স্থানাঙ্কে 2 এবং তৃতীয় শ্রেণির প্রথম স্থানাঙ্কে 3 যুক্ত করেছি। এখন তারা কিছুটা পৃথক হয়ে গেছে, উপরের বাম সাবপ্ল্লটটি দেখুন:
ওভারফিটিং (শীর্ষ সারি) এখনও স্পষ্ট। তবে আমি যদি পিসিএর সাথে ডেটা প্রাক-প্রসেস করি তবে সর্বদা 10 টি মাত্রা (নীচের সারি) রেখে, ক্লাসগুলি কাছাকাছি-সর্বোত্তমভাবে পৃথক থাকা অবস্থায় অতিমাত্রায় অদৃশ্য হয়ে যায়।
গীত। ভুল বোঝাবুঝি রোধে: আমি দাবি করছি না যে পিসিএ + এলডিএ একটি ভাল নিয়মিতকরণ কৌশল (বিপরীতে, আমি আরএলডিএ ব্যবহারের পরামর্শ দেব), আমি কেবল প্রমাণ করছি যে এটি একটি সম্ভাব্য কৌশল।
হালনাগাদ. খুব অনুরূপ বিষয় পূর্বে নিম্নলিখিত থ্রেডগুলিতে @cbeleites দ্বারা সরবরাহ করা আকর্ষণীয় এবং ব্যাপক উত্তরগুলির সাথে আলোচনা করা হয়েছে:
কিছু ভাল উত্তরের সাথে এই প্রশ্নটি দেখুন:
best practice
। পিসিএ এবং এলডিএ, মাত্রিকতা হ্রাস কৌশল হিসাবে খুব আলাদা। কখনও কখনও লোকেরা এলডিএর পূর্বে পিসিএ করে তবে এটির (ঝুঁকিপূর্ণ পিসিগুলির সাথে) গুরুত্বপূর্ণ বৈষম্যমূলক দিকগুলি ফেলে দেওয়ার ঝুঁকি রয়েছে। আপনি যে প্রশ্নটি জিজ্ঞাসা করছেন তা আসলে এই সাইটে বেশ কয়েকটি রূপে জিজ্ঞাসা করা হয়েছে। লোকেরা এতে কী বলেছে তা জানতে দয়া করে "পিসিএ এলডিএ" অনুসন্ধান করুন।