এই প্রসঙ্গে র্যাঙ্কের ঘাটতি বলছে যে আপনার ইচ্ছার মডেলটি অনুমান করতে আপনার ডেটাতে অপর্যাপ্ত তথ্য রয়েছে। এটি অনেক উত্স থেকে উদ্ভূত। আমি এখানে স্পষ্টভাবে লজিস্টিক রিগ্রেশন না দিয়ে মোটামুটি সাধারণ প্রসঙ্গে মডেলিংয়ের বিষয়ে কথা বলব, তবে এখনও সবকিছু নির্দিষ্ট প্রসঙ্গে প্রযোজ্য।
অভাবটি খুব অল্প ডেটা থেকে শুরু হতে পারে। সাধারণভাবে, আপনি n এর চেয়ে কম ডেটা পয়েন্ট সহ এন প্যারামিটারগুলি অনন্যভাবে অনুমান করতে পারবেন না। এর অর্থ এই নয় যে আপনার দরকার সমস্ত এন পয়েন্ট, প্রক্রিয়াটিতে যদি কোনও গোলমাল রয়েছে, আপনি বরং খারাপ ফলাফল পেতে পারেন get ন্যূনতম ত্রুটি অর্থে এমন একটি সমাধান চয়ন করতে অ্যালগরিদমকে সহায়তা করতে আপনার আরও ডেটা দরকার। এজন্য আমরা কমপক্ষে স্কোয়ারের সরঞ্জাম ব্যবহার করি। আপনার কত ডাটা দরকার? বিগত জীবনে আমাকে সর্বদা প্রশ্ন জিজ্ঞাসা করা হত, এবং উত্তরটি আপনার চেয়ে বেশি, বা আপনি যতটা পেতে পারেন তার চেয়ে বেশি ছিল। :)
কখনও কখনও আপনার প্রয়োজনের তুলনায় আপনার কাছে আরও ডেটা থাকতে পারে তবে কয়েকটি (খুব বেশি) পয়েন্টের প্রতিলিপি রয়েছে। প্রতিলিপিটি এই অর্থে দুর্দান্ত যে এটি শব্দটি কমাতে সহায়তা করে, তবে এটি সংখ্যাগত র্যাঙ্ক বাড়াতে সহায়তা করে না। সুতরাং, ধরুন আপনার কাছে মাত্র দুটি ডেটা পয়েন্ট রয়েছে। আপনি পয়েন্টগুলির মাধ্যমে কোনও অনন্য চতুষ্কোণ মডেলটি অনুমান করতে পারবেন না। প্রতিটি পয়েন্টের এক মিলিয়ন প্রতিলিপিগুলি এখনও আপনাকে কার্যকরভাবে পয়েন্টগুলির একজোড়া যা কেবল একটি সরলরেখার চেয়ে বেশি ফিট করতে দেয় না। মূলত, প্রতিলিপি তথ্য সামগ্রী যুক্ত করে না। এটি যা করে তা হ'ল এমন জায়গাগুলিতে শব্দ হ্রাস করা যেখানে আপনার ইতিমধ্যে তথ্য রয়েছে।
কখনও কখনও আপনার ভুল জায়গায় তথ্য আছে। উদাহরণস্বরূপ, আপনি দুটি মাত্রিক চতুষ্কোণ মডেলটিকে ফিট করতে পারবেন না যদি আপনার সমস্ত পয়েন্ট থাকে যা সমস্ত দুটি মাত্রায় একটি সরলরেখায় থাকে। এটি হ'ল ধরুন, আপনার কেবলমাত্র সমতলের x = y রেখায় পয়েন্ট ছড়িয়ে আছে এবং আপনি পৃষ্ঠের জেড (x, y) এর জন্য একটি মডেল ফিট করতে চান। এমনকি কয়েক মিলিয়ন পয়েন্ট সহ (এমনকি প্রতিলিপিগুলিও নয়) আপনার কাছে ধ্রুবক মডেলের চেয়ে বেশি বুদ্ধিমানের সাথে অনুমান করার জন্য পর্যাপ্ত তথ্য থাকবে। আশ্চর্যজনকভাবে, এটি একটি সাধারণ সমস্যা যা আমি নমুনাযুক্ত ডেটা দেখেছি। তারা কেন একটি ভাল মডেল তৈরি করতে পারে না তা অবাক করে ব্যবহারকারী। তারা নমুনা তৈরি করেছে এমন খুব ডেটাতেই সমস্যাটি তৈরি করা হয়েছে।
কখনও কখনও এটি মডেল পছন্দ। এটি "পর্যাপ্ত ডেটা নয়" হিসাবে দেখা যেতে পারে, তবে অন্য দিক থেকে। আপনি একটি জটিল মডেল অনুমান করতে চান তবে এটি করার জন্য পর্যাপ্ত ডেটা সরবরাহ করেছেন।
উপরের সমস্ত উদাহরণে উত্তরটি হ'ল আরও ডেটা পাওয়া, এমন জায়গা থেকে বুদ্ধিমানের সাথে নমুনা তৈরি করা যা আপনার বর্তমানে যে প্রক্রিয়াটির অভাব রয়েছে সেই প্রক্রিয়া সম্পর্কে তথ্য সরবরাহ করবে। পরীক্ষাগুলির নকশা শুরু করার জন্য ভাল জায়গা।
যাইহোক, এমনকি ভাল ডেটা কখনও কখনও অপর্যাপ্ত হয়, কমপক্ষে সংখ্যাসূচকভাবে তাই। (ভাল জিনিসগুলিতে খারাপ জিনিসগুলি কেন ঘটে?) এখানে সমস্যাটি মডেল সম্পর্কিত হতে পারে। এটি ইউনিটগুলির দুর্বল পছন্দ ছাড়া আর কিছুতে থাকতে পারে না। সমস্যা সমাধানের জন্য করা কম্পিউটার প্রোগ্রামিং থেকে এটি আসতে পারে। (উঘ! কোথায় শুরু করবেন?)
প্রথমে ইউনিট এবং স্কেলিং সম্পর্কে কথা বলা যাক। ধরুন আমি এমন কোনও সমস্যা সমাধানের চেষ্টা করেছি যেখানে একটি ভেরিয়েবল হ'ল অনেকের চেয়ে অনেকের বড় আকারের অর্ডার than উদাহরণস্বরূপ, ধরুন আমার একটি সমস্যা আছে যা আমার উচ্চতা এবং জুতার আকার জড়িত। আমি আমার উচ্চতা ন্যানোমিটারে পরিমাপ করব। সুতরাং আমার উচ্চতা হবে প্রায় 1.78 বিলিয়ন (1.78e9) ন্যানোমিটার। অবশ্যই, আমি আমার জুতার আকার কিলো-পার্সেকসে মাপতে বেছে নেব, তাই 9.14e-21 কিলো-পার্সেকস। আপনি যখন রিগ্রেশন মডেলিং করেন, লিনিয়ার রিগ্রেশন হ'ল লিনিয়ার বীজগণিত সম্পর্কে, যা ভেরিয়েবলের রৈখিক সংমিশ্রণকে জড়িত। এখানে সমস্যাটি হ'ল এই সংখ্যাগুলি বিশাল আকারের অনেকগুলি আদেশের দ্বারা পৃথক হয়েছে (এবং এমনকি একই ইউনিটও নয়)) যখন কোনও কম্পিউটার প্রোগ্রাম সংখ্যার যোগ করতে এবং বিয়োগের চেষ্টা করে যা পরিমাণের এতগুলি আদেশের দ্বারা পৃথক হয় (ডাবল স্পষ্টতার জন্য) নম্বর,
কৌতুকটি সাধারণত সাধারণ ইউনিটগুলি ব্যবহার করা হয় তবে কিছু সমস্যা এমনকি এমন একটি সমস্যাও হয় যখন ভেরিয়েবলগুলি মাত্রার অনেকগুলি আদেশের দ্বারা পৃথক হয়। আরও গুরুত্বপূর্ণ হ'ল আপনার সংখ্যাগুলিকে পরিমাণের সাথে সমান হতে স্কেল করা।
এরপরে, আপনি বড় সংখ্যা এবং সেই সংখ্যায় ছোট পার্থক্য নিয়ে সমস্যা দেখতে পাচ্ছেন। সুতরাং, ধরুন আপনি এমন ডেটা সহ একটি মাঝারিভাবে উচ্চতর অর্ডার পলিনোমিয়াল মডেল তৈরি করার চেষ্টা করেছেন যেখানে আপনার ইনপুটগুলি সমস্ত ব্যবধানে অন্তর্ভুক্ত রয়েছে [1,2]। স্কোয়ারিং, কিউবিং, ইত্যাদি, 1 বা 2 এর ক্রমযুক্ত সংখ্যাগুলি ডাবল যথার্থ পাটিগণনে কাজ করার সময় কোনও সমস্যা তৈরি করবে না। বিকল্পভাবে, প্রতিটি সংখ্যায় 1e12 যুক্ত করুন। তত্ত্বগতভাবে, গণিত এটির অনুমতি দেবে। এটি কেবল এক্স-অক্ষের ভিত্তিতে যে কোনও বহুপদী মডেল তৈরি করে তা হ'ল। এটি ঠিক একই আকারে থাকতে পারে তবে ডানদিকে 1e12 দ্বারা অনুবাদ করা হবে। অনুশীলনে, র্যাঙ্ক ঘাটতিজনিত সমস্যার কারণে লিনিয়ার বীজগণিত খারাপভাবে ব্যর্থ হবে will আপনি ডেটা অনুবাদ ছাড়া কিছুই করেন নি, তবে হঠাৎ আপনি একক ম্যাট্রিকগুলি পপ আপ করতে দেখেন।
সাধারণত করা মন্তব্যটি "আপনার ডেটাটিকে কেন্দ্র করে স্কেল করার" পরামর্শ দেবে। কার্যকরভাবে এটি ডেটা স্থানান্তর এবং স্কেল করতে বলেছে যাতে এটির শূন্যের কাছাকাছি গড় এবং প্রায় একটি স্ট্যান্ডার্ড বিচ্যুতি ঘটে That এটি বেশিরভাগ বহুতল মডেলের কন্ডিশনারকে ব্যাপকভাবে উন্নতি করবে, র্যাঙ্কের ঘাটতিজনিত সমস্যাগুলি হ্রাস করবে।
পদমর্যাদার ঘাটতির অন্যান্য কারণ বিদ্যমান। কিছু ক্ষেত্রে এটি সরাসরি মডেলটিতে নির্মিত হয়। উদাহরণস্বরূপ, ধরুন আমি কোনও ফাংশনের ডেরিভেটিভ সরবরাহ করি, আমি কী অনন্যভাবে ফাংশনটি অনুমান করতে পারি? অবশ্যই নয়, যেহেতু সংহতকরণের স্থিরতা অবিচ্ছিন্নভাবে জড়িত, একটি অজানা প্যারামিটার যা সাধারণত কোনও সময়ে ফাংশনের মান সম্পর্কে জ্ঞান দ্বারা অনুমিত হয়। প্রকৃতপক্ষে, এটি কখনও কখনও অনুমানের সমস্যাগুলিতেও দেখা দেয়, যেখানে কোনও পদ্ধতির এককতা অধ্যয়নের অধীনে থাকা সিস্টেমের মৌলিক প্রকৃতি থেকে উদ্ভূত হয়।
আমি অবশ্যই একটি রৈখিক সিস্টেমে র্যাঙ্কের ঘাটতির জন্য অনেকগুলি কারণ অবশ্যই রেখেছি এবং আমি দীর্ঘকাল ধরে এঁকেছি। আশা করি আমি সহজ শর্তাবলী এগুলি অন্তর্ভুক্ত করেছি এবং সমস্যাটি সমাধানের একটি উপায় ব্যাখ্যা করতে পেরেছি।