ইলাস্টিক নেট নিয়মিতকরণ কি সবসময়ই লাসো এবং রিজকে প্রাধান্য দেয় যেহেতু এই পদ্ধতির ত্রুটিগুলি সমাধান করার জন্য মনে হয়? অন্তর্দৃষ্টি কী এবং ইলাস্টিক জালের পিছনে গণিতটি কী?
ইলাস্টিক নেট নিয়মিতকরণ কি সবসময়ই লাসো এবং রিজকে প্রাধান্য দেয় যেহেতু এই পদ্ধতির ত্রুটিগুলি সমাধান করার জন্য মনে হয়? অন্তর্দৃষ্টি কী এবং ইলাস্টিক জালের পিছনে গণিতটি কী?
উত্তর:
হ্যাঁ, ইলাস্টিক নেট সবসময়ই লাসো ও রিজ রিগ্রেশনগুলির চেয়ে বেশি পছন্দ করা হয় কারণ এটি উভয় পদ্ধতির সীমাবদ্ধতা সমাধান করে, পাশাপাশি প্রতিটিকে বিশেষ ক্ষেত্রেও অন্তর্ভুক্ত করে। সুতরাং যদি রিজ বা লাসো সলিউশনটি প্রকৃতপক্ষে সেরা হয় তবে কোনও ভাল মডেল নির্বাচনের রুটিন এটি মডেলিং প্রক্রিয়ার অংশ হিসাবে চিহ্নিত করতে পারে।
আমার পোস্টের মন্তব্যগুলি উল্লেখ করেছে যে ইলাস্টিক নেট এর সুবিধাগুলি অযোগ্য নয়। আমি আমার বিশ্বাসে অবিচল রয়েছি যে ইলাস্টিক নেট রিগ্রেশনটির সাধারণতা এখনও বা এর নিজের দ্বারা নিয়মিতকরণের চেয়ে ভাল। বিশেষত, আমি মনে করি যে আমি এবং অন্যদের মধ্যে মতবিরোধের পয়েন্টগুলি মডেলিং প্রক্রিয়াটি সম্পর্কে আমরা যে অনুমানগুলি করতে ইচ্ছুক তার সাথে সরাসরি আবদ্ধ। অন্তর্নিহিত ডেটা সম্পর্কে দৃ strong় জ্ঞানের উপস্থিতিতে কিছু পদ্ধতি অন্যদের কাছে অগ্রাধিকার পাবে। যাইহোক, ইলাস্টিক নেট এর জন্য আমার পছন্দটি আমার সংশয়বাদে জড়িত যে কেউ আত্মবিশ্বাসের সাথে জানতে পারে যে বা আসল মডেল।
এটি কিছুটা বৃত্তাকার। যদি এটি কিছুটা গ্লিব হয় তবে আমাকে ক্ষমা করুন, তবে আপনি যদি জানেন যে লাসো (রিজ) সেরা সমাধান, তবে আপনি কীভাবে উপযুক্তভাবে এটির মডেল করবেন তা আপনি নিজেকে জিজ্ঞাসা করবেন না; আপনি কেবল একটি লাসো (রিজ) মডেল ফিট করবেন। যদি আপনি পুরোপুরি নিশ্চিত হন যে সঠিক উত্তরটি লাসো (রিজ) রিগ্রেশন, তবে আপনি স্পষ্টভাবে নিশ্চিত হন যে ইলাস্টিক জালের সাথে সময় নষ্ট করার কোনও কারণ নেই reason তবে আপনি যদি লাসো (রিজ) সঠিকভাবে এগিয়ে যাওয়ার সঠিক উপায় কিনা তবে আপনি যদি কিছুটা কম নিশ্চিত হন তবে আমি বিশ্বাস করি যে আরও নমনীয় মডেলটি অনুমান করা আমাদের পক্ষে বোধগম্য, এবং ডেটা পূর্বের বিশ্বাসকে কতটা দৃ strongly়তার সাথে সমর্থন করে তা মূল্যায়ন করে।
এটাও সত্য, কিন্তু আমি মনে করি এটা একটি অনুরূপ কারণে বিজ্ঞপ্তি দেওয়া হল: আপনি একটি সন্তোষজনক সমাধান আনুমানিক এবং যে এটি করেছি তারপর মডেল যে ডেটা সমর্থন যে। একদিকে, হ্যাঁ, আপনার আনুমানিক মডেলটি সত্যিকারের মডেল নয়, তবে আমার অবশ্যই অবাক হতে হবে যে কোনও মডেল অনুমানের আগে সত্য মডেলটি (বা ) হয় তা কীভাবে জানতে পারে। এমন ডোমেইন থাকতে পারে যেখানে আপনার এই ধরণের পূর্ব জ্ঞান রয়েছে তবে আমার পেশাগত কাজ সেগুলির মধ্যে একটি নয়।
আপনার কেবল সময় / কম্পিউটারের সীমাবদ্ধতা থাকলে এটি কেবল প্রাসঙ্গিক; অন্যথায় এটি কেবল উপদ্রব। ইএলাস্টিক নেট সমাধানগুলি অনুমান করার জন্য জিএলএমনেট হ'ল স্বর্ণ-মানক অ্যালগরিদম। ব্যবহারকারী আলফা কিছু মান সরবরাহ, এবং এটি দ্রুত নিয়মিতকরণ সমাধান পথে বৈশিষ্ট্য ব্যবহার দণ্ডনীয়তা মাত্রার মূল্যবোধের বিভিন্ন মডেলের একটি পরিবার অনুমান , এবং এটি প্রায়ই মাত্র আনুমানিক হিসাব চেয়ে আরও দ্রুত সমাধান এই পরিবার অনুমান করতে পারেন একটি নির্দিষ্ট মানের জন্য একটি সমাধান । তাই, হ্যাঁ, GLMNET ব্যবহার গ্রিড-শৈলী পদ্ধতি ব্যবহার করে ডোমেনে আপনি হস্তান্তর করে (এর কিছু মান পুনরুক্তি উপর এবং বিভিন্ন চেষ্টা GLMNET দিন গুলি), কিন্তু এটা বেশ দ্রুত।
এটি সত্য, তবে যে পদক্ষেপে কেউ কোন পদ্ধতিটি ব্যবহার করবেন সে সম্পর্কে চিন্তাভাবনা করছেন, কোনও স্থিতিস্থাপক নেট, রিজ বা ল্যাসো সবচেয়ে ভাল তা জানতে পারবেন না। যদি একটি কারণ হয় যে সর্বোত্তম সমাধানটি লাসো বা রিজ রিগ্রেশন হতে পারে তবে আমরা দাবির ডোমেনে আছি (1)। যদি আমরা এখনও অনিশ্চিত হয়ে থাকি যা কোনটি সর্বোত্তম, তবে আমরা লাসো, রিজ এবং ইলাস্টিক নেট সমাধানগুলি পরীক্ষা করতে পারি এবং সেই সময়ে একটি চূড়ান্ত মডেল বেছে নিতে পারি (বা আপনি যদি একাডেমিক হন তবে কেবল তিনটি সম্পর্কেই আপনার কাগজটি লিখুন )। পূর্ববর্তী অনিশ্চয়তার এই পরিস্থিতিটি হয় আমাদের দাবি (2) এর ডোমেনে রাখবে, যেখানে আসল মডেলটি ল্যাসো / রিজ তবে আমরা সময়ের আগে এতটা জানতাম না, এবং আমরা দুর্ঘটনাক্রমে দুর্বল চিহ্নিত হাইপারপ্যারামিটারগুলির কারণে ভুল মডেলটি নির্বাচন করি, বা ইলাস্টিক নেট আসলে সেরা সমাধান।
উপযুক্ত মডেল বৈধতা যেকোন মেশিন লার্নিং এন্টারপ্রাইজের একটি অবিচ্ছেদ্য অঙ্গ। মডেল বৈধতা সাধারণত একটি ব্যয়বহুল পদক্ষেপ, সুতরাং এখানে কেউ অদক্ষতা কমিয়ে আনতে চাইবে - যদি সেই অদক্ষতার একটির অকারণে চেষ্টা করা হয় যে মূল্যবোধগুলি নিরর্থক বলে পরিচিত হয়, তবে একটি পরামর্শ তা করতে হবে। হ্যাঁ, সমস্ত উপায়ে এটি করুন, আপনি কীভাবে আপনার ডেটা সাজানো হয়েছে সে সম্পর্কে দৃ making় বিবৃতি দিয়ে স্বাচ্ছন্দ্য বোধ করেন - তবে আমরা দাবি (1) এবং দাবির (2) অঞ্চলে ফিরে এসেছি।
আমি ইলাস্টিক নেট উপর মূল কাগজ দিয়ে শুরু, এই পদ্ধতিগুলিতে সাহিত্য পড়ার দৃ strongly় পরামর্শ দিচ্ছি। কাগজ স্বজ্ঞাত এবং গণিত বিকাশ, এবং উচ্চ পঠনযোগ্য। এখানে এটি পুনরুত্পাদন করা কেবলমাত্র লেখকদের ব্যাখ্যার ক্ষতিকারক হবে। কিন্তু উচ্চ পর্যায়ের সারসংক্ষেপ যে ইলাস্টিক নেট শৈলশিরা এবং Lasso দণ্ডের একটি উত্তল সমষ্টি, তাই মত একটি গসিয়ান ত্রুটি মডেল সৌন্দর্য জন্য উদ্দেশ্য ফাংশন
জন্য
হুই জউ এবং ট্রেভর হাসি। " ইলাস্টিক নেট এর মাধ্যমে নিয়মিতকরণ এবং পরিবর্তনশীল নির্বাচন selection " জেআর পরিসংখ্যান। সস।, খণ্ড 67 (2005), খণ্ড 2., পৃষ্ঠা 301-320।
রিচার্ড হার্ডি উল্লেখ করেছেন যে এটি আরও বিস্তারিতভাবে হাসটি এট আল-তে উন্নত। "পরিসংখ্যান শিক্ষার উপাদানসমূহ" অধ্যায় 3 এবং 18।
মন্তব্যগুলিতে এটি আমার কাছে উত্থাপিত একটি প্রশ্ন:
আপনার দৃষ্টিভঙ্গির বিপরীতে আমাকে আরও একটি যুক্তি দেওয়ার পরামর্শ দিন যে স্থিতিস্থাপক নেট একা লাসো বা রিজের চেয়ে সমানভাবে ভাল। কল্পনা করুন যে, আমরা ইলাস্টিক নেট খরচ ফাংশন অন্য শাস্তি যোগ করুন, যেমন একটি একটি hyperparameter সঙ্গে খরচে, । আমি মনে করি না যে অনেক গবেষণা আছে, কিন্তু আমি তোমাদের বাজি ধরে বলতে পারি যে আপনি একটি 3d প্যারামিটার গ্রিড উপর একটি ক্রস বৈধতা অনুসন্ধান করা, তারপর আপনি পাবেন অনুকূল মান হিসাবে। যদি তা হয় তবে আপনি কি যুক্তি দিবেন যে ব্যয়কেও অন্তর্ভুক্ত করা সবসময় ভাল ধারণা ।
আমি প্রশংসা করি যে প্রশ্নের উদ্দীপনাটি "আপনার দাবি অনুসারে যদি এটি হয় এবং দুটি জরিমানা ভাল হয় তবে কেন অন্যটিকে যুক্ত করবেন না?" তবে আমি মনে করি যে উত্তরটি প্রথমে কেন আমরা নিয়মিত করি in
নিয়মিতকরণ বিরল সমাধান উত্পাদন করতে ঝোঁক, তবে ফলাফলের সাথে সবচেয়ে দৃ strongly়ভাবে সম্পর্কিত এবং বাকীটি শূন্যের সাথে বৈশিষ্ট্যটি নির্বাচন করতেও ঝোঁক। অধিকন্তু, পর্যবেক্ষণসহ একটি ডেটা সেট করা, এটি সর্বাধিক বৈশিষ্ট্যগুলিনির্বাচন করতে পারে। নিয়মিতকরণ অত্যন্ত (বা পুরোপুরি) পারস্পরিক সম্পর্কযুক্ত বৈশিষ্ট্যগুলির ফলে অসুস্থ পোজযুক্ত সমস্যাগুলি মোকাবিলার জন্য উপযুক্ত। সঙ্গে একটি ডেটা সেটের বৈশিষ্ট্য, নিয়মিতকরণ স্বতন্ত্র একটি মডেল সনাক্ত করতে ব্যবহার করা যেতে পারে কেস।
এই সমস্যাগুলির যে কোনও একদিকে রেখে, নিয়ন্ত্রিত মডেলটি এখনও এমএল মডেলটিকে বহিরাগতভাবে সম্পাদন করতে পারে কারণ অনুমানকারীগুলির সঙ্কুচিত বৈশিষ্ট্যগুলি "হতাশাবাদী" এবং 0 এর দিকে সহগুণগুলি টানতে পারে।
ইন কেন আমরা শুধুমাত্র দেখতে পাচ্ছ ও এল 2 নিয়মিতকরণ কিন্তু অন্যান্য নিয়ম? , @ শুভ এই মন্তব্যটি সরবরাহ করে:
আমি সাধারণত @ সাইকোরাক্স উত্তরের সাথে একমত, তবে আমি কিছু যোগ্যতা যুক্ত করতে চাই।
এই বলে যে "ইলাস্টিক নেট সবসময় লাসো ও রিজ রিগ্রেশন এর চেয়ে বেশি পছন্দ হয়" কিছুটা শক্ত হতে পারে। ছোট বা মাঝারি নমুনায় ইলাস্টিক নেট খাঁটি ল্যাসো বা খাঁটি রিজ সমাধান নির্বাচন করতে পারে না যদিও পূর্ববর্তী বা পরবর্তীকটি আসলে প্রাসঙ্গিক। দৃ strong় পূর্ব জ্ঞান দেওয়া ইলাস্টিক নেটের জায়গায় লাসো বা রিজ নির্বাচন করা বোধগম্য হতে পারে। তবে পূর্বের জ্ঞানের অভাবে ইলাস্টিক নেটকে পছন্দসই সমাধান হওয়া উচিত।
এছাড়াও, এলএএসএসও বা রিজের তুলনায় ইলাস্টিক নেট কম্পিউটারের চেয়ে বেশি ব্যয়বহুল কারণ লাসো বনাম রিজের তুলনামূলক ওজনকে ক্রস বৈধতা ব্যবহার করে নির্বাচন করতে হবে। যদি আলফা মানগুলির একটি যুক্তিসঙ্গত গ্রিড 0.1 মাপের ধাপের আকারের সাথে [0,1] হয়, তবে এর অর্থ হবে ইলাস্টিক নেট লাসো বা রিজের তুলনায় কমপক্ষে 11 গুণ বেশি ব্যয়বহুল। (যেহেতু লাসো এবং রিজগুলির মধ্যে বেশিরভাগ একই গণনীয় জটিলতা নেই, ফলাফলটি কেবল মোটামুটি অনুমান is)