একটি রৈখিক মডেল জন্য , সংকোচন শব্দটি সর্বদা ।পি ( β )
কী কারণে আমরা বায়াস (ইন্টারসেপ্ট) শব্দটি সঙ্কুচিত করি না ? নিউরাল নেটওয়ার্ক মডেলগুলিতে কি আমাদের পক্ষপাতের শব্দটি সঙ্কুচিত করা উচিত?
একটি রৈখিক মডেল জন্য , সংকোচন শব্দটি সর্বদা ।পি ( β )
কী কারণে আমরা বায়াস (ইন্টারসেপ্ট) শব্দটি সঙ্কুচিত করি না ? নিউরাল নেটওয়ার্ক মডেলগুলিতে কি আমাদের পক্ষপাতের শব্দটি সঙ্কুচিত করা উচিত?
উত্তর:
হাস্টি এবং অন্যান্য দ্বারা পরিসংখ্যানগত শিক্ষার উপাদানসমূহ । নীচে রিজ রিগ্রেশন সংজ্ঞায়িত করুন (বিভাগ 3.4.1, সমীকরণ 3.41): অর্থাৎ স্পষ্টভাবে ইন্টারসেপ্ট শব্দটি কে রিজ পেনাল্টি থেকে বাদ দিন ।
তারপরে তারা লিখেছেন:
[...] লক্ষ্য করুন যে আটকানো দণ্ডের মেয়াদ বাদ পড়েছে। ইন্টারসেপ্টের দন্ডনীয়করণ পদ্ধতিটি ওয়াইয়ের জন্য নির্বাচিত উত্সের উপর নির্ভর করবে ; অর্থাত, y_i লক্ষ্যগুলির প্রত্যেকটিতে একটি ধ্রুবক করার ফলে কেবল একই পরিমাণ সি দ্বারা ভবিষ্যদ্বাণীগুলি স্থানান্তরিত হবে না ।
প্রকৃতপক্ষে, ইন্টারসেপ্ট শর্তের উপস্থিতিতে, সমস্ত তে করার ফলে কেবলমাত্র দ্বারা বৃদ্ধি এবং একইভাবে সমস্ত পূর্বাভাসিত মান দ্বারাও বৃদ্ধি পাবে । যদি ইন্টারসেপ্টটিকে শাস্তি দেওয়া হয় তবে এটি সত্য নয়: চেয়ে কম বৃদ্ধি করতে হবে ।Y আমি β 0 গ Y আমি গ β 0 গ
প্রকৃতপক্ষে, লিনিয়ার রিগ্রেশনের বেশ কয়েকটি দুর্দান্ত এবং সুবিধাজনক বৈশিষ্ট্য রয়েছে যা একটি সঠিক (আনপেনালাইজড) ইন্টারসেপ্ট শব্দটির উপর নির্ভর করে। উদাহরণস্বরূপ এর গড় মান এবং এর গড় মান সমান এবং (ফলস্বরূপ) স্কোয়ার একাধিক পারস্পরিক সম্পর্কের সহগের নির্ধারণের সহগের সমান : দেখুন উদাহরণস্বরূপ এই থ্রেড একটি ব্যাখ্যা: একাধিক পারস্পরিক সম্পর্কের সহগের জ্যামিতিক ব্যাখ্যা এবং সংকল্প সহগ ।Y আমি আর আর 2 ( আর ) 2 = কোসাইন্ 2 ( Y , Y ) = ‖ Y ‖ 2আরআর2
ইন্টারসেপ্টটিকে শাস্তি দেওয়ার ফলে সেগুলি আর সত্য হয় না।
সঙ্কুচিত হওয়া বা নিয়মিতকরণের উদ্দেশ্যটি স্মরণ করুন। প্রশিক্ষণ ডেটা বা তার সমতুল্য পরিমাণের তুলনায় শেখার অ্যালগরিদমকে প্রতিরোধ করা - ইচ্ছামত বৃহত প্যারামিটার মানগুলি বাছাই করা থেকে বিরত রাখা। গোলমালের উপস্থিতিতে কয়েকটি সংখ্যক প্রশিক্ষণের উদাহরণ সহ ডেটাসেটগুলির ক্ষেত্রে এটি খুব বেশি (শব্দটির উপস্থিতি এবং এর প্রভাব সম্পর্কে খুব আকর্ষণীয় আলোচনা ইয়াসার আবু-মোস্তফার "ডেটা লার্নিং" এ আলোচনা করা হয়েছে)। কোনও নিয়মিতকরণ ছাড়াই শোরগোলের ডেটাতে শিখানো একটি মডেল সম্ভবত কিছু অদেখা ডেটা পয়েন্টগুলিতে খারাপ অভিনয় করবে।
এটি মনে রেখে, কল্পনা করুন আপনার কাছে 2D ডেটা পয়েন্ট রয়েছে যা আপনি দুটি শ্রেণিতে শ্রেণিবদ্ধ করতে চান। বায়াস প্যারামিটারগুলি বাদ দিয়ে সমস্ত কিছু থাকা, পক্ষপাতের শব্দটি পৃথক করে কেবল সীমানাটি উপরে বা নীচে সরানো হবে। আপনি এটি একটি উচ্চতর মাত্রিক স্থানে সাধারণীকরণ করতে পারেন।
লার্নিং অ্যালগরিদম পক্ষপাত মেয়াদে নির্বিচারে বড় মান রাখতে পারে না কারণ এর ফলে সম্ভবত মোট লোকসানের মান হবে (মডেলটি প্রশিক্ষণের ডেটা ফিট করবে না)। অন্য কথায়, কিছু প্রশিক্ষণের সেট দেওয়ার পরে, আপনি (বা একটি শেখার অ্যালগরিদম) বিমানটিকে নির্বিচারে সত্যের থেকে অনেক দূরে সরাতে পারবেন না।
সুতরাং, পক্ষপাতের শব্দটি সঙ্কুচিত করার কোনও কারণ নেই, শেখার অ্যালগরিদম খুব বেশি ঝুঁকির ঝুঁকি ছাড়াই ভালটি খুঁজে পাবে।
একটি চূড়ান্ত নোট: আমি কয়েকটি কাগজে দেখেছি যে শ্রেণিবিন্যাসের জন্য উচ্চ-মাত্রিক জায়গাগুলিতে কাজ করার সময়, পক্ষপাতের শব্দটি মডেল করার কোনও কঠোর প্রয়োজন হয় না। এটি রৈখিকভাবে পৃথকযোগ্য ডেটাগুলির জন্য কাজ করতে পারে যেহেতু আরও মাত্রা যুক্ত করা হয়েছে, দুটি ক্লাস পৃথক করার আরও সম্ভাবনা রয়েছে।
ইন্টারসেপ্ট শব্দটি সঙ্কুচিত হওয়ার জন্য একেবারেই সুরক্ষা নয়। সাধারণ "সঙ্কুচিতকরণ" (অর্থাত্ নিয়মিতকরণ) সূত্রটি নিয়মিতকরণের মেয়াদটিকে ক্ষতির ক্রিয়ায় রাখে, যেমন:
যেখানে সাধারণত কোনও লেবেসোগের আদর্শের সাথে সম্পর্কিত হয়, এবং ল্যাম্বদা এমন একটি স্কেলার যা নিয়ন্ত্রণের শর্তে আমরা কতটা ওজন রেখেছি তা নিয়ন্ত্রণ করে।λ
ক্ষতির ক্ষেত্রে এইভাবে সঙ্কুচিত শব্দটি রেখে, এটি মডেলের সমস্ত সহগের উপর প্রভাব ফেলে । আমি সন্দেহ করি যে আপনার প্রশ্নটি নোটেশন সম্পর্কে একটি বিভ্রান্তি থেকেই উত্থাপিত হয়েছে যার মধ্যে ( ) সহ সমস্ত সহগের একটি ভেক্টর । আপনার রৈখিক মডেলটি সম্ভবত হিসাবে আরও ভাল লেখা হবে যেখানে "ডিজাইন ম্যাট্রিক্স", যার অর্থ এটি হ'ল একটি কলামের বাম পাশে সংযুক্ত আপনার ডেটা (ইন্টারসেপ্ট নিতে )।পি ( β ) β 0 y = এক্স β + ϵ এক্স 1 ′ গুলি
এখন, আমি নিউরাল নেটওয়ার্কগুলির নিয়মিতকরণের জন্য কথা বলতে পারি না। এটা সম্ভব যে নিউরাল নেটওয়ার্কগুলির জন্য আপনি পক্ষপাতের শব্দটি সঙ্কুচিত হওয়া এড়াতে চান বা অন্যথায় নিয়মিত ক্ষতির কাজটি উপরে বর্ণিত ফর্মুলেশন থেকে আলাদাভাবে ডিজাইন করতে চান। আমি শুধু জানি না। তবে আমি দৃ strongly়ভাবে সন্দেহ করি যে ওজন এবং পক্ষপাতের শর্তগুলি একসাথে নিয়মিত করা হয়েছে।
আমি সহজ ব্যাখ্যা দেব, তারপরে প্রসারিত করব।
ধরুন আপনি শূন্যে সঙ্কুচিত হন, তারপরে আপনার মডেলটি কার্যকরভাবে পরিণত হবে: এই মডেলটির সাথে কেবল একটি সমস্যা: , যা লিনিয়ার ধারণা অনুমান করে। সুতরাং, আনুমানিক সহগের পক্ষে নিরপেক্ষতার মতো সুন্দর বৈশিষ্ট্য থাকবে না।
এটি বাধাটির মূল উদ্দেশ্যটি দেখায়: গড়টি ধরা। আমি মনে করি যে বহু লোক লিনিয়ার রিগ্রেশন-এ ইন্টারসেপ্টের গুরুত্ব উপলব্ধি করতে পারে না। এটি প্রায়শই ভবিষ্যদ্বাণীকের "আসল" একটি কম সেক্সি ছোট ভাই হিসাবে তাকাতে থাকে। যাইহোক, আপনি যেমনটি "উত্সার মাধ্যমে রিগ্রেশন" থেকে জানেন যে মডেল থেকে ইন্টারসেপ্ট বাদ দেওয়া প্রায়শই অনাকাঙ্ক্ষিত পরিণতির দিকে পরিচালিত করে।
এই মডেলটি মূল মডেলের মতো সেক্সি নয়, বাস্তবে এটি মূর্খ। তবে এটি একটি আইনী মডেল। আপনি এটিতে আনোভা চালাতে পারেন, উদাহরণস্বরূপ।