জিরো মিন এবং ইউনিট ভেরিয়েন্স


10

আমি ডেটা স্কেলিং এবং বিশেষত মানক পদ্ধতিটি অধ্যয়ন করছি। আমি এর পিছনে গণিতটি বুঝতে পেরেছি, তবে বৈশিষ্ট্যগুলি শূন্য এবং গড়ের একক বৈকল্পিকতা দেওয়া কেন গুরুত্বপূর্ণ তা আমার কাছে স্পষ্ট নয়।

তুমি কি আমাকে ব্যাখ্যা করতে পারবে ?


এখানে একবার দেখুন ।
মিডিয়া

এটি দুর্দান্ত হবে: मध्यम.com
লার্নার ঝাং

উত্তর:


8

এটি কেন গুরুত্বপূর্ণ এবং কেন এই প্রশ্নগুলি প্রসঙ্গে নির্ভর করে।

  • গ্রেডিয়েন্ট বুস্টেড ডিসিশন ট্রিগুলির জন্য, উদাহরণস্বরূপ, এটি গুরুত্বপূর্ণ নয় - এই এমএল অ্যালগরিদমগুলি ডেটাতে একঘেয়ে রূপান্তর সম্পর্কে "যত্ন করে না"; তারা এটিকে বিভক্ত করার জন্য কেবল পয়েন্ট অনুসন্ধান করে।

  • লিনিয়ার ভবিষ্যদ্বাণীগুলির জন্য উদাহরণস্বরূপ, স্কেলিং ফলাফলের ব্যাখ্যার উন্নতি করতে পারে। যদি আপনি সহগের তীব্রতা সম্পর্কে কিছু ভাবতে চান তবে কোনও বৈশিষ্ট্যটি ফলাফলকে কতটা প্রভাব ফেলছে তার কিছু ইঙ্গিত হিসাবে, তবে বৈশিষ্ট্যগুলি কোনওভাবে একই অঞ্চলে ছোট করতে হবে।

  • কিছু ভবিষ্যদ্বাণীকারীদের জন্য, বিশেষত এনএন, স্কেলিং এবং বিশেষত একটি নির্দিষ্ট পরিসরে স্কেলিং প্রযুক্তিগত কারণে গুরুত্বপূর্ণ হতে পারে। কিছু স্তরগুলি এমন ফাংশন ব্যবহার করে যা কেবলমাত্র কিছু অঞ্চলে কার্যকরভাবে পরিবর্তিত হয় ( ফাংশনগুলির হাইপারবোলিক-পরিবারের মতো ) এবং যদি বৈশিষ্ট্যগুলি সীমার বাইরে খুব বেশি থাকে তবে স্যাচুরেশন ঘটতে পারে। যদি এটি ঘটে থাকে তবে সংখ্যাসূচক ডেরিভেটিভগুলি খারাপভাবে কাজ করবে এবং অ্যালগরিদম ভাল পয়েন্টে রূপান্তর করতে সক্ষম হবে না।

এখানে চিত্র বর্ণনা লিখুন


2

শূন্য অর্থের ক্ষেত্রে এটি হ'ল কারণ কিছু মেশিন লার্নিং মডেলগুলি তাদের প্রতিনিধিত্বের ক্ষেত্রে পক্ষপাতিত্ব শব্দটি অন্তর্ভুক্ত করে না তাই বায়াস টার্মের অভাবে কনপেনসেটে অ্যালগরিদমে খাওয়ানোর আগে আমাদের উত্সের চারপাশের ডেটা স্থানান্তর করতে হবে। ইউনিট ভেরিয়েন্সের ক্ষেত্রে, কারণ প্রচুর মেশিন লার্নিং অ্যালগরিদমগুলি সিদ্ধান্ত নিতে বা ভবিষ্যদ্বাণী করতে কোনও ধরণের দূরত্ব (যেমন ইউক্লিডিয়ান) ব্যবহার করে। যদি কোনও নির্দিষ্ট বৈশিষ্ট্যের বিস্তৃত মান থাকে (অর্থাত্ বৃহত বৈকল্পিক), দূরত্বটি সেই বৈশিষ্ট্য দ্বারা অত্যন্ত প্রভাবিত হবে এবং অন্যান্য বৈশিষ্ট্যের প্রভাব উপেক্ষা করা হবে। যাইহোক, ডেটা মানক করা হলে কিছু অপ্টিমাইজেশন অ্যালগরিদম (গ্রেডিয়েন্ট বংশদ্ভূত সহ) এর আরও ভাল পারফরম্যান্স থাকে।


2
  • যখনই আমরা মেশিন লার্নিংয়ের কোনও ডেটাসেট দিয়ে শুরু করি, আমরা প্রায়শই ধরে নিয়েছি যে আউটপুট সম্পর্কিত সমস্ত ডেটা বৈশিষ্ট্য সমানভাবে গুরুত্বপূর্ণ এবং একটি বৈশিষ্ট্য অন্য বৈশিষ্ট্যের উপর প্রভাব ফেলবে না। আমরা সাধারণভাবে সমস্ত বৈশিষ্ট্যকে একই স্কেলে আনতে বেছে নেওয়ার কারণটি সাধারণ That's
    তবে, এখানে একটি সন্দেহ উত্থাপন করতে পারে যে বৈশিষ্ট্যগুলি স্বাভাবিক না করা সত্ত্বেও শিখার সময় এটিতে নির্ধারিত ওজন প্রশিক্ষণের সময় ডেটা সেট করা প্রত্যাশিত আউটপুটে রূপান্তর করতে সহায়তা করে। এটির সাথে সমস্যাটি হ'ল প্রশিক্ষণ দিতে এবং ফলাফল তৈরি করতে এটি সত্যই দীর্ঘ সময় নেয়।
  • নির্দিষ্ট নম্বর 0 হিসাবে গড় এবং বৈকল্পিক 1 চয়ন করা কেবলমাত্র সহজেই কল্পনা করা সহজ এবং এ জাতীয় সংখ্যক সংখ্যা রাখা দ্রুত প্রশিক্ষণে সহায়তা করবে।

অতএব, সহজেই প্রশিক্ষণের জন্য পর্যাপ্ত পরিমাণে সমস্ত বৈশিষ্ট্য আনার পরামর্শ দেওয়া হচ্ছে suggested নীচের লিঙ্কেও অনুরূপ ধারণা নিয়ে আলোচনা করা হয়েছে। /stats/41704/how-and-why-do-normalization-and-feature-scaling-work

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.