সাধারণীকরণ বনাম স্কেলিং


45

ডেটা 'নরমালাইজেশন' এবং ডেটা 'স্কেলিং' এর মধ্যে পার্থক্য কী? এখনও অবধি আমি ভেবেছিলাম উভয় পদই একই প্রক্রিয়াটিকে বোঝায় তবে এখন বুঝতে পারলাম এর বাইরে আরও কিছু আছে যা আমি জানি / বুঝতে পারি না। এছাড়াও যদি নরমালাইজেশন এবং স্কেলিংয়ের মধ্যে পার্থক্য থাকে তবে কখন আমরা নরমালাইজেশন ব্যবহার করব তবে স্কেলিং এবং তদ্বিপরীত ব্যবহার করা উচিত না?

দয়া করে কিছু উদাহরণ সহ বিস্তারিতভাবে বর্ণনা করুন।


6
সাধারণকরণের অর্থ সাধারণত আপনার পর্যবেক্ষণগুলি x কে f ({\ bf x}) এ রূপান্তর করা f(x)(যেখানে f একটি পরিমাপযোগ্য, সাধারণত ক্রমাগত, ফাংশন) যেমন তারা সাধারণত বিতরণ দেখায় । তথ্যকে স্বাভাবিক করার জন্য রূপান্তরের কয়েকটি উদাহরণ হ'ল পাওয়ার ট্রান্সফরমেশনস্কেলিংয়ের সহজ অর্থ f(x)=cx , cR , এটি হল আপনার পর্যবেক্ষণকে একটি ধ্রুবক সি দ্বারা গুণিত করে cযা স্কেল পরিবর্তন করে (উদাহরণস্বরূপ ন্যানোমিটার থেকে কিলোমিটার) ।



উত্তর দেওয়ার পরিসংখ্যান সম্পর্কে আমার যথেষ্ট খ্যাতি নেই। আমি মনে করি আপনার প্রশ্নের শিরোনামটি নরমালাইজেশন বনাম মানক হওয়া উচিত, যেহেতু এই দুটি পুনরুদ্ধারের পৃথক পদ্ধতি aches নরমালাইজেশন মানগুলি 0 এবং 1 এর পরিসীমাতে পুনরুদ্ধার করছে যখন মানীকরণ বন্টনকে গড় হিসাবে 0 এবং মানকে বিচ্যুতি হিসাবে 1 হিসাবে স্থানান্তরিত করছে।
হামিদ হেডিয়েরিয়ান

উত্তর:


23

আমি কোনও "অফিসিয়াল" সংজ্ঞা সম্পর্কে অবগত নই এবং এমনকি তা থাকলেও আপনার এটি বিশ্বাস করা উচিত নয় কারণ আপনি দেখতে পাবেন যে এটি বাস্তবে অসঙ্গতিপূর্ণভাবে ব্যবহৃত হচ্ছে।

এটি বলা হচ্ছে, পরিসংখ্যানগুলিতে স্কেলিংয়ের অর্থ সাধারণত ফ (x) = কুড়াল + বি ফর্মের রৈখিক রূপান্তর f(x)=ax+b

সাধারণকরণের অর্থ হয় রূপান্তরকরণ প্রয়োগ করা যাতে আপনার রূপান্তরিত ডেটা প্রায় সাধারনত বিতরণ করা হয় তবে এর অর্থ সহজেই একটি সাধারণ স্কেলে বিভিন্ন ভেরিয়েবল স্থাপন করা। মানককরণ, যার অর্থ গড়কে বিয়োগ করা এবং মানক বিচ্যুতি দ্বারা ভাগ করা, পরবর্তী ব্যবহারের একটি উদাহরণ। আপনি দেখতে পাচ্ছেন এটি স্কেলিংয়ের একটি উদাহরণও। প্রথম উদাহরণ হিসাবে লগনরমাল বিতরণ ডেটার জন্য লগ গ্রহণ করা হবে।

তবে আপনাকে যা সরিয়ে নেওয়া উচিত তা হ'ল আপনি যখন এটি পড়েন তখন আপনাকে লেখক কী করেছিলেন তার আরও সুনির্দিষ্ট বিবরণ সন্ধান করা উচিত। কখনও কখনও আপনি প্রসঙ্গ থেকে এটি পেতে পারেন।


14

নম্বরগুলি সঠিক বোধ করা সম্পর্কে স্কেলিং হ'ল ব্যক্তিগত পছন্দ, যেমন শূন্য এবং এক, বা এক এবং একশ এর মধ্যে। উদাহরণস্বরূপ, মিলিমিটারগুলিতে দেওয়া ডেটা মিটারে রূপান্তর করা কারণ এটি আরও সুবিধাজনক, বা মেট্রিককে ইমপিরিয়াল।

স্থানীয়করণের ক্ষেত্রে - যেমন সাধারণকরণ কোনও বাহ্যিক 'স্ট্যান্ডার্ড' - এর সাথে সম্পর্কিত হয়, যেমন গড় মানটি সরিয়ে নেওয়া এবং নমুনা স্ট্যান্ডার্ড বিচ্যুতি দ্বারা ভাগ করা, উদাহরণস্বরূপ যাতে আপনার বাছাই করা ডেটা একটি কমমুলেটিভ নরমাল বা কোমল্যাটিভ পোইসনের সাথে তুলনা করা যায়, বা যাই হোক.

সুতরাং যদি কোনও প্রভাষক বা ম্যানেজার ডেটাটিকে 'নরমালাইজড' করতে চান তবে এর অর্থ "এটি আমার পথে পুনরায় স্কেল করুন " ;-)


9

আপনার ঠিক এটি বোঝা গেছে কিনা তা আমি জানি না তবে আমি প্রচুর লোককে নরমালাইজেশন অর্থ ডেটা স্ট্যান্ডার্ডাইজেশন হিসাবে উল্লেখ করে দেখছি। মানককরণ আপনার ডেটা রুপান্তর করছে তাই এর অর্থ 0 এবং স্ট্যান্ডার্ড বিচ্যুতি 1:

x <- (x - mean(x)) / sd(x)

আমি ডেটা স্কেলিংয়ের জন্য নরমালাইজেশন শব্দটি ব্যবহার করে এমন লোককেও দেখতে পাই, যেমন আপনার ডেটা 0-1 রেঞ্জে রূপান্তরিত করে:

x <- (x - min(x)) / (max(x) - min(x))

এটা বিভ্রান্তিকর হতে পারে!

উভয় কৌশল তাদের উপকারিতা এবং কনস আছে। অনেক বেশি আউটলিয়ারের সাথে একটি ডেটাসেট স্কেল করার সময়, আপনার অ-আউটিলারের ডেটা খুব ছোট ব্যবধানে শেষ হতে পারে। সুতরাং যদি আপনার ডেটাসেটের অনেক বেশি বিদেশী থাকে, আপনি এটি মানক হিসাবে বিবেচনা করতে চাইতে পারেন। তবুও, যখন আপনি এটি করেন তখন আপনি নেতিবাচক ডেটা (কখনও কখনও আপনি এটি চান না) এবং আনবাউন্ডেড ডেটা (আপনি এটিও নাও চাইতে পারেন) দিয়ে শেষ করবেন।


3

কেন্দ্রীকরণ বলতে ভেরিয়েবলগুলি থেকে র্যান্ডম ভেরিয়েবলের গড়কে পৃথক করা হয় means অর্থাৎ x-xi

স্কেলেলিং এর অর্থ এর মানক বিচ্যুতির মাধ্যমে পরিবর্তনশীলকে ভাগ করা। অর্থাৎ xi / s

দুজনের সংমিশ্রণকে নরমালাইজেশন বা স্ট্যান্ডাইজেশন বলে। অর্থাৎ এক্স-এক্স / এস


প্রশ্নটি একটি সদৃশ।
মাইকেল চেরনিক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.