নরমালাইজেশন এবং মানককরণের মধ্যে পার্থক্য কী?


118

কর্মস্থলে আমরা এটি নিয়ে আলোচনা করছিলাম কারণ আমার বস কখনও সাধারণীকরণের কথা শুনেনি। লিনিয়ার বীজগণিতের মধ্যে, সাধারণীকরণটি কোনও ভেক্টরের দৈর্ঘ্য দ্বারা বিভাজনকে বোঝায় বলে মনে হয়। এবং পরিসংখ্যানগুলিতে, স্ট্যান্ডার্ডাইজেশন তার এসডি দ্বারা বিভাজক একটি গড়ের বিয়োগফলকে বোঝায়। তবে এগুলি অন্যান্য সম্ভাবনার সাথেও বিনিময়যোগ্য বলে মনে হয়।

কোনও ধরণের সার্বজনীন স্কোর তৈরি করার সময়, এটি পৃথক মেট্রিক তৈরি করে, যার বিভিন্ন উপায় এবং বিভিন্ন এসডি রয়েছে, আপনি কি সাধারণকরণ, মানক বা অন্য কিছু করবেন? একজন ব্যক্তি আমাকে বলেছিলেন যে প্রতিটি মেট্রিক গ্রহণ করা এবং তাদের এসডি দ্বারা পৃথকভাবে ভাগ করার বিষয়টি। তারপরে দু'জনের সারসংক্ষেপ করছি। এবং এর ফলে সর্বজনীন স্কোর হবে যা উভয় মেট্রিকের বিচার করতে ব্যবহৃত হতে পারে।2

উদাহরণস্বরূপ, বলুন যে আপনার কাছে সাবওয়েটি কাজ করার লোকের সংখ্যা ছিল (এনওয়াইসি তে) এবং কাজ চালিয়েছেন এমন লোকের সংখ্যা (এনওয়াইসি তে)।

Trainx
Cary

আপনি যদি ট্র্যাফিকের ওঠানামার দ্রুত রিপোর্ট করতে সর্বজনীন স্কোর তৈরি করতে চান, আপনি কেবল এবং যুক্ত করতে পারবেন না কারণ ট্রেনে চড়ে আরও অনেক লোক থাকবে। এনওয়াইসিতে 8 মিলিয়ন লোক, আরও বেশি পর্যটক রয়েছে। এটি কয়েক মিলিয়ন মানুষ ট্রেনটিতে প্রতিদিন কয়েক লক্ষ মানুষকে গাড়িতে করে রাখে। সুতরাং তুলনা করার জন্য তাদের একই ধরণের স্কেলে রুপান্তর করা দরকার।mean(x)mean(y)

যদিmean(x)=8,000,000

এবংmean(y)=800,000

আপনি কি এবং পরে সাধারণ করে তুলবেন? আপনি কি এবং মান যোগ করবেন? অথবা আপনি কি তাদের নিজ নিজ এসডি দ্বারা ভাগ করে নিবেন? এমন কোনও সংখ্যায় পৌঁছনোর জন্য যখন মোটামুটি ওঠানামা হয়, মোট ট্র্যাফিকের ওঠানামা উপস্থাপন করে।xyxy

রেফারেন্সের জন্য বইগুলির যে কোনও নিবন্ধ বা অধ্যায়গুলি অনেক প্রশংসা হবে। ধন্যবাদ!

এছাড়াও আমি যা করার চেষ্টা করছি তার আরেকটি উদাহরণ এখানে।

কল্পনা করুন আপনি কলেজের ডিন, এবং আপনি ভর্তির প্রয়োজনীয়তাগুলি নিয়ে আলোচনা করছেন। আপনি কমপক্ষে একটি নির্দিষ্ট জিপিএ এবং একটি নির্দিষ্ট পরীক্ষার স্কোর সহ শিক্ষার্থীদের চাইতে পারেন। যদি তারা উভয়ই একই স্কেলে থাকত তবে তা ভালো লাগবে কারণ আপনি কেবল দুজনকে একসাথে যুক্ত করতে এবং বলতে পারেন, "কমপক্ষে .0.০ সহ যে কেউ ভর্তি হতে পারে।" এইভাবে, যদি কোনও সম্ভাব্য শিক্ষার্থীর কাছে 4.0 জিপিএ থাকে তবে তারা 3.0 পরীক্ষার স্কোরের মতো কম পেতে পারে এবং এখনও ভর্তি হতে পারে। বিপরীতভাবে, কারও কাছে 3.0 জিপিএ থাকলেও তারা 4.0 পরীক্ষার স্কোর দিয়ে ভর্তি হতে পারে।

তবে এটি এর মতো নয়। অ্যাক্টটি ৩ point পয়েন্ট স্কেলের উপর রয়েছে এবং বেশিরভাগ জিপিএ ৫.০ তে রয়েছে (কিছুটা ৪.৩, হ্যাঁ বিরক্তিকর)। যেহেতু আমি একরকম সার্বজনীন স্কোর পেতে কেবল একটি ACT এবং GPA যুক্ত করতে পারি না, তাই আমি তাদের কীভাবে রূপান্তর করতে পারি যাতে সেগুলি যুক্ত করা যায়, ফলে সর্বজনীন ভর্তির স্কোর তৈরি হয়। এবং তারপরে ডিন হিসাবে, আমি কেবলমাত্র একটি নির্দিষ্ট প্রান্তিকের উপরে স্কোর সহ যে কাউকে স্বয়ংক্রিয়ভাবে গ্রহণ করতে পারি। বা এমনকি যার স্কোর শীর্ষে 95% এর মধ্যে রয়েছে তাদের সবাইকে স্বয়ংক্রিয়ভাবে গ্রহণ করুন .... এই ধরণের জিনিস।

এটা কি নরমালাইজেশন হবে? প্রমিতকরণ? বা কেবল তাদের এসডি দ্বারা ভাগ করে তারপর সংক্ষেপে?


4
প্রশ্নের শেষ অংশটি মনে হচ্ছে আপনি একাধিক বৈশিষ্ট্যের বাইরে মূল্যায়ন তৈরির চেষ্টা করছেন সে সম্পর্কে আরও তথ্যের জন্য stats.stackexchange.com/q/9137 এবং stats.stackexchange.com/q/9358 এ প্রশ্ন এবং উত্তর দেখুন । বিশেষত, নোট করুন যে সাধারণীকরণ বা মানককরণের কোনওটিরই ডিনের সমস্যার সাথে প্রত্যক্ষ প্রাসঙ্গিকতা নেই।
হোয়াট

উত্তর:


64

সাধারণীকরণ মানগুলিকে [0,1] এর একটি ব্যাপ্তিতে পুনরায় আকার দেয়। এটি এমন কিছু ক্ষেত্রে কার্যকর হতে পারে যেখানে সমস্ত পরামিতিগুলির একই ধনাত্মক স্কেল থাকা দরকার। তবে ডেটা সেট থেকে আগতরা হারিয়ে গেছে।

Xchanged=XXminXmaxXmin

মানককরণের ডেটা 0 এর একটি গড় ( ) এবং স্ট্যান্ডার্ড বিচ্যুতি ( ) 1 (ইউনিট ভেরিয়েন্স) হতে পুনরায় শুরু করে।μσ

Xchanged=Xμσ

বেশিরভাগ অ্যাপ্লিকেশনগুলির জন্য মানককরণের প্রস্তাব দেওয়া হয়।


7
আপনি কি দয়া করে ব্যাখ্যা করতে পারেন যে ডেটা স্বাভাবিক করার পরে "ডেটা সেট থেকে আউটলিয়ররা কেন হারিয়ে যায়"?
শিক্ষানবিশ

3
রি-স্কেলিংয়ের ক্ষেত্রে আউটলিয়াররা ফলাফলটিকে প্রভাবিত করবে এবং হারিয়ে ফেলবে না।
ফেরাস

@ এলিয়ারার কল্পনা করুন আপনার যদি [1 2 3 4 5 1000 2 4 5 2000 ...] থাকে। 1000 ডেটাপয়েন্টের নরমালিকৃত মানটি ছোট হয়ে যাবে কারণ আমাদের 2000
কোল্ড

3
@ কুলডিস আমি মনে করি এটি আপনার ব্যবহারের সাধারণীকরণ অ্যালগরিদমের উপর নির্ভর করে। উদাহরণস্বরূপ, আপনি যদি আপনার ডেটাসেটের প্রতিটি সংখ্যা সর্বাধিক মান (উদাহরণস্বরূপ 2000) দ্বারা বিভক্ত করেন তবে সেগুলি 0 থেকে 1 এর মধ্যে হবে এবং এটি বহিরাগতদের প্রভাবিত করবে না।
অ্যালিসন

3
আমি মনে করি এটি আউটলিয়ারগুলিকে মোটেই প্রভাবিত করে না, অন্যথায় এটি অসাধারণ সনাক্তকরণ সফ্টওয়্যারগুলিতে করা হবে না।
অ্যালিসন

44

ব্যবসায়ের বিশ্বে, "নরমালাইজেশন" এর অর্থ সাধারণত মানের পরিসরটি "0.0 থেকে 1.0" হওয়া পর্যন্ত স্বাভাবিক করা হয়। "স্ট্যান্ডার্ডাইজেশন" এর অর্থ সাধারণত যে মানটি তার মান থেকে কতটি মানিক বিচ্যুতি হয় তা পরিমাপ করতে মানগুলির পরিসরটি "মানিক" হয়। তবে, সবাই এর সাথে একমত হবে না। আপনার সংজ্ঞাগুলি ব্যবহার করার আগে সেগুলি ব্যাখ্যা করা ভাল ।

যাই হোক না কেন, আপনার রূপান্তরকে দরকারী কিছু সরবরাহ করতে হবে।

আপনার ট্রেন / গাড়ীর উদাহরণে, প্রতিটি মান কতগুলি স্ট্যান্ডার্ড থেকে তার মান থেকে কতগুলি স্ট্যান্ডার্ড বিচ্যুতি জেনে আপনি কিছু অর্জন করতে পারেন? যদি আপনি একে অপরের বিরুদ্ধে এই "মানকৃত" পদক্ষেপগুলি এক্স ওয়াই প্লট হিসাবে প্লট করেন তবে আপনি একটি পারস্পরিক সম্পর্ক দেখতে পাবেন (ডানদিকে প্রথম গ্রাফটি দেখুন):

http://en.wikipedia.org/wiki/Correlation_and_dependence

যদি তা হয় তবে তার অর্থ কি আপনার কাছে কিছু?

আপনার দ্বিতীয় উদাহরণটি যতদূর যায়, আপনি যদি একটি স্কেল থেকে অন্য স্কেলে কোনও জিপিএকে "সমীকরণ" করতে চান, তবে এই স্কেলগুলি কী মিল রয়েছে? অন্য কথায়, আপনি কীভাবে সেই ন্যূনতমকে সমতুল্য এবং সর্বাধিককে সমতুল্য রূপান্তর করতে পারেন?

এখানে "নরমালাইজেশন" এর একটি উদাহরণ রয়েছে:

সাধারণীকরণের লিঙ্ক

আপনি একবার আপনার জিপিএ এবং এ্যাকটি স্কোরকে একটি বিনিময়যোগ্য ফর্মের মধ্যে পেয়ে গেলে, কী এই্যাক্ট এবং জিপিএ স্কোরকে আলাদাভাবে ওজন করতে হবে? যদি তা হয় তবে কোন ভার ভার আপনার কাছে কিছু বোঝায়?

1 (05/03/2011) সম্পাদনা করুন =========================================== =

প্রথমত, আমি উপরে whuber দ্বারা প্রস্তাবিত লিঙ্কগুলি চেক করতে হবে । নীচের লাইনটি হ'ল আপনার দ্বি-ভেরিয়েবল উভয় সমস্যার মধ্যেই আপনাকে অন্যের পরিবর্তে একটি ভেরিয়েবলের "সমতা" নিয়ে আসতে হবে। এবং, অন্যটি থেকে একটি ভেরিয়েবলকে পৃথক করার একটি উপায়। অন্য কথায়, আপনি যদি এটিকে একটি সরল রৈখিক সম্পর্কের ক্ষেত্রে সহজ করতে পারেন তবে একটি ভেরিয়েবলকে অন্যের থেকে আলাদা করার জন্য আপনার "ওজন" প্রয়োজন।

এখানে দুটি পরিবর্তনশীল সমস্যার উদাহরণ রয়েছে:

মাল্টি-অ্যাট্রিবিউট ইউটিলিটিস

শেষ পৃষ্ঠা থেকে আপনি যদি বলতে পারেন যে প্রমিত ট্র্যাফিক U1(x)বনাম প্রমিত স্ট্র্যাফিক ট্র্যাফিক U2(y)"যুক্ত হয়ে স্বতন্ত্র" হয়, তবে আপনি একটি সাধারণ সমীকরণের সাথে সরে যেতে সক্ষম হতে পারেন যেমন:

U(x, y) = k1*U1(x) + (1 - k1)*U2(y)

যেখানে কে 1 = 0.5 এর অর্থ আপনি প্রমিত গাড়ি / ট্রেনের ট্র্যাফিকের প্রতি উদাসীন। উচ্চতর কে 1 এর অর্থ ট্রেনের ট্র্যাফিক U1(x)বেশি গুরুত্বপূর্ণ।

তবে, যদি এই দুটি ভেরিয়েবলগুলি "সংযোজনযুক্ত স্বতন্ত্র" না হয়, তবে আপনাকে আরও জটিল সমীকরণ ব্যবহার করতে হবে। একটি সম্ভাবনা পৃষ্ঠা 1 এ দেখানো হয়েছে:

U(x, y) = k1*U1(x) + k2*U2(y) + (1-k1-k2)*U1(x)*U2(y)

উভয় ক্ষেত্রেই, আপনাকে এমন একটি ইউটিলিটি নিয়ে আসতে হবে যা U(x, y)বোধগম্য হয়।

আপনার জিপিএ / অ্যাক্ট সমস্যার জন্য একই সাধারণ ওজন / তুলনা ধারণাগুলি ধারণ করে। এমনকি যদি তারা "স্ট্যান্ডার্ডাইজড" না হয়ে "নরমালাইজড" হয়।

একটি শেষ ইস্যু। আমি জানি আপনি এটি পছন্দ করতে যাচ্ছেন না, তবে "যোগমূলক স্বাধীন" শব্দটির সংজ্ঞাটি নীচের লিঙ্কটির পৃষ্ঠা 4 এ রয়েছে। আমি একটি কম জিেকি সংজ্ঞা খুঁজছিলাম, কিন্তু আমি একটি খুঁজে পাইনি। আরও ভাল কিছু পেতে আপনি চারপাশে তাকান।

সংযোজন স্বতন্ত্র

লিঙ্কটি উদ্ধৃত:

Intuitively, the agent prefers being both healthy and wealthy
more than might be suggested by considering the two attributes
separately. It thus displays a preference for probability
distributions in which health and wealth are positively
correlated.

এই প্রতিক্রিয়াটির শীর্ষে যেমন পরামর্শ দেওয়া হয়েছে, আপনি যদি এক্স এক্স প্লটে স্ট্যান্ডার্ডযুক্ত ট্রেন ট্র্যাফিক বনাম প্রমিত গাড়ি ট্রাফিক প্লট করেন তবে আপনি একটি সম্পর্ক দেখতে পাবেন। যদি তা হয় তবে আপনি উপরের অ-লিনিয়ার ইউটিলিটি সমীকরণ বা অনুরূপ কিছুতে আটকে রয়েছেন।


ঠিক আছে. তুমি ঠিক বলছো. আমার সংজ্ঞাটি ব্যাখ্যা করা ভাল। এবং এটি সম্পর্কে আবার ভাবতে, এটি আমার প্রয়োজন সংজ্ঞাগুলি নয়। আমার যা প্রয়োজন তা হ'ল 1 সার্বজনীন স্কোর তৈরি করার উপযুক্ত পদ্ধতি। সেটা অ্যাডমিশন স্কোর হোক বা ট্র্যাফিক স্কোর। কীভাবে একজন অন্যান্য সার্বজনীন মেট্রিক তৈরি করতে পারেন যা তাদের উভয়কে একই স্কেলে রূপান্তরিত করেছিল? এবং ওজন সম্পর্কে চিন্তা করবেন না। আমি বুঝতে পারি যে এমনকি সরাসরি সরাসরি যোগফলগুলি মেট্রিকগুলি 1/1 কে ওজন করে চলেছে। তবে এখনই এটি আমার পক্ষে কম উদ্বেগের বিষয়।
ক্রিস

@ ক্রিস, আমি উপরের সম্পাদনা হিসাবে আমার উত্তর যুক্ত করেছি।
বিল_080

2
(+1) ভাল সম্পাদনা। @ ক্রিস: আপনার এখানে পাওয়ার পয়েন্ট স্লাইডগুলির একটি সংক্ষিপ্ত সেটগুলির নোটগুলির প্রতি আগ্রহী হতে পারে : এটি আমি প্রযুক্তিগত লোকদের যে বিষয় দিয়েছি সে সম্পর্কে এটি একটি উপস্থাপনা। আমি এটি উল্লেখ করেছি কারণ এটিতে "সার্বজনীন মেট্রিক কীভাবে তৈরি করা যায়" তার কিছু চিত্রণ এবং গাইডেন্স রয়েছে।
whuber

মাল্টি-অ্যাট্রিবিউট ইউটিলিটিস লিঙ্কটি মারা গেছে, নিবন্ধটি এখানে পাওয়া যাবে web.archive.org/web/20090530032248/http://www.doc.ic.ac.uk/~frk/…
মিলিগিলবার্ট

6

উত্তরটি সহজ, তবে আপনি এটি পছন্দ করতে যাচ্ছেন না: এটি নির্ভর করে। যদি আপনি উভয় স্কোর থেকে 1 টি সমমানের বিচ্যাকে সমানভাবে মূল্যবান বলে মনে করেন তবে মানিককরণ হ'ল উপায় (দ্রষ্টব্য: বাস্তবে আপনি স্টাডিটিং করছেন , কারণ আপনি জনসংখ্যার এসডি অনুমান করে বিভাজন করছেন )।

যদি তা না হয় তবে সম্ভবত মানাইকরণ একটি ভাল প্রথম ধাপ হবে যার পরে আপনি ওয়েলচোজেন ফ্যাক্টর দ্বারা গুণ করে কোনও একটি স্কোরকে আরও বেশি ওজন দিতে পারেন।


সুতরাং, আপনি কমপক্ষে যা বলছেন যা দিয়ে আমি মানককরণ (স্টাডাটিজিং) হিসাবে বর্ণনা করেছি তা দিয়ে শুরু করুন, তারপরে ডেটা / দৃশ্যের সেরা ফিট করার জন্য ওজনগুলি সামঞ্জস্য করুন? এটা বোধগম্য. আমি কেবল বুঝতে পারি না কেন আমি এসডি দিয়ে ভাগ করব। এবং গবেষণায় আমি স্ট্যান্ডার্ডাইজড মিডন ডিফারেন্স নামে একটি জিনিস পেয়েছি .... এবং আমি নিজেকে বিভ্রান্ত করছি। এটি সহজ হওয়া উচিত বলে মনে হচ্ছে। আপনি উভয়টিকে স্কেল-এ বা অন্যটির মতো একই স্কেলে রেখেছেন, তারপর যোগফল। কিন্তু না. পরিবর্তে আমি বিভ্রান্ত হয়ে পড়েছি এবং সমস্ত উইকি এই মুহুর্তের জন্য বাইরে চলে গেছে।
ক্রিস

0

জিপিএ / অ্যাক্ট বা ট্রেন / গাড়ি সমস্যা সমাধানের জন্য জ্যামিতিক গড় কেন ব্যবহার করবেন না ?

n√ (a1 × a2 × ... × an)

a*বিতরণ থেকে মানটি কোথায় এবং বিতরণের nসূচক।

এই জ্যামিতিক গড়টি নিশ্চিত করে যে প্রতিটি মান তার স্কেল বিতরণ করবে, সমানভাবে গড় মানের ক্ষেত্রে অবদান রাখবে। জ্যামিতিক গড় থেকে আরও দেখুন


3
আমি দেখতে পাচ্ছি না যে জ্যামিতিক গড়টি ওপি বর্ণিত পরিস্থিতিতে উপযুক্ত হবে।
গাং

1
আমি গাং এর সাথে একমত জ্যামিতিক গড় মানে এই সমস্যার সমাধান নয়।
ফেরদি

জ্যামিতিক গড় ছোট সংখ্যার অবদান হ্রাস রোধ করবে। অতএব এটি অসমান স্কেলগুলি একত্রিত করতে হবে যখন এটি মানীকরণ বা স্বাভাবিককরণের বিকল্প হতে পারে।
rnso

0

আমার ক্ষেত্রে, ডেটা সায়েন্স, নরমালাইজেশন হ'ল ডেটার ট্রান্সফর্মেশন যা ডেটা স্ট্রিমের সাথে ডেটার সহজে তুলনা করতে দেয়। অনেক ধরণের নরমালাইজেশন রয়েছে। তাদের মধ্যে একটি হচ্ছে স্কেলিং। আপনি ডেটা লগ করতে পারেন, বা আপনি চান অন্য কিছু করতে পারেন। সাধারণকরণের ধরণটি আপনি চান ফলাফলের উপর নির্ভর করে যেহেতু সমস্ত সাধারণকরণই ডেটাটিকে অন্য কিছুতে রূপান্তরিত করে।

এখানে আমি সাধারণীকরণের উদাহরণগুলি বিবেচনা করি of স্কেলিং নরমালাইজেশন কোয়ান্টাইল নরমালাইজেশন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.