আমরা কেন পিসিএ করার আগে স্ট্যান্ডার্ড বিচ্যুতি এবং অন্য কোনও মানক কারণের দ্বারা ভাগ করব না?


17

আমরা কেন কাঁচা তথ্যটিকে তার মানক বিচ্যুত করে বিভক্ত করে তা সম্পর্কে (সিএস 229 কোর্স নোটগুলি থেকে) নীচের ন্যায়সঙ্গততাটি পড়ছিলাম:

এখানে চিত্র বর্ণনা লিখুন

যদিও ব্যাখ্যাটি কী বলছে তা আমি বুঝতে পেরেছি, কেন স্ট্যান্ডার্ড বিচ্যুতি দ্বারা বিভাজন এই ধরনের লক্ষ্য অর্জন করবে তা আমার কাছে স্পষ্ট নয়। এটি বলছে যাতে সবাই একই "স্কেল" এ আরও বেশি থাকে। যাইহোক, এটি পুরোপুরি পরিষ্কার নয় যে স্ট্যান্ডার্ড বিচ্যুতি দ্বারা বিভাজন কেন এটি অর্জন করে। পছন্দ করুন, বৈকল্পিক দ্বারা বিভাজনে কী ভুল? কেন অন্য কিছু পরিমাণ? মত ... পরম মানের যোগফল? বা অন্য কোনও আদর্শ ... এসটিডি বাছাই করার জন্য কি গাণিতিক যুক্তি আছে?

এই এক্সট্রাক্টের দাবীগুলি কি একটি তাত্ত্বিক বিবৃতি যা গণিতের (এবং / অথবা পরিসংখ্যান) মাধ্যমে উত্পন্ন / প্রমাণিত হতে পারে বা "অনুশীলনে" কাজ করে বলে মনে হচ্ছে এমন কি আমরা এই বক্তব্যগুলির মধ্যে আরও একটি?

মূলত, যে কেউ স্বজ্ঞাততা কেন সত্য তা সম্পর্কে একটি কঠোর গাণিতিক ব্যাখ্যা সরবরাহ করতে পারে? বা যদি এটি কেবল একটি অভিজ্ঞতাগত পর্যবেক্ষণ হয় তবে আমরা কেন পিসিএ করার আগে এটি সাধারণভাবে কাজ করে বলে মনে করি?

এছাড়াও, পিসিএ প্রসঙ্গে, এটি কি মানিককরণ বা স্বাভাবিককরণের প্রক্রিয়া?


আমার অন্য কিছু চিন্তাভাবনাগুলি এসটিডি কেন "ব্যাখ্যা" করতে পারে তা:

যেহেতু পিসিএটি বৈকল্পিকতা সর্বাধিকীকরণ থেকে উদ্ভূত হতে পারে, তাই আমি অনুমান করেছি যে এসটিডি দ্বারা সম্পর্কিত পরিমাণ দ্বারা বিভাজন করা, এসটিডি দ্বারা বিভক্ত হওয়া অন্যতম কারণ হতে পারে। তবে আমি বিবেচনা করেছি যে সম্ভবত আমরা যদি অন্য কোনও আদর্শের সাথে "বৈকল্পিক" সংজ্ঞায়িত করি, , তারপরে আমরা সেই আদর্শের এসটিডি দ্বারা ভাগ করব (pth মূল বা কিছু নিয়ে)। যদিও এটি কেবল অনুমান ছিল এবং আমি এটি সম্পর্কে 100% নই, তাই প্রশ্ন। আমি ভাবছিলাম যে কেউ এর সাথে সম্পর্কিত কিছু জানত কিনা।1ni=1n(xiμ)p


আমি দেখেছি যে এখানে কোনও সম্পর্কিত প্রশ্ন থাকতে পারে:

পারস্পরিক সম্পর্ক বা সমবায় নিয়ে পিসিএ?

তবে এটি "পারস্পরিক সম্পর্ক" বা "সমবায়" কখন ব্যবহার করবেন সে সম্পর্কে আরও কথা বলে মনে হয়েছিল তবে কঠোর বা দৃinc়প্রত্যয়ী বা বিশদ ন্যায্যতার অভাব ছিল, যার মূলত আমি আগ্রহী।

একই জন্য:

বিশ্লেষণের আগে আমাদের কেন ডেটা স্বাভাবিক করার দরকার

সম্পর্কিত:

এসভিডি / পিসিএর জন্য "নরমালাইজিং" ভেরিয়েবল


1
গাণিতিক কারণ রয়েছে - প্রতিটি ভেরিয়েবলের জন্য এসডি দ্বারা (কেন্দ্রিক) ডেটা ভাগ করা একটি রূপান্তরিত ডেটা সেট তৈরি করে যার কোভারিয়েন্স ম্যাট্রিক্স কেবলমাত্র মূল (কেন্দ্রিক) উপাত্তের পারস্পরিক সম্পর্ক ম্যাট্রিক্স। এর পরে, আমরা আবার কোভরিয়েন্স ম্যাট্রিক্স অঞ্চল বনাম পারস্পরিক সম্পর্ক স্থাপন করছি। আপনি কীভাবে তথ্যকে সাধারণীকরণের সাথে কোভেরিয়েন্স ম্যাট্রিক্সকে পরস্পর সম্পর্ক ম্যাট্রিক্সে পরিণত করেন তার প্রমাণ চাইছেন?
সিলভারফিশ

আপনার শিরোনাম প্রশ্নটি পড়ছে যেন আপনি জিজ্ঞাসা করছেন এটি সাধারণ করার উদ্দেশ্য কী (সাধারণীকরণ না করার বিপরীতে)। এটি "পিসিএ অফ রিলেশন বা কোভেরিয়েন্স" এর একটি সদৃশ হবে। যাইহোক, আপনি আসলে যা জিজ্ঞাসা করছেন বলে মনে হচ্ছে এটি হল কেন সাধারণকরণ এসটিডি দ্বারা বিভাজনের মাধ্যমে করা হয় (বৈকল্পিক, বা পরিসর ইত্যাদি দ্বারা বিভাজনের বিপরীতে)। যদি তা হয় তবে শিরোনাম প্রশ্নটি আরও সুনির্দিষ্ট করে তুলতে আপনি কি সম্পাদনা করতে চান?
অ্যামিবা বলেছেন মোনিকা

3
পরিভাষা সম্পর্কে, "নরমালাইজিং" একটি নির্দিষ্ট শব্দ নয় এবং বিভিন্ন জিনিসকে বোঝাতে পারে। যদিও "স্ট্যান্ডার্ডাইজিং" এর অর্থ গড় বিয়োগ করা এবং মানক বিচ্যুতি দ্বারা বিভাজন, যা আপনি উল্লেখ করছেন।
অ্যামিবা বলছেন মনিকাকে

2
আমার যুক্ত করা উচিত যা আমি মনে করি আপনার প্রশ্নটি খুব ভাল (+1)। প্রকৃতপক্ষে অন্য কোনও কিছু দ্বারা ভাগ করে কেউ স্বাভাবিক করতে পারে; উদাহরণস্বরূপ, স্ট্যান্ডার্ড বিচ্যুতি একটি খুব অ-শক্তিশালী পরিমাপ এবং শক্তিশালী বহিরাগতদের উপস্থিতিতে বিভ্রান্তিকর হতে পারে। সুতরাং কেউ তার পরিবর্তে কিছু শক্তিশালী পরিমাপের মাধ্যমে বিভাজন চয়ন করতে পারেন (উদাহরণস্বরূপ "মিডিয়ান পরম বিচ্যুতি" দেখুন)। কেন এসটিডি ব্যবহার করা স্বাভাবিক হওয়ার সর্বোত্তম উপায় এটির কোনও "কঠোর গাণিতিক ব্যাখ্যা" নেই এবং আপনি এই চিহ্নটিতে ঠিকই বলেছেন যে এটি "কেবলমাত্র একটি অভিজ্ঞ অভিজ্ঞতা" যা এটি প্রায়শই ভালভাবে কাজ করে।
অ্যামিবা বলেছেন মনিকাকে

2
পুনরায় "কেন পরিবর্তে বৈকল্পিক দ্বারা ভাগ করবেন না" - এটি মাত্রিক অসঙ্গতি দ্বারা মোটামুটি সহজে ব্যাখ্যা করা যেতে পারে। উদাহরণস্বরূপ, আপনি একক পরিবর্তনশীলগুলির ইউনিট পরিবর্তন করলে এটি আপনাকে আশ্চর্যজনক ফলাফল দেয়। পুনরায় "কেন এমএডি দ্বারা ভাগ করবেন না" - যদি তথ্যগুলি সাধারণত বিতরণ করা হত, তবে (জনসংখ্যায়) এমএডি এসডি-র সমানুপাতিক, তাই এমএডির উপযুক্ত একাধিক দ্বারা বিভাজন করা সম্ভব হবে (অকার্যকর তবে সম্ভবত শক্তিশালী হবে)? ) পারস্পরিক সম্পর্কের অনুমান। এটি আরও আকর্ষণীয়।
সিলভারফিশ

উত্তর:


11

এটি আংশিক উত্তরে "আমার কাছে এটি পরিষ্কার নয় যে কেন আদর্শ বিচ্যুতি দ্বারা বিভাজন এই ধরনের লক্ষ্য অর্জন করবে"। বিশেষত, কেন এটি রূপান্তরিত (মানকৃত) ডেটা "একই স্কেল" এ রাখে। প্রশ্নটি আরও গভীর ইঙ্গিতগুলিতে ইঙ্গিত দেয় ("কীভাবে" কাজ করতে পারে তার সাথে আর কী থাকতে পারে, যা "কাজ" এর অর্থ, গাণিতিকভাবে কী হতে পারে তার সাথে যুক্ত), তবে কেন এই পদ্ধতিটি "কাজ করে" তার আরও সরল দিকগুলিতে কমপক্ষে যুক্তি দেওয়া বোধগম্য মনে হয়েছিল। - অর্থাৎ, পাঠ্যে এর জন্য করা দাবিগুলি অর্জন করে।

সোনার ও কলাম জে এন্ট্রি হ'ল আই টি এইচ এবং জে টি এইচ ভেরিয়েবলের মধ্যে সমান্তরালতা। নোট করুন যে একটি তির্যক, সারি i এবং কলাম i এ , এটি আই টি এইচ ভেরিয়েবল এবং নিজের মধ্যে সমবায় হয়ে যায় - যা কেবলমাত্র আই টি এইচ ভেরিয়েবলের বৈকল্পিক।ijithjthiiithith

আসুন ভেরিয়েবল এক্স আই এবং জে টি এইচ ভেরিয়েবল এক্স জে ; আমি ধরে নেব এগুলি ইতিমধ্যে কেন্দ্রিক যাতে তাদের শূন্যের অর্থ হয়। সি ভি ( এক্স আই , এক্স জে ) = σ এক্স আই স্মরণ করুনithXijthXj

Cov(Xi,Xj)=σXiσXjCor(Xi,Xj)

Zi=XiσXi

Var(Zi)=Var(XiσXi)=1σXi2Var(Xi)=1σXi2σXi2=1

একইভাবে । যদি আমরা মানকযুক্ত ভেরিয়েবলগুলির জন্য covariance ম্যাট্রিক্সের সারি i এবং কলাম জে এন্ট্রি নিই তবে নোট করুন যেহেতু তারা মানকযুক্ত:Zjij

Cov(Zi,Zj)=σZiσZjCor(Zi,Zj)=Cor(Zi,Zj)

Cor(Zi,Zj)Cor(Xi,Xj)

নতুন কোভেরিয়েন্স ম্যাট্রিক্সের তির্যকের পাশাপাশি নোট করুন যে আমরা পেয়েছিCov(Zi,Zi)=Var(Zi)=1সুতরাং আমরা যেমন প্রত্যাশা করব তেমনি পুরো তির্যকটি একটিতে পূর্ণ। এটি এই অর্থে যে ডেটা এখন "একই স্কেল" - তাদের প্রান্তিক বিতরণগুলি খুব সাদৃশ্যপূর্ণ হওয়া উচিত, কমপক্ষে যদি তারা শুরুতে মোটামুটি সাধারণভাবে বিতরণ করা হত, যার অর্থ শূন্য এবং বৈকল্পিক (এবং মান বিচ্যুতি) এক ছিল। এটির ক্ষেত্রে আর নয় যে একটি ভেরিয়েবলের পরিবর্তনশীলতা অন্যকে জলাবদ্ধ করে। আপনি অবশ্যই স্প্রেডের পৃথক ব্যবস্থার মাধ্যমে ভাগ করতে পারতেন। মাত্রিক অসামঞ্জস্যতার কারণে বৈকল্পিকটি একটি বিশেষ পছন্দ হত (আপনি যদি ইউনিটগুলি পরিবর্তন করতে চান তবে আপনার একক ভেরিয়েবল যেমন মিটার থেকে কিলোমিটার অবধি পরিবর্তন হয়েছে) তা ভেবে দেখুন। মিডিয়ান পরম বিচ্যুতির মতো কিছু (বা এমএডির উপযুক্ত একাধিক)যদি আপনি এটি স্ট্যান্ডার্ড বিচ্যুতির এক ধরণের দৃust় অনুমানক হিসাবে ব্যবহার করার চেষ্টা করছেন তবে এটি আরও উপযুক্ত হতে পারে। তবে এটি এখনও সেই তির্যকটিকে এককের কর্ণে পরিণত করবে না।

আপশটটি হ'ল এমন একটি পদ্ধতি যা মানকযুক্ত ডেটার কোভারিয়েন্স ম্যাট্রিক্সে কাজ করে, মূলত মূল ডেটার সাথে সম্পর্কিত ম্যাট্রিক্স ব্যবহার করে। যার জন্য আপনি পিসিএ ব্যবহার করতে পছন্দ করেন, পিসিএ দেখুন পারস্পরিক সম্পর্ক বা সমবায়?


2
আমি মনে করি এই উত্তর সত্যিই উপর স্পর্শ করে না প্রকৃত কেন স্ট্যানডার্ড ডেভিয়েশন বিস্তার একটি পরিমাপ হিসাবে গ্রহণ এবং নিয়মমাফিককরণ জন্য ব্যবহার করা হয় এর (এবং অ তুচ্ছ) প্রশ্ন। পরিবর্তে মিডিয়ান পরম বিচ্যুতি গ্রহণ করছেন না কেন? মঞ্জুর, ফলস্বরূপ কোভারিয়েন্স ম্যাট্রিক্স "ডিফল্ট" পারস্পরিক সম্পর্ক ম্যাট্রিক্স হবে না তবে সম্ভবত এটি আরও ভাল হবে, যেমন পারস্পরিক সম্পর্কের আরও দৃri় অনুমান। ওপিতে আমার শেষ মন্তব্যটিও দেখুন।
অ্যামিবা বলেছেন মনিকাকে

2
@ এমোবা "মাঝারি গভীর" বিন্দুতে, আমরা নতুন কোভারিয়েন্স ম্যাট্রিক্সের ত্রিভুজটির নীচে একের বৈচিত্র পেয়েছি তা পিসিএ দৃষ্টিকোণ থেকে রূপান্তরিত ডেটা "একই স্কেলে" ভেরিয়েবলের কাছে পাওয়ার অর্থ আমরা কী বোঝাতে চাইছি। এই প্রশ্নের উত্থাপিত "খুব গভীর" ইস্যুতে, আমি নিশ্চিত না যে "আমরা কেন পিসিএতে আমাদের স্কেল পরিমাপ হিসাবে রূপগুলি ব্যবহার করি?" জিজ্ঞাসার মধ্যে অনেক পার্থক্য আছে? এবং জিজ্ঞাসা করছেন "পিসিএ কেন (কো) রূপগুলির সাথে নিজেকে উদ্বেগ দেয়?" - বা কমপক্ষে, যে দুটি বিষয় ঘনিষ্ঠভাবে সম্পর্কিত হবে।
সিলভারফিশ

1
@ অ্যামিবা, এসডির পরিবর্তে এমএডি বা ভিন্নতা দ্বারা বিভাজন কেন নয়, মূলত কেন একইভাবে আলাদাভাবে স্কেল করা একই প্রশ্ন: অর্থাত্ কেন পরিবর্তে পিসিএ করবেন না? আমি পূর্ববর্তী মন্তব্যে এই ধারণাটিকে সমর্থন করি।
ttnphns

1
@ এনটিএনএফএনএস: যদি বিভিন্ন ভেরিয়েবলগুলির সম্পূর্ণরূপে অতুলনীয় স্কেল থাকে (তাপমাত্রা, দৈর্ঘ্য, ওজন ইত্যাদি), তবে কোনওভাবে ভেরিয়েবলকে স্বাভাবিক করার ইচ্ছাটি যথেষ্ট বোধগম্য। এটি কোভারিয়েন্স ম্যাট্রিক্সের পরিবর্তে পারস্পরিক সম্পর্ক ম্যাট্রিক্স ব্যবহারের জন্য সাধারণ যুক্তি। তবে যদি কেউ বিদেশিদের সম্পর্কে উদ্বিগ্ন থাকে তবে আমি মিডিয়াকে পরিবর্তে মিডিটাকে বিয়োগ করে এবং এসভিডির পরিবর্তে এমএডি দ্বারা বিভক্ত করার কোনও কিছুই দেখতে পাচ্ছি না ... আমি নিজে এটি কখনও করি নি, তবে আমি মনে করি এটি করার পক্ষে যুক্তিসঙ্গত জিনিস বলে মনে হয়।
অ্যামিবা 0:43-এ মনিকা

1
@ অ্যামিবা, লিনিয়ার পিসিএর এসএসসিপি -টাইপ ম্যাট্রিক্স হওয়ার জন্য ম্যাট্রিক্স প্রয়োজন। মূল ভেরিয়েবলগুলির যে কোনও রৈখিক রূপান্তর এই ধরণের সংরক্ষণ করে। অবশ্যই, আপনি স্পিয়ারম্যান রোহো ম্যাট্রিক্স পেতে যেমন কোনও অলৈখিক রূপান্তরও করতে পারেন (যেমন, উদাহরণস্বরূপ, র‌্যাঙ্কিং), তবে তারপরে উপাদানগুলির স্কোর এবং লোডিংগুলি তাদের সরাসরি (কমপক্ষে স্কোয়্যার মিনিমাইজেশন অর্থে) ডেটার সাথে সংযোগটি আলগা করে: তারা পরিবর্তে পরিবর্তিত তথ্য উপস্থাপন করুন!
ttnphns

5

কেন আমরা প্রমিত বিচ্যুতি
দ্বারা বিভাজন করব বৈকল্পিক দ্বারা বিভাজনে কী ভুল?

z

সুতরাং: মানীকরণ (মানে স্ট্যান্ডার্ড বিচ্যুতকরণ দ্বারা স্কেলিং) আপনি যদি আপনার ডেটার জন্য আদর্শ বন্টনকে বোধগম্য মনে করেন তবে তা বোঝা যায়।

কেন অন্য কিছু পরিমাণ? মত ... পরম মানের যোগফল? বা অন্য কিছু আদর্শ ...

অন্যান্য পরিমাণে ডেটা স্কেল করতে ব্যবহৃত হয় , তবে প্রক্রিয়াটিকে স্ট্যান্ডার্ডাইজেশন বলা হয় যদি এটি স্ট্যান্ডার্ড বিচ্যুতি দ্বারা কেন্দ্রিক এবং বিভাজনকে বোঝায়। স্কেলিং হল জেনেরিক শব্দ term

উদাহরণস্বরূপ আমি বর্ণালী সংক্রান্ত ডেটা নিয়ে কাজ করি এবং জানি যে আমার আবিষ্কারকের একটি তরঙ্গদৈর্ঘ্য নির্ভর সংবেদনশীলতা এবং একটি (বৈদ্যুতিন) পক্ষপাত রয়েছে। সুতরাং আমি ক্যালিব্রেট অফসেট (ফাঁকা) সংকেত বিয়োগ এবং (বিভাজক) গুন একটি ক্রমাঙ্কন গুণক দ্বারা দ্বারা।

এছাড়াও, আমি গড়কে কেন্দ্র করে নয় বরং কিছু অন্যান্য বেসলাইন মান, যেমন গ্র্যান্ড গড়ের পরিবর্তে একটি নিয়ন্ত্রণ গোষ্ঠীর গড় হিসাবেও কেন্দ্রীভূত হতে পারি। (ব্যক্তিগতভাবে, আমার বৈচিত্রগুলি ইতিমধ্যে একই শারীরিক ইউনিট এবং আকারের একই ক্রমে থাকে বলে আমি প্রায় কখনওই প্রমিত করি না)

আরও দেখুন: চলকগুলি মডেল তৈরির আগে প্রায়শই অ্যাডজাস্ট করা হয় (যেমন মানসম্পন্ন) - এটি কখন ভাল ধারণা এবং এটি কখন খারাপ?


+1 টি। বর্ণালী সম্পর্কিত ডেটা সহ দুর্দান্ত উদাহরণ। যাইহোক, 10 কে প্রতিনিধি পৌঁছে দিয়ে অভিনন্দন!
অ্যামিবা বলেছেন মনিকাকে ফিনেসটায়

0

এই লিঙ্কটি আপনার প্রশ্নের স্পষ্ট উত্তর দিয়েছে, আমার ধারণা: http://sebastianraschka.com/Articles/2014_about_feature_scaling.html

আমি একটি ছোট টুকরা উদ্ধৃত:

জেড-স্কোর মানককরণ বা ন্যূনতম-সর্বোচ্চ স্কেলিং?

"প্রমিতকরণ বা ন্যূনতম-সর্বোচ্চ স্কেলিং?" - এই প্রশ্নের কোনও সুস্পষ্ট উত্তর নেই: এটি সত্যই প্রয়োগের উপর নির্ভর করে।

উদাহরণস্বরূপ, ক্লাস্টারিং বিশ্লেষণগুলিতে, নির্দিষ্ট দূরত্বের ব্যবস্থার ভিত্তিতে বৈশিষ্ট্যগুলির মধ্যে মিলগুলির তুলনা করার জন্য মানককরণ বিশেষত গুরুত্বপূর্ণ cruc আর একটি সুস্পষ্ট উদাহরণ হ'ল প্রিন্সিপাল কম্পোনেন্ট অ্যানালাইসিস, যেখানে আমরা সাধারণত ন্যূনতম-ম্যাক্স স্কেলিংয়ের তুলনায় মানকে প্রাধান্য দিই, যেহেতু আমরা বৈষম্যকে সর্বাধিকীকরণকারী উপাদানগুলিতে আগ্রহী (প্রশ্নের উপর নির্ভর করে এবং যদি পিসিএ পরিবর্তে পারস্পরিক সম্পর্ক মেট্রিক্সের মাধ্যমে উপাদানগুলি গণনা করে তবে কোভরিয়েন্স ম্যাট্রিক্স; তবে আমার আগের নিবন্ধে পিসিএ সম্পর্কে আরও বেশি)।

তবে এর অর্থ এই নয় যে মিন-ম্যাক্স স্কেলিং মোটেই কার্যকর নয়! একটি জনপ্রিয় অ্যাপ্লিকেশন হ'ল ইমেজ প্রসেসিং, যেখানে পিক্সেলের তীব্রতা একটি নির্দিষ্ট পরিসরে (যেমন, আরজিবি রঙের ব্যাপ্তির জন্য 0 থেকে 255) ফিট করতে স্বাভাবিক করতে হবে। এছাড়াও, সাধারণ নিউরাল নেটওয়ার্ক অ্যালগরিদমের জন্য 0-1 স্কেলের ডেটা প্রয়োজন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.