শীর্ষস্থানীয় প্রধান উপাদানগুলি নির্ভরশীল পরিবর্তনশীল (বা আরও ভাল পূর্বাভাসের দিকেও যেতে পারে) এর উপর ভবিষ্যদ্বাণীপূর্ণ শক্তি ধরে রাখতে পারে?


25

মনে করুন আমি একটি রিগ্রেশন চালাচ্ছি । কেন এক্স এর শীর্ষ কে নীতি উপাদান নির্বাচন করে, মডেলটি ওয়াইয়ের উপর তার ভবিষ্যদ্বাণীপূর্ণ শক্তি ধরে রাখে ?YXএক্স ওয়াইkXY

আমি বুঝতে পারি যে মাত্রিকতা-হ্রাস / বৈশিষ্ট্য-নির্বাচনের দৃষ্টিকোণ থেকে, যদি v_1, v_2, ... v_k শীর্ষ কে ইগেনভ্যালুগুলির সাথে এক্সেরv1,v2,...vk কোভারিয়েন্স ম্যাট্রিক্সের ইগেনভেেক্টর হয় , তবে এক্সভি_1, এক্সভি_2 ... এক্সভি_ কে শীর্ষ কে মূল উপাদান সর্বাধিক বৈকল্পিক সহ। আমরা এর মাধ্যমে কে এর বৈশিষ্ট্যগুলির সংখ্যা হ্রাস করতে পারি এবং ভবিষ্যদ্বাণীমূলক শক্তিটি বেশিরভাগ ধরে রাখতে পারি, যেমনটি আমি এটি বুঝতে পারি।XkXv1,Xv2...Xvkkk

তবে শীর্ষ k উপাদানগুলি কেন ওয়াইয়ের উপর ভবিষ্যদ্বাণীপূর্ণ শক্তি ধরে রাখে Y?

যদি আমরা একটি সাধারণ ওএলএস ওয়াই সিম জেড সম্পর্কে কথা বলি , তবে Z_iYZ বৈশিষ্ট্যটির সর্বাধিক বৈকল্পিক যদি থাকে তবে এমনটি করার কোনও কারণ নেই Zi, তবে Zi এর Y এর উপর সবচেয়ে ভবিষ্যদ্বাণীপূর্ণ শক্তি রয়েছে Y

মন্তব্যগুলি দেখার পরে আপডেট করুন: আমার ধারণা আমি মাত্রা হ্রাসের জন্য পিসিএ ব্যবহারের কয়েকটি উদাহরণ দেখেছি of আমি ধরেই চলেছি যার অর্থ আমরা যে মাত্রাগুলি দিয়ে রেখেছি তার মধ্যে সবচেয়ে ভবিষ্যদ্বাণীপূর্ণ শক্তি রয়েছে। নাহলে মাত্রা হ্রাসের মূল বিষয় কী?


3
আপনি সঠিক: এক্স এর শীর্ষ K পিসিগুলির কোন ভবিষ্যদ্বাণীপূর্ণ শক্তি আছে বলে ধরে নেওয়ার কোনও গাণিতিক কারণ নেই - সাধারণত গণনার কোনও কারণ নেই যে ধরে নেওয়া যায় যে কোনও সেট কোভারিয়েট এক্সের কোনও নির্দিষ্ট ওয়াইয়ের সাথে কোনও সম্পর্ক রয়েছে । দেখে মনে হচ্ছে আপনি সম্ভবত কিছু বক্তব্যকে উল্লেখ করেছেন যা আপনার মুখোমুখি হয়েছে: ঠিক এটি কী বলে এবং কে এটি বলেছে? XXY
শুক্র

@ যেহেতু আমি অনুমান করি যে মাত্রা হ্রাসের জন্য পিসিএ ব্যবহারের অনেকগুলি উদাহরণ আমার কাছে মনে হয়েছে। আমি ধরেই চলেছি যার অর্থ আমরা যে মাত্রাগুলি দিয়ে রেখেছি তার মধ্যে সবচেয়ে ভবিষ্যদ্বাণীপূর্ণ শক্তি রয়েছে। নাহলে তা মাত্রা কমানোর বিষয়?
ভেন্ডেটা

উত্তর:


43

প্রকৃতপক্ষে, কোনও গ্যারান্টি নেই যে শীর্ষ প্রধান উপাদানগুলির (পিসি) কম ভেরিয়েন্সগুলির চেয়ে বেশি ভবিষ্যদ্বাণীপূর্ণ শক্তি রয়েছে।

বাস্তব-বিশ্বের উদাহরণগুলি পাওয়া যাবে যেখানে এটি নয় এবং এটি একটি কৃত্রিম উদাহরণ তৈরি করা সহজ যেখানে উদাহরণস্বরূপ কেবল ক্ষুদ্রতম পিসির সাথে কোনও সম্পর্ক রয়েছে ।y

এই বিষয়টি আমাদের ফোরামে প্রচুর আলোচনা করা হয়েছিল, এবং (দুর্ভাগ্যজনকভাবে) একটি স্পষ্টতই ক্যানোনিকাল থ্রেডের অনুপস্থিতিতে আমি কেবল কয়েকটি লিঙ্ক দিতে পারি যা একসাথে বিভিন্ন বাস্তব জীবন এবং কৃত্রিম উদাহরণ প্রদান করে:

এবং একই বিষয়, তবে শ্রেণিবিন্যাসের প্রসঙ্গে:


যাইহোক, বাস্তবে, শীর্ষ পিসিতে প্রায়ই না প্রায়ই কম ভ্যারিয়েন্স বেশী ভবিষ্যদ্বাণীপূর্ণ ক্ষমতা, এবং তাছাড়া শুধুমাত্র উপরের পিসিতে ব্যবহার সব পিসিতে ব্যবহার বেশী ভালো ভবিষ্যদ্বাণীপূর্ণ ক্ষমতা উত্পাদ পারেন।

অনেক ভবিষ্যদ্বাণীকারী এবং তুলনামূলকভাবে কয়েকটি ডেটা পয়েন্ট (যেমন যখন বা এমনকি ) থাকে এমন পরিস্থিতিতে সাধারণ রিগ্রেশন অতিরিক্ত উপায়ে যায় এবং এটি নিয়মিত করা দরকার। প্রিন্সিপাল কম্পোনেন্ট রিগ্রেশন (পিসিআর )টিকে রিগ্রেশন নিয়মিত করার এক উপায় হিসাবে দেখা যেতে পারে এবং উচ্চতর ফলাফল দেওয়ার প্রবণতা থাকবে। তদতিরিক্ত, এটি রিজ রিগ্রেশনটির সাথে ঘনিষ্ঠভাবে সম্পর্কিত, যা সঙ্কুচিত নিয়মিতকরণের একটি মানক উপায় way যেখানে রিজ রিগ্রেশন ব্যবহার করা সাধারণত একটি ভাল ধারণা, পিসিআর প্রায়শই যুক্তিসঙ্গতভাবে ভাল আচরণ করে। দেখুন কেন সংকোচন কাজ করে? পক্ষপাত-বৈকল্পিক ট্রেডঅফ এবং সংকোচন কীভাবে উপকারী হতে পারে সে সম্পর্কে সাধারণ আলোচনার জন্য।n p n p > npnpnp>n

একটি উপায়ে, কেউ বলতে পারেন যে রিজ রিগ্রেশন এবং পিসিআর উভয়ই অনুমান করে যে সর্বাধিক তথ্য এর বৃহত পিসিগুলিতে রয়েছে এবং এই ধারণাটি প্রায়শই নিশ্চিত হয়।এক্সyX

কেন এই ধারণাটি প্রায়শই সুনিশ্চিত করা হয় (এবং এই আরও নতুন থ্রেড: মাত্রিক মাত্রা হ্রাস প্রায় সবসময় শ্রেণিবদ্ধের জন্য কার্যকর ? আরও কিছু মন্তব্যের জন্য) পরবর্তী আলোচনার জন্য @cbeleites (+1) এর পরবর্তী উত্তর দেখুন ।

হাসিটি এট আল। মধ্যে পরিসংখ্যানগত শিক্ষণ উপাদানসমূহ (অধ্যায় 3.4.1) শৈলশিরা রিগ্রেশন প্রেক্ষাপটে এই মন্তব্য:

[টি] তিনি ছোট একবাক্য মানগুলি [...] এর কলাম স্পেসের দিকের সাথে সামঞ্জস্যপূর্ণ এবং তারতম্যটি এই দিকগুলিকে সবচেয়ে সঙ্কুচিত করে। [...] রিজ রিগ্রেশন সংক্ষিপ্ত দিকগুলির অনুমানযুক্ত গ্রেডিয়েন্টগুলির সম্ভাব্য উচ্চতর বৈকল্পিকতা থেকে রক্ষা করে। অন্তর্নিহিত অনুমানটি হ'ল প্রতিক্রিয়াগুলি ইনপুটগুলির উচ্চতর বৈকল্পিকতার দিক থেকে সর্বাধিক পরিবর্তিত হয়। এটি প্রায়শই একটি যুক্তিসঙ্গত অনুমান, যেহেতু ভবিষ্যদ্বাণীকারীরা প্রায়শই অধ্যয়নের জন্য বেছে নেওয়া হয় কারণ প্রতিক্রিয়া পরিবর্তনের সাথে তারা পরিবর্তিত হয়, তবে সাধারণভাবে ধরে রাখার প্রয়োজন হয় না।X

বিশদগুলির জন্য নিম্নলিখিত উত্তরগুলিতে আমার উত্তরগুলি দেখুন:


শেষের সারি

উচ্চ-মাত্রিক সমস্যার জন্য, পিসিএর প্রাক প্রসেসিং (যার অর্থ মাত্রা হ্রাস করা এবং কেবল শীর্ষ পিসি রাখা) নিয়মিতকরণের এক উপায় হিসাবে দেখা যেতে পারে এবং প্রায়শই কোনও পরবর্তী বিশ্লেষণের ফলাফলগুলিতে উন্নতি করতে হবে, তা কোনও প্রতিক্রিয়া বা শ্রেণিবিন্যাস পদ্ধতি হতে পারে। তবে এটি কাজ করবে এমন কোনও গ্যারান্টি নেই এবং প্রায়শই আরও ভাল নিয়মিতকরণের পদ্ধতি রয়েছে।


আপনার উত্তরে রেফারেন্স সংগ্রহ করার জন্য আপনাকে ধন্যবাদ। এখানে সাম্প্রতিক আরও একটি । আরও লিঙ্ক সহ উত্তর আছে।
ttnphns

ধন্যবাদ, @ttnphns! আমি সেই পোস্টটি দেখতে পাইনি, কারণ এতে কোনও [পিসিএ] ট্যাগ ছিল না (আমি কেবলমাত্র কয়েকটি মুখ্য নির্দিষ্ট ট্যাগকে নিবিড়ভাবে অনুসরণ করছি)। প্রকৃতপক্ষে, আমি বরং অসন্তুষ্ট যে 5-10 ঘনিষ্ঠভাবে সম্পর্কিত থ্রেডের একটি আলগা সংগ্রহ রয়েছে, এতে কোনও প্রশ্ন নেই এবং কোনও উত্তর সত্যই নিখুঁত নয় এবং এগুলির মধ্যে কোনও আসল নকল নেই। আমি ভবিষ্যতে রেফারেন্সের জন্য ব্যবহার করা যেতে পারে এমন একটি ক্যানোনিকাল থ্রেড পছন্দ করতে চাই ...
অ্যামিবা বলেছেন মিনিকা

আমি এই প্রশ্নের ট্যাগ যুক্ত করেছি। আকর্ষণীয় থিমটির "নিখুঁত" এনসাইক্লোডিক উত্তরটি তার লেখকের জন্য অপেক্ষা করছে। :-) আপনি একটি হয়ে ওঠার সিদ্ধান্ত নিতে পারেন।
ttnphns

এছাড়াও প্রাসঙ্গিক: onestop এর উত্তর stats.stackexchange.com/questions/3561/...
kjetil খ halvorsen

11

ইতিমধ্যে গণিতের বৈশিষ্ট্যগুলিতে ফোকাস করা উত্তরগুলি ছাড়াও, আমি পরীক্ষামূলক দৃষ্টিকোণ থেকে মন্তব্য করতে চাই।

সংক্ষিপ্তসার: ডেটা জেনারেশন প্রক্রিয়াগুলি প্রায়শই এমন উপায়ে অনুকূলিত হয় যা তথ্যকে মূল উপাদান (পিসিআর) বা আংশিক ন্যূনতম স্কোয়্যার (পিএলএস) রিগ্রেশনের জন্য উপযুক্ত করে তোলে।


আমি বিশ্লেষণী রসায়নবিদ। আমি যখন কিছু (পরিমাপ বা শ্রেণিবিন্যাস) পরিমাপ করার জন্য একটি পরীক্ষা / পদ্ধতি নকশা করি তখন আমি প্রয়োগ এবং উপলব্ধ উপকরণ সম্পর্কে আমার জ্ঞানটি ডেটা পেতে ব্যবহার করি যা হাতের কার্যের সাথে সম্মতিতে শব্দ অনুপাতের একটি ভাল সংকেত বহন করে। তার অর্থ, আমি যে ডেটা উত্পন্ন করি তা আগ্রহের সম্পত্তির সাথে বৃহত ovক্যবদ্ধ হওয়ার জন্য ডিজাইন করা হয়েছে।
এটি একটি বৈকল্পিক কাঠামোর দিকে নিয়ে যায় যেখানে আকর্ষণীয় বৈকল্পিক বৃহত, এবং পরবর্তী পিসিগুলি কেবল (ছোট) শব্দটি বহন করবে।

আরও শক্তিশালী বা আরও সুনির্দিষ্ট ফলাফল পেতে আমি এমন পদ্ধতিগুলিও পছন্দ করি যা হাতের কাজ সম্পর্কে অপ্রয়োজনীয় তথ্য দেয়। পিসিএ অপ্রয়োজনীয় পরিমাপ চ্যানেলগুলিকে একটি পিসিতে কেন্দ্রীভূত করে, যা এরপরে অনেক বৈচিত্র্য বহন করে এবং তাই প্রথম পিসিগুলির মধ্যে একটি।

যদি এমন কোনও কনফন্ডার্ডার থাকে যা সুদের সম্পত্তির সাথে সম্পর্কিত না হওয়ায় বৃহত্তর বৈচিত্রের দিকে পরিচালিত করে, তবে আমি সাধারণত ডেটা প্রিপ্রোসেসিংয়ের সময় যথাসম্ভব যথাযথভাবে চেষ্টা করার চেষ্টা করব: অনেক ক্ষেত্রে এই বিভ্রান্তকারীগুলি পরিচিত শারীরিক বা রাসায়নিক প্রকৃতি এবং এই জ্ঞানটি বিভ্রান্তকারীদের জন্য সঠিক উপায়গুলির পরামর্শ দেয়। উদাহরণস্বরূপ, আমি মাইক্রোস্কোপের নীচে রমন বর্ণালী পরিমাপ করি। তাদের তীব্রতা লেজার আলোর তীব্রতার পাশাপাশি মাইক্রোস্কোপকে আমি কতটা ভাল ফোকাস করতে পারি তার উপর নির্ভর করে। উভয়ই এমন পরিবর্তনগুলিতে নেতৃত্ব দেয় যা সাধারনিককরণের মাধ্যমে সংশোধন করা যায় যেমন একটি সংকেত যা ধ্রুবক হিসাবে পরিচিত।
সুতরাং, সমাধানের ক্ষেত্রে অবদান রাখে না এমন বিস্তারের বড় অবদানকারীরা প্রথম পিসিগুলিতে বেশিরভাগ অর্থবহ বৈকল্পিকতা রেখে ডেটা পিসিএতে প্রবেশের আগেই মুছে ফেলা হতে পারে।


শেষ কথাটি না হলেও, এখানে কিছুটা স্ব-পরিপূর্ণ ভবিষ্যদ্বাণী রয়েছে: স্পষ্টতই পিসিআর এমন ডেটা দিয়ে সম্পন্ন হয় যেখানে তথ্য বহনকারী বৈসাদৃশ্য বড় ধারণা অনুধাবন করে। উদাহরণস্বরূপ যদি আমি মনে করি যে এখানে গুরুত্বপূর্ণ বিভ্রান্তি থাকতে পারে যেগুলি কীভাবে সংশোধন করতে হয় তা আমি জানি না, আমি তাত্ক্ষণিক পিএলএসের পক্ষে যাব যা ভবিষ্যতবাণী কাজের সাথে সহায়তা করে না এমন বড় অবদানকে উপেক্ষা করার চেয়ে ভাল।


+1 টি। আলোচনায় যোগ দেওয়ার জন্য ধন্যবাদ এটি একটি দুর্দান্ত সংযোজন thanks
অ্যামিবা বলেছেন, পুনর্নির্ধারণ করুন মনিকা

@ আমেবা: দয়া করে এই শব্দটির জন্য ধন্যবাদ। সর্বদা হিসাবে, এছাড়াও আপনার উত্তর খুব পুঙ্খানুপুঙ্খ। আমি আসলে [পিসিএ] যত্ন নেওয়ার উপর নির্ভর করি!
সিবিলেটগুলি

6

পিসিএ কখনও কখনও কলিনারি ভেরিয়েবল দ্বারা সৃষ্ট সমস্যাগুলি সংশোধন করতে ব্যবহৃত হয় যাতে এক্স স্পেসের বেশিরভাগ প্রকারের কে প্রধান উপাদান দ্বারা বন্দী হয়।

তবে এই গাণিতিক সমস্যাটি অবশ্যই এক্স, ওয়াই উভয় জায়গাতেই বেশিরভাগ প্রকারভেদকে ক্যাপচার করার মতো নয় যে অব্যক্ত পরিবর্তনটি যতটা সম্ভব ছোট small

আংশিক সর্বনিম্ন স্কোয়ারগুলি পরবর্তী অর্থে এটি করার চেষ্টা করে:

http://en.wikipedia.org/wiki/Partial_least_squares_regression


3

অন্যরা যেমন উল্লেখ করেছে, শীর্ষ কে ইগেনভেেক্টর এবং ভবিষ্যদ্বাণীমূলক শক্তির মধ্যে কোনও সরাসরি যোগসূত্র নেই। শীর্ষটি বাছাই করে এবং ভিত্তি হিসাবে এগুলি ব্যবহার করে, আপনি কিছু শীর্ষ শক্তি (বা those অক্ষগুলির সাথে বৈচিত্র) ধরে রাখছেন।

এটি এমন হতে পারে যে সর্বাধিক বৈচিত্রটি ব্যাখ্যা করে অক্ষগুলি প্রকৃতপক্ষে পূর্বাভাসের জন্য কার্যকর তবে সাধারণভাবে এটি ক্ষেত্রে হয় না।


আপনি যখন "সাধারণভাবে" বলছেন, আপনি কি সাধারণত অনুশীলন হিসাবে বা থিওরিয়ালি বলতে চান?
অ্যামিবা

@ অ্যামিবা সাধারণভাবে একটি ডেটাसेट তৈরি করা সহজ যেখানে শীর্ষ কে সর্বাধিক বৈকল্পিক অক্ষের উপর ডেটা প্রজেক্ট করা ভবিষ্যদ্বাণীপূর্ণ / বৈষম্যমূলক নয়।
ভ্লাদিস্লাভস ডভগ্লেলেকস

-1

আমাকে একটি সহজ ব্যাখ্যা দিতে দিন।

PCA হ'ল স্বতঃস্ফূর্তভাবে নির্দিষ্ট বৈশিষ্ট্যগুলি সরানোর পরিমাণ। এটি অতিরিক্ত-ফিটনেসের সম্ভাবনা হ্রাস করে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.