বিপ্লটের সাথে তাদের সম্পর্কের ক্ষেত্রে পিসিএ এবং চিঠিপত্র বিশ্লেষণ


38

বিপ্লট প্রায়শই মূল উপাদান বিশ্লেষণ (এবং সম্পর্কিত কৌশলগুলির) ফলাফল প্রদর্শন করতে ব্যবহৃত হয় । এটি একই সাথে উপাদান লোডিং এবং উপাদান স্কোরগুলি দেখায় এমন একটি দ্বৈত বা ওভারলে স্ক্রেটারপ্লট । আমাকে আজমোইবা দ্বারা জানানো হয়েছিল যে তিনি আমার মন্তব্য থেকে এমন একটি প্রশ্নের উত্তর দিয়েছেন যা বাইপলট স্থানাঙ্কগুলি কীভাবে তৈরি / আকারিত হয় সে সম্পর্কে জিজ্ঞাসা করে; এবং তার উত্তর কিছু বিশদভাবে বিবেচনা করে। এবং @ অ্যামিবা জিজ্ঞাসা করেছিলেন আমি কি আমার অভিজ্ঞতা বিপ্লটের সাথে ভাগ করে নেব?

আমার অভিজ্ঞতা (উভয় তাত্ত্বিক এবং পরীক্ষার মাধ্যমে) যদিও খুব বিনয়ী, নেভেথারলেস এমন দুটি বিষয় হাইলাইট করেছে যা এত ঘন ঘন স্বীকৃত নয়: (1) বিপ্লট সাবসিডিয়ারি স্ক্রেটারপ্লোটের চেয়ে বিশ্লেষণ কৌশল হিসাবে শ্রেণিবদ্ধ করা উচিত; (২) পিসিএ, চিঠিপত্র বিশ্লেষণ (এবং কিছু অন্যান্য সুপরিচিত কৌশল) আসলে বাইপ্লটের বিশেষ ক্ষেত্রে। বা, কমপক্ষে, তারা উভয়ই বিপ্লটের প্রায় যমজ। আপনি যদি বিপ্লট করতে পারেন তবে অন্য দুটি করতে পারেন।

আপনার কাছে আমার প্রশ্ন হ'ল তারা (পিসিএ, সিএ, বিপ্লট) আপনার জন্য কীভাবে যুক্ত ? অনুগ্রহ করে আপনার মতামত শেয়ার করুন। মিনওয়াইল আমি এটি সম্পর্কে আমার নিজস্ব অ্যাকাউন্ট পোস্ট করছি। আমি আরও উত্তর যুক্ত করতে এবং সমালোচনামূলক মন্তব্য করতে বলতে চাই।


কি দারুন! আমি মন্তব্য জিজ্ঞাসা করার সময় আমি এত বড় থ্রেড আশা করিনি :) আপনাকে ধন্যবাদ। একটি আকর্ষণীয় আলোচনা শুরু করার জন্য +1। আমি এখনও আপনার উত্তর হজম করার সময়, আমাকে স্পষ্ট করে বলি: আমি আপনার মন্তব্য থেকে "বিদায়" বলে একটি উত্তর দিয়েছি বলে আপনি কি বোঝাতে চেয়েছেন যে আমি এটি প্রসারিত করেছি বা আমি এর বিরোধিতা করেছি? আমি অবশ্যই বিরোধিতা বোঝাতে চাইছি না।
অ্যামিবা

আমি "থেকে শুরু এবং বিকাশ [নিজের অ্যাকাউন্টে]" বোঝাতে চাইছি না, আমি কোনও বিরোধিতা দেখিনি (যদিও আমি আপনার মত বিশেষজ্ঞদের কাছ থেকে বিরোধিতা চাই)।
ttnphns

উত্তর:


40

SVD

Xr×cX=Ur×rSr×cVc×cm [mmin(r,c)]X(m)mএক্সX(m)=Ur×mSm×mVc×mU=Ur×m ভি = ভি সি × এম এস = এস এম মি, , ।V=Vc×mS=Sm×m

একবচনীয় মান এবং তাদের স্কোয়ারগুলি, ইগেনভ্যালুগুলি স্কেলের প্রতিনিধিত্ব করে , যাকে ডেটার জড়তাও বলা হয় । বাম eigenvectors সম্মুখের ডেটার সারির স্থানাঙ্ক হয় প্রধান অক্ষ; ডান আইজেনভেেক্টর হ'ল সেই একই সুপ্ত অক্ষের উপরে ডেটাগুলির কলামগুলির স্থানাঙ্ক। সম্পূর্ণ স্কেল (জড়তা) এ সংরক্ষণ করা হয় এবং সুতরাং স্থানাঙ্কগুলি এবং ইউনিট-নরমালাইজড (কলাম এসএস = 1)।Sইউ এম ভি এস ইউ ভিUmVSUV

এসভিডি দ্বারা প্রিন্সিপাল কম্পোনেন্ট বিশ্লেষণ

পিসিএ, এটা ব্যাপারে পূর্ণ মতৈক্য রয়েছে বিবেচনা সারি এর র্যান্ডম পর্যবেক্ষণ যেমন (যা আসতে পারে বা যেতে), কিন্তু বিবেচনা করতে কলাম এর মাত্রা বা ভেরিয়েবল নির্দিষ্ট সংখ্যক হিসাবে। অত: পর তা ফলাফলে সারি (এবং শুধুমাত্র সারি) সংখ্যা প্রভাব মুছে ফেলার জন্য, বিশেষ করে eigenvalues উপর, svd-decomposing দ্বারা যথাযথ ও সুবিধাজনক পরিবর্তে । নোট করুন যে এটি এর ইগেন-পচনের সাথে সম্পর্কিত , নমুনার আকার হিসাবে । (প্রায়শই বেশিরভাগ সমবায়ীদের সাথে থাকে - তাদের পক্ষপাতহীন করার জন্য - আমরা দ্বারা ভাগ করতে পছন্দ করব , তবে এটি একটি উপদ্রব))Xএক্স জেড = এক্স / XZ=X/rXXX/rrnr1

গুণ একটি ধ্রুবক দ্বারা শুধুমাত্র প্রভাবিত ; এবং সারি এবং কলামগুলির ইউনিট-স্বাভাবিকীকরণ স্থানাঙ্ক হিসাবে রয়ে গেছে।XSUV

এখান থেকে এবং নীচের যেকোন জায়গা থেকে আমরা নয়, বিএফ এসভিডি দ্বারা প্রদত্ত বিএফ , বিফ এবং বিএফ পুনরায় সংজ্ঞায়িত করব ; একটি সাধারণ সংস্করণ এবং সাধারণকরণ বিশ্লেষণের ধরণের মধ্যে পরিবর্তিত হয়।SUVZXZX

গুণিত করে আমরা এর কলামগুলিতে গড় বর্গক্ষেত্রটি নিয়ে আমাদের দেওয়া সারিগুলি এলোমেলো ক্ষেত্রে, এটি যৌক্তিক। আমরা এইভাবে প্রাপ্ত থাকেন কি পিসিএ বলা হয় মান বা প্রমিত প্রধান উপাদান স্কোর পর্যবেক্ষণ, ইউ * । আমরা ভের সাথে একই জিনিসটি করি না কারণ ভেরিয়েবলগুলি নির্দিষ্ট সত্তা।Ur=UUUV

আমরা তখন সব নিষ্ক্রিয়তা সঙ্গে সারি অর্পণ করতে পারেন unstandardized সারি স্থানাঙ্ক, এছাড়াও পিসিএ ডেকে প্রাপ্ত কাঁচা প্রধান উপাদান স্কোর পর্যবেক্ষণ: Uএস । এই সূত্রটিকে আমরা "সরাসরি পথ" বলব। একই ফলাফল XV দ্বারা ফিরে আসে ; আমরা এটি "পরোক্ষ উপায়" হিসাবে লেবেল করব।

আনুষাঙ্গিকভাবে, আমরা সমস্ত জড়তার সাথে কলামগুলি সরবরাহ করতে পারি, অযৌক্তিক কলাম স্থানাঙ্কগুলি পেতে, পিসিএতে উপাদান-পরিবর্তনশীল লোডিংগুলিও বলা হয় : VS [ S বর্গক্ষেত্র হলে ট্রান্সপোজ উপেক্ষা করতে পারে ], - "সরাসরি উপায়"। একই ফলাফল দ্বারা ফিরিয়ে দেওয়া হয় ZU "পরোক্ষ ভাবে" -। (উপরে আদর্শায়িত প্রধান উপাদান স্কোর এছাড়াও যাবে loadings থেকে নির্ণিত যেমন X(AS1/2) , যেখানে A । Loadings হয়)

Biplot

বাইপ্লটকে মাত্র একটি মাত্রিকতা হ্রাস বিশ্লেষণের অর্থে বিবেচনা করুন, কেবল "দ্বৈত স্ক্রেটারপ্লট" হিসাবে নয়। এই বিশ্লেষণ পিসিএর সাথে খুব মিল similar পিসিএর বিপরীতে, উভয় সারি এবং কলামগুলি এলোমেলো পর্যবেক্ষণ হিসাবে, প্রতিসম হিসাবে, চিকিত্সা করা হয়, যার অর্থ X পৃথক মাত্রিকতার একটি এলোমেলো দ্বিমুখী সারণী হিসাবে দেখা হচ্ছে। তারপরে, স্বাভাবিকভাবে, এসভিডির আগে এটি আর আর সি উভয় দ্বারা স্বাভাবিক করুন : জেড = এক্স / √ √rcZ=X/rc

এসভিডি এর পরে, গণনা স্ট্যান্ডার্ড সারি সমন্বয় হয় যেমনটি আমরা এটি পিসিএতে করেছি: U*=ইউRস্ট্যান্ডার্ড কলাম স্থানাঙ্কগুলিপেতে কলাম ভেক্টরগুলির সাথে একই জিনিস (পিসিএ বিপরীতে) করুন:ভী*=ভী । উভয় সারি এবং কলামের স্ট্যান্ডার্ড স্থানাঙ্কগুলিরঅর্থবর্গ 1 হয়।

আমরা পিসিএ-তে যেমন করি তেমন মূল্যবান জড়তার সাথে সারি এবং / অথবা কলামগুলি স্থানাঙ্ক প্রদান করতে পারি। আনস্ট্যান্ডার্ডাইজড সারির স্থানাঙ্ক: US (সরাসরি উপায়)। Unstandardized কলাম স্থানাঙ্ক: VS (সরাসরি উপায়)। পরোক্ষ উপায় কি? আপনি সহজেই বদল দ্বারা অনুমান করতে পারেন যে unstandardized সারি স্থানাঙ্ক জন্য পরোক্ষ সূত্র XV/c , এবং unstandardized কলাম স্থানাঙ্ক জন্য XU/r

বিপ্লটের একটি বিশেষ কেস হিসাবে পিসিএ । উপরের বর্ণনাগুলি থেকে আপনি সম্ভবত শিখেছি যে পিসিএ এবং biplot একমাত্র পার্থক্য কিভাবে তারা স্বাভাবিক X মধ্যে Z যা পরে পচে করা হয়। বিপ্লট সারি সংখ্যা এবং কলামের সংখ্যা উভয় দ্বারা স্বাভাবিক করে; পিসিএ কেবলমাত্র সারি সংখ্যা দ্বারা স্বাভাবিক করে তোলে। ফলস্বরূপ, পোস্ট-এসভিডি গণনাগুলিতে দুজনের মধ্যে কিছুটা পার্থক্য রয়েছে। বিপ্লট করতে গিয়ে আপনি এর সূত্রগুলিতে c=1 সেট করলে আপনি ঠিক পিসিএ ফলাফল পাবেন। সুতরাং, বিপ্লটকে জেনেরিক পদ্ধতি এবং পিসিএ হিসাবে বিপ্লটের একটি বিশেষ কেস হিসাবে দেখা যেতে পারে।

[ কলাম কেন্দ্রিক । কিছু ব্যবহারকারী বলতে পারেন: স্টপ কিন্তু পিসিএ যাতে এটা ব্যাখ্যা করার এছাড়াও এবং সমস্ত ডেটা কলাম (ভেরিয়েবল) এর কেঁদ্রীকরণ প্রথম প্রয়োজন হয় না ভ্যারিয়েন্স ? যদিও বিপ্লট কেন কেন্দ্রিং করতে পারে না? আমার উত্তর: কেবলমাত্র পিসিএ-ইন-সরু-ইন্দ্রিয়ই কেন্দ্রিক করে এবং বিভিন্নতার ব্যাখ্যা দেয়; আমি লিনিয়ার পিসিএ-ইন-জেনারেল-ইন্দ্রিয়, পিসিএ নিয়ে আলোচনা করছি যা নির্বাচিত উত্স থেকে কিছু শ্রেণিবিন্যাসের বিচ্যুতির পরিমাণ ব্যাখ্যা করে; আপনি এটি ডেটা অর্থ হিসাবে বেছে নিতে পারেন, নেটিভ 0 বা যা আপনার পছন্দ হয়। সুতরাং, "কেন্দ্রিয়" অপারেশন পিসিএকে বাইপ্লট থেকে আলাদা করতে পারে না]]

প্যাসিভ সারি এবং কলামগুলি

বিপ্লট বা পিসিএতে আপনি কিছু সারি এবং / অথবা কলামগুলি প্যাসিভ বা পরিপূরক হতে সেট করতে পারেন। প্যাসিভ সারি বা কলামটি এসভিডিকে প্রভাবিত করে না এবং ফলে জড়তা বা অন্যান্য সারি / কলামের স্থানাঙ্ককে প্রভাবিত করে না, তবে সক্রিয় (প্যাসিভ নয়) সারি / কলামগুলির দ্বারা উত্পাদিত মূল অক্ষগুলির জায়গায় এর স্থানাঙ্কগুলি গ্রহণ করে।

প্যাসিভ হতে কিছু পয়েন্ট (সারি / কলাম) সেট করতে, (1) r এবং c সক্রিয় সারি এবং কলামগুলির সংখ্যা হতে হবে । (2) শূন্য প্যাসিভ সারি এবং কলাম করা সেট করুন Z svd আগে। (3) প্যাসিভ সারি / কলামগুলির স্থানাঙ্কগুলি গণনা করার জন্য "পরোক্ষ" উপায়গুলি ব্যবহার করুন, যেহেতু তাদের ইগেনভেেক্টরের মান শূন্য হবে।

পিসিএ-তে, আপনি পুরানো পর্যবেক্ষণে প্রাপ্ত লোডিংয়ের সাহায্যে ( স্কোর সহগ ম্যাট্রিক্স ব্যবহার করে ) নতুন ইনকামিং কেসগুলির জন্য কম্পোনেন্ট স্কোরগুলি গণনা করার সময়, আপনি পিসিএতে এই নতুন কেসগুলি গ্রহণ এবং প্যাসিভ রাখার মতো একই কাজ করছেন। একইভাবে, পিসিএ দ্বারা উত্পাদিত উপাদান স্কোরগুলির সাথে কিছু বাহ্যিক ভেরিয়েবলের পারস্পরিক সম্পর্ক / সমবায়নের গণনা করা সেই পিসিএতে সেই পরিবর্তনশীলগুলি গ্রহণ এবং প্যাসিভ রাখার সমতুল্য।

নির্বিচারে জড়তা ছড়ানো

স্ট্যান্ডার্ড কোঅর্ডিনেটের কলামটি গড় বর্গ (এমএস) হয় ১. অমানবিক স্থানাঙ্কগুলির কলামের গড় বর্গক্ষেত্র (এমএস) সংশ্লিষ্ট মূল অক্ষগুলির জড়তার সমান: ইগেনভ্যালুগুলির সমস্ত জড়তা নিরস্তর স্থানাঙ্ক উত্পাদন করার জন্য ইগেনভেেক্টরগুলিকে দান করা হয়েছিল।

ইন biplot : সারি মান স্থানাঙ্ক U প্রতিটি প্রধান অক্ষের জন্য মাইক্রোসফট = 1 আছে। Unstandardized স্থানাঙ্ক সারি, নামেও সারি প্রধান স্থানাঙ্ক US=XV/c = মাইক্রোসফট আছে eigenvalue সংশ্লিষ্ট Z । একই কলাম স্ট্যান্ডার্ড এবং আনস্ট্যান্ডার্ডাইজড (অধ্যক্ষ) স্থানাঙ্কের ক্ষেত্রে এটি সত্য।

সাধারণত, এটি কোনও জড়তার সাথে সম্পূর্ণ বা কোনওটির সাথে স্থানাঙ্কের প্রয়োজন হয় না। কোনও কারণে প্রয়োজনে স্বেচ্ছাচারিতায় ছড়িয়ে দেওয়ার অনুমতি দেওয়া হয়। সারণিতে যাওয়ার জন্য জড়তার অনুপাত হতে 1 p1 যাক । তারপর সারিটি স্থানাঙ্ক সাধারণ সূত্র: ইউ * এস পি 1 (সরাসরি উপায়) = এক্স ভী * এস পি 1 - 1 / (পরোক্ষ ভাবে)। যদি পি 1 = 0 আমরা মান সারি কোঅর্ডিনেটগুলি পান সঙ্গে যেহেতু পি 1 = 1 আমরা প্রধান সারি স্থানাঙ্ক পেতে।USp1XVSp11/cp1=0p1=1

অনুরূপভাবে p2 হতে নিষ্ক্রিয়তা অনুপাত কলাম যেতে যা। তারপরে কলাম স্থানাঙ্কের সাধারণ সূত্রটি হ'ল: VSp2 (প্রত্যক্ষ উপায়) = XUSp21/r (পরোক্ষ উপায়)। যদি p2=0 আমরা স্ট্যান্ডার্ড কলামের স্থানাঙ্ক পাই, তবে p2=1 আমরা মূল কলাম স্থানাঙ্ক পাই।

সাধারণ অপ্রত্যক্ষ সূত্রগুলি সর্বজনীন যে তারা প্যাসিভ পয়েন্টগুলির জন্য যদি কোনও থাকে তবে স্থানাঙ্কগুলি (মানক, প্রধান বা মধ্যবর্তী) গণনা করতে দেয়।

যদি পি1+ +পি2=1 তারা বলে যে জড়তা সারি এবং কলাম পয়েন্টগুলির মধ্যে বিতরণ করা হয়। পি1=1,পি2=0 অর্থাৎ সারি-প্রধান-কলাম-মানক, biplots মাঝে মাঝে "ফর্ম biplots" বা "সারি-মেট্রিক সংরক্ষণ" ব্যবহার biplots বলা হয়। পি1=0,পি2=1 , অর্থাত্ সারি-মানক-কলাম-প্রিন্সিপাল, biplots প্রায়ই পিসিএ সাহিত্য "সহভেদাংক biplots" বা "কলাম-মেট্রিক সংরক্ষণ" ব্যবহার biplots মধ্যে বলা হয়; তারা পরিবর্তনশীল লোডিংগুলি প্রদর্শন করে ( যা হয় পিসিএর মধ্যে প্রয়োগ করার সাথে সাথে কোভারিয়েন্সগুলিতে জুটপাসযুক্ত) প্লাস মানকযুক্ত উপাদান স্কোর।

ইন চিঠিপত্রের বিশ্লেষণ , পি1=পি2=1/2 প্রায়ই ব্যবহার করা হয় এবং "প্রতিসম" বা নিষ্ক্রিয়তা দ্বারা "ক্যাননিকাল" নিয়মমাফিককরণ বলা হয় - এটি (ইউক্লিডিয় জ্যামিতিক কষাকষি কিছু expence যদ্যপি) অনুমতি দেয় সারি মধ্যে নৈকট্য তুলনা এবং , কলাম পয়েন্ট যেমন আমরা বহুমাত্রিক উদ্ঘাটন মানচিত্র করতে পারি।

চিঠিপত্র বিশ্লেষণ (ইউক্লিডিয়ান মডেল)

দ্বিমুখী (= সরল) চিঠিপত্র বিশ্লেষণ (সিএ) দ্বি-দ্বি কনজিস্টেন্সি টেবিল বিশ্লেষণ করতে ব্যবহৃত হয় বাইপ্লট, অর্থাৎ, একটি নন-নেগেটিভ টেবিল যা এন্ট্রি করে একটি সারি এবং একটি কলামের মধ্যে কিছু প্রকারের সার্থকতার অর্থ বহন করে। যখন টেবিলটি ফ্রিকোয়েন্সি হয় চি-বর্গ মডেলের চিঠিপত্র বিশ্লেষণ ব্যবহৃত হয়। যখন এন্ট্রিগুলি হয়, বলুন, মানে বা অন্যান্য স্কোর হয় তখন একটি সহজ ইউক্লিডিয়ান মডেল সিএ ব্যবহৃত হয়।

ইউক্লিডিয় মডেল সিএ হয় মাত্র biplot উপরে বর্ণিত, শুধুমাত্র টেবিল X অতিরিক্ত preprocessed হওয়ার আগে এটা biplot অপারেশন প্রবেশ করে। বিশেষত, মানগুলি কেবলমাত্র r এবং c দ্বারা নয় তবে মোট যোগফল N দ্বারাও স্বাভাবিক হয় ।

প্রিপ্রোসেসিং কেন্দ্রীকরণ নিয়ে গঠিত হয়, তারপরে গড় ভর দিয়ে স্বাভাবিক করে তোলে। কেন্দ্রীকরণ বিভিন্ন হতে পারে, প্রায়শই: (1) কলামগুলি কেন্দ্র করে; (২) সারি কেন্দ্রিকরণ; (3) দ্বি-মুখী কেন্দ্রিয় যা ফ্রিকোয়েন্সি অবশিষ্টাংশের গণনা হিসাবে একই ক্রিয়াকলাপ; (4) কলামের যোগফল সমান করার পরে কলামগুলি কেন্দ্র করে; (5) সারি সংখ্যার সমান করার পরে সারিগুলির কেন্দ্রিককরণ। গড় ভর দ্বারা সাধারণকরণ প্রাথমিক টেবিলের গড় ঘর মান দ্বারা ভাগ করা হয়। প্রিপ্রোসেসিং পদক্ষেপে, প্যাসিভ সারি / কলামগুলি যদি বিদ্যমান থাকে তবে তা নিষ্ক্রিয়ভাবে মানক করা হয়: এগুলি সক্রিয় সারি / কলামগুলি থেকে গুণিত মানগুলি দ্বারা কেন্দ্রিক / স্বাভাবিক হয়।

তারপর স্বাভাবিক biplot preprocessed সম্পন্ন হবে X , থেকে শুরু Z=X/rc

ভারী বিপ্লট

কল্পনা করুন যে সারি বা কলামের ক্রিয়াকলাপ বা গুরুত্বটি 0 এবং 1 এর মধ্যে যে কোনও সংখ্যা হতে পারে এবং কেবল 0 (প্যাসিভ) বা 1 (সক্রিয়) নয় এখন অবধি আলোচিত ক্লাসিক বিপ্লটের মতো। আমরা এই সারি এবং কলামের ওজন দ্বারা ইনপুট ডেটা ওজন করতে এবং ওয়েট বাইপ্লট করতে পারি। ভারিত বাইপ্লটের সাথে, সেই ফলকটি বা সারির ফলাফলগুলি সম্পর্কিত যতটা প্রভাবিত হয় তত বেশি - জড়তা এবং মূল বিন্দুতে সমস্ত পয়েন্টের স্থানাঙ্ক।

ব্যবহারকারী সারি ওজন এবং কলামের ওজন সরবরাহ করে। এদেরকে এবং ওদেরকে প্রথম আলাদাভাবে স্বাভাবিকৃত হয় 1. তারপর নিয়মমাফিককরণ পদক্ষেপ করতে যোগফল করতে Zij=Xijwiw ,wiএবংwjসারি আই এবং কলামের ওজন হ'ল। হুবুহু শূন্য ওজন সারি বা কলামটি প্যাসিভ হিসাবে চিহ্নিত করে।

এই মুহুর্তে আমরা আবিষ্কার করতে পারি যে ক্লাসিক বাইপ্লট হ'ল সমস্ত সক্রিয় সারিগুলির জন্য সমান ওজন 1/r এবং সমস্ত সক্রিয় কলামগুলির জন্য সমান ওজন 1/c সহ সমান ওজনযুক্ত বিপ্লট ; সক্রিয় সারি এবং সক্রিয় কলামগুলির সংখ্যা r এবং c

Z এসভিডি করুন । সমস্ত কাজকর্মের সর্বোত্তম biplot হিসেবে একই রকম, শুধু পার্থক্য হচ্ছে যে wi স্থানে রয়েছে 1/r এবং wj স্থানে রয়েছে 1/c । মানক সারির স্থানাঙ্ক: Ui=Ui/wi এবং মানক কলাম স্থানাঙ্ক:Vj=Vj/wj । (এগুলি ননজারো ওজনযুক্ত সারি / কলামগুলির জন্য zero শূন্য ওজনযুক্ত ব্যক্তিদের জন্য মানগুলি 0 হিসাবে ছেড়ে যান এবং মানক বা তাদের যে কোনও স্থানাঙ্কগুলি পেতে নীচের পরোক্ষ সূত্রগুলি ব্যবহার করুন))

আপনি যে অনুপাত চান তার সাথে স্থানাঙ্কগুলিকে জড়তা দিন ( p1=1 এবং p2=1 স্থানাঙ্কগুলি সম্পূর্ণরূপে অযৌক্তিক বা মূল হবে; p1=0 এবং p2=0 তারা মানক থাকবে)। সারি: USp1 (প্রত্যক্ষ উপায়) = X[Wj]VSp11 (পরোক্ষ উপায়)। কলাম: VSp2(প্রত্যক্ষ উপায়) = ([Wi]X)USp21 (পরোক্ষ উপায়)। এখানে বন্ধনীগুলিতে ম্যাট্রিকগুলি হ'ল যথাক্রমে কলাম এবং সারি ওজনের ত্রিভুজ ম্যাট্রিকগুলি। প্যাসিভ পয়েন্টগুলির জন্য (এটি শূন্য ওজন সহ) কেবল গণনার অপ্রত্যক্ষ উপায় উপযুক্ত। সক্রিয় (ধনাত্মক ওজন) পয়েন্টগুলির জন্য আপনি যে কোনও উপায়ে যেতে পারেন।

বিপ্লটের একটি বিশেষ মামলা হিসাবে পিসিএ পুনর্বিবেচনা করেছে । আগে অদম্য বাইপলট বিবেচনা করার সময় আমি উল্লেখ করেছি যে পিসিএ এবং বাইপ্লট সমতুল্য, কেবলমাত্র পার্থক্য হ'ল বিপ্লট তথ্যের কলামগুলি (পরিবর্তনশীল) এলোমেলোভাবে পর্যবেক্ষণের (সারিগুলি) প্রতিসাম্য হিসাবে দেখেছে। এখন আরও সাধারণ ওজনযুক্ত বাইপ্লটের কাছে বাইপ্লট প্রসারিত করার পরে আমরা আবার এটি দাবি করতে পারি, কেবলমাত্র পার্থক্যটি হল যে (ওজনযুক্ত) বাইপ্লট ইনপুট ডেটার কলাম ওয়েটের যোগফলকে 1, এবং (ওয়েটড) পিসিএ -কে সংখ্যায় উন্নত করে - সক্রিয়) কলাম। সুতরাং এখানে ভারী পিসিএ চালু করা হয়েছে। এর ফলাফলগুলি ওজনযুক্ত বিপ্লটের মতো অনুপাত অনুসারে ical বিশেষত, যদি c সক্রিয় কলামগুলির সংখ্যা, তারপরে নিম্নোক্ত সম্পর্কগুলি সত্য, ওজনযুক্ত পাশাপাশি দুটি বিশ্লেষণের ক্লাসিক সংস্করণগুলির জন্য:

  • পিসিএ এর eigenvalues = এর biplot eigenvalues c ;
  • লোডিংস = কলামগুলির মূল প্রধানকরণের অধীনে কলাম স্থানাঙ্ক;
  • মানক উপাদান স্কোর = সারিগুলির "স্ট্যান্ডার্ড নরমালাইজেশন" এর অধীনে সারি সমন্বয়;
  • পিসিএ এর ইগেনভেেক্টর = কলাম / এর "স্ট্যান্ডার্ড নরমালাইজেশন" এর অধীনে কলাম স্থানাঙ্ক /c ;
  • কাঁচা উপাদান স্কোর = সারি "প্রধান নিয়মমাফিককরণ" এর অধীনে সারি স্থানাঙ্ক c

চিঠিপত্র বিশ্লেষণ (চি-বর্গ মডেল)

এটি প্রযুক্তিগতভাবে একটি ওজনযুক্ত বাইপ্লট যেখানে ওজন একটি টেবিল থেকে নিজেই গণনা করা হচ্ছে পরিবর্তে তারপরে ব্যবহারকারী দ্বারা সরবরাহ করা হয়। এটি বেশিরভাগ ফ্রিকোয়েন্সি ক্রস-টেবিল বিশ্লেষণ করতে ব্যবহৃত হয়। এই বাইপ্লট প্রায় প্লটটিতে ইউক্লিডিয়ান দূরত্ব দ্বারা, টেবিলের চি-স্কোয়ার দূরত্বে আনুমানিক হবে will চি-বর্গক্ষেত্রের দূরত্বটি গাণিতিকভাবে ইউক্লিডিয়ান দূরত্ব বিপরীতভাবে প্রান্তিক মোটের দ্বারা ওজনযুক্ত। চি-স্কোয়ার মডেল সিএ জ্যামিতির বিশদে আমি আর যাব না।

ফ্রিকোয়েন্সি টেবিল X প্রিপ্রোসেসিংটি নিম্নরূপ: প্রতিটি ফ্রিকোয়েন্সিটি প্রত্যাশিত ফ্রিকোয়েন্সি দিয়ে বিভক্ত করুন, তারপরে ১ কে বিয়োগ করুন first এটি প্রথমে ফ্রিকোয়েন্সিটির অবশিষ্টাংশ পাওয়া এবং তারপরে প্রত্যাশিত ফ্রিকোয়েন্সি দ্বারা বিভাজন করা সমান। সারি ওজনকে wi=Ri/N এবং কলামের ওজনকে wj=Cj/N , যেখানে Ri সারি i এর প্রান্তিক যোগ (কেবলমাত্র সক্রিয় কলাম), Cj কলামের প্রান্তিক যোগ (সক্রিয়) কেবল সারিগুলি), N হ'ল টেবিলের মোট সক্রিয় যোগফল (তিনটি সংখ্যা প্রাথমিক টেবিল থেকে আসে)।

XZRiCjZ

min(r1,c1)

এই উত্তরে চি-স্কোয়ার মডেল সিএর একটি সুন্দর ওভারভিউও দেখুন ।

কনটেন্ট কপিরাইট আইনে পূর্বানুমতি

এখানে কিছু ডেটা টেবিল দেওয়া আছে।

 row     A     B     C     D     E     F
   1     6     8     6     2     9     9
   2     0     3     8     5     1     3
   3     2     3     9     2     4     7
   4     2     4     2     2     7     7
   5     6     9     9     3     9     6
   6     6     4     7     5     5     8
   7     7     9     6     6     4     8
   8     4     4     8     5     3     7
   9     4     6     7     3     3     7
  10     1     5     4     5     3     6
  11     1     5     6     4     8     3
  12     0     6     7     5     3     1
  13     6     9     6     3     5     4
  14     1     6     4     7     8     4
  15     1     1     5     2     4     3
  16     8     9     7     5     5     9
  17     2     7     1     3     4     4
  28     5     3     3     9     6     4
  19     6     7     6     2     9     6
  20    10     7     4     4     8     7

এই মানগুলির বিশ্লেষণের উপর নির্মিত বেশ কয়েকটি দ্বৈত স্ক্যাটারপ্লটগুলি (2 প্রথম প্রধান মাত্রায়) অনুসরণ করে। ভিজ্যুয়াল জোরের জন্য স্পাইকের মাধ্যমে কলাম পয়েন্টগুলি মূলটির সাথে সংযুক্ত। এই বিশ্লেষণগুলিতে কোনও প্যাসিভ সারি বা কলাম নেই।

প্রথম বাইপ্লট হ'ল "যেমন আছে" বিশ্লেষণ করা ডেটা টেবিলের এসভিডি ফলাফল; স্থানাঙ্কগুলি হ'ল সারি এবং কলাম ইগেনভেেক্টর।

এখানে চিত্র বর্ণনা লিখুন

নীচে পিসিএ থেকে আসা সম্ভাব্য বাইপলটগুলির একটি রয়েছে । পিসিএ কলামগুলি কেন্দ্র না করে "যেমন রয়েছে" ডেটাতে করা হয়েছিল; তবে, এটি পিসিএ-তে গৃহীত হওয়ায় প্রাথমিকভাবে সারিগুলির সংখ্যা (মামলার সংখ্যা) দ্বারা সাধারণকরণ করা হয়েছিল। এই নির্দিষ্ট বাইপলট মূল সারি স্থানাঙ্ক (যেমন কাঁচা উপাদান স্কোর) এবং মূল কলাম স্থানাঙ্ক (যেমন ভেরিয়েবল লোডিংস) প্রদর্শন করে।

এখানে চিত্র বর্ণনা লিখুন

এরপরে বাইপ্লট সেন্সু স্ট্রিক্টো : প্রথমদিকে সারণির সংখ্যা এবং কলামের সংখ্যা উভয়ই সারণীটি স্বাভাবিক করা হয়েছিল। প্রিন্সিপাল নরমালাইজেশন (জড়তা ছড়িয়ে পড়া) উভয় সারি এবং কলামের স্থানাঙ্কের জন্য ব্যবহৃত হয়েছিল - যেমন উপরের পিসিএ হিসাবে। পিসিএ বিপ্লটের সাথে মিলটি নোট করুন: প্রাথমিক স্বাভাবিককরণের পার্থক্যের কারণে কেবলমাত্র পার্থক্য।

এখানে চিত্র বর্ণনা লিখুন

চি-বর্গ মডেলের চিঠিপত্র বিশ্লেষণ বিপ্লট। ডেটা টেবিলটি বিশেষ পদ্ধতিতে প্রাক প্রসেস করা হয়েছিল, এতে দ্বি-পথ কেন্দ্রিককরণ এবং প্রান্তিক মোটগুলি ব্যবহার করে একটি সাধারণকরণ অন্তর্ভুক্ত ছিল। এটি একটি ওজনযুক্ত বাইপ্লট। জড়তাটি সারিতে ছড়িয়ে ছিল এবং কলামের সমন্বয়গত স্থানাঙ্কিক - উভয়ই "প্রধান" এবং "মানক" স্থানাঙ্কের মধ্যে অর্ধেক পথ।

এখানে চিত্র বর্ণনা লিখুন

এই সমস্ত স্ক্যাটারপ্লটগুলিতে প্রদর্শিত স্থানাঙ্কগুলি:

point      dim1_1   dim2_1   dim1_2   dim2_2   dim1_3   dim2_3   dim1_4   dim2_4
1            .290     .247   16.871    3.048    6.887    1.244    -.479    -.101
2            .141    -.509    8.222   -6.284    3.356   -2.565    1.460    -.413
3            .198    -.282   11.504   -3.486    4.696   -1.423     .414    -.820
4            .175     .178   10.156    2.202    4.146     .899    -.421     .339
5            .303     .045   17.610     .550    7.189     .224    -.171    -.090
6            .245    -.054   14.226    -.665    5.808    -.272    -.061    -.319
7            .280     .051   16.306     .631    6.657     .258    -.180    -.112
8            .218    -.248   12.688   -3.065    5.180   -1.251     .322    -.480
9            .216    -.105   12.557   -1.300    5.126    -.531     .036    -.533
10           .171    -.157    9.921   -1.934    4.050    -.789     .433     .187
11           .194    -.137   11.282   -1.689    4.606    -.690     .384     .535
12           .157    -.384    9.117   -4.746    3.722   -1.938    1.121     .304
13           .235     .099   13.676    1.219    5.583     .498    -.295    -.072
14           .210    -.105   12.228   -1.295    4.992    -.529     .399     .962
15           .115    -.163    6.677   -2.013    2.726    -.822     .517    -.227
16           .304     .103   17.656    1.269    7.208     .518    -.289    -.257
17           .151     .147    8.771    1.814    3.581     .741    -.316     .670
18           .198    -.026   11.509    -.324    4.699    -.132     .137     .776
19           .259     .213   15.058    2.631    6.147    1.074    -.459     .005
20           .278     .414   16.159    5.112    6.597    2.087    -.753     .040
A            .337     .534    4.387    1.475    4.387    1.475    -.865    -.289
B            .461     .156    5.998     .430    5.998     .430    -.127     .186
C            .441    -.666    5.741   -1.840    5.741   -1.840     .635    -.563
D            .306    -.394    3.976   -1.087    3.976   -1.087     .656     .571
E            .427     .289    5.556     .797    5.556     .797    -.230     .518
F            .451     .087    5.860     .240    5.860     .240    -.176    -.325

2
আকর্ষণীয় প্রশ্ন (+1) পাশাপাশি দুর্দান্ত এবং বিস্তৃত উত্তর (+1)। যাইহোক, উত্তরটি আইএমএইচওকে সেই দুর্দান্ত গণিতটির আরও ভাল ধারণা দেওয়ার জন্য মরিয়াভাবে কিছু ভিজ্যুয়াল সহায়তা দরকার ।
আলেকসান্দ্র ব্লেক

1
আমি কিছু উদাহরণ ছবি যোগ করেছি।
ttnphns

2
দুর্দান্ত, আপনাকে ধন্যবাদ! (এর মানে এই নয় যে আমি সমস্ত কিছু বুঝতে পেরেছি, তবে, কমপক্ষে, এখন আমি চেষ্টা করতে কিছুটা বেশি অনুপ্রাণিত :-)।
আলেকসান্দ্র ব্লেক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.