SVD
Xr×cX=Ur×rSr×cV′c×cm [m≤min(r,c)]X(m)mXX(m)=Ur×mSm×mV′c×mU=Ur×m ভি = ভি সি × এম এস = এস এম । মি, , ।V=Vc×mS=Sm×m
একবচনীয় মান এবং তাদের স্কোয়ারগুলি, ইগেনভ্যালুগুলি স্কেলের প্রতিনিধিত্ব করে , যাকে ডেটার জড়তাও বলা হয় । বাম eigenvectors সম্মুখের ডেটার সারির স্থানাঙ্ক হয় প্রধান অক্ষ; ডান আইজেনভেেক্টর হ'ল সেই একই সুপ্ত অক্ষের উপরে ডেটাগুলির কলামগুলির স্থানাঙ্ক। সম্পূর্ণ স্কেল (জড়তা) এ সংরক্ষণ করা হয় এবং সুতরাং স্থানাঙ্কগুলি এবং ইউনিট-নরমালাইজড (কলাম এসএস = 1)।Sইউ এম ভি এস ইউ ভিUmVSUV
এসভিডি দ্বারা প্রিন্সিপাল কম্পোনেন্ট বিশ্লেষণ
পিসিএ, এটা ব্যাপারে পূর্ণ মতৈক্য রয়েছে বিবেচনা সারি এর র্যান্ডম পর্যবেক্ষণ যেমন (যা আসতে পারে বা যেতে), কিন্তু বিবেচনা করতে কলাম এর মাত্রা বা ভেরিয়েবল নির্দিষ্ট সংখ্যক হিসাবে। অত: পর তা ফলাফলে সারি (এবং শুধুমাত্র সারি) সংখ্যা প্রভাব মুছে ফেলার জন্য, বিশেষ করে eigenvalues উপর, svd-decomposing দ্বারা যথাযথ ও সুবিধাজনক পরিবর্তে । নোট করুন যে এটি এর ইগেন-পচনের সাথে সম্পর্কিত , নমুনার আকার হিসাবে । (প্রায়শই বেশিরভাগ সমবায়ীদের সাথে থাকে - তাদের পক্ষপাতহীন করার জন্য - আমরা দ্বারা ভাগ করতে পছন্দ করব , তবে এটি একটি উপদ্রব))Xএক্স জেড = এক্স / √XZ=X/r√XX′X/rrn
r−1
গুণ একটি ধ্রুবক দ্বারা শুধুমাত্র প্রভাবিত ; এবং সারি এবং কলামগুলির ইউনিট-স্বাভাবিকীকরণ স্থানাঙ্ক হিসাবে রয়ে গেছে।XSUV
এখান থেকে এবং নীচের যেকোন জায়গা থেকে আমরা নয়, বিএফ এসভিডি দ্বারা প্রদত্ত বিএফ , বিফ এবং বিএফ পুনরায় সংজ্ঞায়িত করব ; একটি সাধারণ সংস্করণ এবং সাধারণকরণ বিশ্লেষণের ধরণের মধ্যে পরিবর্তিত হয়।SUVZXZX
গুণিত করে আমরা এর কলামগুলিতে গড় বর্গক্ষেত্রটি নিয়ে আমাদের দেওয়া সারিগুলি এলোমেলো ক্ষেত্রে, এটি যৌক্তিক। আমরা এইভাবে প্রাপ্ত থাকেন কি পিসিএ বলা হয় মান বা প্রমিত প্রধান উপাদান স্কোর পর্যবেক্ষণ, ইউ * । আমরা ভের সাথে একই জিনিসটি করি না কারণ ভেরিয়েবলগুলি নির্দিষ্ট সত্তা।Ur√=U∗UU∗V
আমরা তখন সব নিষ্ক্রিয়তা সঙ্গে সারি অর্পণ করতে পারেন unstandardized সারি স্থানাঙ্ক, এছাড়াও পিসিএ ডেকে প্রাপ্ত কাঁচা প্রধান উপাদান স্কোর পর্যবেক্ষণ: U∗S । এই সূত্রটিকে আমরা "সরাসরি পথ" বলব। একই ফলাফল XV দ্বারা ফিরে আসে ; আমরা এটি "পরোক্ষ উপায়" হিসাবে লেবেল করব।
আনুষাঙ্গিকভাবে, আমরা সমস্ত জড়তার সাথে কলামগুলি সরবরাহ করতে পারি, অযৌক্তিক কলাম স্থানাঙ্কগুলি পেতে, পিসিএতে উপাদান-পরিবর্তনশীল লোডিংগুলিও বলা হয় : VS′ [ S বর্গক্ষেত্র হলে ট্রান্সপোজ উপেক্ষা করতে পারে ], - "সরাসরি উপায়"। একই ফলাফল দ্বারা ফিরিয়ে দেওয়া হয় Z′U "পরোক্ষ ভাবে" -। (উপরে আদর্শায়িত প্রধান উপাদান স্কোর এছাড়াও যাবে loadings থেকে নির্ণিত যেমন X(AS−1/2) , যেখানে A । Loadings হয়)
Biplot
বাইপ্লটকে মাত্র একটি মাত্রিকতা হ্রাস বিশ্লেষণের অর্থে বিবেচনা করুন, কেবল "দ্বৈত স্ক্রেটারপ্লট" হিসাবে নয়। এই বিশ্লেষণ পিসিএর সাথে খুব মিল similar পিসিএর বিপরীতে, উভয় সারি এবং কলামগুলি এলোমেলো পর্যবেক্ষণ হিসাবে, প্রতিসম হিসাবে, চিকিত্সা করা হয়, যার অর্থ X পৃথক মাত্রিকতার একটি এলোমেলো দ্বিমুখী সারণী হিসাবে দেখা হচ্ছে। তারপরে, স্বাভাবিকভাবে, এসভিডির আগে এটি আর আর সি উভয় দ্বারা স্বাভাবিক করুন : জেড = এক্স / √ √rcZ=X/rc−−√ ।
এসভিডি এর পরে, গণনা স্ট্যান্ডার্ড সারি সমন্বয় হয় যেমনটি আমরা এটি পিসিএতে করেছি: U∗= ইউ আর√ । স্ট্যান্ডার্ড কলাম স্থানাঙ্কগুলিপেতে কলাম ভেক্টরগুলির সাথে একই জিনিস (পিসিএ বিপরীতে) করুন:ভী*= ভি সি√ । উভয় সারি এবং কলামের স্ট্যান্ডার্ড স্থানাঙ্কগুলিরঅর্থবর্গ 1 হয়।
আমরা পিসিএ-তে যেমন করি তেমন মূল্যবান জড়তার সাথে সারি এবং / অথবা কলামগুলি স্থানাঙ্ক প্রদান করতে পারি। আনস্ট্যান্ডার্ডাইজড সারির স্থানাঙ্ক: U∗S (সরাসরি উপায়)। Unstandardized কলাম স্থানাঙ্ক: V∗S′ (সরাসরি উপায়)। পরোক্ষ উপায় কি? আপনি সহজেই বদল দ্বারা অনুমান করতে পারেন যে unstandardized সারি স্থানাঙ্ক জন্য পরোক্ষ সূত্র XV∗/c , এবং unstandardized কলাম স্থানাঙ্ক জন্য X′U∗/r ।
বিপ্লটের একটি বিশেষ কেস হিসাবে পিসিএ । উপরের বর্ণনাগুলি থেকে আপনি সম্ভবত শিখেছি যে পিসিএ এবং biplot একমাত্র পার্থক্য কিভাবে তারা স্বাভাবিক X মধ্যে Z যা পরে পচে করা হয়। বিপ্লট সারি সংখ্যা এবং কলামের সংখ্যা উভয় দ্বারা স্বাভাবিক করে; পিসিএ কেবলমাত্র সারি সংখ্যা দ্বারা স্বাভাবিক করে তোলে। ফলস্বরূপ, পোস্ট-এসভিডি গণনাগুলিতে দুজনের মধ্যে কিছুটা পার্থক্য রয়েছে। বিপ্লট করতে গিয়ে আপনি এর সূত্রগুলিতে c=1 সেট করলে আপনি ঠিক পিসিএ ফলাফল পাবেন। সুতরাং, বিপ্লটকে জেনেরিক পদ্ধতি এবং পিসিএ হিসাবে বিপ্লটের একটি বিশেষ কেস হিসাবে দেখা যেতে পারে।
[ কলাম কেন্দ্রিক । কিছু ব্যবহারকারী বলতে পারেন: স্টপ কিন্তু পিসিএ যাতে এটা ব্যাখ্যা করার এছাড়াও এবং সমস্ত ডেটা কলাম (ভেরিয়েবল) এর কেঁদ্রীকরণ প্রথম প্রয়োজন হয় না ভ্যারিয়েন্স ? যদিও বিপ্লট কেন কেন্দ্রিং করতে পারে না? আমার উত্তর: কেবলমাত্র পিসিএ-ইন-সরু-ইন্দ্রিয়ই কেন্দ্রিক করে এবং বিভিন্নতার ব্যাখ্যা দেয়; আমি লিনিয়ার পিসিএ-ইন-জেনারেল-ইন্দ্রিয়, পিসিএ নিয়ে আলোচনা করছি যা নির্বাচিত উত্স থেকে কিছু শ্রেণিবিন্যাসের বিচ্যুতির পরিমাণ ব্যাখ্যা করে; আপনি এটি ডেটা অর্থ হিসাবে বেছে নিতে পারেন, নেটিভ 0 বা যা আপনার পছন্দ হয়। সুতরাং, "কেন্দ্রিয়" অপারেশন পিসিএকে বাইপ্লট থেকে আলাদা করতে পারে না]]
প্যাসিভ সারি এবং কলামগুলি
বিপ্লট বা পিসিএতে আপনি কিছু সারি এবং / অথবা কলামগুলি প্যাসিভ বা পরিপূরক হতে সেট করতে পারেন। প্যাসিভ সারি বা কলামটি এসভিডিকে প্রভাবিত করে না এবং ফলে জড়তা বা অন্যান্য সারি / কলামের স্থানাঙ্ককে প্রভাবিত করে না, তবে সক্রিয় (প্যাসিভ নয়) সারি / কলামগুলির দ্বারা উত্পাদিত মূল অক্ষগুলির জায়গায় এর স্থানাঙ্কগুলি গ্রহণ করে।
প্যাসিভ হতে কিছু পয়েন্ট (সারি / কলাম) সেট করতে, (1) r এবং c সক্রিয় সারি এবং কলামগুলির সংখ্যা হতে হবে । (2) শূন্য প্যাসিভ সারি এবং কলাম করা সেট করুন Z svd আগে। (3) প্যাসিভ সারি / কলামগুলির স্থানাঙ্কগুলি গণনা করার জন্য "পরোক্ষ" উপায়গুলি ব্যবহার করুন, যেহেতু তাদের ইগেনভেেক্টরের মান শূন্য হবে।
পিসিএ-তে, আপনি পুরানো পর্যবেক্ষণে প্রাপ্ত লোডিংয়ের সাহায্যে ( স্কোর সহগ ম্যাট্রিক্স ব্যবহার করে ) নতুন ইনকামিং কেসগুলির জন্য কম্পোনেন্ট স্কোরগুলি গণনা করার সময়, আপনি পিসিএতে এই নতুন কেসগুলি গ্রহণ এবং প্যাসিভ রাখার মতো একই কাজ করছেন। একইভাবে, পিসিএ দ্বারা উত্পাদিত উপাদান স্কোরগুলির সাথে কিছু বাহ্যিক ভেরিয়েবলের পারস্পরিক সম্পর্ক / সমবায়নের গণনা করা সেই পিসিএতে সেই পরিবর্তনশীলগুলি গ্রহণ এবং প্যাসিভ রাখার সমতুল্য।
নির্বিচারে জড়তা ছড়ানো
স্ট্যান্ডার্ড কোঅর্ডিনেটের কলামটি গড় বর্গ (এমএস) হয় ১. অমানবিক স্থানাঙ্কগুলির কলামের গড় বর্গক্ষেত্র (এমএস) সংশ্লিষ্ট মূল অক্ষগুলির জড়তার সমান: ইগেনভ্যালুগুলির সমস্ত জড়তা নিরস্তর স্থানাঙ্ক উত্পাদন করার জন্য ইগেনভেেক্টরগুলিকে দান করা হয়েছিল।
ইন biplot : সারি মান স্থানাঙ্ক U∗ প্রতিটি প্রধান অক্ষের জন্য মাইক্রোসফট = 1 আছে। Unstandardized স্থানাঙ্ক সারি, নামেও সারি প্রধান স্থানাঙ্ক U∗S=XV∗/c = মাইক্রোসফট আছে eigenvalue সংশ্লিষ্ট Z । একই কলাম স্ট্যান্ডার্ড এবং আনস্ট্যান্ডার্ডাইজড (অধ্যক্ষ) স্থানাঙ্কের ক্ষেত্রে এটি সত্য।
সাধারণত, এটি কোনও জড়তার সাথে সম্পূর্ণ বা কোনওটির সাথে স্থানাঙ্কের প্রয়োজন হয় না। কোনও কারণে প্রয়োজনে স্বেচ্ছাচারিতায় ছড়িয়ে দেওয়ার অনুমতি দেওয়া হয়। সারণিতে যাওয়ার জন্য জড়তার অনুপাত হতে 1 p1 যাক । তারপর সারিটি স্থানাঙ্ক সাধারণ সূত্র: ইউ * এস পি 1 (সরাসরি উপায়) = এক্স ভী * এস পি 1 - 1 / গ (পরোক্ষ ভাবে)। যদি পি 1 = 0 আমরা মান সারি কোঅর্ডিনেটগুলি পান সঙ্গে যেহেতু পি 1 = 1 আমরা প্রধান সারি স্থানাঙ্ক পেতে।U∗Sp1XV∗Sp1−1/cp1=0p1=1
অনুরূপভাবে p2 হতে নিষ্ক্রিয়তা অনুপাত কলাম যেতে যা। তারপরে কলাম স্থানাঙ্কের সাধারণ সূত্রটি হ'ল: V∗Sp2 (প্রত্যক্ষ উপায়) = X′U∗Sp2−1/r (পরোক্ষ উপায়)। যদি পি2= 0 আমরা স্ট্যান্ডার্ড কলামের স্থানাঙ্ক পাই, তবে পি2= 1 আমরা মূল কলাম স্থানাঙ্ক পাই।
সাধারণ অপ্রত্যক্ষ সূত্রগুলি সর্বজনীন যে তারা প্যাসিভ পয়েন্টগুলির জন্য যদি কোনও থাকে তবে স্থানাঙ্কগুলি (মানক, প্রধান বা মধ্যবর্তী) গণনা করতে দেয়।
যদি পি1+ পি2= 1 তারা বলে যে জড়তা সারি এবং কলাম পয়েন্টগুলির মধ্যে বিতরণ করা হয়। পি1= 1 , পি2= 0 অর্থাৎ সারি-প্রধান-কলাম-মানক, biplots মাঝে মাঝে "ফর্ম biplots" বা "সারি-মেট্রিক সংরক্ষণ" ব্যবহার biplots বলা হয়। পি1= 0 , পি2= 1 , অর্থাত্ সারি-মানক-কলাম-প্রিন্সিপাল, biplots প্রায়ই পিসিএ সাহিত্য "সহভেদাংক biplots" বা "কলাম-মেট্রিক সংরক্ষণ" ব্যবহার biplots মধ্যে বলা হয়; তারা পরিবর্তনশীল লোডিংগুলি প্রদর্শন করে ( যা হয় পিসিএর মধ্যে প্রয়োগ করার সাথে সাথে কোভারিয়েন্সগুলিতে জুটপাসযুক্ত) প্লাস মানকযুক্ত উপাদান স্কোর।
ইন চিঠিপত্রের বিশ্লেষণ , পি1= পি2= 1 / 2 প্রায়ই ব্যবহার করা হয় এবং "প্রতিসম" বা নিষ্ক্রিয়তা দ্বারা "ক্যাননিকাল" নিয়মমাফিককরণ বলা হয় - এটি (ইউক্লিডিয় জ্যামিতিক কষাকষি কিছু expence যদ্যপি) অনুমতি দেয় সারি মধ্যে নৈকট্য তুলনা এবং , কলাম পয়েন্ট যেমন আমরা বহুমাত্রিক উদ্ঘাটন মানচিত্র করতে পারি।
চিঠিপত্র বিশ্লেষণ (ইউক্লিডিয়ান মডেল)
দ্বিমুখী (= সরল) চিঠিপত্র বিশ্লেষণ (সিএ) দ্বি-দ্বি কনজিস্টেন্সি টেবিল বিশ্লেষণ করতে ব্যবহৃত হয় বাইপ্লট, অর্থাৎ, একটি নন-নেগেটিভ টেবিল যা এন্ট্রি করে একটি সারি এবং একটি কলামের মধ্যে কিছু প্রকারের সার্থকতার অর্থ বহন করে। যখন টেবিলটি ফ্রিকোয়েন্সি হয় চি-বর্গ মডেলের চিঠিপত্র বিশ্লেষণ ব্যবহৃত হয়। যখন এন্ট্রিগুলি হয়, বলুন, মানে বা অন্যান্য স্কোর হয় তখন একটি সহজ ইউক্লিডিয়ান মডেল সিএ ব্যবহৃত হয়।
ইউক্লিডিয় মডেল সিএ হয় মাত্র biplot উপরে বর্ণিত, শুধুমাত্র টেবিল X অতিরিক্ত preprocessed হওয়ার আগে এটা biplot অপারেশন প্রবেশ করে। বিশেষত, মানগুলি কেবলমাত্র r এবং c দ্বারা নয় তবে মোট যোগফল N দ্বারাও স্বাভাবিক হয় ।
প্রিপ্রোসেসিং কেন্দ্রীকরণ নিয়ে গঠিত হয়, তারপরে গড় ভর দিয়ে স্বাভাবিক করে তোলে। কেন্দ্রীকরণ বিভিন্ন হতে পারে, প্রায়শই: (1) কলামগুলি কেন্দ্র করে; (২) সারি কেন্দ্রিকরণ; (3) দ্বি-মুখী কেন্দ্রিয় যা ফ্রিকোয়েন্সি অবশিষ্টাংশের গণনা হিসাবে একই ক্রিয়াকলাপ; (4) কলামের যোগফল সমান করার পরে কলামগুলি কেন্দ্র করে; (5) সারি সংখ্যার সমান করার পরে সারিগুলির কেন্দ্রিককরণ। গড় ভর দ্বারা সাধারণকরণ প্রাথমিক টেবিলের গড় ঘর মান দ্বারা ভাগ করা হয়। প্রিপ্রোসেসিং পদক্ষেপে, প্যাসিভ সারি / কলামগুলি যদি বিদ্যমান থাকে তবে তা নিষ্ক্রিয়ভাবে মানক করা হয়: এগুলি সক্রিয় সারি / কলামগুলি থেকে গুণিত মানগুলি দ্বারা কেন্দ্রিক / স্বাভাবিক হয়।
তারপর স্বাভাবিক biplot preprocessed সম্পন্ন হবে X , থেকে শুরু Z=X/rc−−√ ।
ভারী বিপ্লট
কল্পনা করুন যে সারি বা কলামের ক্রিয়াকলাপ বা গুরুত্বটি 0 এবং 1 এর মধ্যে যে কোনও সংখ্যা হতে পারে এবং কেবল 0 (প্যাসিভ) বা 1 (সক্রিয়) নয় এখন অবধি আলোচিত ক্লাসিক বিপ্লটের মতো। আমরা এই সারি এবং কলামের ওজন দ্বারা ইনপুট ডেটা ওজন করতে এবং ওয়েট বাইপ্লট করতে পারি। ভারিত বাইপ্লটের সাথে, সেই ফলকটি বা সারির ফলাফলগুলি সম্পর্কিত যতটা প্রভাবিত হয় তত বেশি - জড়তা এবং মূল বিন্দুতে সমস্ত পয়েন্টের স্থানাঙ্ক।
ব্যবহারকারী সারি ওজন এবং কলামের ওজন সরবরাহ করে। এদেরকে এবং ওদেরকে প্রথম আলাদাভাবে স্বাভাবিকৃত হয় 1. তারপর নিয়মমাফিককরণ পদক্ষেপ করতে যোগফল করতে Zij=Xijwiwj−−−−√ ,wiএবংwjসারি আই এবং কলামের ওজন হ'ল। হুবুহু শূন্য ওজন সারি বা কলামটি প্যাসিভ হিসাবে চিহ্নিত করে।
এই মুহুর্তে আমরা আবিষ্কার করতে পারি যে ক্লাসিক বাইপ্লট হ'ল সমস্ত সক্রিয় সারিগুলির জন্য সমান ওজন 1/r এবং সমস্ত সক্রিয় কলামগুলির জন্য সমান ওজন 1/c সহ সমান ওজনযুক্ত বিপ্লট ; সক্রিয় সারি এবং সক্রিয় কলামগুলির সংখ্যা r এবং c ।
Z এসভিডি করুন । সমস্ত কাজকর্মের সর্বোত্তম biplot হিসেবে একই রকম, শুধু পার্থক্য হচ্ছে যে wi স্থানে রয়েছে 1/r এবং wj স্থানে রয়েছে 1/c । মানক সারির স্থানাঙ্ক: U∗i=Ui/wi−−√ এবং মানক কলাম স্থানাঙ্ক:V∗j=Vj/wj−−√ । (এগুলি ননজারো ওজনযুক্ত সারি / কলামগুলির জন্য zero শূন্য ওজনযুক্ত ব্যক্তিদের জন্য মানগুলি 0 হিসাবে ছেড়ে যান এবং মানক বা তাদের যে কোনও স্থানাঙ্কগুলি পেতে নীচের পরোক্ষ সূত্রগুলি ব্যবহার করুন))
আপনি যে অনুপাত চান তার সাথে স্থানাঙ্কগুলিকে জড়তা দিন ( p1=1 এবং p2=1 স্থানাঙ্কগুলি সম্পূর্ণরূপে অযৌক্তিক বা মূল হবে; p1=0 এবং p2=0 তারা মানক থাকবে)। সারি: U∗Sp1 (প্রত্যক্ষ উপায়) = X[Wj]V∗Sp1−1 (পরোক্ষ উপায়)। কলাম: V∗Sp2(প্রত্যক্ষ উপায়) = ([Wi]X)′U∗Sp2−1 (পরোক্ষ উপায়)। এখানে বন্ধনীগুলিতে ম্যাট্রিকগুলি হ'ল যথাক্রমে কলাম এবং সারি ওজনের ত্রিভুজ ম্যাট্রিকগুলি। প্যাসিভ পয়েন্টগুলির জন্য (এটি শূন্য ওজন সহ) কেবল গণনার অপ্রত্যক্ষ উপায় উপযুক্ত। সক্রিয় (ধনাত্মক ওজন) পয়েন্টগুলির জন্য আপনি যে কোনও উপায়ে যেতে পারেন।
বিপ্লটের একটি বিশেষ মামলা হিসাবে পিসিএ পুনর্বিবেচনা করেছে । আগে অদম্য বাইপলট বিবেচনা করার সময় আমি উল্লেখ করেছি যে পিসিএ এবং বাইপ্লট সমতুল্য, কেবলমাত্র পার্থক্য হ'ল বিপ্লট তথ্যের কলামগুলি (পরিবর্তনশীল) এলোমেলোভাবে পর্যবেক্ষণের (সারিগুলি) প্রতিসাম্য হিসাবে দেখেছে। এখন আরও সাধারণ ওজনযুক্ত বাইপ্লটের কাছে বাইপ্লট প্রসারিত করার পরে আমরা আবার এটি দাবি করতে পারি, কেবলমাত্র পার্থক্যটি হল যে (ওজনযুক্ত) বাইপ্লট ইনপুট ডেটার কলাম ওয়েটের যোগফলকে 1, এবং (ওয়েটড) পিসিএ -কে সংখ্যায় উন্নত করে - সক্রিয়) কলাম। সুতরাং এখানে ভারী পিসিএ চালু করা হয়েছে। এর ফলাফলগুলি ওজনযুক্ত বিপ্লটের মতো অনুপাত অনুসারে ical বিশেষত, যদি c সক্রিয় কলামগুলির সংখ্যা, তারপরে নিম্নোক্ত সম্পর্কগুলি সত্য, ওজনযুক্ত পাশাপাশি দুটি বিশ্লেষণের ক্লাসিক সংস্করণগুলির জন্য:
- পিসিএ এর eigenvalues = এর biplot eigenvalues ⋅c ;
- লোডিংস = কলামগুলির মূল প্রধানকরণের অধীনে কলাম স্থানাঙ্ক;
- মানক উপাদান স্কোর = সারিগুলির "স্ট্যান্ডার্ড নরমালাইজেশন" এর অধীনে সারি সমন্বয়;
- পিসিএ এর ইগেনভেেক্টর = কলাম / √ এর "স্ট্যান্ডার্ড নরমালাইজেশন" এর অধীনে কলাম স্থানাঙ্ক √/c√ ;
- কাঁচা উপাদান স্কোর = সারি "প্রধান নিয়মমাফিককরণ" এর অধীনে সারি স্থানাঙ্ক ⋅c√ ।
চিঠিপত্র বিশ্লেষণ (চি-বর্গ মডেল)
এটি প্রযুক্তিগতভাবে একটি ওজনযুক্ত বাইপ্লট যেখানে ওজন একটি টেবিল থেকে নিজেই গণনা করা হচ্ছে পরিবর্তে তারপরে ব্যবহারকারী দ্বারা সরবরাহ করা হয়। এটি বেশিরভাগ ফ্রিকোয়েন্সি ক্রস-টেবিল বিশ্লেষণ করতে ব্যবহৃত হয়। এই বাইপ্লট প্রায় প্লটটিতে ইউক্লিডিয়ান দূরত্ব দ্বারা, টেবিলের চি-স্কোয়ার দূরত্বে আনুমানিক হবে will চি-বর্গক্ষেত্রের দূরত্বটি গাণিতিকভাবে ইউক্লিডিয়ান দূরত্ব বিপরীতভাবে প্রান্তিক মোটের দ্বারা ওজনযুক্ত। চি-স্কোয়ার মডেল সিএ জ্যামিতির বিশদে আমি আর যাব না।
ফ্রিকোয়েন্সি টেবিল X প্রিপ্রোসেসিংটি নিম্নরূপ: প্রতিটি ফ্রিকোয়েন্সিটি প্রত্যাশিত ফ্রিকোয়েন্সি দিয়ে বিভক্ত করুন, তারপরে ১ কে বিয়োগ করুন first এটি প্রথমে ফ্রিকোয়েন্সিটির অবশিষ্টাংশ পাওয়া এবং তারপরে প্রত্যাশিত ফ্রিকোয়েন্সি দ্বারা বিভাজন করা সমান। সারি ওজনকে wi=Ri/N এবং কলামের ওজনকে wj=Cj/N , যেখানে Ri সারি i এর প্রান্তিক যোগ (কেবলমাত্র সক্রিয় কলাম), Cj কলামের প্রান্তিক যোগ (সক্রিয়) কেবল সারিগুলি), N হ'ল টেবিলের মোট সক্রিয় যোগফল (তিনটি সংখ্যা প্রাথমিক টেবিল থেকে আসে)।
XZRiCjZ
min(r−1,c−1)
এই উত্তরে চি-স্কোয়ার মডেল সিএর একটি সুন্দর ওভারভিউও দেখুন ।
কনটেন্ট কপিরাইট আইনে পূর্বানুমতি
এখানে কিছু ডেটা টেবিল দেওয়া আছে।
row A B C D E F
1 6 8 6 2 9 9
2 0 3 8 5 1 3
3 2 3 9 2 4 7
4 2 4 2 2 7 7
5 6 9 9 3 9 6
6 6 4 7 5 5 8
7 7 9 6 6 4 8
8 4 4 8 5 3 7
9 4 6 7 3 3 7
10 1 5 4 5 3 6
11 1 5 6 4 8 3
12 0 6 7 5 3 1
13 6 9 6 3 5 4
14 1 6 4 7 8 4
15 1 1 5 2 4 3
16 8 9 7 5 5 9
17 2 7 1 3 4 4
28 5 3 3 9 6 4
19 6 7 6 2 9 6
20 10 7 4 4 8 7
এই মানগুলির বিশ্লেষণের উপর নির্মিত বেশ কয়েকটি দ্বৈত স্ক্যাটারপ্লটগুলি (2 প্রথম প্রধান মাত্রায়) অনুসরণ করে। ভিজ্যুয়াল জোরের জন্য স্পাইকের মাধ্যমে কলাম পয়েন্টগুলি মূলটির সাথে সংযুক্ত। এই বিশ্লেষণগুলিতে কোনও প্যাসিভ সারি বা কলাম নেই।
প্রথম বাইপ্লট হ'ল "যেমন আছে" বিশ্লেষণ করা ডেটা টেবিলের এসভিডি ফলাফল; স্থানাঙ্কগুলি হ'ল সারি এবং কলাম ইগেনভেেক্টর।
নীচে পিসিএ থেকে আসা সম্ভাব্য বাইপলটগুলির একটি রয়েছে । পিসিএ কলামগুলি কেন্দ্র না করে "যেমন রয়েছে" ডেটাতে করা হয়েছিল; তবে, এটি পিসিএ-তে গৃহীত হওয়ায় প্রাথমিকভাবে সারিগুলির সংখ্যা (মামলার সংখ্যা) দ্বারা সাধারণকরণ করা হয়েছিল। এই নির্দিষ্ট বাইপলট মূল সারি স্থানাঙ্ক (যেমন কাঁচা উপাদান স্কোর) এবং মূল কলাম স্থানাঙ্ক (যেমন ভেরিয়েবল লোডিংস) প্রদর্শন করে।
এরপরে বাইপ্লট সেন্সু স্ট্রিক্টো : প্রথমদিকে সারণির সংখ্যা এবং কলামের সংখ্যা উভয়ই সারণীটি স্বাভাবিক করা হয়েছিল। প্রিন্সিপাল নরমালাইজেশন (জড়তা ছড়িয়ে পড়া) উভয় সারি এবং কলামের স্থানাঙ্কের জন্য ব্যবহৃত হয়েছিল - যেমন উপরের পিসিএ হিসাবে। পিসিএ বিপ্লটের সাথে মিলটি নোট করুন: প্রাথমিক স্বাভাবিককরণের পার্থক্যের কারণে কেবলমাত্র পার্থক্য।
চি-বর্গ মডেলের চিঠিপত্র বিশ্লেষণ বিপ্লট। ডেটা টেবিলটি বিশেষ পদ্ধতিতে প্রাক প্রসেস করা হয়েছিল, এতে দ্বি-পথ কেন্দ্রিককরণ এবং প্রান্তিক মোটগুলি ব্যবহার করে একটি সাধারণকরণ অন্তর্ভুক্ত ছিল। এটি একটি ওজনযুক্ত বাইপ্লট। জড়তাটি সারিতে ছড়িয়ে ছিল এবং কলামের সমন্বয়গত স্থানাঙ্কিক - উভয়ই "প্রধান" এবং "মানক" স্থানাঙ্কের মধ্যে অর্ধেক পথ।
এই সমস্ত স্ক্যাটারপ্লটগুলিতে প্রদর্শিত স্থানাঙ্কগুলি:
point dim1_1 dim2_1 dim1_2 dim2_2 dim1_3 dim2_3 dim1_4 dim2_4
1 .290 .247 16.871 3.048 6.887 1.244 -.479 -.101
2 .141 -.509 8.222 -6.284 3.356 -2.565 1.460 -.413
3 .198 -.282 11.504 -3.486 4.696 -1.423 .414 -.820
4 .175 .178 10.156 2.202 4.146 .899 -.421 .339
5 .303 .045 17.610 .550 7.189 .224 -.171 -.090
6 .245 -.054 14.226 -.665 5.808 -.272 -.061 -.319
7 .280 .051 16.306 .631 6.657 .258 -.180 -.112
8 .218 -.248 12.688 -3.065 5.180 -1.251 .322 -.480
9 .216 -.105 12.557 -1.300 5.126 -.531 .036 -.533
10 .171 -.157 9.921 -1.934 4.050 -.789 .433 .187
11 .194 -.137 11.282 -1.689 4.606 -.690 .384 .535
12 .157 -.384 9.117 -4.746 3.722 -1.938 1.121 .304
13 .235 .099 13.676 1.219 5.583 .498 -.295 -.072
14 .210 -.105 12.228 -1.295 4.992 -.529 .399 .962
15 .115 -.163 6.677 -2.013 2.726 -.822 .517 -.227
16 .304 .103 17.656 1.269 7.208 .518 -.289 -.257
17 .151 .147 8.771 1.814 3.581 .741 -.316 .670
18 .198 -.026 11.509 -.324 4.699 -.132 .137 .776
19 .259 .213 15.058 2.631 6.147 1.074 -.459 .005
20 .278 .414 16.159 5.112 6.597 2.087 -.753 .040
A .337 .534 4.387 1.475 4.387 1.475 -.865 -.289
B .461 .156 5.998 .430 5.998 .430 -.127 .186
C .441 -.666 5.741 -1.840 5.741 -1.840 .635 -.563
D .306 -.394 3.976 -1.087 3.976 -1.087 .656 .571
E .427 .289 5.556 .797 5.556 .797 -.230 .518
F .451 .087 5.860 .240 5.860 .240 -.176 -.325