Kmeans চালানোর আগে আমার কি পারস্পরিক সম্পর্কযুক্ত / কল্লাইনারযুক্ত ভেরিয়েবলগুলি ফেলে দেওয়ার দরকার আছে?


14

আমি গ্রাহকদের ক্লাস্টার সনাক্ত করতে কামান চালাচ্ছি। ক্লাস্টারগুলি সনাক্ত করতে আমার প্রায় 100 পরিবর্তনশীল রয়েছে। এই প্রতিটি ভেরিয়েবল কোনও বিভাগে কোনও গ্রাহকের ব্যয়ের% উপস্থাপন করে। সুতরাং, আমার যদি 100 টি বিভাগ থাকে তবে আমার কাছে এই 100 ভেরিয়েবলগুলি রয়েছে যে এই ভেরিয়েবলগুলির যোগফল প্রতিটি গ্রাহকের জন্য 100%। এখন, এই ভেরিয়েবলগুলি একে অপরের সাথে দৃ strongly়ভাবে সম্পর্কযুক্ত। আমি কিমানস চালানোর আগে কোলাইনারিটি অপসারণ করার জন্য এগুলির কিছু ফেলে দিতে হবে?

এখানে নমুনা তথ্য। বাস্তবে আমার 100 ভেরিয়েবল এবং 10 মিলিয়ন গ্রাহক রয়েছে।

Customer CatA CatB CatC   
1         10%  70%  20%   
2         15%  60%  25%

1
আপনি কি আপনার ডেটা সাজাতে পিসিএ বিশ্লেষণ চেষ্টা করেছেন?
মিরোস্লাভ সাবো

2
"কলিনেয়ার" "রিলেটেড" এর মতো একরকম নয়। সুতরাং আপনার প্রশ্নটি অস্পষ্ট
থেকেছে

উত্তর:


10

কোনও ভেরিয়েবল বাদ দেবেন না, তবে পিসিএ ব্যবহার বিবেচনা করুন। কারণটা এখানে.

প্রথমত, অ্যানি-মৌসে দ্বারা চিহ্নিত হিসাবে, কে-উপায়গুলি কলিনারিটি / পারস্পরিক সম্পর্ক দ্বারা খারাপভাবে প্রভাবিত হয় না। এজন্য আপনাকে তথ্য ফেলে দেওয়ার দরকার নেই।

দ্বিতীয়ত, আপনি যদি নিজের ভেরিয়েবলগুলি ভুল উপায়ে ফেলে রাখেন তবে আপনি কৃত্রিমভাবে কয়েকটি নমুনা এক সাথে কাছাকাছি আনবেন। একটি উদাহরণ:

Customer CatA CatB CatC
1        1    0    0
2        0    1    0
3        0    0    1

(আমি% স্বরলিপি অপসারণ করেছি এবং কেবল 0 এবং 1 এর মধ্যে মান রেখেছি, যার ফলে সমস্তগুলি 1 এর যোগফল হয়)

(10)2+(01)2+(00)2=2

এবার ধরা যাক আপনি ক্যাটসিকে বাদ দিন।

Customer CatA CatB 
1        1    0    
2        0    1    
3        0    0    

2(10)2+(00)2=1

তৃতীয়ত, কলিনেরারিটি / পারস্পরিক সম্পর্ক কোনও সমস্যা নয়। আপনার মাত্রিকতা হয়। 100 ভেরিয়েবলগুলি যথেষ্ট পরিমাণে বড় যে 10 মিলিয়ন ডেটাপয়েন্ট সহ, আমি আশঙ্কা করি যে কে-মানে ডেটাগুলিতে উত্সাহী প্যাটার্নগুলি খুঁজে পেতে পারে এবং এটি উপযুক্ত fit পরিবর্তে, পিসিএটিকে আরও নিয়ন্ত্রণযোগ্য মাত্রাগুলিতে সংকুচিত করার জন্য ব্যবহার করার বিষয়ে চিন্তা করুন - 10 বা 12 বলুন শুরু করুন (সম্ভবত অনেক বেশি, সম্ভবত অনেক কম) - আপনাকে প্রতিটি উপাদানটির সাথে তারতম্যটি দেখতে হবে এবং চারপাশে খেলতে হবে কিছুটা, সঠিক নম্বরটি খুঁজতে)। আপনি কৃত্রিমভাবে এটি করে কিছু নমুনা একসাথে আনবেন, হ্যাঁ, তবে আপনি এমনভাবে এমনটি করবেন যা উপাত্তের বেশিরভাগ বৈকল্পিকতা রক্ষা করবে এবং যা পছন্দসই সম্পর্কগুলি অপসারণ করবে।

~~~~~

সম্পাদনা করুন:

আবার, পিসিএ সম্পর্কে নীচে মন্তব্য। হ্যাঁ, এর একেবারে প্যাথোলজিস রয়েছে। তবে এটি চেষ্টা করা খুব দ্রুত এবং সহজ, তাই আপনি যদি সমস্যার মাত্রিকতা হ্রাস করতে চান তবে আমার কাছে খারাপ বাজি বলে মনে হয় না।

যদিও এই নোটটিতে, আমি দ্রুত 100 টি মাত্রিক সিন্থেটিক ডেটার কয়েকটি সেট কে-মানে অ্যালগরিদমের মধ্যে ফেলে দেওয়ার চেষ্টা করেছি যাতে তারা কী আসে। যদিও ক্লাস্টার সেন্টারের অবস্থানের অনুমানগুলি যথাযথ ছিল না, তবে ক্লাস্টারের সদস্যতা (যেমন দুটি ক্লাস্টারের জন্য দুটি নমুনা নির্ধারিত হয়েছে বা না, যা ওপি আগ্রহী বলে মনে হয়) এটি যেহেতু ভেবেছিল তার চেয়ে অনেক ভাল ছিল। সুতরাং আমার অন্ত্রের অনুভূতিটি সম্ভবত খুব সম্ভবত ভুল ছিল - কে-মানে মাইগ্রেট কাজটি কাঁচা ডেটার উপর ঠিক সূক্ষ্ম।


1
আমি মনে করি পিসিএ দ্বারা ভেরিয়েবলগুলি অপসারণ করার সময় অবশ্যই অনেক যত্ন নেওয়া উচিত। প্রথমে এ জাতীয় নির্মূলের আগে বৈকল্পিকগুলি অবশ্যই স্বাভাবিক করতে হবে কারণ আপনি ভেরিয়েবলগুলি ভুলভাবে মুছে ফেলতে পারেন কারণ তাদের ইউনিটের কারণে তাদের বিভিন্ন স্কেল রয়েছে। দ্বিতীয়ত এর পরে আমি কেবলমাত্র সেই মাত্রাগুলি মুছে ফেলব যার মধ্যে ন্যূনতম প্রকরণ রয়েছে, কারণ যেহেতু পিসিএ একটি অরথোগোনাল ভিত্তিকে ধরে নিয়েছে যদি আপনার অ-অर्थোগোনাল দিকের প্রকরণ থাকে তবে এটি কে-উপায় দ্বারা ধরা হবে তবে পিসিএ দ্বারা নির্মূল করা হবে।
ক্যাগডাস ওজজেঙ্ক

1
(X1,X2)1ρ>0Y=X1X2(X1,X2)X1+X2X1X2YX1+X2

1
এটি নিষ্ক্রিয় সেটিংসে অপ্রাসঙ্গিক আলোচনা। তত্ত্বাবধানে থাকা সেটিংয়ের জন্য হ্যাঁ পিসিএ লক্ষ্য পরিবর্তনশীলের সাথে সম্পর্কের বিষয়ে চিন্তা করে না। নির্ভরতার দিক যদি কম ভেরিয়েন্সের দিকে যায় তবে ভাগ্য খারাপ।
ক্যাগডাস ওজজেঙ্ক

2

2 ডি বা 3 ডি-তে খেলনা উদাহরণে, এটি খুব বেশি পার্থক্য করা উচিত নয়, এটি আপনার ডেটাতে কিছুটা অতিরিক্ত বাড়াবাড়ি যুক্ত করে: আপনার সমস্ত পয়েন্টগুলি একটি বিজোড়, (ডি -1) মাত্রিক হাইপারপ্লেনে রয়েছে। গুচ্ছ মানে। এবং এই (ডি -1) মাত্রিক হাইপারপ্লেনের দূরত্ব একই দূরত্বের লিনিয়ার একাধিক, তাই এটি কোনও পরিবর্তন করে না।

(x,y)(x,y,x+y)xy

আসুন সহজ উদাহরণটি দেখুন: সদৃশ ভেরিয়েবলগুলি।

আপনি যদি নিজের ডেটা সেটে পিসিএ চালনা করেন এবং কোনও ভেরিয়েবলের সদৃশ করেন তবে এর কার্যকরভাবে অর্থ হ'ল এই পরিবর্তনশীলটির উপর সদৃশ ওজন। পিসিএ এই ধারনার উপর ভিত্তি করে গড়ে উঠেছে যে প্রতিটি দিকের বৈকল্পিক সমানভাবে গুরুত্বপূর্ণ - সুতরাং আপনাকে অবশ্যই পিসিএ করার আগে অবশ্যই সাবধানতার সাথে ওজনে ভেরিয়েবলগুলি (বিবেচনার সাথে সম্পর্কিত হওয়া, অন্য যে কোনও প্রাকপ্রসেসিং প্রয়োজনীয় প্রয়োজন) করা উচিত।


1
Stats.stackexchange.com/a/50583 এ আমার বিশ্লেষণের আলোকে , এই যুক্তিটি ভুল বলে মনে হচ্ছে।
whuber

আমি আমার উত্তরটির অনেক উন্নতি করেছি, এটি খেলনার উদাহরণের ডেটা ভিত্তিক অনেক বেশি।
কিউইট আছে - অ্যানি-মৌসে

1

ভেরিয়েবলগুলি যদি খুব বেশি সংযুক্ত থাকে তবে এটি সরিয়ে ফেলা বাঞ্ছনীয় ।

ক্লাস্টারিং অ্যালগরিদম বা লিংকেজ পদ্ধতি নির্বিশেষে, আপনি সাধারণত যে জিনিসটি অনুসরণ করেন তা হ'ল পয়েন্টগুলির মধ্যে দূরত্ব সন্ধান করা। ভেরিয়েবলগুলি যেগুলি একে অপরের সাথে সম্পর্কযুক্ত তা রাখার চেয়ে আরও বেশি, দুটি পয়েন্টের মধ্যে দূরত্ব গণনা করার ক্ষেত্রে ওজন দ্বিগুণ করুন (সমস্ত ভেরিয়েবলগুলি স্বাভাবিক হওয়ার সাথে সাথে প্রভাবটি সাধারণত দ্বিগুণ হবে)।

সংক্ষেপে ক্লাস্টার গঠনের উপর প্রভাব ফেলতে ভেরিয়েবলের শক্তি বৃদ্ধি হয় যদি এর সাথে অন্য কোনও ভেরিয়েবলের সাথে উচ্চ সম্পর্ক থাকে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.