দাবি অস্বীকার: আমি কেবলমাত্র এই বিষয়ে স্পর্শকাতর জ্ঞান পেয়েছি, তবে যেহেতু অন্য কারও উত্তর নেই, আমি এটিকে চেষ্টা করব
দূরত্ব গুরুত্বপূর্ণ
দূরত্বগুলির উপর ভিত্তি করে যে কোনও মাত্রিক হ্রাস কৌশল (টিএসএনই, ইউএমএপি, এমডিএস, পিসিওএ এবং সম্ভবত অন্যরা) আপনি যে দূরত্বের মেট্রিক ব্যবহার করেন ঠিক ততটাই উত্তম। @ অ্যামিবা সঠিকভাবে উল্লেখ করেছেন যে, এক-আকারের-ফিটস-সব সমাধান হতে পারে না, আপনার কাছে একটি দূরত্বের মেট্রিক থাকতে হবে যা আপনাকে ডেটাতে গুরুত্বপূর্ণ বলে মনে করে, যেমন সারিগুলির মধ্যে আপনি সামান্য দূরত্ব এবং সারিগুলি দেখতে চাইবেন বিভিন্ন বিবেচনা করুন বড় দূরত্ব আছে।
আপনি কীভাবে একটি ভাল দূরত্বের মেট্রিক চয়ন করেন? প্রথমে আমাকে কিছুটা ডাইভারশন করতে দিন:
অর্ডিনেশন
আধুনিক মেশিন লার্নিংয়ের গৌরবময় দিনগুলির আগে, সম্প্রদায় বাস্তুবিদগণ (এবং সম্ভবত অন্যরাও) বহুমাত্রিক তথ্যের অনুসন্ধান বিশ্লেষণের জন্য দুর্দান্ত প্লট তৈরি করার চেষ্টা করেছেন। তারা প্রক্রিয়া অর্ডিনেশন বলে এবং এটি বাস্তুশাস্ত্রের সাহিত্যে অনুসন্ধান করার জন্য একটি দরকারী কীওয়ার্ড যা কমপক্ষে 70 এর দশকে ফিরে এসেছিল এবং আজও শক্তিশালী হচ্ছে।
গুরুত্বপূর্ণ বিষয়টি হ'ল বাস্তুবিদগণের কাছে খুব বিচিত্র ডেটাসেট রয়েছে এবং বাইনারি, পূর্ণসংখ্যা এবং আসল-মূল্যবান বৈশিষ্ট্যগুলির মিশ্রণগুলি (যেমন প্রজাতির উপস্থিতি / অনুপস্থিতি, পর্যবেক্ষণকৃত নমুনার সংখ্যা, পিএইচ, তাপমাত্রা) নিয়ে কাজ করেন। অর্ডিনেশনগুলি ভালভাবে কাজ করতে তারা দূরত্ব এবং রূপান্তরের বিষয়ে চিন্তা করে অনেক সময় ব্যয় করেছে। আমি ক্ষেত্রটি খুব ভালভাবে বুঝতে পারি না, তবে উদাহরণস্বরূপ লেজেন্ড্রে এবং ডি ক্যাসেরেস বিটার বিভিন্নতা হিসাবে সম্প্রদায়ের তথ্যের বৈচিত্র হিসাবে পর্যালোচনা: ভিন্নতাগ্রহীকরণ এবং বিভাজনগুলি সম্ভাব্য দূরত্বগুলির অপ্রতিরোধ্য সংখ্যা দেখায় যা আপনি খুঁজে বের করতে চাইতে পারেন।
বহুমাত্রিক স্কেলিং
অর্ডিনেশনের গো-টু টুলটি বহুমাত্রিক স্কেলিং (এমডিএস), বিশেষত নন-মেট্রিক বৈকল্পিক (এনএমডিএস) যা আপনাকে টি-এসএনই ছাড়াও চেষ্টা করতে উত্সাহিত করি try পাইথন ওয়ার্ল্ড সম্পর্কে আমি জানি না, তবে প্যাকেজটির metaMDS
কার্যকারী আর বাস্তবায়ন vegan
আপনার জন্য প্রচুর কৌশল অবলম্বন করে (যেমন একাধিক রান চালানো যতক্ষণ না এটি দুটি মিল খুঁজে না পেয়েছে)।
এটি বিতর্কিত হয়েছে, মন্তব্যগুলি দেখুন: এমডিএস সম্পর্কে দুর্দান্ত অংশটি হ'ল এটি বৈশিষ্ট্যগুলি (কলাম) প্রজেক্ট করে, যাতে আপনি দেখতে পারেন কোন বৈশিষ্ট্যগুলি মাত্রা হ্রাসকে চালিত করে। এটি আপনাকে আপনার ডেটা ব্যাখ্যা করতে সহায়তা করে।
মনে রাখবেন যে টি-এসএনই সমালোচনা করা হয়েছে বোঝার অনুগ্রহ করার উপায় হিসাবে দেখুন যেমন এর ক্ষয়ক্ষতিগুলি সম্পর্কে অনুসন্ধান - আমি শুনেছি ইউএমএপ কিছু সমস্যা সমাধান করে, তবে ইউএমএপি নিয়ে আমার কোনও অভিজ্ঞতা নেই। বাস্তুবিদরা এনএমডিএসকে সংস্কৃতি এবং জড়তা বলে যে কারণ ব্যবহার করেন তার একটি অংশও আমি সন্দেহ করি না, সম্ভবত ইউএমএপি বা টি-এসএনই আসলে আরও ভাল। আমি সত্যই জানি না।
আপনার নিজস্ব দূরত্ব ঘূর্ণায়মান
আপনি যদি আপনার ডেটার কাঠামো বুঝতে পারেন তবে প্রস্তুত দূরত্ব এবং রূপান্তরগুলি আপনার পক্ষে সেরা নাও হতে পারে এবং আপনি একটি কাস্টম দূরত্বের মেট্রিক তৈরি করতে চাইতে পারেন। আপনার ডেটা কী উপস্থাপন করে তা আমি জানি না, তবে বাস্তব-মূল্যবান ভেরিয়েবলগুলির জন্য পৃথকভাবে দূরত্ব গণনা করা বুদ্ধিমান হতে পারে (উদাহরণস্বরূপ ইউক্লিডিয়ান দূরত্ব ব্যবহার করা যদি এটি বোধ হয়) এবং বাইনারি ভেরিয়েবলগুলির জন্য এবং সেগুলি যুক্ত করুন। বাইনারি ডেটার জন্য সাধারণ দূরত্বগুলি উদাহরণস্বরূপ জ্যাকার্ড দূরত্ব বা কোসিন দূরত্ব । জ্যাকার্ড এবং কোসিন উভয়ের মান রয়েছে বলেই আপনাকে দূরত্বগুলির জন্য কিছু গুণক সহগ সম্পর্কে চিন্তা করতে হবে[ 0 , 1 ] ইউক্লিডিয়ান দূরত্বের পরিমাণের বৈশিষ্ট্যগুলির সংখ্যা প্রতিফলিত করার সাথে সাথে বৈশিষ্ট্যগুলির সংখ্যা নির্বিশেষে।
সাবধানতা একটি শব্দ
যতক্ষণ আপনার মনে রাখা উচিত যেহেতু আপনার কাছে সুর দেওয়ার মতো অনেকগুলি কড়াকড়ি রয়েছে তাই আপনি যা দেখতে চেয়েছিলেন তা না দেখে আপনি সহজেই সুরের ফাঁদে পড়তে পারেন। অনুসন্ধান বিশ্লেষণে এটি সম্পূর্ণ এড়ানো কঠিন, তবে আপনার সতর্ক হওয়া উচিত।