আমরা কখন ক্লাস্টারিংয়ের সাথে মাত্রিকতা হ্রাস একত্রিত করব?


16

আমি নথি-স্তরের ক্লাস্টারিংয়ের চেষ্টা করছি। আমি টার্ম-ডকুমেন্ট ফ্রিকোয়েন্সি ম্যাট্রিক্সটি তৈরি করেছি এবং আমি কে-মাধ্যম ব্যবহার করে এই উচ্চ মাত্রিক ভেক্টরগুলিকে ক্লাস্টার করার চেষ্টা করছি। সরাসরি ক্লাস্টারিংয়ের পরিবর্তে, আমি যা করেছি তা হ'ল প্রথমে ইউ, এস, ভিটি ম্যাট্রিকেসগুলি অর্জনের জন্য এলএসএ'র (প্রচ্ছন্ন সিমেটিক বিশ্লেষণ) একক ভেক্টর পচন প্রয়োগ করতে হবে এবং স্ক্রিট প্লট ব্যবহার করে একটি উপযুক্ত প্রান্তিক নির্বাচন করে হ্রাসিত ম্যাট্রিকগুলিতে ক্লাস্টারিং প্রয়োগ করা হয়েছিল (বিশেষত ভ্যাট কারণ) এটি আমাকে একটি ধারণা-দস্তাবেজের তথ্য দেয়) যা দেখে মনে হয় আমাকে ভাল ফলাফল দিচ্ছে।

আমি কিছু কিছু মানুষের SVD (একবচন ভেক্টর পচানি) বলতে শুনেছি হয় ক্লাস্টারিং (কোসাইন আদল পরিমাপ ইত্যাদি ব্যবহার করে) এবং নিশ্চিত না যদি আমি SVD আউটপুট উপর K-উপায়ে আবেদন পারে। আমি ভেবেছিলাম এটি যুক্তিযুক্তভাবে সঠিক কারণ এসভিডি একটি মাত্রিক হ্রাস কৌশল, আমাকে নতুন ভেক্টরগুলির একটি গুচ্ছ দেয়। অন্যদিকে, কে-মানে ক্লাস্টারগুলির সংখ্যা ইনপুট হিসাবে গ্রহণ করবে এবং এই ভেক্টরগুলিকে নির্দিষ্ট সংখ্যক ক্লাস্টারে বিভক্ত করবে। এই পদ্ধতিটি ত্রুটিযুক্ত বা এর কোন উপায় রয়েছে যেখানে এটি উন্নত করা যেতে পারে? কোনও পরামর্শ?


ভাল প্রশ্ন. ব্যক্তিগতভাবে আমি এই জিনিস সম্পর্কে চিন্তা করা হয়। তবে একটি ভাল উত্তর নেই।
সানকুলসু

1
এমন পদ্ধতি রয়েছে যা একই সাথে মাত্রিকতা হ্রাস এবং ক্লাস্টারিং সম্পাদন করে। ক্লাস্টারগুলির সনাক্তকরণের সুবিধার্থে এই পদ্ধতিগুলি একটি সর্বোত্তমভাবে বেছে নেওয়া নিম্ন-মাত্রিক উপস্থাপনা চায়। উদাহরণস্বরূপ, ক্লাস্টার্ড প্যাকেজটি আর এর সাথে সম্পর্কিত রেফারেন্স দেখুন।
নাট

উত্তর:


6

এটি কোনওভাবেই একটি সম্পূর্ণ উত্তর নয়, আপনার যে প্রশ্নটি জিজ্ঞাসা করা উচিত তা হ'ল "মাত্রা হ্রাস করার সময় কী ধরণের দূরত্ব সংরক্ষণ করা হয়?" যেহেতু ক্লাস্টারিং অ্যালগোরিদম যেমন কে-মানে কেবলমাত্র দূরত্বে কাজ করে, তাই ডান দূরত্বের মেট্রিকটি ব্যবহার করার জন্য (তাত্ত্বিকভাবে) দূরত্বের মেট্রিক যা মাত্রা হ্রাস দ্বারা সংরক্ষণ করা হয়। এইভাবে, মাত্রিকতা হ্রাস পদক্ষেপটি একটি নিম্ন মাত্রিক স্থানে ডেটা ক্লাস্টার করার জন্য একটি গণনা শর্টকাট হিসাবে দেখা যেতে পারে। (স্থানীয় মিনিমা ইত্যাদি এড়াতেও)

এখানে অনেক সূক্ষ্মতা রয়েছে যা আমি বোঝার ভান করব না, (স্থানীয় দূরত্ব বনাম বৈশ্বিক দূরত্ব, আপেক্ষিক দূরত্বগুলি কীভাবে বিকৃত হয় ইত্যাদি) তবে আমি মনে করি এই তাত্ত্বিকভাবে চিন্তাভাবনা করার জন্য এটি সঠিক দিক।


+1 এটি প্রশ্নে খুব আকর্ষণীয়। সেক্ষেত্রে ইউক্লিডিয়ানকে কি এরকম একটি মেট্রিক হিসাবে বিবেচনা করা যেতে পারে? মাত্রিকতা হ্রাস হওয়ায়, পয়েন্টগুলি একটি নিম্ন মাত্রিক স্থানে প্রক্ষেপণ করা হয়েছে তবে এর অর্থ দূরত্বের ধারণাটি হারাতে পারে। এই জাতীয় হ্রাসগুলি ব্যবহার করার সময় কীভাবে দূরত্বগুলি সংরক্ষণ করা যায় তা দেখতে আমার খুব কষ্ট হচ্ছে।
কিংবদন্তি

1
আমি মনে করি এই উত্তরটি মূলত সঠিক। আপনি একটি ছোট জায়গায় কিছু এম্বেডিং সন্ধান করতে চান যা দূরত্বগুলি সংরক্ষণ করে (কিছু দূরত্বের ধারণার জন্য)। দুটি ভাল অ্যালগরিদম যাচাইয়ের জন্য হ'ল আইসোম্যাপ এবং স্থানীয়ভাবে-লিনিয়ার এম্বেডিং । যদি আপনার লক্ষ্যটি ক্লাস্টারিং হয় তবে "প্রতিবেশী সংরক্ষণ" ভাল পদ্ধতির মতো মনে হচ্ছে।
স্টম্পি জো পিট

5

আপনার শিরোনামের জবাবে "আমরা কখন ক্লাস্টারিংয়ের সাথে মাত্রিকতা হ্রাস একত্রিত করব?" বরং পুরো প্রশ্নের চেয়ে। একটি সম্ভাব্য কারণ সুস্পষ্ট: আমরা যখন আগ্রাসনকারী বিদেশিদের নিরাপদ করতে চাই। কে-মানে অ্যালগো, যদি প্রাথমিক কেন্দ্রগুলি ইঙ্গিত না করে থাকে তবে, মেঘের সবচেয়ে বেশি পয়েন্টগুলি প্রাথমিক কেন্দ্র হিসাবে গ্রহণ করে এবং ঠিক এগুলি বহিরাগত হওয়ার সম্ভাবনা রয়েছে। পিসিএ দ্বারা প্রচার করা আউটলিয়ারদের নিরপেক্ষ করে যা জুনিয়র উপাদানগুলির সাথে থাকে - পিসিএতে বজায় রাখা কয়েকটি সিনিয়র উপাদানগুলিতে তাদের প্রজেক্ট করে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.