এই মুহূর্তে, আমার কাছে খুব সংক্ষিপ্ত উত্তরের জন্য সময় রয়েছে তবে আমি পরে এটিকে আরও প্রসারিত করার চেষ্টা করব।
আপনি যা করতে চান তা হ'ল একটি ক্লাস্টারিং , যেহেতু আপনি আপনার ডেটার জন্য কিছু লেবেল আবিষ্কার করতে চান। (শ্রেণিবিন্যাসের বিপরীতে যেখানে আপনার কমপক্ষে কিছু ডেটার জন্য লেবেল থাকে এবং আপনি বাকীটিকে লেবেল করতে চান)।
আপনার ব্যবহারকারীদের উপর একটি ক্লাস্টারিং করার জন্য, আপনার একটি বিমূর্ত জায়গায় কোনও ধরণের পয়েন্ট হিসাবে এটি হওয়া দরকার। তারপরে আপনি পয়েন্টগুলির মধ্যে দূরত্ব পরিমাপ করবেন এবং বলবেন যে "পয়েন্টগুলি" নিকটে "" অনুরূপ ", এবং তাদের সেই জায়গার স্থান অনুসারে লেবেল করবে।
আপনাকে আপনার ডেটা এমন কিছুতে রূপান্তর করতে হবে যা দেখতে ব্যবহারকারী প্রোফাইলের মতো দেখাচ্ছে, যেমন: একটি ব্যবহারকারী আইডি, এর পরে সংখ্যার ভেক্টর যা এই ব্যবহারকারীর বৈশিষ্ট্যগুলি উপস্থাপন করে। আপনার ক্ষেত্রে, প্রতিটি বৈশিষ্ট্য একটি "ওয়েবসাইটের বিভাগ" বা "পণ্যের বিভাগ" হতে পারে, এবং এই বৈশিষ্ট্যটি ব্যয় করা ডলার পরিমাণ হতে পারে। বা কোনও বৈশিষ্ট্য অবশ্যই ওয়েব এবং পণ্যগুলির সংমিশ্রণ হতে পারে।
উদাহরণস্বরূপ, আসুন আমরা কেবল তিনটি বৈশিষ্ট্য সহ ব্যবহারকারীর প্রোফাইলটি কল্পনা করি:
- "টেকি" ওয়েবগুলিতে ডলার ব্যয় হয়েছে,
- "ফ্যাশন" পণ্যগুলিতে ব্যয় করা ডলার,
- এবং ডলারগুলি "পরিবারমুখী" ওয়েবগুলিতে (কে জানে) "আক্রমণাত্মক" ভিডিও গেমগুলিতে ব্যয় করেছে।
এই প্রোফাইলগুলি তৈরি করার জন্য, আপনার কাছে প্রাসঙ্গিক বলে মনে হয় এমন বৈশিষ্ট্যগুলির মধ্যে আপনার কাছে থাকা "বিভাগ" এবং "কীওয়ার্ডস" ম্যাপ করা দরকার, যা অত্যন্ত প্রচুর are বিষয়টি করার জন্য টপিক মডেলিং বা শব্দার্থক মিলের দিকে নজর দিন । এই মানচিত্রটি তৈরি হয়ে গেলে, এটিতে বর্ণিত হবে যে সমস্ত গ্যাজেটগুলি "গ্যাজেট", "ইলেকট্রনিক্স", "প্রোগ্রামিং" এবং এক্স এক্স সহ সমস্ত ওয়েব ডলারগুলি আমাদের প্রথম বৈশিষ্ট্যে একত্রিত করা উচিত; ইত্যাদি।
বৈশিষ্ট্যগুলি "চাপিয়ে দেওয়ার" থেকে ভয় পাবেন না! আপনি ব্যবহারকারীদের ক্লাস্টার করার পরে আপনাকে সেগুলি পরিমার্জন করতে হবে এবং তাদের পুরোপুরি পরিবর্তন করতে হবে।
আপনার ব্যবহারকারীর প্রোফাইলগুলি হয়ে গেলে, কে-মাধ্যমগুলি ব্যবহার করে বা অন্য যে কোনও কিছু আকর্ষণীয় বলে আপনি তাদের ক্লাস্টারে এগিয়ে যান । আপনি যে প্রযুক্তি ব্যবহার করুন না কেন, আপনি প্রতিটি ক্লাস্টারের জন্য "প্রতিনিধি" পয়েন্ট পেতে আগ্রহী হবেন। এটি সাধারণত সেই ক্লাস্টারের পয়েন্টগুলির জ্যামিতিক "কেন্দ্র" হয়।
এই "প্রতিনিধি" পয়েন্টগুলি প্লট করুন এবং এগুলি কীভাবে অন্যান্য ক্লাস্টারের সাথে তুলনা করে তা প্লট করুন। রাডার চার্ট ব্যবহার করা এখানে খুব দরকারী। যেখানেই একটি প্রধান বৈশিষ্ট্য রয়েছে (প্রতিনিধির মধ্যে এমন কিছু যা খুব চিহ্নিত রয়েছে এবং এটি অন্যান্য ক্লাস্টারের তুলনায় খুব বিশিষ্ট) আপনি বেশ কয়েকটি আকর্ষণীয় বাক্যাংশ ("নার্ডস", "ফ্যাশনালিস্টস" সহ ক্লাস্টারটিকে লেবেল করতে সহায়তা করার জন্য একজন ভাল প্রার্থী) , "আক্রমণাত্মক মা" ...)।
মনে রাখবেন যে একটি ক্লাস্টারিং সমস্যা একটি উন্মুক্ত সমস্যা, সুতরাং কোনও "সঠিক" সমাধান নেই! এবং আমি আমার উত্তর ইতিমধ্যে যথেষ্ট দীর্ঘ বলে মনে করি; প্রোফাইলগুলির সাধারণকরণ এবং ফিল্টারিং আউটলিয়ারগুলি সম্পর্কেও পরীক্ষা করে দেখুন।