শ্রেণিবদ্ধ / ক্লাস্টার ব্যবহারকারীর প্রোফাইলগুলিতে বৈশিষ্ট্য ব্যবহার করে


14

আমার কাছে একটি ওয়েবসাইট থেকে পণ্য ক্রয়ের ব্যবহারকারীদের একটি ডেটাসেট রয়েছে।

আমার বৈশিষ্ট্যগুলি হ'ল ব্যবহারকারীর আইডি, ব্যবহারকারীর অঞ্চল (রাষ্ট্র), পণ্যের আইডি, পণ্যের আইওয়ার্ড আইডি, ওয়েবসাইটের কীওয়ার্ড আইডি এবং পণ্যের ব্যয় বিক্রয় পরিমাণ।

লক্ষ্যটি হ'ল "পুরুষ যুবক গেমার" বা "বাড়ির মা থাকুন" এর মতো ব্যবহারকারীরা কারা পরিচয় হিসাবে কোনও পণ্য এবং ওয়েবসাইটের তথ্য ব্যবহার করা।

আমি নীচে হিসাবে একটি নমুনা ছবি সংযুক্ত:

এখানে চিত্র বর্ণনা লিখুন

সব মিলিয়ে 1940 টি অনন্য বিভাগ এবং পণ্যের জন্য 13845 অনন্য কীওয়ার্ড রয়েছে। ওয়েবসাইটের জন্য, রয়েছে 13063 অনন্য কীওয়ার্ড। প্রতিদিনের লগিং ডেটা হিসাবে পুরো ডেটাসেটটি বিশাল।

আমি ক্লাস্টারিংয়ের কথা ভাবছি, কারণ এটি নিরীক্ষণযোগ্য, তবে সেই আইডিগুলির সংখ্যা অর্ডার করা হয় যার কোনও সংখ্যাগত অর্থ নেই। তাহলে আমি জানি না কীভাবে অ্যালগরিদম প্রয়োগ করতে হয়। আমিও শ্রেণিবিন্যাসের কথা ভাবছি। যদি আমি ক্রয়ের পণ্য বিক্রির পরিমাণের ভিত্তিতে শ্রেণীর একটি কলাম যুক্ত করি add আমি মনে করি ক্লাস্টারিং বেশি পছন্দ করা হয়। আমি জানি না কী ক্ষেত্রে আমার কী অ্যালগরিদম ব্যবহার করা উচিত কারণ কীওয়ার্ড আইডির মাত্রা 10000 এর বেশি হতে পারে (প্রতিটি পণ্যটিতে অনেক কীওয়ার্ড থাকতে পারে, তাই ওয়েবসাইটও করতে পারে)। এই প্রকল্পের জন্য আমার স্পার্ক ব্যবহার করা দরকার।

কেউ আমাকে কিছু ধারণা বা পরামর্শ দিয়ে সাহায্য করতে পারেন?

তোমাকে অনেক ধন্যবাদ!


1
আপনি আরও তথ্য প্রদান করতে পারেন? "প্রোডাক্ট এ এর ​​বিভাগগুলির আইডি" কী এবং সমস্ত এন্ট্রিগুলির জন্য একই দৈর্ঘ্যের "প্রোডাক্ট এ এর ​​কীওয়ার্ড আইডি অনুসন্ধান করা হয়"? "অনুসন্ধানের কীওয়ার্ড আইডি এর মাত্রা 10000 এর বেশি হতে পারে" কেন? তারা কি? আপনার কতটি নমুনা আছে? আপনি যদি এখানে আপনার তথ্যের কয়েকটি নমুনা পোস্ট করেন তবে সমস্ত প্রশ্নের উত্তর দেওয়া যেতে পারে। তাহলে আমি আপনাকে সম্ভবত কিছু প্রস্তাব দিতে পারি।
কসরা মনশায়ে

প্রোডাক্ট এ এবং প্রোডাক্ট বি দুটি পণ্য যা ব্যবহারকারীরা কিনেছিলেন? শব্দকোষগুলি মনে হয় যে প্রতিটি ব্যবহারকারীর জন্য পণ্য A এবং B আলাদা, কারণ কীওয়ার্ডগুলি ভিন্ন হতে পারে vary এটা কি তাই? এবং শেষ মন্তব্য, আপনি শ্রেণিবদ্ধ বা ক্লাস্টার করতে চান? এগুলি একেবারেই আলাদা কৌশল :)
লগ

আপনার জবাবের জন্য আপনাকে @ কাসরামশকে অনেক ধন্যবাদ। আমি বর্ণনাটি আপডেট করেছি এবং একটি নমুনা ডেটাও সংযুক্ত করেছি। আপনার কাছ থেকে কিছু পরামর্শ পাবেন আশা করি!
sylvia

@ লোলসি হ্যাঁ, পণ্য (আমি পণ্য আগে বলেছিলাম) এবং ওয়েবসাইট (আমি বলেছিলাম পণ্য বি আগে) প্রতিটি ব্যবহারকারীর থেকে পৃথক। প্রতিটি পণ্যের কয়েকটি কীওয়ার্ড থাকে এবং প্রতিটি ওয়েবসাইটেও কয়েকটি কীওয়ার্ড থাকে। উভয়ই ক্লাস্টারিং বা শ্রেণিবিন্যাস ঠিক আছে, যতক্ষণ না আমি কোনও ব্যবহারকারী প্রোফাইল তৈরি করতে পারি, যেমন "পুরুষ তরুণ গেমার"; "বাড়িতে থাকুন মা"। আমি মনে করি ক্লাস্টারিং আরও বেশি পছন্দনীয়। ধন্যবাদ!!
sylvia

@ সিলভিয়া - সমাধান করতে আমারও একই সমস্যা রয়েছে। আমি এটি একটি পৃথক প্রশ্ন হিসাবে পোস্ট করেছি। আপনি কীভাবে এটি সমাধান করেছেন সে সম্পর্কে আপনি কিছু পরামর্শ দিতে পারেন? ডেটাসায়েন্স.স্ট্যাক্কেঞ্জঞ্জ / প্রশ্নগুলি / ১২৯৩০/২ আমার অন্য সন্দেহটি কে অর্থাতীত , আপনি কি গ্রাহক দ্বারা রেকর্ডগুলি গ্রুপ করেছেন? অর্থ প্রতিটি সারিতে কোনও লেনদেন উপস্থাপিত হয়েছিল বা এটি আজ অবধি সেই গ্রাহকের সামগ্রিক ক্রয়ের প্রতিনিধিত্ব করে।
নিল

উত্তর:


11

এই মুহূর্তে, আমার কাছে খুব সংক্ষিপ্ত উত্তরের জন্য সময় রয়েছে তবে আমি পরে এটিকে আরও প্রসারিত করার চেষ্টা করব।

আপনি যা করতে চান তা হ'ল একটি ক্লাস্টারিং , যেহেতু আপনি আপনার ডেটার জন্য কিছু লেবেল আবিষ্কার করতে চান। (শ্রেণিবিন্যাসের বিপরীতে যেখানে আপনার কমপক্ষে কিছু ডেটার জন্য লেবেল থাকে এবং আপনি বাকীটিকে লেবেল করতে চান)।

আপনার ব্যবহারকারীদের উপর একটি ক্লাস্টারিং করার জন্য, আপনার একটি বিমূর্ত জায়গায় কোনও ধরণের পয়েন্ট হিসাবে এটি হওয়া দরকার। তারপরে আপনি পয়েন্টগুলির মধ্যে দূরত্ব পরিমাপ করবেন এবং বলবেন যে "পয়েন্টগুলি" নিকটে "" অনুরূপ ", এবং তাদের সেই জায়গার স্থান অনুসারে লেবেল করবে।

আপনাকে আপনার ডেটা এমন কিছুতে রূপান্তর করতে হবে যা দেখতে ব্যবহারকারী প্রোফাইলের মতো দেখাচ্ছে, যেমন: একটি ব্যবহারকারী আইডি, এর পরে সংখ্যার ভেক্টর যা এই ব্যবহারকারীর বৈশিষ্ট্যগুলি উপস্থাপন করে। আপনার ক্ষেত্রে, প্রতিটি বৈশিষ্ট্য একটি "ওয়েবসাইটের বিভাগ" বা "পণ্যের বিভাগ" হতে পারে, এবং এই বৈশিষ্ট্যটি ব্যয় করা ডলার পরিমাণ হতে পারে। বা কোনও বৈশিষ্ট্য অবশ্যই ওয়েব এবং পণ্যগুলির সংমিশ্রণ হতে পারে।

উদাহরণস্বরূপ, আসুন আমরা কেবল তিনটি বৈশিষ্ট্য সহ ব্যবহারকারীর প্রোফাইলটি কল্পনা করি:

  • "টেকি" ওয়েবগুলিতে ডলার ব্যয় হয়েছে,
  • "ফ্যাশন" পণ্যগুলিতে ব্যয় করা ডলার,
  • এবং ডলারগুলি "পরিবারমুখী" ওয়েবগুলিতে (কে জানে) "আক্রমণাত্মক" ভিডিও গেমগুলিতে ব্যয় করেছে।

এই প্রোফাইলগুলি তৈরি করার জন্য, আপনার কাছে প্রাসঙ্গিক বলে মনে হয় এমন বৈশিষ্ট্যগুলির মধ্যে আপনার কাছে থাকা "বিভাগ" এবং "কীওয়ার্ডস" ম্যাপ করা দরকার, যা অত্যন্ত প্রচুর are বিষয়টি করার জন্য টপিক মডেলিং বা শব্দার্থক মিলের দিকে নজর দিন । এই মানচিত্রটি তৈরি হয়ে গেলে, এটিতে বর্ণিত হবে যে সমস্ত গ্যাজেটগুলি "গ্যাজেট", "ইলেকট্রনিক্স", "প্রোগ্রামিং" এবং এক্স এক্স সহ সমস্ত ওয়েব ডলারগুলি আমাদের প্রথম বৈশিষ্ট্যে একত্রিত করা উচিত; ইত্যাদি।

বৈশিষ্ট্যগুলি "চাপিয়ে দেওয়ার" থেকে ভয় পাবেন না! আপনি ব্যবহারকারীদের ক্লাস্টার করার পরে আপনাকে সেগুলি পরিমার্জন করতে হবে এবং তাদের পুরোপুরি পরিবর্তন করতে হবে।

আপনার ব্যবহারকারীর প্রোফাইলগুলি হয়ে গেলে, কে-মাধ্যমগুলি ব্যবহার করে বা অন্য যে কোনও কিছু আকর্ষণীয় বলে আপনি তাদের ক্লাস্টারে এগিয়ে যান । আপনি যে প্রযুক্তি ব্যবহার করুন না কেন, আপনি প্রতিটি ক্লাস্টারের জন্য "প্রতিনিধি" পয়েন্ট পেতে আগ্রহী হবেন। এটি সাধারণত সেই ক্লাস্টারের পয়েন্টগুলির জ্যামিতিক "কেন্দ্র" হয়।

এই "প্রতিনিধি" পয়েন্টগুলি প্লট করুন এবং এগুলি কীভাবে অন্যান্য ক্লাস্টারের সাথে তুলনা করে তা প্লট করুন। রাডার চার্ট ব্যবহার করা এখানে খুব দরকারী। যেখানেই একটি প্রধান বৈশিষ্ট্য রয়েছে (প্রতিনিধির মধ্যে এমন কিছু যা খুব চিহ্নিত রয়েছে এবং এটি অন্যান্য ক্লাস্টারের তুলনায় খুব বিশিষ্ট) আপনি বেশ কয়েকটি আকর্ষণীয় বাক্যাংশ ("নার্ডস", "ফ্যাশনালিস্টস" সহ ক্লাস্টারটিকে লেবেল করতে সহায়তা করার জন্য একজন ভাল প্রার্থী) , "আক্রমণাত্মক মা" ...)।

মনে রাখবেন যে একটি ক্লাস্টারিং সমস্যা একটি উন্মুক্ত সমস্যা, সুতরাং কোনও "সঠিক" সমাধান নেই! এবং আমি আমার উত্তর ইতিমধ্যে যথেষ্ট দীর্ঘ বলে মনে করি; প্রোফাইলগুলির সাধারণকরণ এবং ফিল্টারিং আউটলিয়ারগুলি সম্পর্কেও পরীক্ষা করে দেখুন।


আপনাকে অনেক অনেক ধন্যবাদ! এটা খুব সহায়ক। আমি ম্যাপিং থেকে শুরু করব। আমি সত্যিই এটার প্রশংসা করছি!
sylvia

সাহায্য করতে পারলে খুশি. :)
45

হাই @ লোগাক, বৈশিষ্ট্যগুলি নির্বাচনের জন্য আমি এলডিএ প্রয়োগ করেছি। আমি প্রতিটি ইউজার_আইডিকে একটি "ডকুমেন্ট" হিসাবে বিবেচনা করেছি এবং কীওয়ার্ডগুলি "ডকুমেন্ট" এর "শব্দ", তারপরে এলডিএ প্রয়োগ করে আমি কীওয়ার্ডের কয়েকটি বিষয় পেয়েছি। তবে, আমি জানি না কেন আমার বেশিরভাগ বিষয়গুলিতে একই কীওয়ার্ড থাকে। তার মানে কি এলডিএ আমার ক্ষেত্রে সঠিক পদ্ধতি নয় বা কিছু ভুল আছে? তোমাকে অনেক ধন্যবাদ!
sylvia

@ সিলভিয়া: আমি আপনাকে এই সাইটে এই প্রশ্নটি একটি নতুন প্রশ্নে পরিণত করার পরামর্শ দেব। অন্যথায়, আমরা বেশ কয়েকটি টন মন্তব্য লিখতে পারি এবং এটি প্রশ্নোত্তরের জন্য সর্বোত্তম বিন্যাস নয়। :)
ল্যাক

পরামর্শের জন্য ধন্যবাদ. আপনার যদি সময় দেখেন ডেটা বিজ্ঞান . স্ট্যাককেেক্সচেঞ্জ / প্রশ্নগুলি /5941/… দেখার জন্য লিঙ্কটি এখানে পোস্ট করা হয়েছে তবে ধন্যবাদ!
sylvia

-2

অভিমুখীকরণ এবং অন্বেষণের জন্য, আমি ওয়েকাকে সুপারিশ করতে পারি , এটি মেশিন লার্নিংয়ের জন্য খুব সুন্দর একটি টুলকিট। এটি একটি নির্দিষ্ট ইনপুট ফর্ম্যাট নেয় (.ARFF) যাতে আপনার এটির দিকেও নজর দেওয়া প্রয়োজন।

মূলশব্দ দ্বিধাদান হিসাবে, আমি অতিরিক্ত বা অ-নির্দেশক কীওয়ার্ডগুলি মুছে ফেলার জন্য কিছু বৈশিষ্ট্য নির্বাচন করার পরামর্শ দিচ্ছি।


আপনার জবাবের জন্য @ লেনার্ট ক্লোপ্পেনবার্গকে ধন্যবাদ বৈশিষ্ট্য নির্বাচন (কীওয়ার্ড_আইডি) ক্রম সংখ্যায় অর্ডার করা হয় কীভাবে? আমি উপরে একটি নমুনা তথ্য আপডেট করেছি। আপনি কি দয়া করে একবার দেখে আমাকে কিছু পরামর্শ দিতে পারেন? ধন্যবাদ!
sylvia
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.