প্রথম অর্ডার মার্কভ চেইনের ক্লাস্টারগুলি মূল্যায়ন


10

আমি কয়েক হাজার প্রথম অর্ডার মার্কভ চেইনের আমার ডেটাসেটটি প্রায় 10 টি ক্লাস্টারে ক্লাস্টার করেছি।

আমি কীভাবে এই ক্লাস্টারগুলিকে মূল্যায়ন করতে পারি এবং গুচ্ছগুলিতে থাকা আইটেমগুলি কী ভাগ করে নেয় এবং কীভাবে তারা অন্যান্য ক্লাস্টার থেকে পৃথক হয় তা কীভাবে প্রস্তাবিত করার কোনও উপায় আছে? সুতরাং আমি যেমন বিবৃতি দিতে পারি "ক্লাস্টারে প্রক্রিয়াগুলি এ তারা সেখানে পৌঁছে একবার Y রাজ্যে থাকে, যা অন্য ক্লাস্টারে প্রক্রিয়াগুলির জন্য সত্য নয়।"

এই "মার্কোভ চেইনের রূপান্তর ম্যাট্রিকগুলি কেবল" চেহারা এবং দেখুন "এর চেয়ে খুব বড়। তারা তুলনামূলকভাবে বিরল, যদি এটি সাহায্য করতে পারে।

আমার ধারণাটি ছিল একটি ক্লাস্টারে সমস্ত ট্রানজিশন ম্যাট্রিকগুলি নেওয়া, তাদের যোগফল যোগ করুন এবং এটি একটি ছবিতে তীব্রতা হিসাবে পরিকল্পনা করুন (0 থেকে 255 পর্যন্ত স্কেল)। আমার আরও কিছু "পেশাদার" চেষ্টা করা উচিত?


আপনি কি জানেন যে এই প্রক্রিয়াগুলি প্রথম-ক্রমযুক্ত বাজারের চেইনগুলি (এবং যদি তা হয় তবে কীভাবে)? এটির উত্তরটি অনুমানযোগ্য বলে ধরে নেওয়া, তারপরে কাঠামোটি সম্পর্কে কী কী অতিরিক্ত পূর্বের তথ্য আপনি জানেন? আপনি কেন প্রথমে গুচ্ছবদ্ধ হতে আগ্রহী তা সনাক্ত করার চেষ্টা করছি; আমি সন্দেহ করি এটি জেনে আমাদের পাঠকরা আপনাকে সমাধানের আরও দক্ষতার সাথে গাইড করতে সহায়তা করবে।
কার্ডিনাল

মূল ডেটা ছিল আমার সাইটে ব্যবহারকারীদের দ্বারা উত্পাদিত ক্লিক স্ট্রিমগুলি। আমি মার্কভ প্রসেসগুলি তৈরি করেছি যাতে প্রতিটি প্রক্রিয়াটি একজন ব্যবহারকারীর ক্লিক স্ট্রিমটি বর্ণনা করে। আমি জানি যে এমন বই এবং কাগজপত্র রয়েছে যেগুলি বলে যে মার্কভ চেইনগুলি এর জন্য অপর্যাপ্ত, তবে আমার ডেটাটিতে ব্যবহারকারী অনুরোধ করা সঠিক URL অন্তর্ভুক্ত করে না, কেবলমাত্র "অ্যাপ্লিকেশন" ইউআরএল সম্পর্কিত। (আমার সাইটটি এমন একটি তথ্য সিস্টেম যা 105 টি তথাকথিত "অ্যাপ্লিকেশনগুলি" এ বিভক্ত যা সাইটের বেশিরভাগ স্ব
রচিত

আমি ক্লাস্টারিংয়ে আগ্রহী কারণ আমি ব্যবহারকারীদের এমন একটি গ্রুপ প্রকাশ করতে চাই যা সাইটটি ব্যবহারের ক্ষেত্রে একই ধরণের রয়েছে। আমি অনুমান করেছিলাম যে মার্কভ চেইন ক্যাপচারগুলি এমন গ্রুপগুলিকে আলাদা করতে যথেষ্ট। আমি যে ক্লাস্টারগুলি তৈরি করেছি সেগুলি সাইটে ব্যবহারকারীদের ভূমিকার সাথে কীভাবে মিলিত হয়েছে তা আমি যাচাই করেছিলাম এবং এটি সর্বদা এমনভাবে দেখায় যে একটি ক্লাস্টারে অনেকগুলি ভূমিকা থেকে একজন ভূমিকা রাখে এবং অন্যান্য ভূমিকা থেকে কেবল একটি দম্পতি থাকে, যাতে আশাব্যঞ্জক মনে হয়। আশা করি সহায়তা করে
ব্যবহারকারী 7610

হাই, আমি একই ইস্যুতে চলেছি। অবশেষে, আপনি কীভাবে সমস্যার সমাধান করলেন?
নান

@ নান আমি এটি করিনি, আমার কেবল এটি একটি টার্ম প্রকল্পে প্রয়োজন, তাই আমি অন্য কিছু করেছিলাম। যদি এখনই এটি সমাধান করতে হয়, আমি প্রাথমিক ক্লাস্টারিংয়ের জন্য en.wikedia.org/wiki/… দেখার চেষ্টা করব । t-SNE আজকাল সুপার জনপ্রিয় এবং আইএমও উপযুক্ত। আমি আশা করি যে ফলাফলটি আমি পাব তার ফলাফলটি আমার বিজ্ঞাপন-পদ্ধতির সাথে প্রাপ্ত ফলাফলের চেয়ে বেশি অর্থবহ হবে। এবং তুলনামূলকভাবে নতুন সুপার-কুল জিনিসটি ব্যবহার করে শিক্ষক সন্তুষ্ট হবে;)
ব্যবহারকারী 7610

উত্তর:


1

প্রতিটি ক্লাস্টারের স্থির রাষ্ট্রীয় আচরণ সম্পর্কে একটি বিবৃতি দেওয়ার জন্য আপনি ইগেনভেেক্টর দ্বারা প্রতিটি ট্রানজিশন ম্যাট্রিক্সের স্থিতিশীল রাষ্ট্রীয় বিতরণ গণনা করতে পারেন, তারপরে গুচ্ছ দ্বারা বক্স-প্লটগুলির তুলনা করুন। আপনি প্রথমে কিছুটা মসৃণকরণ প্রয়োগ না করে অবিচল স্থিতির গণনায় সমস্যার সমাধান করতে পারেন।

আপনি কীভাবে ট্রানজিশন ম্যাট্রিকগুলি গুচ্ছ করছেন? এটি যদি আমিই থাকতাম তবে আমি প্রতিটি সারিটিতে সংযোজনযুক্ত মসৃণতা প্রয়োগ করতাম তবে প্রতিটি সারির কেন্দ্রিক লগ-রেশিও রূপান্তর গ্রহণ করতাম তারপরে ম্যাট্রিকগুলি সমতল করতাম।

আপনি যদি কে-মানে বা কোনও বৈকল্পিকের সাথে ক্লাস্টার করছেন তবে আপনি সাধারণ ক্লাস্টার কেন্দ্রগুলি বিশ্লেষণ করতে পারেন। বা প্রতিটি ক্লাস্টার থেকে কয়েকটি পর্যবেক্ষণ চয়ন করুন এবং সেগুলি বিশ্লেষণ করুন।


0

প্রথমে একটি ধারণা পেতে, আপনি যে অ্যাপ্লিকেশনগুলির উল্লেখ করেছেন তার সাথে কী আপনার মাত্রা 105 x 105 রয়েছে? আপনি যখন বলেন 'রাজ্যে Y থাকুন' এর অর্থ কি ওয়াই প্রয়োগের চারপাশে থাকবে?

তারপরে, আমি ধরে নেব যে যেমন "ক্লাস্টারের প্রসেসগুলি এখান থেকে Y এ পৌঁছানোর প্রবণতা রয়েছে যা অন্য ক্লাস্টারের প্রক্রিয়াগুলির ক্ষেত্রে সত্য নয়" মাত্র 10 টি ক্লাস্টারের সাথে কিছুটা সূক্ষ্ম-দানযুক্ত। আপনি কি অ্যাপ্লিকেশন ডোমেনটির একটি ক্লাস্টার চেষ্টা করেছেন - যদি আমি সঠিকভাবে বুঝতে পারি তবে আপনি ব্যবহারকারীর আচরণের ভিত্তিতে 105 টি অ্যাপ্লিকেশনকে ক্লাস্টার করতে পারেন। এর পরে, আপনি কি পরিবর্তনের পরিবর্তে ব্যবহারকারীদের সহজ উপস্থিতি দেখেছেন, অর্থাৎ 105 টি অ্যাপ্লিকেশন জুড়ে ব্যবহারকারীর প্রোফাইল দেখুন? মনে হচ্ছে আপনি ব্যবহারকারী প্রোফাইলগুলির মধ্যে পিয়ারসন সহগ ব্যবহার করতে পারেন; হয় অ্যাপ্লিকেশনগুলির গুচ্ছ বা অ্যাপ্লিকেশনগুলিতে। এটি সম্ভবত অ্যাপ্লিকেশনগুলির মধ্যে রূপান্তরের দিকে বাড়ানো যেতে পারে তবে বর্তমানে আমি অনুভব করছি যে ক্লাস্টারের সংখ্যা এবং আপনি আগ্রহী ফলাফলের ধরণের মধ্যে একটি বিশাল অমিল রয়েছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.