একটি বিশাল বাইনারি ডেটাসেটকে কয়েকটি বিভাগে গুচ্ছ করার জন্য আমার কোন অ্যালগরিদম ব্যবহার করা উচিত?


11

আমার কাছে বাইনারি ডেটার একটি বৃহত (650 কে সারি * 62 কলাম) ম্যাট্রিক্স (কেবলমাত্র 0-1 টি এন্ট্রি) রয়েছে। ম্যাট্রিক্স বেশিরভাগ ক্ষেত্রে বিরল: প্রায় 8% ভরা হয়।

আমি এটি 5 টি গ্রুপে ক্লাস্টার করতে চাই - 1 থেকে 5 পর্যন্ত নাম বলুন I আমি শ্রেণিবদ্ধ ক্লাস্টারিং চেষ্টা করেছি এবং এটি আকারটি পরিচালনা করতে সক্ষম হয়নি। 62-এর দৈর্ঘ্যের 650 কে বিট ভেক্টর বিবেচনা করে আমি হামিং দূরত্ব ভিত্তিক কে-মানে ক্লাস্টারিং অ্যালগরিদমও ব্যবহার করেছি these আমি এর কোনওটির সাথেও সঠিক ফলাফল পাইনি।

সাহায্য করুন.


আমি আমার 1 টি প্রতিনিধি খ / সি মন্তব্য করতে পারি না তাই উত্তর হিসাবে আমাকে এটি টাইপ করতে হয়েছিল। আপনি জ্যাকার্ড সাদৃশ্য দেখতে পারেন। আমি মনে করি পাইথন স্কিপি এর প্রয়োগ রয়েছে।
জ্যাকার্ড

অন্তত কিছুটা হলেও ডাটা পাঁচটি গ্রুপে নেমে যাওয়ার কোনও কারণ আছে কি? আপনি কি সারি ক্লাস্টারিংয়ে সত্যই আগ্রহী, বা বিট ভেক্টরগুলিতে এনকোড করা tra২ টি বৈশিষ্ট্যের মধ্যে সম্পর্কের বিষয়েও আপনি আগ্রহী? যদি দ্বিতীয়টি হয় তবে অন্যান্য কৌশলগুলি আরও উপযুক্ত।
মাইকানগুলি

উত্তর:


4

আপনি ভুল প্রশ্ন জিজ্ঞাসা করছেন।

"কি অ্যালগরিদম" জিজ্ঞাসা করার পরিবর্তে, আপনাকে " আপনার আবেদনের অর্থপূর্ণ বিভাগ / গুচ্ছটি কী" জিজ্ঞাসা করা উচিত ।

আমি বিস্মিত নই যে উপরের অ্যালগরিদমগুলি কাজ করে না - এগুলি খুব আলাদা ব্যবহারের ক্ষেত্রে তৈরি করা হয়েছে। কে-ই মানে অন্যরকম দূরত্ব নিয়ে কাজ করে না । হামিং দূরত্বের সাথে এটি ব্যবহার করবেন না। একটি কারণ কেন এটা K- বলা হয় নেই মানে এটি শুধুমাত্র ব্যবহার ইন্দ্রিয় তোলে যখন, গাণিতিক গড় অর্থপূর্ণ (যা এটি বাইনারি ডেটা জন্য নয়)।

পরিবর্তে আপনি কে-মোডগুলি চেষ্টা করতে চাইতে পারেন, আইআইআরসি এটি একটি বৈকল্পিক যা প্রকৃতপক্ষে শ্রেণিবদ্ধ ডেটা ব্যবহার করা হয় এবং বাইনারি ডেটা কিছুটা শ্রেণিবদ্ধ হয় (তবে স্পারসিটি এখনও আপনাকে মেরে ফেলতে পারে)।

তবে সর্বোপরি, আপনি কি আপনার ডেটা সরল করার জন্য সদৃশগুলি সরিয়ে রেখেছেন এবং উদাহরণের জন্য অনন্য / খালি কলামগুলি মুছে ফেলেছেন?

সম্ভবত এপ্রিওরি বা অনুরূপ পদ্ধতিগুলিও আপনার সমস্যার জন্য আরও অর্থবহ।

যে কোনও উপায়ে, প্রথমে আপনার কী প্রয়োজন তা নির্ধারণ করুন, তারপরে কোন অ্যালগরিদম এই চ্যালেঞ্জটি সমাধান করতে পারে। কাজের ডেটা-চালিত , এলোমেলোভাবে অ্যালগরিদম চেষ্টা করে নয়।


আপনি দয়া করে ব্যাখ্যা করতে পারেন কেন "হামিং দূরত্বের সাথে ব্যবহার করবেন না"? এটি মাতলাব-এ সমস্ত উপলব্ধ থাকার পরেও বোধগম্য হতে পারে it আমি যদি নতুন কোনও প্রশ্ন খোলার বিষয়ে কিছু মনে করি না, যদি তা বোঝা যায়।
আতঙ্কিত আতারিয়ায়

গড়ের কারণে। গাণিতিক গড় হ্যামিং দূরত্ব বা বাইনারি ডেটা সহ অর্থহীন। ব্যবহার করুন মোড অথবা medoid পরিবর্তে।
কিউইট আছে - অ্যানি-মউসে

কেবল এটি সঠিক হয়ে উঠছে তা নিশ্চিত করার জন্য: ম্যাথল্যাব হ্যামিং মেট্রিকের সাথে একসাথে কে-মেনস ব্যবহার করার সময় সেন্ট্রয়েডগুলি আপডেট করার সময় গাণিতিক গড় ব্যবহার করে। এটা কি সঠিক? এই ম্যাট্রিকটি মাতলাব ব্যবহারের সঠিক উপায় কী?
আতঙ্কিত আতারিয়াহ

কে-অর্থকে বলা হয় কে- মানে কারণ এটি ব্যবহার করে। অন্যথায়, এটিকে কে-মেডোইডস, কে-মোডস ইত্যাদি বলা হয় যার অর্থ এল 2 এর পক্ষে ভাল - স্কোয়ার বিচ্যুতির যোগফল।
কিউইট আছে - অ্যানি-মৌসে

সুতরাং, মতলব হ্যামিং মেট্রিকের সাথে কে- মানে ব্যবহার করে ; এটি খুব একটা বোঝায় না।
আতর আতারিয়াহ

3

উত্তর দিয়ে আমি কিছুটা দেরি করেছি, তবে সম্ভবত ভবিষ্যতে এটি কোনও শরীরের জন্য কার্যকর হবে।

অভিযোজিত অনুরণন তত্ত্ব বাইনারি শ্রেণিবদ্ধকরণ সমস্যার জন্য একটি ভাল অ্যালগরিদম। এআরটি সম্পর্কে পরীক্ষা করুন 1. আরও তথ্য আপনি অধ্যায় 19- এ ফ্রি নিউরাল নেটওয়ার্ক ডিজাইন বইতে দেখতে পারেন ।

এই নেটওয়ার্ক দুর্দান্ত জৈবিক ধারণা এবং ভাল গণিত বাস্তবায়ন একত্রিত করে। এছাড়াও এই অ্যালগরিদমটি কার্যকর করা সহজ এবং এই বইতে, আপনি এই শ্রেণিবদ্ধটি কীভাবে তৈরি করবেন সে সম্পর্কে ধাপে ধাপে নির্দেশিকাও পেতে পারেন।


2

বাইনারি ডেটা ক্লাস্টারিংয়ের জন্য একটি ক্লাসিক অ্যালগরিদম হলেন বার্নৌলি মিশ্রণ মডেল। মডেলটি বয়েশিয়ান পদ্ধতি ব্যবহার করে ফিট হতে পারে এবং ইএম (প্রত্যাশা ম্যাক্সিমাইজেশন) ব্যবহার করেও ফিট হতে পারে। পূর্ববর্তীটি আরও শক্তিশালী তবে আরও কঠিন হলেও আপনি পুরো গিটহাব জুড়ে অজগর কোডটি সন্ধান করতে পারেন। আমার কাছে গিটহাবের মডেলটির সি # বাস্তবায়ন রয়েছে (ইনফার.এনইটি ব্যবহার করে যার সীমাবদ্ধ লাইসেন্স আছে!)।

মডেল মোটামুটি সহজ। প্রথমে ক্লাস্টারের নমুনা যার সাথে একটি ডেটা পয়েন্ট সম্পর্কিত। তারপরে আপনার ডেটাসেটে যতগুলি মাত্রা রয়েছে ততগুলি স্বাধীনভাবে বার্নোলিস থেকে নমুনা করুন। নোট করুন যে এটি ক্লাস্টার প্রদত্ত বাইনারি মানগুলির শর্তাধীন স্বাধীনতা বোঝায়!

বায়েশিয়ান সেটিং-এ, পূর্বের ওভার ক্লাস্টার অ্যাসাইনমেন্টগুলি হ'ল ডিরিচলেট বিতরণ। আপনি যদি বিশ্বাস করেন যে কিছু গুচ্ছ অন্যদের চেয়ে বড় হয় তবে প্রিয়ারদের রাখার জায়গা এটি। প্রতিটি ক্লাস্টারের জন্য আপনাকে অবশ্যই প্রতিটি বার্নোল্লি বিতরণের জন্য অবশ্যই একটি বিটা বিতরণ উল্লেখ করতে হবে। সাধারণত এই পূর্বটি বিটা (1,1) বা ইউনিফর্ম। শেষ অবধি, ডেটা দেওয়ার সময় এলোমেলোভাবে ক্লাস্টার অ্যাসাইনমেন্ট শুরু করতে ভুলবেন না। এটি প্রতিসাম্যতা ভঙ্গ করবে এবং নমুনা আটকে যাবে না।

বায়েশিয়ান সেটিংয়ে বিএমএম মডেলের বেশ কয়েকটি দুর্দান্ত বৈশিষ্ট্য রয়েছে:

  1. অনলাইন ক্লাস্টারিং (ডেটা স্ট্রিম হিসাবে আসতে পারে)

  2. মডেলটি অনুপস্থিত মাত্রাগুলি নির্ধারণ করতে ব্যবহার করা যেতে পারে

প্রথমটি খুব সহজ যখন ডেটাসেটটি খুব বড় হয় এবং কোনও মেশিনের র‍্যামে ফিট করে না fit দ্বিতীয়টি সমস্ত ধরণের হারানো ডেটা ইমপুটেশন টাস্কগুলিতে ব্যবহার করা যেতে পারে যেমন। বাইনারি এমএনআইএসটি চিত্রের অনুপস্থিত অর্ধেককে বোঝাচ্ছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.