অবিচ্ছিন্ন অনলাইন ক্লাস্টার সনাক্তকরণের সমাধান?


11

আমি আপনাকে একটি অনুমান অনলাইন ক্লাস্টারিং অ্যাপ্লিকেশনটির একটি উদাহরণ দেখাব:

এখানে চিত্র বর্ণনা লিখুন

সময় n পয়েন্ট 1,2,3,4 নীল ক্লাস্টার এ বরাদ্দ করা হয় এবং পয়েন্ট খ, 5,6,7 রেড ক্লাস্টার বি বরাদ্দ করা হয়।

সময় n + 1 এ একটি নতুন পয়েন্ট a প্রবর্তিত হয় যা নীল ক্লাস্টার A এর জন্য নির্ধারিত হয় তবে এটি বিন্দু B কে নীল ক্লাস্টার A তেও নির্ধারিত করে।

শেষ পয়েন্টগুলিতে 1,2,3,4, a, b এ এর ​​এবং পয়েন্ট 5,6,7 বি এর সাথে রয়েছে আমার কাছে এটি যুক্তিসঙ্গত বলে মনে হয়।

প্রথম নজরে যা সহজ বলে মনে হচ্ছে তা আসলে কিছুটা জটিল - সময়ের ধাপ জুড়ে শনাক্তকারীদের বজায় রাখতে। আমি আরও একটি সীমান্তরেখা উদাহরণ দিয়ে এই বিষয়টি পরিষ্কার করার চেষ্টা করি:

এখানে চিত্র বর্ণনা লিখুন

সবুজ বিন্দু দুটি নীল এবং দুটি লাল পয়েন্টকে একটি ক্লাস্টারে একীভূত করবে যা আমি নির্বিচারে নীল রঙিন করার সিদ্ধান্ত নিয়েছি - মনে মনে এটি ইতিমধ্যে আমার মানবিক হিউরিস্টিকাল চিন্তাভাবনা!

এই সিদ্ধান্ত নিতে কোনও কম্পিউটারকে নিয়ম ব্যবহার করতে হবে। উদাহরণস্বরূপ, যখন পয়েন্টগুলি একটি ক্লাস্টারে একীভূত হয় তখন ক্লাস্টারের পরিচয় সংখ্যাগরিষ্ঠ দ্বারা নির্ধারিত হয়। এই ক্ষেত্রে আমরা একটি ড্রয়ের মুখোমুখি হব - নীল এবং লাল উভয়ই নতুন (এখানে নীল রঙের) ক্লাস্টারের জন্য বৈধ পছন্দ হতে পারে।

সবুজ একটি কাছাকাছি পঞ্চম লাল পয়েন্ট কল্পনা করুন। তারপরে সংখ্যাগরিষ্ঠটি লাল হবে (3 লাল বনাম 2 নীল) তাই লাল নতুন ক্লাস্টারের জন্য ভাল পছন্দ হবে - তবে এটি ডানদিকের ক্লাস্টারের জন্য লাল রঙের এমনকি আরও পরিষ্কার পছন্দটির বিরোধিতা করবে কারণ এটি লাল হয়েছে এবং সম্ভবত সেভাবেই থাকতে হবে ।

আমি এই সম্পর্কে চিন্তা করা মাতাল মনে। দিনের শেষে আমি অনুমান করি যে এর জন্য কোনও নিখুঁত নিয়ম নেই - বরং কিছু স্থিতিশীলতা ক্রাইটেরিয়াকে অনুকূল করে তোলা হরিস্টিক্স।

এটি অবশেষে আমার প্রশ্নের দিকে নিয়ে যায়:

  1. এই "সমস্যা" এর কোনও নাম রয়েছে যা এটি উল্লেখ করা যেতে পারে?
  2. এটির জন্য "স্ট্যান্ডার্ড" সমাধান এবং ...
  3. ... এর জন্য কি আর প্যাকেজও থাকতে পারে?

পুনরাবৃত্তি ক্লাস্টারিং মধ্যে ক্লাস্টার পরিচয় যুক্তিসঙ্গত উত্তরাধিকার


পরিসংখ্যান থেকে ক্রস-পোস্ট stats.stackexchange.com/questions/111911/... এবং Stackoverflow: stackoverflow.com/questions/24970702/...
Anony-হেয়ার ক্রিম - QUIT আছে

আপনি যে সমস্যাটি গুচ্ছদের পরিচয় যথাসম্ভব প্রতিটি সময় ধাপে বজায় রাখার চেষ্টা করছেন? যাতে এন + 1 এ আপনি বলতে পারেন যে একটি ক্লাস্টার কীভাবে পরিবর্তিত হয়েছে কারণ এন এর ক্লাস্টার এবং এন + 1 এর মধ্যে কিছু সম্পর্ক রয়েছে? এবং মুশকিলটি হ'ল গুচ্ছগুলি বিভক্ত হয়ে একীভূত হলে কী হবে?
স্পেসডম্যান

@ স্পিডম্যান: বিঙ্গো :) জ্যোফোডাটা.ডি
রাফেল

আমি আপনাকে এটি এবং এটি
জানাচ্ছি

উত্তর:


1

স্থায়িত্ব-প্লাস্টিকের দ্বিধা, শিক্ষার হার এবং অ্যালগরিদম ভুলে যাওয়া:

প্রথমত, আমি বলতে পারি যে এটি একটি দুর্দান্ত প্রশ্ন এবং এমএল অ্যালগরিদমের বোঝার উন্নত করার মতো চিন্তাভাবনা করার ধরণের জিনিস is

  1. এই "সমস্যা" এর কোনও নাম রয়েছে যা এটি উল্লেখ করা যেতে পারে?

এটিকে সাধারণত "স্থিতিশীলতা" হিসাবে উল্লেখ করা হয়। মজার বিষয় হ'ল স্থিতিশীলতা আসলে নিয়মিত ক্লাস্টারিংয়ে অনলাইনে নয় একটি দরকারী ধারণা। সঠিক সংখ্যক ক্লাস্টার নির্বাচন করা হয়েছে কিনা তার জন্য প্রায়শই অ্যালগরিদমের "স্থিতিশীলতা" নির্বাচনের মানদণ্ড হিসাবে বেছে নেওয়া হয়। আরও সুনির্দিষ্টভাবে, আপনি যে অনলাইন ক্লাস্টারিং স্থিতিশীলতার বিষয়টি বর্ণনা করেছেন তা হিসাবে উল্লেখ করা হয় stability-plasticity dilemma

  1. এটির জন্য "স্ট্যান্ডার্ড" সমাধান এবং ...

প্রথমত, বড় চিত্রটির উত্তর হ'ল অনেক অনলাইন ক্লাস্টারিং অ্যালগরিদম আশ্চর্যজনকভাবে স্থিতিশীল থাকে যখন তারা প্রাথমিক তথ্যের একটি বড় দল সহ ভাল প্রশিক্ষণ পেয়েছিল। যাইহোক, অ্যালগরিদমকে নতুন ডেটাতে প্রতিক্রিয়া জানানোর সময় আপনি যদি পয়েন্টগুলির ক্লাস্টার পরিচয়টি সত্যিই পেরেক করতে চান তবে এটি এখনও একটি সমস্যা। আপনার কৌতূহলের বিষয়টির সংক্ষিপ্তসার ইথেম আলপেদিনের দ্বারা যন্ত্র লার্নিংয়ের ভূমিকাতে সংক্ষিপ্ত করা হয়েছে is উপর পৃষ্ঠা 319 তিনি সম্ভাব্যতার সূত্রাবলি গ্রেডিয়েন্ট বংশদ্ভুত প্রয়োগের মাধ্যমে অনলাইন K-মানে অ্যালগরিদম আহরিত কিন্তু উল্লেখ করেছেন যে stability-plasticity dilemmaদেখা দেয় যখন লার্নিং হার জন্য একটি মান নির্বাচন করে। একটি ছোট শিক্ষার হার স্থায়িত্বের ফলস্বরূপ, তবে সিস্টেমটি অভিযোজনযোগ্যতা হারায় যেখানে বৃহত্তর শিক্ষার হার হিসাবে অভিযোজনযোগ্যতা অর্জন করে তবে ক্লাস্টারের স্থায়িত্ব হারায়।

আমি বিশ্বাস করি যে অনলাইন ক্লাস্টারিংয়ের একটি বাস্তবায়ন বেছে নেওয়া সর্বোত্তম পথ যা আপনাকে স্টোকাস্টিক গ্রেডিয়েন্ট বংশদ্ভুত অ্যালগরিদমকে নিয়ন্ত্রণ করতে এবং তারপরে শিখার হারটি বেছে নিতে পারে যাতে আপনি সাউন্ড ক্রস-বৈধকরণ প্রক্রিয়াটি ব্যবহার করতে পারলে সর্বোচ্চ স্থায়িত্ব এবং অভিযোজনযোগ্যতা সর্বাধিকতর করতে পারেন।

আমি নিয়োগকৃত অন্য পদ্ধতিটি একরকম ভুলে যাওয়া অ্যালগরিদম উদাহরণস্বরূপ ডেটা স্ট্রিম পরিপক্ক হওয়ার সাথে সাথে পুরানো পয়েন্টগুলি ভুলে যাওয়া। এটি দ্রুত সময়ের স্কেলগুলিতে মোটামুটি স্থিতিশীল সিস্টেমের জন্য মঞ্জুরি দেয় এবং ধীর সময়ের স্কেলগুলিতে বিবর্তনের অনুমতি দেয়। Adaptive Resonance Theoryসমাধান করার চেষ্টা করার জন্য তৈরি করা হয়েছিল stability-plasticity dilemma। আপনি এই নিবন্ধটি আকর্ষণীয় মনে হতে পারে ।

আমি একটি অ্যালগরিদম পরামর্শ দেওয়ার জন্য আর তে যথেষ্ট পারদর্শী নই, তবে আমি আপনাকে পরামর্শ দিচ্ছি mini-batch k-meansযে আপনি এমন একটি অ্যালগোরিদম সন্ধান করুন যা আপনাকে স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত অ্যালগরিদমের শিখার হার নিয়ন্ত্রণ করতে দেয়।

আশা করি এটা কাজে লাগবে!

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.