10 ^ 10 পয়েন্টের জন্য অ্যালগরিদমের মতো দ্রুত কে-মানে?


14

আমি 10-মাত্রিক পয়েন্টের সেটটিতে কে-মানে ক্লাস্টারিং করতে চাইছি। ধরা: 10 ^ 10 পয়েন্ট আছে

আমি বৃহত্তম ক্লাস্টারগুলির কেন্দ্র এবং আকারের সন্ধান করছি (আসুন 10 থেকে 100 টি ক্লাস্টার বলি); প্রতিটি পয়েন্টটি কী ক্লাস্টারে শেষ হবে তা নিয়ে আমি মাথা ঘামাই না k আমি কেবল একটি অনুরূপ প্রভাব অনুসন্ধান করছি, যে কোনও আনুমানিক কে-মানে বা সম্পর্কিত অ্যালগরিদম দুর্দান্ত হবে (মিনিবিচ-এসজিডি মানে, ...)। জিএমএম যেহেতু এক অর্থে কে-মানে হিসাবে একই সমস্যা তাই একই আকারের ডেটাতে জিএমএম করাও আকর্ষণীয়।

এই স্কেলে, ডেটা সাবমলিং করার ফলে ফলাফলটি সম্ভবত উল্লেখযোগ্যভাবে পরিবর্তন হয় না: তথ্যের 1/10000 তম নমুনা ব্যবহার করে একই শীর্ষ 10 টি ক্লাস্টার সন্ধানের প্রতিক্রিয়াগুলি খুব ভাল। তবে তারপরেও, এটি একটি 10 ​​^ 6 পয়েন্ট সমস্যা যা ট্র্যাকটেবলের প্রান্তে / বাইরে।


1
"মাইনিং অফ ম্যাসিভ ডেটাসেটস" বইটিতে বেশ কয়েকটি অ্যালগরিদম বর্ণনা করা হয়েছে, যা আপনি এখানে বিনামূল্যে ডাউনলোড করতে পারেন । অধ্যায় 7 পড়ুন "ক্লাস্টারিং"।
lanenok

উত্তর:


12

কে-মানে গড় ভিত্তিক ।

এটি ক্লাস্টারগুলিকে মডেলগুলি ব্যবহার করে মডেল করে এবং এভাবে আরও ডেটা যুক্ত করে উন্নতি প্রান্তিক। গড় অনুমানের ত্রুটি 1 / স্কয়ার্ট (এন) দিয়ে হ্রাস পায়; সুতরাং আরও ডেটা যুক্ত করা কম এবং কম প্রদান করে ...

এ জাতীয় বৃহত ডেটার কৌশল সর্বদা নমুনার আশেপাশে ঘুরে বেড়ায়:

আপনি যদি সাবলাইনার রানটাইম চান, আপনাকে স্যাম্পলিং করতে হবে!

আসলে, মিনি-ব্যাচ-কুমিয়ানস ইত্যাদি ঠিক এটি করে: ডেটা সেট থেকে বারবার নমুনা।

তবে, স্যাম্পলিং (বিশেষভাবে নিরপেক্ষ নমুনা নিখরচায়) হয় নিখরচায় নয় ... সাধারণত, আপনাকে নমুনার জন্য আপনার তথ্য রৈখিকভাবে পড়তে হবে, কারণ আপনি স্বতন্ত্র রেকর্ডে এলোমেলো অ্যাক্সেস পান না।

আমি ম্যাককুইনের অ্যালগরিদমের সাথে যাব। এটি অনলাইন; ডিফল্টরূপে এটি আপনার ডেটা ধরে একক পাস করে (যদিও এটি পুনরাবৃত্তি করার জন্য এটি জনপ্রিয়)। এটি বিতরণ করা সহজ নয় তবে আমি অনুমান করি যে আপনি কোনও এসএসডি থেকে 10 বার বলা আপনার ডেটারিয়ালভাবে পড়তে পারবেন?


আমি ম্যাককুইনের অনলাইন অ্যালগরিদম সম্পর্কে জানতাম না! এটি কি সাধারণত "ক্লাসিক" কে-মানে হিসাবে একই ফলাফল পায়? পরিবর্তে জলাশয়ের নমুনা ব্যবহার সম্পর্কে কী? কে এর একাধিক মান পরীক্ষা করা উচিত সে ক্ষেত্রে ও-কে কে-মানে পুনরায় চালনার জন্য একটি নমুনা রয়েছে।
ভিক্টর মা

6

পার্শ্বের মন্তব্য হিসাবে নোট করুন যে 10 ডি ডেটার জন্য কে-মেনস ব্যবহার করা মাত্রাটির অভিশাপ অনুসারে কোথাও শেষ হতে পারে । অবশ্যই এটি ডেটার প্রকৃতি অনুসারে কিছুটা পরিবর্তিত হয় তবে একবার আমি যে থ্রোসোল্ডটি নির্ধারণ করার চেষ্টা করেছিলাম যেখানে কে-মিনস মাত্রিকতা সম্পর্কে অদ্ভুত আচরণ শুরু করে, আমি 7 ডি জাতীয় কিছু পেয়েছিলাম। Dimen টি মাত্রার পরে এটি সঠিক ক্লাস্টারগুলি মিস করতে শুরু করেছে (আমার ডেটা ম্যানুয়ালি 4 টি পৃথক পৃথক গাউসীয় বিতরণ অনুসারে তৈরি হয়েছিল এবং আমি আমার সামান্য পরীক্ষার জন্য ম্যাটল্যাব কমিয়ানস ফাংশন ব্যবহার করেছি)।


এটি সম্ভব এবং অবশ্যই, সর্বদা ডেটার উপর নির্ভরশীল। যাইহোক, পোস্টারটিতে 10 ^ 10 (সম্ভবত স্বাধীন) নমুনা রয়েছে তা দেখে মনে হচ্ছে 10 টি মাত্রা এখানে খুব বড় সমস্যা হবে না।
রায়ান জে স্মিথ

2
আপনার মন্তব্য @ রায়ানজ.স্মিতের জন্য ধন্যবাদ। আপনার মন্তব্যটি ঠিক আমার একই দিকের। আমি পোস্টে এই সমস্যা সম্পর্কিত কিছু দেখিনি। এবং নমুনার এনআরআর সম্পর্কে; তবে তার অনেকগুলি নমুনা পয়েন্ট রয়েছে যা তিনি এখনও মাত্রিকতার সমস্যায় আটকে যেতে পারেন। আমি মনে করি আপনি কম নমুনা আকার সমস্যার বিপরীত দিকটি নিয়ে বিতর্ক করছেন যা আমি মনে করি এটি বৈধ নয়। যদি তার একটি উচ্চ মাত্রিক ডেটা থাকে তবে কম নমুনার আকারটি সমস্যা হবে তবে আমি মনে করি প্রচুর পরিমাণে ডেটা অগত্যা কোনও অর্থ বোঝায় না
কসরা মনশায়ে

10 মাত্রা এখনও অনেক কিছু নয়।
কিট আছে - অ্যানি-মুউসে

1
আপনি আমার বন্ধুটি কীভাবে নির্ধারণ করবেন? আমি যা বলেছিলাম তা এই জাতীয় প্রশ্নের উত্তর দেওয়ার জন্য ডিজাইন করা একটি পরীক্ষার ফলাফল তবে এটি সাধারণভাবে উত্তর দেওয়া যায় না! আপনার মন্তব্যে ঠিক "প্রচুর" কী? এটি আমার পরিস্থিতিতে যেমনটি উল্লেখ করেছে তেমন অনেক পরিস্থিতিতে তার উপর নির্ভর করে। কিছু পরিস্থিতিতে 10D সমস্যাযুক্ত হতে পারে।
কসরা মনশায়ে
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.