ডাটাবেস থেকে 1 ডি ডেটার বিভিন্ন ক্লাস্টার নির্ধারণ করুন


24

আমার কাছে বিভিন্ন নোডের মধ্যে ডেটা স্থানান্তরের একটি ডাটাবেস টেবিল রয়েছে। এটি একটি বিশাল ডাটাবেস (প্রায় ৪০ মিলিয়ন ট্রান্সফার সহ)। বৈশিষ্ট্যগুলির মধ্যে একটি হ'ল বাইট (এনবিটস) স্থানান্তর সংখ্যা যা 0 বাইট থেকে 2 টি টেরা বাইট পর্যন্ত হয়। আমি এনবিটিসকে যেমন ক্লাস্টার দিতে চাই যে কে ক্লাস্টার দিয়েছে কিছু এক্স 1 ট্রান্সফার কে 1 ক্লাস্টার, এক্স 2 কে কে 2 এ স্থানান্তর করে etc.

আমি যে পরিভাষাটি ব্যবহার করেছি সেগুলি থেকে আপনি অনুমান করতে পারেন যে আমি কী যাচ্ছি: কে-মানে। এটি 1 ডি ডেটা যেহেতু এনবাইটিস হ'ল আমার কেবলমাত্র বৈশিষ্ট্য। আমি যখন এটির জন্য বিভিন্ন পদ্ধতির সন্ধান করছিলাম তখন দেখলাম ইএম একটি ক্লাস্টারিং না করার পদ্ধতির পাশাপাশি কয়েকবার উল্লেখ করা হয়েছিল। এই সমস্যাটির কাছে কীভাবে যেতে হবে (বিশেষত গুচ্ছকে ক্লাস্টার দেওয়া হবে কি না) সে সম্পর্কে আপনার মতামত সম্পর্কে আমি জানতে চাই।

ধন্যবাদ!


"এক্স 1 স্থানান্তর", "এক্স 2 স্থানান্তর" ইত্যাদি কী কী? "স্থানান্তর টাইপ" একটি দ্বিতীয় পরিবর্তনশীল?
পিটার ফ্লুম - মনিকা পুনরায়

x1 স্থানান্তর আমার কাছে বলার একমাত্র উপায় যে এই 500 টি স্থানান্তরের কিছু মানের কাছাকাছি স্থানান্তর আকার ছিল (এটি কে-ইমেজগুলিতে এই ক্লাস্টারের পক্ষে অর্থ হবে)।
শান

5
আমি ক্লাস্টারিংয়ের বিশেষজ্ঞ নই, তবে ডাব্লু / এত বেশি তথ্য এবং মাত্র ১ মাত্রা, আমি অবাক হয়েছি আপনি যদি বিভিন্ন ব্যান্ডউইথের সাহায্যে কিছু কার্নেল ঘনত্বের প্লট তৈরি করতে পারেন এবং আপনি কতগুলি মোড / পিক খুঁজে পেয়েছেন, এবং ফলাফলটি মনে হচ্ছে কিনা এটা আপনার জন্য দরকারী হবে।
গুং - মনিকা পুনরায়

1
আপনি জিজ্ঞাসা করেছেন ক্লাস্টার করবেন কিনা। ক্লাস্টারিং থেকে আপনার লক্ষ্য কী হবে? আপনি ক্লাস্টারগুলি অন্য কোনও উদ্দেশ্যে ব্যবহার করবেন, বা এটি তাত্ত্বিক আগ্রহের বিষয়?
পিটার ফ্লুম - মনিকা পুনরায়

টেবিলের অন্যান্য বৈশিষ্ট্যগুলির মধ্যে কয়েকটি হল ব্যবহারকারীর নাম, শুরু এবং শেষ তারিখ। আমার আশা হ'ল স্থানান্তর আকারের উপর ভিত্তি করে স্থানান্তরগুলি ক্লাস্টারিং করে, আমি তারপরে বছরের কোন মাসে কে কতটা স্থানান্তরিত হয় তা দেখার জন্য নির্দিষ্ট স্থানান্তরের অন্যান্য বৈশিষ্ট্যগুলি উল্লেখ করতে পারি। আমরা এই পর্যবেক্ষণটি দিয়ে কী করব, তা আমি এখনও জানি না। কিন্তু আমি যেখানে যাচ্ছি সেই ধরণের।
শান

উত্তর:


43

এক মাত্রিক তথ্যতে, গুচ্ছ বিশ্লেষণ ব্যবহার করবেন না।

ক্লাস্টার বিশ্লেষণ সাধারণত একটি মাল্টিভারিয়েট কৌশল। বা আমাকে আরও ভালভাবে এটি অন্যদিকে রাখুন: এক-মাত্রিক ডেটার জন্য - যা পুরোপুরি অর্ডার করা হয়েছে - আরও ভাল কৌশল রয়েছে there আপনি এখানে 1-ডি ক্ষেত্রে উপযুক্ত হওয়ার জন্য যথাযথ প্রচেষ্টা না করা হলে এখানে কে-ইন্সেস এবং অনুরূপ কৌশলগুলি ব্যবহার করা মোট বর্জ্য।

কেবল আপনাকে উদাহরণ দিতেই: কে-অর্থাত্ প্রাথমিকভাবে বীজ হিসাবে কে র্যান্ডম অবজেক্ট ব্যবহার করা সাধারণ। একটি মাত্রিক তথ্যের জন্য, একবার তথ্য বাছাইয়ের পরে উপযুক্ত কোয়ান্টাইলগুলি (1/2 কে, 3/2 কে, 5/2 কে ইত্যাদি) ব্যবহার করে আরও ভাল করা মোটামুটি সহজ , এবং তারপরে এই প্রারম্ভিক বিন্দু থেকে অনুকূলকরণ করুন। তবে 2 ডি ডেটা সম্পূর্ণরূপে বাছাই করা যায় না। এবং একটি গ্রিডে, সম্ভবত খালি ঘর থাকবে।

আমি এটিকে ক্লাস্টারও বলব না। আমি একে অন্তর বলব । আপনি যা করতে চান তা হ'ল অন্তর্বর্তী সীমানা অনুকূল করা। আপনি যদি কে-মানে করেন তবে এটি প্রতিটি বস্তুর পরীক্ষা করে যদি এটি অন্য ক্লাস্টারে স্থানান্তরিত হয়। এটি 1 ডি-তে বোঝা যায় না: কেবল বিরতি সীমানায় থাকা জিনিসগুলি পরীক্ষা করা দরকার। এটি স্পষ্টতই অনেক দ্রুত, কারণ সেখানে কেবলমাত্র ~ 2k অবজেক্ট রয়েছে। যদি তারা ইতিমধ্যে অন্যান্য অন্তর পছন্দ না করে, আরও কেন্দ্রীয় বস্তু হয় না।

উদাহরণস্বরূপ, আপনি জেনস ন্যাচারাল ব্রেকস অপ্টিমাইজেশানের মতো কৌশলগুলি সন্ধান করতে চাইতে পারেন ।

অথবা আপনি কোনও কার্নেল ঘনত্বের অনুমান করতে পারেন এবং সেখানে বিভক্ত হওয়ার জন্য ঘনত্বের স্থানীয় মিনিমা সন্ধান করতে পারেন । সুন্দর জিনিসটি হল এর জন্য আপনাকে কে নির্দিষ্ট করার দরকার নেই!

পিএস দয়া করে অনুসন্ধান ফাংশনটি ব্যবহার করুন। 1-ডে ডেটা ক্লাস্টারিংয়ের জন্য এখানে কিছু প্রশ্ন রয়েছে যা আপনি মিস করেছেন:


কোয়ান্টাইলগুলি অগত্যা ক্লাস্টারগুলির সাথে একমত হয় না। একটি 1 ডি ডিস্ট্রিবিউশনে 3 টি প্রাকৃতিক ক্লাস্টার থাকতে পারে যেখানে দু'জন ধারণ করে 10% ডেটা এবং শেষটিতে একটিতে 80% ডেটা থাকে। সুতরাং আমি মনে করি এখানে ক্লাস্টার করা সম্ভব, যদিও আমি সম্মত হই তবে বুদ্ধিমানভাবে বীজ বাছাই করে বা অন্যান্য ধারণা ব্যবহার করে রানটিকে অনুকূলিত করা বোধগম্য।
বিটওয়াইজ

কোয়ান্টাইলগুলি সম্ভবত অপ্টিমাইজ করার জন্য ভাল বীজ পয়েন্ট , এটিই আমি উল্লেখ করছি। এবং আপনি 1D তে কী করতে পারেন তার উদাহরণ দেওয়ার জন্য এটি 2+ মাত্রায় ভালভাবে কাজ করে না।
অ্যানি-মৌসে

আমি সম্মত হই যে কোয়ান্টাইলগুলিকে বীজ হিসাবে ব্যবহার করার জন্য এটি শট করার উপযুক্ত হবে তবে আমি এখনও কিছু এলোমেলো প্রাথমিককরণ চেষ্টা করব (উদাহরণস্বরূপ যেমন আমি দিয়েছি)। যে কোনও ক্ষেত্রে, সর্বোত্তম পদ্ধতিটি হিস্টোগ্রাম / ঘনত্বের প্লটটি সন্ধান করা এবং ম্যানুয়ালি বীজগুলি বেছে নেওয়া এবং তারপরে ক্লাস্টারিংয়ের সাথে তাদের অনুকূলিত করা। এটি খুব দ্রুত একটি ভাল সমাধানে রূপান্তরিত হবে।
বিটওয়াইজ

3
জেনস 1 ডি- তে কে-মানে।
whuber

1
@ শুক্রবার এমনকি এটি গাণিতিক হলেও, আমি আশা করি যে তিনি ডেটা অর্ডার করতে পারেন সে কাজে লাগানোর জন্য তিনি যথেষ্ট স্মার্ট ছিলেন । যদি আপনি 1-ডি ডেটাতে কে-ইনড করার জন্য লয়েড পদ্ধতির ব্যবহার করেন তবে আপনি বোকা, কারণ আপনি প্রচুর গননা করছেন যা আপনি এড়িয়ে যেতে পারেন। এবং বেশিরভাগ লোকের কাছে কে-মানে লয়েড। এবং কিছু লোক অপ্রয়োজনীয় পুনঃনির্মাণ এড়ানোর বিষয়ে যত্নশীল।
অ্যানি-মউসে

1

আপনার প্রশ্নটি কি আপনার ক্লাস্টার হওয়া উচিত বা ক্লাস্টার ব্যবহারের জন্য আপনার কোন পদ্ধতিটি ব্যবহার করা উচিত?

আপনার ক্লাস্টার হওয়া উচিত কিনা তা নির্ভর করে আপনি নিজের ডেটা স্বয়ংক্রিয়ভাবে বিভাজন করতে চান কিনা (উদাহরণস্বরূপ আপনি যদি এই পার্টিশনটি বেশ কয়েকবার পুনরাবৃত্তি করতে চান)। যদি আপনি এটি একবার করে করেন তবে মন্তব্যে প্রস্তাবিত হিসাবে আপনি কেবল নিজের মানগুলির বন্টনের হিস্টোগ্রামটি দেখতে এবং এটি চোখের দ্বারা ভাগ করতে পারেন। আমি যাই হোক না কেন চোখের সাহায্যে ডেটা দেখার পরামর্শ দেব, যেহেতু এটি আপনাকে কতগুলি ক্লাস্টার চান তা নির্ধারণ করতে এবং ক্লাস্টারিং "কাজ করেছে" কিনা তা নির্ধারণ করতে সহায়তা করতে পারে।

ক্লাস্টারিংয়ের ধরণ সম্পর্কে, ডেটাতে "রিয়েল" ক্লাস্টার থাকলে কে-মানেগুলি ঠিক থাকতে হবে। আপনি যদি হিস্টোগ্রামে কোনও ক্লাস্টার না দেখেন তবে তা যেভাবেই হোক না কেন এটি ক্লাস্টারিংয়ের পক্ষে খুব একটা বোঝা যায় না, যেহেতু আপনার ডেটা রেঞ্জের যে কোনও বিভাজন বৈধ ক্লাস্টার দেবে (বা কেমিয়ান্সের এলোমেলো দীক্ষার ক্ষেত্রে, আপনি বিভিন্ন ক্লাস্টার পাবেন) প্রতিটি রান)।


0

আপনি চেষ্টা করতে পারেন:

  1. কেমিনস, জিএমএম বা অন্যান্য পদ্ধতিগুলি n_clusters = না উল্লেখ করে। কার্নেল ঘনত্বের চক্রান্তের শিখর।

  2. কে মিনস, জিএমএম বা অন্যান্য পদ্ধতিগুলি সর্বোত্তম নং নির্ধারণ করে। কিছু মেট্রিকের উপর ভিত্তি করে গুচ্ছগুলির। আরও তথ্য: [এখানে] https://en.wikedia.org/wiki/Determining_t__umber_of_clusters_in_a_data_set

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.