1D ডেটা 1 বা 3 মানের প্রায় ক্লাস্টার করা হয় কিনা তা পরিমাণগতভাবে কীভাবে বলবেন?


9

মানুষের হৃদস্পন্দনের মাঝে সময় সম্পর্কে আমি কিছু তথ্য পেয়েছি। অ্যাক্টোপিক (অতিরিক্ত) বীটের একটি ইঙ্গিত হ'ল এই অন্তরগুলি একটির পরিবর্তে তিনটি মানের চারপাশে ক্লাস্টার করা হয়। আমি এর একটি পরিমাণগত পরিমাপ কীভাবে পেতে পারি?

আমি একাধিক ডেটা সেট তুলনা করতে দেখছি এবং এই দুটি 100-বিন হিস্টোগ্রামগুলি তাদের সকলের প্রতিনিধি।

এখানে চিত্র বর্ণনা লিখুন

আমি রূপগুলি তুলনা করতে পারি, তবে আমি চাই আমার আলগোরিদম অন্যান্য ক্ষেত্রে তুলনা না করে প্রতিটি ক্ষেত্রে একটি বা তিনটি ক্লাস্টার রয়েছে কিনা তা সনাক্ত করতে সক্ষম হোক।

এটি অফলাইনে প্রক্রিয়াকরণের জন্য, সুতরাং যদি প্রয়োজন হয় তবে প্রচুর পরিমাণে গণনা শক্তি উপলব্ধ।


উত্তর:


3

আমি এখানে কে-মাধ্যম ব্যবহারের বিরুদ্ধে দৃ strongly়ভাবে পরামর্শ দিচ্ছি । কে বিভিন্ন মানের জন্য ফলাফল খুব ভাল তুলনাযোগ্য নয়। পদ্ধতিটি কেবল একটি অশোধিত হিউরিস্টিক। আপনি যদি সত্যিই ক্লাস্টারিং ব্যবহার করতে চান তবে EM ক্লাস্টারিং ব্যবহার করুন, যেহেতু আপনার ডেটাতে সাধারণ বিতরণ রয়েছে বলে মনে হচ্ছে। এবং আপনার ফলাফল বৈধ!

পরিবর্তে, সুস্পষ্ট পদ্ধতিটি হল একটি গাউসীয় ফাংশন ফিটিং করার চেষ্টা করা এবং (উদাহরণস্বরূপ লেভেনবার্গ-মার্কুয়ার্ড পদ্ধতি ব্যবহার করে) তিনটি গাউসীয় ফাংশন মাপসই, সম্ভবত একই উচ্চতায় আবদ্ধ হওয়া (অবক্ষয় এড়াতে)।

তারপরে পরীক্ষা করুন, দুটি বিতরণের মধ্যে কোনটি আরও ভাল ফিট করে।


ধন্যবাদ, আমি লেভেনবার্গ-মার্কুয়ার্ডের কথা জানতাম না! এই গুচ্ছগুলি গাউসিয়ান নয়; আপনি কি এখনও ভাবেন যে গাউসীয় ফাংশনগুলি এগুলি ফিট করার জন্য সেরা পিডিএফ হবে?
নিকোলাস

এটি এবং গ্রেগ স্নোকে +1 করুন। আমি এই পরামর্শের সাথে সম্পূর্ণ একমত @ নিকোলাস আমার কাছে মনে হয় এটি গাউসিয়ান বিতরণের মিশ্রণটি ফিট করার জন্য "গাউসিয়ান যথেষ্ট" দেখাচ্ছে। আপনি একটি নিখুঁত ফিট চান না, কেবলমাত্র কতগুলি ক্লাস্টার রয়েছে তা যাচাই করার একটি উপায়। এই অপটিকটিতে, সমস্ত উপাদানকে একই স্ট্যান্ডার্ড বিচ্যুতিটি ভাগ করে নেওয়া সীমাবদ্ধ করা ভাল ধারণা হতে পারে (অ্যানি-মৌসে ব্যাখ্যা করেছেন কারণগুলির জন্য)।
এলভিস

তারা স্পষ্টতই আমার কাছে যথেষ্ট গাউসিয়াকে দেখায়। কে-মানে ভোরোনাই কোষ সহ মডেলগুলির ডেটা। দু'টি প্রতিবেশী উপায়ের মধ্যে সবচেয়ে ভাল বিভাজনটি হুবহু অনুমান করা আমার পক্ষে বুদ্ধিমান মনে হয় না।
কিট আছে - অ্যানি-মৌসে

6

3 সাধারণ বিতরণের মিশ্রণের মতো কোনও উপাত্তে একটি মিশ্রণ বিতরণ ফিট করুন, তারপরে সেই ফিটের সম্ভাবনাটিকে একটি একক সাধারণ বিতরণের ফিটের সাথে তুলনা করুন (সম্ভাবনা অনুপাত পরীক্ষা, বা এআইসি / বিআইসি)। এর flexmixজন্য প্যাকেজটি সহায়ক Rহতে পারে।


4

আপনি যদি কে-মানে ক্লাস্টার ব্যবহার করতে চান তবে আপনার এবং কেসের তুলনা করার একটি উপায় প্রয়োজন । একটি উপায় হ'ল তিবশিরানী এট আল থেকে ফাঁক পরিসংখ্যান ব্যবহার করা । এবং আরও ভাল মান সরবরাহ করে এমন নির্বাচন করুন । এসএমসিস্কে একটি আর এর প্রয়োগ রয়েছে , যদিও সেই নির্দিষ্ট ফাংশনটি চেষ্টা করবে , সুতরাং আপনার কেবলমাত্র বা অনুকূল মান হিসাবে ফিরে আসতে পারে তা নিশ্চিত করার জন্য আপনাকে যত্ন নিতে হবে ।K=1K=3KK=1,2,3K=1K=3


2

বিভিন্ন উপায় সনাক্ত করতে একটি কে-মানে ক্লাস্টারিং অ্যালগরিদম ব্যবহার করুন

উপযুক্ত ফাংশনটি সন্ধান করতে আর-অনুসন্ধানে KNN ফাংশনটি সন্ধান করুন


1
আহ, আমি পোস্টটি করতে চলেছিলাম! আপনি কোডগুলি এবং ননোটগুলির জন্য এই লিঙ্কটিও উল্লেখ করতে পারেন: স্টেটমেডথস.এন.এডভিস্ট্যাটস
কিং

আমি মতলবের kmeansফাংশন দিয়ে চেষ্টা করেছি । ফলাফল হিসাবে চেষ্টা করার চেষ্টা থেকে পৃথক পৃথক। (এই প্রয়োগে খারাপ উত্তরাধিকার?) 1-ক্লাস্টার সেটটির জন্য, আমি প্রায় (270,293,693) প্রায়শই কখনও কখনও (260,285,308) প্রায় পাই। 3-ক্লাস্টার সেটের জন্য কিছু উত্তর (196,324,468,) এবং (290,459,478)।
নিকোলাস

এমন কোনও জায়গা আছে যেখানে আমি ডেটা পেস্ট করতে পারি?
নিকোলাস

ওহ, এর প্রায় 693 অর্থ: মোট 755 টি মানের মধ্যে দু'জন সুস্পষ্ট আউটলির, একটি 532 এবং একটি 855। বাকি সমস্ত মান হিস্টোগ্রামে দেখা যায়।
নিকোলাস

আপনি কে-মাধ্যম থেকে যে উপায় পেয়েছেন তার বাইরে আপনাকে অবশ্যই দেখতে হবে এবং তারা দেখতে পাবে যে তারা আসলে কীভাবে আপনার ডেটা বর্ণনা করে!
কিট আছে - অ্যানি-মৌসে
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.