ক্রস-বৈধকরণের মাধ্যমে কোনও গ্রাউন্ড সত্য না দিয়ে আপনি কোনও ডেটাसेटে বিভিন্ন ক্লাস্টারিংয়ের পদ্ধতি তুলনা করতে পারেন?


12

বর্তমানে, আমি একটি পাঠ্য নথি ডেটাসেট বিশ্লেষণ করার চেষ্টা করছি যার কোনও গ্রাউন্ড সত্য নেই। আমাকে বলা হয়েছিল যে আপনি বিভিন্ন ক্লাস্টারিং পদ্ধতির তুলনা করতে কে-ফোল্ড ক্রস বৈধতা ব্যবহার করতে পারেন। তবে অতীতে আমি যে উদাহরণগুলি দেখেছি সেগুলি স্থল সত্যকে ব্যবহার করে। আমার ফলাফলগুলি যাচাই করার জন্য এই ডেটাসেটে কে-ফোল্ড ব্যবহার করার কোনও উপায় আছে?

উত্তর:


12

আমি জানি ক্লাস্টারিংয়ের একমাত্র ক্রস-বৈধতার আবেদনটি হ'ল:

  1. নমুনাটি 4 অংশ প্রশিক্ষণের সেট এবং 1 অংশ পরীক্ষার সেটগুলিতে ভাগ করুন।

  2. প্রশিক্ষণ গোষ্ঠীতে আপনার ক্লাস্টারিং পদ্ধতিটি প্রয়োগ করুন।

  3. এটি পরীক্ষার সেটটিতেও প্রয়োগ করুন।

  4. প্রশিক্ষণ সেট ক্লাস্টারে (যেমন কে-মানেগুলির নিকটতম সেন্ট্রোড) টেস্টিং সেটে প্রতিটি পর্যবেক্ষণ বরাদ্দ করতে পদক্ষেপ 2 থেকে ফলাফলগুলি ব্যবহার করুন।

  5. টেস্টিং সেটে, প্রতিটি ক্লাস্টারের ধাপ 3 থেকে প্রতিটি ক্লাস্টারের জন্য সেই ক্লাস্টারের সংখ্যার পর্যবেক্ষণের সংখ্যাটি গণনা করুন যেখানে প্রতিটি জুটি একই ধরণের ক্লাস্টারে রয়েছে 4 র্থ ধাপ অনুসারে (এইভাবে @ ক্লাবাইটস দ্বারা চিহ্নিত ক্লাস্টার-সনাক্তকরণ সমস্যাটি এড়ানো)। একটি অনুপাত দিতে প্রতিটি ক্লাস্টারে জোড় সংখ্যা দ্বারা ভাগ করুন। সমস্ত ক্লাস্টারের তুলনায় সর্বনিম্ন অনুপাত হ'ল নতুন নমুনাগুলির জন্য ক্লাস্টারের সদস্যতার পূর্বাভাস দেওয়ার পদ্ধতিটি কতটা ভাল।

  6. প্রশিক্ষণ ও পরীক্ষার সেটের বিভিন্ন অংশের সাথে এটিকে পাঁচগুণ তৈরি করতে পদক্ষেপ 1 থেকে পুনরাবৃত্তি করুন।

তিবশিরানী ও ওয়ালথার (২০০৫), "ক্লাস্টার ভ্যালিডেশন বাই প্রেডিকশন স্ট্রেন্থ", জার্নাল অফ কম্পিউটেশনাল অ্যান্ড গ্রাফিকাল স্ট্যাটিস্টিকস , ১৪ , ৩।


পর্যবেক্ষণের একটি জুটি কী তা আপনি আরও ব্যাখ্যা করতে পারেন (এবং আমরা কেন প্রথম পর্যবেক্ষণে জোড় পর্যবেক্ষণ ব্যবহার করছি)? তদুপরি, আমরা কীভাবে সংজ্ঞায়িত করতে পারি যে পরীক্ষার সেটটির তুলনায় প্রশিক্ষণ সেটে "একই ক্লাস্টার" কী? আমি নিবন্ধটি দেখেছি, কিন্তু ধারণাটি পেলাম না।
টাঙ্গুয়

1
@ টেঙ্গুয়: আপনি সমস্ত জোড় বিবেচনা করুন - যদি পর্যবেক্ষণগুলি এ, বি এবং সি হয় তবে জোড়াগুলি হ'ল {এ, বি}, {এ, সি}, এবং {বি, সি} -, এবং আপনি সংজ্ঞা দেওয়ার চেষ্টা করবেন না একই ক্লাস্টার "ট্রেন ও পরীক্ষা সেট জুড়ে, যা বিভিন্ন পর্যবেক্ষণ ধারণ করে। বরং আপনি প্রতিটি জোড়ের সদস্যদের একত্রিত বা পৃথক করার ক্ষেত্রে তারা কতবার সম্মত হন তা দেখে পরীক্ষার সেটগুলিতে প্রয়োগ হওয়া দুটি ক্লাস্টারিং সমাধানের (প্রশিক্ষণের সেট থেকে উত্পন্ন একটি এবং টেস্ট সেট থেকে নিজেই একটি) উত্পাদনের সাথে তুলনা করুন।
স্কোর্টচি - মনিকা পুনরায় ইনস্টল করুন

ঠিক আছে, তাহলে দুটি ম্যাট্রিকের জোড় পর্যবেক্ষণ, ট্রেনের একটিতে, একটি পরীক্ষার সেট, একটি মিলের সাথে তুলনা করা হয়?
টাঙ্গুয়

@ টেঙ্গুয়: না, আপনি কেবল পরীক্ষার সেটটিতে পর্যবেক্ষণের জোড়া বিবেচনা করুন।
Scortchi - পুনর্বহাল মনিকা

দুঃখিত আমি যথেষ্ট পরিষ্কার ছিল না। পরীক্ষার সেটের সমস্ত জোড় পর্যবেক্ষণ নেওয়া উচিত, যা থেকে 0 এবং 1 দিয়ে পূর্ণ একটি ম্যাট্রিক্স তৈরি করা যেতে পারে (0 পর্যবেক্ষণের জোড় যদি একই ক্লাস্টারে থাকে না, তারা যদি 1 করে তবে)। দুটি প্রশিক্ষণ গণনা করা হয় যেহেতু আমরা প্রশিক্ষণ সেট থেকে এবং পরীক্ষার সেট থেকে প্রাপ্ত ক্লাস্টারগুলির জন্য পর্যবেক্ষণের জোড়া দেখি। এই দুটি ম্যাট্রিকের সাদৃশ্যটি পরে কিছু মেট্রিক দিয়ে পরিমাপ করা হয়। আমি কি সঠিক?
টাঙ্গুয়

7

আমি বুঝতে চেষ্টা করছি যে আপনি কীভাবে ক্লাস্টারিং পদ্ধতিতে ক্র-বৈধতা প্রয়োগ করবেন যেমন কে-মানে যেহেতু নতুন আগত ডেটা আপনার বিদ্যমান একটিতে সেন্ট্রয়েড এবং এমনকি ক্লাস্টারিং বিতরণকে পরিবর্তন করবে।

ক্লাস্টারিংয়ের ক্ষেত্রে অকার্যকর বৈধতা সম্পর্কিত, আপনাকে পুনরায় স্যাম্পল করা ডেটাতে বিভিন্ন ক্লাস্টার নম্বর সহ আপনার অ্যালগরিদমের স্থায়িত্বের পরিমাণ প্রয়োজন হতে পারে।

ক্লাস্টারিং স্থায়িত্বের প্রাথমিক ধারণাটি নীচের চিত্রটিতে প্রদর্শিত হতে পারে:

এখানে চিত্র বর্ণনা লিখুন

আপনি পর্যবেক্ষণ করতে পারেন যে 2 বা 5 এর ক্লাস্টারিং সংখ্যার সাথে কমপক্ষে দুটি পৃথক ক্লাস্টারিং ফলাফল রয়েছে (চিত্রগুলিতে বিভক্ত ড্যাশ লাইনগুলি দেখুন), তবে ক্লাস্টারিং সংখ্যার 4 এর সাথে, ফলাফলটি তুলনামূলকভাবে স্থিতিশীল।

ক্লাস্টারিং স্থায়িত্ব: উলরিক ফন লাক্সবার্গের একটি পর্যালোচনা সহায়ক হতে পারে।


7

k

ব্যাখ্যা এবং স্পষ্টতার স্বাচ্ছন্দ্যের জন্য আমি ক্লাস্টারিং বুটস্ট্র্যাপ করব।

সাধারণভাবে, আপনি আপনার সমাধানের স্থায়িত্ব পরিমাপ করতে এ জাতীয় পুনরায় মডেল ক্লাস্টারিংগুলি ব্যবহার করতে পারেন: এটি কি খুব কমই বদলে যায় বা এটি সম্পূর্ণরূপে পরিবর্তিত হয়?

যদিও আপনার কোনও গ্রাউন্ড সত্য নেই, আপনি অবশ্যই সেই ক্লাস্টারির তুলনা করতে পারেন যা একই পদ্ধতির বিভিন্ন রানের ফলাফল (পুনরায় মডেলিং) বা বিভিন্ন ক্লাস্টারিং অ্যালগরিদমের ফলাফলগুলি যেমন ট্যাবলেট দ্বারা:

km1 <- kmeans (iris [, 1:4], 3)
km2 <- kmeans (iris [, 1:4], 3)
table (km1$cluster, km2$cluster)

#      1  2  3
#   1 96  0  0
#   2  0  0 33
#   3  0 21  0

গুচ্ছগুলি নামমাত্র হওয়ায় তাদের ক্রম ইচ্ছামত পরিবর্তন হতে পারে। তবে এর অর্থ হ'ল আপনাকে আদেশটি পরিবর্তন করার অনুমতি দেওয়া হয়েছে যাতে ক্লাস্টারগুলি অনুরূপ হয়। তারপরে তির্যক * উপাদানগুলি একই ক্লাস্টারে নির্ধারিত কেসগুলি গণনা করে এবং অফ-ডায়াগোনাল উপাদানগুলি কীভাবে কার্যভার পরিবর্তন হয় তা দেখায়:

table (km1$cluster, km2$cluster)[c (1, 3, 2), ]

#      1  2  3
#   1 96  0  0
#   3  0 21  0
#   2  0  0 33

আমি বলব যে প্রতিটি পদ্ধতিতে আপনার ক্লাস্টারিং কতটা স্থিতিশীল তা প্রতিষ্ঠিত করতে পুনরায় মডেলিং ভাল। তা ছাড়া ফলাফলগুলি অন্যান্য পদ্ধতির সাথে তুলনা করতে খুব বেশি অর্থবোধ করে না।

i,i


আপনি কে-ফোল্ড ক্রস বৈধকরণ এবং কে-মানে ক্লাস্টারিং মিশ্রিত করছেন না, আপনি?


0

এখানে ক্লাস্টারের সংখ্যা নির্ধারণের জন্য দ্বি-ক্রস বৈধকরণ পদ্ধতিতে একটি সাম্প্রতিক প্রকাশনা প্রকাশিত হয়েছে

এবং কেউ এখানে বিজ্ঞান-কিট শিখতে প্রয়োগের চেষ্টা করছে ।

72D

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.