তদারকি গুচ্ছ বা শ্রেণিবিন্যাস?


22

দ্বিতীয় প্রশ্নটি হ'ল আমি ওয়েবে কোথাও একটি আলোচনায় "তদারকি করা ক্লাস্টারিং" সম্পর্কে কথা বলার মধ্যে পেয়েছি, যতদূর আমি জানি, ক্লাস্টারিং নিরীক্ষণযোগ্য, সুতরাং "তদারকি ক্লাস্টারিং" এর পিছনে ঠিক কী অর্থ? "শ্রেণিবিন্যাস" এর ক্ষেত্রে পার্থক্য কী?

সে সম্পর্কে অনেক লিঙ্ক রয়েছে:

http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf

http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf

http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf

http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf

http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf

http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf

http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf

ইত্যাদি ...


দয়া করে "ওয়েবে কোথাও আলোচনার" লিঙ্কটি দিন
অ্যাটিলা ওজগুর

2
@ অতিলা ওজগুর তত্ত্বাবধানে থাকা ক্লাস্টারিংয়ের বিষয়ে কথা বলার অনেকগুলি লিঙ্ক রয়েছে, আমি তাদের কয়েকটি আমার পোস্টে যুক্ত করেছি: [1]: cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf [2]: Books.nips .সিসি / কাগজপত্র / ফাইল / নিপস 23 / এনআইপিএস2010_0427.pdf [3]: engr.case.edu/ray_soumya/MLrg/… [4]: public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf 5] : machinelearning.org/proceedings/icml2007/papers/366.pdf [6]: jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf
shn

1
"ক্লাস্টারিং" "অব্যবহৃত শ্রেণিবিন্যাস" এর সমার্থক, সুতরাং, "তদারকি ক্লাস্টারিং" একটি অক্সিমোরন on যদিও কেউ তর্ক করতে পারে যে স্ব-সংগঠিত মানচিত্রগুলি নিরীক্ষণযুক্ত শ্রেণিবিন্যাসের জন্য ব্যবহৃত তত্ত্বাবধান কৌশল, যা "তদারকি করা ক্লাস্টারিং" এর নিকটতম জিনিস হবে be
ডিজিও

যতদূর আমি এখনও বুঝতে পেরেছি "আমরা আরও প্রক্রিয়াজাতকরণের জন্য ডেটা প্রস্তুত করার জন্য বা কমপক্ষে এটি আরও বিশ্লেষণের জন্য প্রস্তুত করার জন্য ক্লাস্টারিং ব্যবহার করি" সুতরাং ক্লাস্টারিংয়ে আমরা যা করি তা ডেটা ক্লাস এ, বিতে বিভক্ত করা হয়, সি এবং আরও ... সুতরাং এখন এই ডেটাটি কিছু উপায়ে তদারকি করা হয়েছে। এখন আপনি এই ডেটাটি দিয়ে কী করতে চান বা শ্রেণিবদ্ধকরণ ক্রিয়াকলাপের জন্য বা রেগ্রেশন যার জন্য এই ডেটা কীভাবে আপনার পক্ষে দরকারী তা প্রয়োজনীয়তার উপর নির্ভর করে। আমি ভুল হলে আমাকে সংশোধন করুন।
সাক করুন

উত্তর:


2

আমার নিষ্পাপ বোধগম্যতা হল শ্রেণিবদ্ধকরণটি করা হয় যেখানে আপনার ক্লাসগুলির একটি নির্দিষ্ট সেট রয়েছে এবং আপনি সেই নির্দিষ্ট শ্রেণীর মধ্যে একটিতে একটি নতুন জিনিস / ডেটাসেটকে শ্রেণিবদ্ধ করতে চান ।

বিকল্পভাবে, ক্লাস্টারিংয়ের শুরু করার মতো কিছুই নেই এবং আপনি ক্লাস্টারে আলাদা করতে সমস্ত ডেটা (নতুন সহ) ব্যবহার করেন।

উভয়ই ক্লাস্টার / শ্রেণিবদ্ধকরণ কীভাবে তা স্থির করতে দূরত্বের মেট্রিক ব্যবহার করে । পার্থক্যটি হ'ল শ্রেণিবদ্ধকরণ ক্লাসগুলির পূর্ব নির্ধারিত সংস্থার উপর ভিত্তি করে যেখানে ক্লাস্টারিং পুরো ডেটার উপর ভিত্তি করে ক্লাস্টারগুলিকে সিদ্ধান্ত দেয়।

আবার আমার নির্বোধ বুঝতে পারছি যে তত্ত্বাবধানে থাকা ক্লাস্টারিং এখনও পুরো ডেটার উপর ভিত্তি করে ক্লাস্টার করে এবং এভাবে শ্রেণিবদ্ধকরণের চেয়ে ক্লাস্টারিং হয়।

বাস্তবে আমি নিশ্চিত যে ক্লাস্টারিং এবং শ্রেণিবিন্যাস উভয়ের পেছনের তত্ত্বটি আন্তঃযুগল।


আমি বিনীতভাবে একমত না। আপনি পরামর্শ দিচ্ছেন যে "শ্রেণিবদ্ধকরণ" সংজ্ঞা দ্বারা এবং ডিফল্টরূপে একটি তদারকি প্রক্রিয়া, যা সত্য নয়। শ্রেণিবিন্যাস তদারকি করা এবং নিরীক্ষণযোগ্য কেসগুলিতে বিভক্ত করা হয়, এটি পরেরটি ক্লাস্টারিংয়ের সমার্থক।
ডিজিও

15

আমি মনে করি আপনার চেয়ে বেশি আমি জানি না, তবে আপনি যে লিঙ্কগুলি পোস্ট করেছেন সেগুলি উত্তরগুলি প্রস্তাব করে। আমি উদাহরণ হিসাবে http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf নেব । মূলত তারা বলে: 1) ক্লাস্টারিং একটি দূরত্বের উপর নির্ভর করে। ২) কে-মাধ্যমের সফল ব্যবহারের জন্য সতর্কতার সাথে নির্বাচিত দূরত্ব প্রয়োজন। 3) তাদের কাঙ্ক্ষিত পার্টিশন সহ আইটেমগুলির সেট আকারে প্রশিক্ষণ ডেটা দেওয়া, আমরা একটি স্ট্রাকচারাল এসভিএম পদ্ধতি সরবরাহ করি যা একটি দূরত্ব পরিমাপ শেখায় যাতে কে-মানে পছন্দসই ক্লাস্টারিংগুলি তৈরি করে।এক্ষেত্রে ক্লাস্টারিংয়ের তদারকির পর্যায়ে রয়েছে, উভয় প্রশিক্ষণের ডেটা এবং শেখা। এই পর্যায়ের উদ্দেশ্যটি হ'ল একটি দূরত্বের ফাংশন শিখতে হবে যাতে প্রশিক্ষণের ডেটা অ্যাপ্লিকেশন ডোমেনটির সাথে কতটা ভাল লাগবে তার উপর নির্ভর করে এই দূরত্বটির সাথে কে-মানে ক্লাস্টারিং প্রয়োগ করা আশাবাদী অনুকূল হয়ে উঠবে। মেশিন লার্নিং এবং ক্লাস্টারিংয়ের জন্য উপযুক্ত সমস্ত স্বাভাবিক ক্যাভ্যাট এখনও প্রয়োগ হয়।

নিবন্ধ থেকে আরও উদ্ধৃতি: তদারকি ক্লাস্টারিং হ'ল আইটেম সেট এবং এই আইটেম সেটগুলির সম্পূর্ণ বিভাজন সমন্বিত একটি প্রশিক্ষণ সেটের সাহায্যে একটি ক্লাস্টারিং অ্যালগরিদমকে স্বয়ংক্রিয়ভাবে মানিয়ে নেওয়া the । এটি একটি যুক্তিসঙ্গত সংজ্ঞা বলে মনে হচ্ছে।


সমস্যাটি হ'ল: কেন আপনি লেবেলযুক্ত প্রশিক্ষণের ডেটার সেট থেকে দূরত্ব পরিমাপ শিখতে চান এবং তারপরে ক্লাস্টারিং পদ্ধতিতে এই দূরত্ব পরিমাপটি প্রয়োগ করুন; আপনি কেবল তদারকি পদ্ধতি ব্যবহার করবেন না কেন। অন্য কথায়, আপনি ক্লাস্টারিং করতে চান (অর্থাত্ আপনার ডেটাসেটটি ক্লাস্টারে বিভাজন করা), তবে আপনি ধরে নিয়েছেন যে আপনার ইতিমধ্যে সম্পূর্ণ পছন্দসই পার্টিশন রয়েছে এবং আপনি এটি কোনও দূরত্ব পরিমাপ শিখতে ব্যবহার করবেন, তারপরে এই শিখে ব্যবহার করে এই ডেটাসেটে ক্লাস্টারিং প্রয়োগ করুন দূরত্ব। সর্বোপরি, আপনি একই পার্টিশনগুলি পাবেন যা আপনি দূরত্ব পরিমাপ শিখতে চেয়েছিলেন! আপনার ইতিমধ্যে রয়েছে
shn

আপনি যেখানে লেখেন "তারপরে এই ডাটাবেসে ক্লাস্টারিং প্রয়োগ করুন" বিকল্প "তারপরে অনুরূপ ডেটাসেটগুলিতে ক্লাস্টারিং প্রয়োগ করুন"। এটি এই দৃশ্যটি: পরীক্ষামূলক এক্সে আমাদের কাছে ডেটা এ এবং বি রয়েছে A এ ক্লাস্টারিংয়ের জন্য, বি দূরত্ব শিখতে সহায়তা করে। বি একটি স্বর্ণের মান সেট করে এবং সম্ভবত এটি ব্যয়বহুল। পরবর্তী পরীক্ষায় এক্স 2, এক্স 3 .. আমরা এ অর্জন করি তবে বি প্রাপ্ত করার সামর্থ্য নেই
মিকান

ঠিক আছে, এখন আপনি যখন একটি ডেটাসেট বি থেকে "একটি দূরত্ব শিখতে" বলছেন: আপনার অর্থ কি "কিছু দূরত্বের প্রান্তিক মান শিখতে" বা "একটি দূরত্বের মেট্রিক ক্রিয়াকলাপটি শিখতে" (এক ধরণের প্যারাম্যাট্রিসড ভিন্নতা মাপার)?
shn

1
আমার অর্থ দ্বিতীয়টি, "একটি দূরত্বের মেট্রিক ফাংশন শেখা"। উপায় দ্বারা আরও পড়ার পরে, উপরে আমার সাধারণ A এবং B সূত্রটি উদ্ধৃত পান্ডুলিপিতে পাওয়া যাবে: "আইটেম সেটগুলির সঠিক ক্লাস্টারিংয়ের সাথে প্রশিক্ষণের উদাহরণ দেওয়া, লক্ষ্যটি একটি সামঞ্জস্যতা পরিমাপ শিখতে হবে যাতে ভবিষ্যতে আইটেমগুলির সেটগুলি ক্লাস্টার হয় are একই ধাঁচে। "
মিকানস

1
ঠিক আছে, তখন মনে হয় "তত্ত্বাবধানের ক্লাস্টারিং" "অর্ধ-তদারকি ক্লাস্টারিং" নামে পরিচিত is এখন অবধি, আমি আসলেই কোনও পার্থক্য দেখছি না। যাইহোক, অন্য কয়েকটি কাগজে, "(আধা) তত্ত্বাবধানের ক্লাস্টারিং" একই ধরণের ভবিষ্যতের ডেটাসেটগুলিকে ক্লাস্টার করতে ব্যবহার করতে "একটি পরিবর্তিত দূরত্ব ফাংশন তৈরি করা" বোঝায় না; এটি বরং দূরত্বের ক্রিয়াকলাপটি পরিবর্তন না করে "ক্লাস্টারিং অ্যালগোরিদম নিজেই পরিবর্তন করা" সম্পর্কে!
shn

3

কিছু সংজ্ঞা:

তত্ত্বাবধানে ক্লাস্টারিং শ্রেণিবদ্ধ উদাহরণগুলিতে ক্লাস্টারগুলির সনাক্তকরণের উদ্দেশ্যে প্রয়োগ করা হয় যার একক শ্রেণীর উচ্চ সম্ভাবনার ঘনত্ব রয়েছে identif

আনসপারভেইজড ক্লাস্টারিং হ'ল একটি নির্দিষ্ট অবজেক্ট ফাংশন ব্যবহার করে একটি লার্নিং ফ্রেমওয়ার্ক, উদাহরণস্বরূপ এমন একটি ফাংশন যা ক্লাস্টারটি শক্ত রাখার জন্য একটি ক্লাস্টারের অভ্যন্তরের দূরত্বগুলি হ্রাস করে।

আধা-তত্ত্বাবধানে ক্লাস্টারিং হ'ল ক্লাস্টারিং প্রক্রিয়ায় পার্শ্ব সম্পর্কিত তথ্য ব্যবহার করে একটি ক্লাস্টারিং অ্যালগরিদম বাড়ানো।

নিউরাল নেটওয়ার্ক-এর উন্নতির - ISNN 2010

অত্যধিক অপভাষা ব্যবহার যেহেতু আমি এই এলাকায় একটি ব্রতী আছি না থাকলে উপায় আমি বুঝতে তত্ত্বাবধানে থাকা ক্লাস্টারিং আরো ভালো কম:

এ তত্ত্বাবধানে থাকা ক্লাস্টারিং আপনার কাছ থেকে শুরু টপ-ডাউনকিছু পূর্বনির্ধারিত শ্রেণীর সাথে এবং তারপরে একটি বটম-আপ পদ্ধতির সাহায্যে আপনি দেখতে পাবেন যে কোন বিষয়গুলি আপনার শ্রেণিতে আরও ভাল ফিট করে।

উদাহরণস্বরূপ, আপনি একটি জনসংখ্যায় কমলা পছন্দসই ধরণের সম্পর্কিত একটি গবেষণা করেছেন।
বিভিন্ন ধরণের কমলা থেকে আপনি দেখতে পেয়েছেন যে একটি বিশেষ ধরণের কমলা পছন্দসই।
তবে এই ধরণের কমলা সংক্রমণ, জলবায়ু পরিবর্তন এবং অন্যান্য পরিবেশগত এজেন্টদের জন্য অত্যন্ত সূক্ষ্ম এবং শ্রুত্র।
সুতরাং আপনি এটিকে অন্য প্রজাতির সাথে অতিক্রম করতে চান যা এই অপমানের বিরুদ্ধে খুব প্রতিরোধী।
তারপরে আপনি ল্যাবটিতে গিয়ে এমন কিছু জিন খুঁজে পেয়েছেন যা এক ধরণের রসালো এবং মিষ্টি স্বাদের জন্য এবং অন্য ধরণের প্রতিরোধী ক্ষমতার জন্য দায়ী।
আপনি বেশ কয়েকটি পরীক্ষা-নিরীক্ষা করেন এবং কমলার কমলা বিশটি সাব-টাইপ বলে শেষ করুন।
এখন আপনি কেবল সেই সাব টাইপগুলিতে আগ্রহী যা বর্ণিত বৈশিষ্ট্যগুলিতে পুরোপুরি ফিট করে।
আপনি আপনার জনসংখ্যায় আবার একই অধ্যয়ন করতে চান না ...
আপনি নিজের নিখুঁত কমলাতে যে বৈশিষ্ট্যগুলি সন্ধান করছেন তা জানেন।
সুতরাং আপনি আপনার ক্লাস্টার বিশ্লেষণ চালান এবং আপনার প্রত্যাশার সাথে সবচেয়ে উপযুক্ত এমনটি নির্বাচন করুন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.