উত্তর:
সাধারণভাবে, শ্রেণিবিন্যাসে আপনার কাছে পূর্বনির্ধারিত শ্রেণীর একটি সেট রয়েছে এবং একটি নতুন অবজেক্টটি কোন শ্রেণীর অন্তর্ভুক্ত তা জানতে চান।
ক্লাস্টারিং অবজেক্টের একটি সেটকে গ্রুপ করার চেষ্টা করে এবং বস্তুর মধ্যে কিছু সম্পর্ক আছে কিনা তা খুঁজে বের করার চেষ্টা করে।
মেশিন লার্নিংয়ের প্রসঙ্গে শ্রেণিবিন্যাস তদারকি করা তত্ত্বাবধান করা হয় এবং ক্লাস্টারিং নিরীক্ষণযোগ্য শিক্ষণ ।
এছাড়াও কটাক্ষপাত আছে ক্লাসিফিকেশন এবং ক্লাস্টারিং উইকিপিডিয়া করেন।
আপনি যদি কোনও ডেটা মাইনিং বা মেশিন লার্নিং ব্যক্তিদের কাছে এই প্রশ্নটি জিজ্ঞাসা করেন তবে তারা ক্লাস্টারিং এবং শ্রেণিবিন্যাসের মধ্যে পার্থক্য বোঝানোর জন্য তত্ত্বাবধানে থাকা শিক্ষণ এবং নিরীক্ষণযোগ্য শিক্ষার শব্দটি ব্যবহার করবেন। সুতরাং প্রথমে আপনাকে তত্ত্বাবধানে এবং নিরীক্ষণযোগ্য কী শব্দটি সম্পর্কে আপনাকে ব্যাখ্যা করতে দিন।
তত্ত্বাবধানে পড়াশুনা: ধরুন আপনার একটি ঝুড়ি রয়েছে এবং এটি কিছু তাজা ফল দিয়ে ভরা এবং আপনার কাজটি একই জায়গায় একই জায়গায় ফলগুলি এক জায়গায় সাজানো। ধরুন ফলগুলি আপেল, কলা, চেরি এবং আঙ্গুর। সুতরাং আপনি ইতিমধ্যে আপনার আগের কাজটি থেকে জানেন যে, প্রতিটি ফলের আকার এবং তাই একই স্থানে একই ধরণের ফলগুলি সাজানো সহজ। এখানে আপনার আগের কাজটিকে ডেটা মাইনিংয়ে প্রশিক্ষিত ডেটা বলা হয়। সুতরাং আপনি ইতিমধ্যে আপনার প্রশিক্ষিত ডেটা থেকে জিনিসগুলি শিখলেন, এটি কারণ আপনার প্রতিক্রিয়াশীল ভেরিয়েবল রয়েছে যা আপনাকে বলে যে কিছু ফলের যদি এমন বৈশিষ্ট্য থাকে এবং তা প্রতিটি ফলের মতো আঙ্গুরের হয়।
এই ধরণের ডেটা আপনি প্রশিক্ষিত ডেটা থেকে পাবেন। এই ধরণের শিখনকে তদারকি করা শেখা বলা হয়। এই ধরণের সমাধান সমস্যা শ্রেণিবদ্ধকরণের আওতায় আসে। সুতরাং আপনি ইতিমধ্যে জিনিসগুলি শিখেছেন যাতে আপনি আত্মবিশ্বাসের সাথে কাজ করতে পারেন।
অকার্যকর: ধরুন আপনার একটি ঝুড়ি রয়েছে এবং এটি কিছু তাজা ফল দিয়ে ভরা হয়েছে এবং আপনার কাজটি একই জায়গায় একই জায়গায় ফলগুলি এক জায়গায় সাজানো।
এবার আপনি সেই ফলগুলি সম্পর্কে কিছুই জানেন না, আপনি প্রথমবার এই ফলগুলি দেখছেন যাতে আপনি একই ধরণের ফলগুলি কীভাবে সাজিয়ে রাখবেন।
আপনি প্রথমে যা করবেন তা হ'ল আপনি ফলটি গ্রহণ করবেন এবং আপনি সেই নির্দিষ্ট ফলের কোনও শারীরিক চরিত্র নির্বাচন করবেন। ধরুন আপনি রঙ নিয়েছেন
তারপরে আপনি তাদের রঙের উপর ভিত্তি করে সাজিয়ে রাখবেন, তারপরে গ্রুপগুলি এমন কিছু হবে। রেড কালার গ্রুপ: আপেল এবং চেরি ফল। সবুজ রঙের গ্রুপ: কলা এবং আঙ্গুর। সুতরাং এখন আপনি আকার হিসাবে অন্য শারীরিক চরিত্র গ্রহণ করবেন, তাই এখন গ্রুপগুলি এই জাতীয় জিনিস হবে। লাল রঙ এবং বড় আকার: আপেল। লাল রঙ এবং ছোট আকার: চেরি ফল। সবুজ রঙ এবং বড় আকার: কলা। সবুজ রঙ এবং ছোট আকার : আঙ্গুর। কাজ শেষ হ্যাপি শেষ।
এখানে আপনি আগে কোনও জিনিস শিখেননি, মানে কোনও ট্রেনের ডেটা এবং কোনও প্রতিক্রিয়া পরিবর্তনীয় নয়। এই ধরণের লার্নিং অকার্যকর শিক্ষণ হিসাবে পরিচিত। ক্লাস্টারিং নিরীক্ষণযোগ্য শিক্ষার অধীনে আসে।
শ্রেণিবিন্যাস: আপনাকে কিছু নতুন ডেটা দেওয়া হচ্ছে, তাদের জন্য আপনাকে নতুন লেবেল সেট করতে হবে।
উদাহরণস্বরূপ, একটি সংস্থা তাদের সম্ভাব্য গ্রাহকদের শ্রেণীবদ্ধ করতে চায়। যখন কোনও নতুন গ্রাহক আসে, তাদের নির্ধারণ করতে হবে যে এটি কোনও গ্রাহক যারা তাদের পণ্যগুলি কিনতে যাচ্ছেন বা না কিনছেন।
+ ক্লাস্টারিং: আপনাকে ইতিহাসের লেনদেনগুলির একটি সেট দেওয়া হয়েছে যা কে কিনেছে তা রেকর্ড করে।
ক্লাস্টারিং কৌশল ব্যবহার করে আপনি আপনার গ্রাহকদের বিভাজন বলতে পারবেন।
আমি নিশ্চিত যে আপনারা অনেকে মেশিন লার্নিংয়ের কথা শুনেছেন। আপনার এক ডজন এটি হয়ত জানেন। এবং আপনার মধ্যে কয়েকজন সম্ভবত মেশিন লার্নিং অ্যালগরিদমগুলির সাথেও কাজ করেছেন। আপনি দেখতে পাচ্ছেন কোথায় যাচ্ছে? এখন থেকে 5 বছর একেবারে প্রয়োজনীয় হবে এমন প্রযুক্তির সাথে খুব বেশি লোক পরিচিত নয়। সিরি হ'ল মেশিন লার্নিং। আমাজনের অ্যালেক্সা হচ্ছে মেশিন লার্নিং। বিজ্ঞাপন এবং শপিং আইটেমের সুপারিশকারী সিস্টেমগুলি মেশিন লার্নিং। আসুন একটি 2 বছরের ছেলের একটি সাধারণ উপমা দিয়ে মেশিন লার্নিং বোঝার চেষ্টা করি। শুধু মজাদার জন্য, তাকে কায়লো রেন বলি
ধরা যাক কিলো রেন একটি হাতি দেখেছেন। তাঁর মস্তিষ্ক তাকে কী বলবে? (মনে রাখবেন তার ন্যূনতম চিন্তা ক্ষমতা রয়েছে, এমনকি তিনি ভাদরের উত্তরসূরি হলেও)। তার মস্তিষ্ক তাকে বলবে যে সে একটি বড় চলন্ত প্রাণী দেখেছিল যা ধূসর বর্ণের। তিনি পরের দিকে একটি বিড়াল দেখেন, এবং তার মস্তিষ্ক তাকে বলে যে এটি একটি ছোট চলন্ত প্রাণী যা রঙের সোনালি। অবশেষে, তিনি পাশেই একটি হালকা সাবার দেখেন এবং তার মস্তিষ্ক তাকে বলে যে এটি একটি নির্জীব বস্তু যার সাথে সে খেলতে পারে!
এই মুহুর্তে তার মস্তিষ্ক জানে যে সাবের হাতি এবং বিড়ালের চেয়ে পৃথক, কারণ সাবারের সাথে খেলতে পারা এমন একটি জিনিস এবং এটি নিজেই চালায় না। তার মস্তিষ্ক এটিকে অনেক কিছু বুঝতে পারে এমনকি কিয়ো চলমান কী তা বোঝে না। এই সাধারণ ঘটনাটিকে ক্লাস্টারিং বলা হয়।
মেশিন লার্নিং এই প্রক্রিয়াটির গাণিতিক সংস্করণ ছাড়া কিছুই নয়। পরিসংখ্যান অধ্যয়নকারী অনেক লোক বুঝতে পেরেছিল যে তারা কিছু সমীকরণ যেমন মস্তিষ্কের কাজ করে তেমনভাবে কাজ করতে পারে। মস্তিষ্ক একই জিনিসকে গুচ্ছ করতে পারে, মস্তিষ্ক ভুল থেকে শিখতে পারে এবং মস্তিষ্ক জিনিসগুলি সনাক্ত করতে শিখতে পারে।
এই সমস্তগুলি পরিসংখ্যান সহ উপস্থাপন করা যেতে পারে, এবং এই প্রক্রিয়াটির কম্পিউটার ভিত্তিক সিমুলেশনকে মেশিন লার্নিং বলা হয়। আমাদের কম্পিউটার ভিত্তিক সিমুলেশন কেন দরকার? কারণ কম্পিউটারগুলি মস্তিষ্কের চেয়ে দ্রুত ভারী গণিত করতে পারে। আমি মেশিন লার্নিংয়ের গাণিতিক / পরিসংখ্যানের অংশে যেতে পছন্দ করব তবে আপনি প্রথমে কিছু ধারণাগুলি সাফ না করেই এতে প্রবেশ করতে চাই না।
ফিরে আসি কিলো রেনের কাছে। বলা যাক কিলো সাবারকে তুলে নিয়ে তার সাথে খেলতে শুরু করে। তিনি দুর্ঘটনাবশত একটি স্ট্র্যামট্রোপারকে আঘাত করেন এবং স্ট্র্যামট্রোপার আহত হন। কী হচ্ছে তা তিনি বুঝতে পারছেন না এবং খেলছেন। এর পরে তিনি একটি বিড়ালকে আঘাত করেন এবং বিড়ালটি আহত হয়। এবার কিলো নিশ্চিত যে সে কিছু খারাপ করেছে, এবং কিছুটা সাবধান হওয়ার চেষ্টা করে। তবে তার খারাপ সাবার দক্ষতা দেখিয়ে তিনি হাতিটিকে আঘাত করেছেন এবং তিনি নিশ্চিত যে তিনি সমস্যায় পড়েছেন। তারপরে তিনি অত্যন্ত সতর্ক হয়ে ওঠেন, এবং কেবলমাত্র জোর জাগরণে আমরা যেমন দেখেছি তার উদ্দেশ্যটি তার পিতাকে আঘাত করেছে !!
আপনার ভুল থেকে শেখার এই পুরো প্রক্রিয়াটি সমীকরণের সাথে নকল করা যেতে পারে, যেখানে কিছু ভুল করার অনুভূতি একটি ত্রুটি বা ব্যয় দ্বারা উপস্থাপিত হয়। সাবারের সাথে কী করবেন না তা চিহ্নিত করার এই প্রক্রিয়াটিকে শ্রেণিবিন্যাস বলা হয়। ক্লাস্টারিং এবং শ্রেণিবিন্যাস মেশিন লার্নিংয়ের পরম বেসিক। আসুন তাদের মধ্যে পার্থক্য তাকান।
কিলো প্রাণী এবং হালকা সাবারের মধ্যে পার্থক্য দেখায় কারণ তার মস্তিষ্ক সিদ্ধান্ত নিয়েছিল যে হালকা সাবারগুলি নিজেরাই চলাফেরা করতে পারে না এবং তাই, আলাদা। সিদ্ধান্তটি কেবলমাত্র উপস্থিত তথ্য (ডেটা) এর উপর ভিত্তি করে ছিল এবং কোনও বাহ্যিক সহায়তা বা পরামর্শ দেওয়া হয়নি। এর বিপরীতে, কিলো হালকা সাবারের সাথে সাবধান হওয়ার গুরুত্বকে প্রথমে পর্যবেক্ষণ করে কোনও বস্তুকে আঘাত করা কী করতে পারে তা তাত্পর্যপূর্ণ করেছিল। সিদ্ধান্তটি সম্পূর্ণরূপে সাবারের উপর ভিত্তি করে করা হয়নি, তবে এটি বিভিন্ন অবজেক্টকে কী করতে পারে তার ভিত্তিতে। সংক্ষেপে, এখানে কিছু সাহায্য ছিল।
শেখার এই পার্থক্যের কারণে, ক্লাস্টারিংকে একটি নিরীক্ষণযোগ্য শেখার পদ্ধতি এবং শ্রেণিবিন্যাসকে তদারকি শেখার পদ্ধতি বলা হয়। এগুলি মেশিন লার্নিং বিশ্বে খুব আলাদা এবং এগুলি প্রায়শই উপাত্তের ধরণের দ্বারা নির্ধারিত হয়। লেবেলযুক্ত ডেটা প্রাপ্ত (বা কিয়োলোর ক্ষেত্রে স্ট্র্যামট্রোপার, হাতি এবং বিড়ালের মতো জিনিসগুলি আমাদের শিখতে সহায়তা করে) প্রায়শই সহজ হয় না এবং যখন ডেটা আলাদা করা যায় তত বড় হয়। অন্যদিকে, লেবেল ছাড়াই শেখার নিজস্ব অসুবিধাগুলি থাকতে পারে, লেবেলের শিরোনামগুলি কী তা না জানার মতো। কিলো যদি কোনও উদাহরণ বা সহায়তা ছাড়াই সাবারের সাথে সাবধানতা অবলম্বন করা শিখতেন তবে তিনি কী করতে পারবেন তা জানতেন না। তিনি কেবল জানতেন যে এটি করা সম্ভব নয়। এটা এক ধরনের খোঁড়া উপমা কিন্তু আপনি পয়েন্টটি পান!
আমরা কেবল মেশিন লার্নিং দিয়ে শুরু করছি। শ্রেণিবদ্ধকরণ নিজেই অবিচ্ছিন্ন সংখ্যার শ্রেণিবিন্যাস বা লেবেলের শ্রেণিবদ্ধকরণ হতে পারে। উদাহরণস্বরূপ, যদি কায়লোর প্রতিটি স্ট্র্যামট্রোপারের উচ্চতা কী তা শ্রেণীবদ্ধ করতে হয় তবে প্রচুর উত্তর হতে পারে কারণ উচ্চতাগুলি 5.0, 5.01, 5.011 ইত্যাদি হতে পারে তবে হালকা সাবারগুলির মতো একটি সাধারণ শ্রেণিবিন্যাস (লাল, নীল.green) খুব সীমাবদ্ধ উত্তর হবে। প্রকৃতপক্ষে এগুলিকে সাধারণ সংখ্যা দিয়ে প্রতিনিধিত্ব করা যায়। লাল হতে পারে 0, নীল 1 এবং সবুজ 2 হতে পারে।
আপনি যদি বেসিক গণিত জানেন তবে আপনি জানেন যে 0,1,2 এবং 5.1,5.01,5.011 পৃথক এবং যথাক্রমে পৃথক এবং অবিচ্ছিন্ন সংখ্যা বলে। পৃথক সংখ্যার শ্রেণিবিন্যাসকে লজিস্টিক রিগ্রেশন এবং অবিচ্ছিন্ন সংখ্যার শ্রেণিবিন্যাসকে বলা হয় রিগ্রেশন। লজিস্টিক রিগ্রেশনকে শ্রেণিবদ্ধ শ্রেণিবদ্ধকরণ হিসাবেও পরিচিত, সুতরাং আপনি এই শব্দটি অন্য কোথাও পড়লে বিভ্রান্ত হবেন না
এটি মেশিন লার্নিংয়ের একটি খুব প্রাথমিক ভূমিকা ছিল। আমি আমার পরবর্তী পোস্টে পরিসংখ্যান পক্ষের মধ্যে বাস করব। আমার কোনও সংশোধন প্রয়োজন হলে আমাকে জানান
দ্বিতীয় অংশ এখানে পোস্ট ।
এর নিয়োগ হয় পূর্বনির্ধারিত ক্লাস করতে নতুন পর্যবেক্ষণ উপর ভিত্তি করে শেখার উদাহরণ থেকে।
এটি মেশিন লার্নিংয়ের অন্যতম গুরুত্বপূর্ণ কাজ।
জনপ্রিয়তাকে "অপ্রচারিত শ্রেণিবিন্যাস" হিসাবে বরখাস্ত করার সময় এটি একেবারেই আলাদা।
অনেক মেশিন শিখর আপনাকে কী শিখিয়ে দেবে তার বিপরীতে, এটি বস্তুগুলিতে "ক্লাস" নির্ধারণের বিষয়ে নয়, তাদের পূর্বনির্ধারিত ছাড়াই। এটি এমন লোকদের মধ্যে খুব সীমিত দৃষ্টিভঙ্গি যারা খুব বেশি শ্রেণিবিন্যাস করেছেন; যদি আপনার হাতুড়ি (শ্রেণিবদ্ধ) থাকে তবে এর একটি সাধারণ উদাহরণ আপনার কাছে পেরেকের মতো (শ্রেণিবিন্যাসের সমস্যা) দেখাচ্ছে । তবে এটি কারণেই কেন শ্রেণিবদ্ধকরণের লোকেরা ক্লাস্টারিংয়ের ঝাঁকুনি পায় না।
পরিবর্তে, এটি কাঠামো আবিষ্কার হিসাবে বিবেচনা করুন । ক্লাস্টারিংয়ের কাজটি হ'ল আপনার ডেটাতে কাঠামো (যেমন গোষ্ঠীগুলি) সন্ধান করা যা আপনি আগে জানতেন না । ক্লাস্টারিং সফল হয়েছে যদি আপনি নতুন কিছু শিখেছি। এটি ব্যর্থ হয়েছে, যদি আপনি কেবল এমন কাঠামোটি পেয়ে থাকেন যা আপনি ইতিমধ্যে জানতেন।
ক্লাস্টার বিশ্লেষণ ডেটা মাইনিংয়ের একটি মূল কাজ (এবং মেশিন-লার্নিংয়ে কুরুচিপূর্ণ হাঁসফোঁস, সুতরাং ক্লাস্টারিংকে বরখাস্ত করে মেশিন শিখারীদের কথা শুনবেন না)।
এটি সাহিত্যের উপরে এবং নীচে পুনরাবৃত্তি করা হয়েছে, তবে নিরীক্ষণশিক্ষাটি হল l llsh t। এটির অস্তিত্ব নেই, তবে এটি "সামরিক বুদ্ধিমত্তা" এর মতো একটি অক্সিমারন।
হয় অ্যালগরিদম উদাহরণগুলি থেকে শিখেছে (তারপরে এটি "তদারকি করা"), বা এটি শিখেনি। যদি সমস্ত ক্লাস্টারিং পদ্ধতিগুলি "শেখা" হয় তবে কোনও ডেটা সেটের সর্বনিম্ন, সর্বাধিক এবং গড় গণনা করাও "আনসারভিজড লার্নিং"। তারপরে যে কোনও গণনা তার ফলাফল "শিখেছে"। সুতরাং 'অপ্রচলিত শিক্ষণ' শব্দটি সম্পূর্ণ অর্থহীন , এর অর্থ সমস্ত কিছুই এবং কিছুই নয়।
কিছু "অব্যবহৃত লার্নিং" অ্যালগরিদমগুলি অবশ্য অপ্টিমাইজেশন বিভাগে পড়ে । উদাহরণস্বরূপ কে-মানে হল একটি সর্বনিম্ন-স্কোয়ার অপ্টিমাইজেশন। এই জাতীয় পদ্ধতিগুলি পরিসংখ্যানের বাইরে, সুতরাং আমি মনে করি না যে আমাদের তাদের "অপ্রচলিত শিক্ষণ" লেবেল লাগানো দরকার, তবে পরিবর্তে তাদের "অপটিমাইজেশন সমস্যা" বলা উচিত should এটি আরও সুনির্দিষ্ট এবং আরও অর্থবহ। প্রচুর পরিমাণে ক্লাস্টারিং অ্যালগরিদম রয়েছে যা অপ্টিমাইজেশানের সাথে জড়িত নয় এবং যারা মেশিন-লার্নিংয়ের উদাহরণগুলিতে ভালভাবে ফিট করে না। সুতরাং তাদের সেখানে ছাতার নীচে চেপে রাখা বন্ধ করুন "অকার্যকর শিক্ষা"।
গুচ্ছকরণের সাথে কিছু "লার্নিং" যুক্ত রয়েছে তবে এটি প্রোগ্রামটি শিখেনি। এটি ব্যবহারকারী যে তার ডেটা সেট সম্পর্কে নতুন জিনিস শিখতে হবে বলে মনে করা হয়।
ক্লাস্টারিংয়ের মাধ্যমে আপনি নিজের পছন্দসই বৈশিষ্ট্য যেমন সংখ্যা, আকৃতি এবং নিষ্কাশিত ক্লাস্টারের অন্যান্য বৈশিষ্ট্যগুলির সাথে ডেটা গ্রুপ করতে পারেন। শ্রেণিবিন্যাসের সময়, সংখ্যা এবং গোষ্ঠীর আকার নির্দিষ্ট করা হয়। বেশিরভাগ ক্লাস্টারিং অ্যালগরিদমগুলি প্যারামিটার হিসাবে ক্লাস্টারের সংখ্যা দেয়। যাইহোক, ক্লাস্টারের উপযুক্ত সংখ্যা বের করার জন্য কয়েকটি পন্থা রয়েছে।
প্রথমত, এখানে অনেকগুলি জবাবের মতো এখানে রয়েছে: শ্রেণিবদ্ধকরণটি তদারকি করা তত্ত্বাবধান করা হয় এবং ক্লাস্টারিংটি নিরীক্ষণ করা হয়। এর অর্থ:
শ্রেণিবদ্ধার জন্য লেবেলযুক্ত ডেটা দরকার যাতে শ্রেণিবদ্ধকারীদের এই ডেটাতে প্রশিক্ষণ দেওয়া যায় এবং তার পরে তিনি কী জানেন তার উপর ভিত্তি করে নতুন অদেখা ডেটা শ্রেণিবদ্ধ করা শুরু করে। ক্লাস্টারিংয়ের মতো আনসপরিভিজড লার্নিং লেবেলযুক্ত ডেটা ব্যবহার করে না এবং এটি আসলে যা করে তা হ'ল গ্রুপগুলির মতো ডেটাতে অন্তর্নির্মিত কাঠামো আবিষ্কার করা।
উভয় কৌশলগুলির মধ্যে আরেকটি পার্থক্য (পূর্ববর্তীটির সাথে সম্পর্কিত), শ্রেণিবিন্যাস হ'ল বিযুক্ত রিগ্রেশন সমস্যার একটি রূপ যেখানে আউটপুটটি একটি শ্রেণীবদ্ধ নির্ভরশীল পরিবর্তনশীল। যেখানে ক্লাস্টারিংয়ের আউটপুট গ্রুপ হিসাবে পরিচিত উপগ্রহের একটি সেট দেয়। এই দুটি মডেলকে মূল্যায়নের উপায় একই কারণে পৃথক: শ্রেণিবদ্ধকরণে আপনাকে প্রায়শই যথার্থতা এবং পুনর্বিবেচনা পরীক্ষা করাতে হবে, ওভারফিটিং এবং আন্ডারফিটিং ইত্যাদির মতো জিনিসগুলি Those জিনিসগুলি আপনাকে বলবে যে মডেলটি কতটা ভাল। তবে ক্লাস্টারিংয়ে সাধারণত আপনি যা খুঁজে পান তা ব্যাখ্যা করার জন্য আপনার দৃষ্টি এবং বিশেষজ্ঞের প্রয়োজন হয় কারণ আপনি জানেন না যে আপনার কী ধরণের কাঠামো রয়েছে (গ্রুপ বা গুচ্ছের ধরণ)। এ কারণেই ক্লাস্টারিং অনুসন্ধানী বিশ্লেষণের সাথে সম্পর্কিত।
পরিশেষে, আমি বলব যে অ্যাপ্লিকেশনগুলি উভয়ের মধ্যে প্রধান পার্থক্য। শব্দটি যেমন বলে, শ্রেণিবিন্যাস কোনও শ্রেণি বা অন্য শ্রেণীর সাথে সম্পর্কিত বৈষম্যমূলক উদাহরণ হিসাবে ব্যবহৃত হয়, উদাহরণস্বরূপ পুরুষ বা মহিলা, বিড়াল বা কুকুর ইত্যাদি, ক্লাস্টারিং প্রায়শই চিকিত্সা অসুস্থতা নির্ণয়, নিদর্শনগুলির আবিষ্কার, প্রভৃতি
শ্রেণিবিন্যাস : পৃথক পৃথক আউটপুট => মানচিত্র ইনপুট ভেরিয়েবলকে পৃথক বিভাগে ফলাফলের পূর্বাভাস
জনপ্রিয় ব্যবহারের কেস:
ইমেল শ্রেণিবদ্ধকরণ: স্প্যাম বা অ-স্প্যাম
গ্রাহককে loanণ অনুমোদন: হ্যাঁ যদি তিনি অনুমোদিত loanণের পরিমাণের জন্য ইএমআই দিতে সক্ষম হন। না পারলে না
ক্যান্সারের টিউমার কোষগুলির সনাক্তকরণ: এটি কি সমালোচনামূলক বা অ-সমালোচিত?
টুইটগুলির অনুভূতি বিশ্লেষণ: টুইটটি ইতিবাচক বা নেতিবাচক বা নিরপেক্ষ
খবরের শ্রেণিবিন্যাস: রাজনীতি, খেলাধুলা, স্বাস্থ্য ইত্যাদি - পূর্বনির্ধারিত শ্রেণীর একটিতে সংবাদটি শ্রেণিবদ্ধ করুন
ক্লাস্টারিং : বস্তুর একটি সেটকে এমনভাবে গোষ্ঠীকরণের কাজ যা একই গ্রুপের অবজেক্টগুলি (একটি ক্লাস্টার নামে পরিচিত) অন্যান্য গোষ্ঠীর (গুচ্ছ) এর চেয়ে একে অপরের সাথে বেশি মিল (কিছুটা বোঝায়) are
জনপ্রিয় ব্যবহারের কেস:
বিপণন: বিপণনের উদ্দেশ্যে গ্রাহক বিভাগগুলি আবিষ্কার করুন
জীববিজ্ঞান: বিভিন্ন প্রজাতির উদ্ভিদ এবং প্রাণীর মধ্যে শ্রেণিবিন্যাস
গ্রন্থাগারসমূহ: বিষয় এবং তথ্যের ভিত্তিতে বিভিন্ন বইয়ের ক্লাস্টারিং
বীমা: গ্রাহকদের স্বীকৃতি দিন, তাদের নীতিমালা এবং জালিয়াতি সনাক্ত করুন
নগর পরিকল্পনা: ঘরগুলি তৈরি করুন এবং তাদের ভৌগলিক অবস্থান এবং অন্যান্য বিষয়গুলির ভিত্তিতে তাদের মানগুলি অধ্যয়ন করুন।
ভূমিকম্প অধ্যয়ন: বিপজ্জনক অঞ্চল চিহ্নিত করুন
তথ্যসূত্র:
শ্রেণিবদ্ধকরণ - শ্রেণিবদ্ধ শ্রেণিবদ্ধ লেবেলগুলির পূর্বাভাস - শ্রেণীর লেবেল বৈশিষ্ট্যের উপর একটি প্রশিক্ষণ সেট এবং মানগুলি (শ্রেণি লেবেল) এর উপর ভিত্তি করে ডেটা (একটি মডেল তৈরি করে) শ্রেণিবদ্ধ করে - নতুন ডেটা শ্রেণিবদ্ধ করার ক্ষেত্রে মডেলটি ব্যবহার করে
ক্লাস্টার: ডেটা অবজেক্টের সংকলন - একই ক্লাস্টারের মধ্যে একে অপরের সাথে সমান - অন্যান্য ক্লাস্টারের অবজেক্টগুলির থেকে পৃথক
ক্লাস্টারিংয়ের লক্ষ্য ডেটাগুলিতে গোষ্ঠীগুলি অনুসন্ধান করা। "ক্লাস্টার" একটি স্বজ্ঞাত ধারণা এবং এটির গাণিতিকভাবে কঠোর সংজ্ঞা নেই। একটি ক্লাস্টারের সদস্যগুলি একে অপরের সাথে সমান এবং অন্যান্য ক্লাস্টারের সদস্যদের সাথে পৃথক হওয়া উচিত। একটি ক্লাস্টারিং অ্যালগরিদম একটি লেবেলযুক্ত ডেটা সেট জেডে কাজ করে এবং এটিতে একটি পার্টিশন তৈরি করে।
ক্লাস এবং ক্লাস লেবেলগুলির জন্য, শ্রেণিতে একই ধরণের অবজেক্ট থাকে, অন্যদিকে বিভিন্ন শ্রেণীর বস্তুগুলি পৃথক। কিছু শ্রেণীর ক্লিয়ার কাট অর্থ রয়েছে এবং সবচেয়ে সহজ ক্ষেত্রে পারস্পরিক একচেটিয়া। উদাহরণস্বরূপ, স্বাক্ষর যাচাইকরণে, স্বাক্ষরটি হয় আসল বা নকল। সত্যিকারের শ্রেণি দুটির মধ্যে একটি, আমরা নির্দিষ্ট স্বাক্ষরটির পর্যবেক্ষণ থেকে সঠিকভাবে অনুমান করতে সক্ষম না হই তা নির্ধারণ করে।
ক্লাস্টারিং হ'ল বস্তুগুলিকে এমনভাবে গোষ্ঠীকরণের একটি পদ্ধতি যা অনুরূপ বৈশিষ্ট্যযুক্ত বস্তুগুলি একত্রিত হয় এবং ভিন্ন বৈশিষ্ট্যযুক্ত বস্তু পৃথক হয়। এটি মেশিন লার্নিং এবং ডেটা মাইনিংয়ে ব্যবহৃত পরিসংখ্যানগত ডেটা বিশ্লেষণের একটি সাধারণ কৌশল ..
শ্রেণিবিন্যাস শ্রেণিবদ্ধকরণের একটি প্রক্রিয়া যেখানে তথ্যগুলির প্রশিক্ষণের সেটের ভিত্তিতে অবজেক্টগুলি স্বীকৃত, আলাদা এবং বোঝা যায়। শ্রেণিবিন্যাস হল একটি তদারকি করা শেখার কৌশল যেখানে একটি প্রশিক্ষণ সেট এবং সঠিকভাবে সংজ্ঞায়িত পর্যবেক্ষণগুলি উপলব্ধ।
অ্যাকশন বইয়ের বই থেকে এবং আমার কাছে মনে হয় এটি পার্থক্যটি খুব ভালভাবে ব্যাখ্যা করেছে:
শ্রেণিবদ্ধকরণ অ্যালগরিদমগুলি সম্পর্কিত, তবে কে-মানে অ্যালগরিদমের মতো ক্লাস্টারিং অ্যালগরিদমগুলির থেকে এখনও বেশ আলাদা।
শ্রেণিবদ্ধকরণ অ্যালগরিদমগুলি নিরীক্ষণযোগ্য শিক্ষার বিপরীতে তত্ত্বাবধানে শেখার একটি ফর্ম, যা ক্লাস্টারিং অ্যালগরিদমগুলির সাথে ঘটে।
একটি তত্ত্বাবধানে শেখার অ্যালগরিদম হল এমন একটি উদাহরণ যা টার্গেট ভেরিয়েবলের পছন্দসই মান ধারণ করে। অপ্রচলিত অ্যালগরিদমগুলিকে পছন্দসই উত্তর দেওয়া হয় না, তবে এর পরিবর্তে তাদের নিজেরাই প্রশংসনীয় কিছু খুঁজে পেতে হবে।
শ্রেণিবদ্ধকরণের জন্য একটি লাইনার:
প্রাক-সংজ্ঞায়িত বিভাগগুলিতে ডেটা শ্রেণিবদ্ধ করা
ক্লাস্টারিংয়ের জন্য একটি লাইনার:
বিভাগগুলির একটি গোষ্ঠীতে ডেটা গোষ্ঠীকরণ
মূল পার্থক্য:
শ্রেণিবিন্যাস ডেটা গ্রহণ করছে এবং এটিকে প্রাক-সংজ্ঞায়িত বিভাগগুলিতে এবং ক্লাস্টারিং বিভাগে সেট করে যা আপনি ডেটাগুলিতে গ্রুপ করতে চান, তা আগে জানা যায়নি।
উপসংহার:
আমি একই বিষয়ে একটি দীর্ঘ পোস্ট লিখেছি যা আপনি এখানে পেতে পারেন:
ডেটা মাইনিং "তদারকি" এবং "আনসারভিভাইজড" এর দুটি সংজ্ঞা রয়েছে। যখন কেউ কম্পিউটার, অ্যালগরিদম, কোড, ... বলেন যে এই জিনিসটি একটি আপেলের মতো এবং সেই জিনিসটি কমলার মতো, তখন এটি তত্ত্বাবধানে শেখা হয় এবং তত্ত্বাবধানে থাকা শিক্ষাকে (ডেটা সেটে প্রতিটি নমুনার জন্য ট্যাগগুলির মতো) শ্রেণিবদ্ধকরণের জন্য ব্যবহার করা হয় ডেটা, আপনি শ্রেণিবিন্যাস পাবেন। অন্যদিকে যদি আপনি কম্পিউটারটিকে কী কী তা খুঁজে বের করতে দেন এবং প্রদত্ত ডেটা সেটটির বৈশিষ্ট্যগুলির মধ্যে পার্থক্য করতে দেয়, আসলে ডেটা সেটকে শ্রেণিবদ্ধ করার জন্য এটি ক্লাস্টারিং বলে। এই ক্ষেত্রে অ্যালগরিদমকে খাওয়ানো ডেটাতে ট্যাগ নেই এবং অ্যালগরিদমকে বিভিন্ন শ্রেণীর সন্ধান করা উচিত।
মেশিন লার্নিং বা এআই মূলত এটি সম্পাদন / সম্পাদন করে by
আমার মতে, ক্লাসারিং এবং শ্রেণিবিন্যাস সম্পর্কে চিন্তাভাবনা করে তারা যে কার্য সম্পাদন করে তা উভয়ের মধ্যে পার্থক্য বুঝতে সত্যই সহায়তা করতে পারে।
ক্লাস্টারিং হ'ল গ্রুপ জিনিস এবং শ্রেণিবিন্যাস হ'ল এক প্রকারের জিনিস label
আসুন ধরে নেওয়া যাক আপনি এমন একটি পার্টি হলে আছেন যেখানে সমস্ত পুরুষ স্যুট এবং মহিলারা গাউনগুলিতে আছেন।
এখন, আপনি আপনার বন্ধুকে কয়েকটি প্রশ্ন জিজ্ঞাসা করুন:
প্রশ্ন 1: আরে, আপনি আমাকে গ্রুপ গ্রুপ সাহায্য করতে পারেন?
আপনার বন্ধু যে সম্ভাব্য উত্তর দিতে পারে তা হ'ল:
1: তিনি লিঙ্গ, পুরুষ বা মহিলা ভিত্তিক লোকদের গ্রুপ করতে পারেন
2: তিনি লোকদের পোশাকের উপর ভিত্তি করে দলবদ্ধ করতে পারেন, 1 পরা স্যুট অন্য পরা পোশাকগুলি
৩: তিনি লোকেদের চুলের রঙের উপর ভিত্তি করে দলবদ্ধ করতে পারেন
৪: তিনি তাদের বয়সের উপর ভিত্তি করে লোকদের গ্রুপ করতে পারেন ইত্যাদি ইত্যাদি ইত্যাদি etc.
আপনার বন্ধু এই কাজটি সম্পূর্ণ করতে পারে সেগুলি অনেকগুলি।
অবশ্যই আপনি অতিরিক্ত সিদ্ধান্ত সরবরাহের মাধ্যমে তার সিদ্ধান্ত গ্রহণের প্রক্রিয়াটিকে প্রভাবিত করতে পারেন:
লিঙ্গ (বা বয়সের গ্রুপ, বা চুলের রঙ বা পোষাক ইত্যাদি) এর ভিত্তিতে আপনি কি এই লোকগুলিকে গ্রুপ করতে সহায়তা করতে পারেন?
Q2 এর:
কিউ 2 এর আগে আপনার কিছু প্রাক-কাজ করা দরকার।
আপনাকে আপনার বন্ধুকে শিক্ষা দিতে হবে বা জানাতে হবে যাতে সে জ্ঞাত সিদ্ধান্ত নিতে পারে। সুতরাং, আসুন আমরা আপনার বন্ধুকে বলেছিলাম যে:
লম্বা চুলের লোকেরা হলেন মহিলা।
ছোট চুলের লোকেরা মেন Men
Q2 এর। এখন, আপনি লম্বা চুলযুক্ত ব্যক্তির দিকে ইঙ্গিত করে আপনার বন্ধুকে জিজ্ঞাসা করেন - এটি কি একজন পুরুষ বা মহিলা?
আপনি যেই উত্তরটি আশা করতে পারেন তা হ'ল: মহিলা।
অবশ্যই, পার্টিতে লম্বা চুলযুক্ত পুরুষ এবং ছোট চুলের মহিলা থাকতে পারে। তবে, আপনি আপনার বন্ধুকে যে শিক্ষার সরবরাহ করেছেন তার উপর ভিত্তি করে উত্তরটি সঠিক। দু'জনের মধ্যে কীভাবে পার্থক্য করা যায় সে সম্পর্কে আপনার বন্ধুকে আরও শিখিয়ে আপনি প্রক্রিয়াটি আরও উন্নত করতে পারেন।
উপরের উদাহরণে,
কিউ 1 ক্লাস্টারিং যা অর্জন করে তা প্রতিনিধিত্ব করে।
ক্লাস্টারিং-এ আপনি অ্যালগরিদম (আপনার বন্ধু) কে ডেটা (লোক) সরবরাহ করেন এবং এটি ডেটা গ্রুপ করার জন্য বলেন।
এখন, গোষ্ঠীর সেরাতম উপায়টি কী তা নির্ধারণ করার জন্য এটি অ্যালগরিদম পর্যন্ত চলেছে? (লিঙ্গ, রঙ বা বয়সের গ্রুপ)।
আবার, আপনি অতিরিক্ত ইনপুট সরবরাহ করে অবশ্যই অ্যালগরিদমের সিদ্ধান্তকে প্রভাবিত করতে পারেন।
কিউ 2 শ্রেণিবদ্ধকরণটি সম্পাদন করে represents
সেখানে, আপনি আপনার অ্যালগরিদমকে (আপনার বন্ধুকে) কিছু ডেটা (লোক) দেন, যাকে প্রশিক্ষণ ডেটা বলে ডাকা হয় এবং তাকে শিখিয়ে দেন যে কোন ডেটাটি কোন লেবেলের সাথে সামঞ্জস্য করে (পুরুষ বা মহিলা)। তারপরে আপনি আপনার অ্যালগরিদমকে নির্দিষ্ট ডেটার দিকে নির্দেশ করেন, যা টেস্ট ডেটা হিসাবে ডাকা হয় এবং এটি পুরুষ বা মহিলা কিনা তা নির্ধারণ করতে বলে। আপনার শিক্ষাগুলি তত ভাল, ভবিষ্যদ্বাণী তত ভাল।
এবং কিউ 2 বা শ্রেণিবিন্যাসে প্রাক-কাজ কেবল আপনার মডেলকে প্রশিক্ষণ দেওয়া ছাড়া কিছুই নয় যাতে এটি কীভাবে পার্থক্য করতে হয় তা শিখতে পারে। ক্লাস্টারিং বা কিউ 1 এ এই প্রাক-কাজটি গ্রুপিংয়ের অংশ।
আশা করি এটি কাউকে সাহায্য করবে।
ধন্যবাদ
শ্রেণিবদ্ধকরণ - একটি ডেটা-সেটে বিভিন্ন গ্রুপ / শ্রেণি থাকতে পারে। লাল, সবুজ এবং কালো শ্রেণিবদ্ধকরণ তাদের নিয়মগুলিকে বিভিন্ন শ্রেণিতে ভাগ করে নেওয়ার চেষ্টা করবে in
Custering- যদি কোনও ডেটা-সেট কোনও শ্রেণি না করে থাকে এবং আপনি সেগুলি কোনও শ্রেণি / গোষ্ঠীকরণে রাখতে চান, আপনি ক্লাস্টারিং করেন। উপরে রক্তবর্ণ চেনাশোনাগুলি।
শ্রেণিবদ্ধকরণের নিয়মগুলি যদি ভাল না হয় তবে আপনার পরীক্ষায় ভুল-শ্রেণিবদ্ধকরণ হবে বা আপনার বিধিগুলি যথেষ্ট সঠিক নয়।
যদি ক্লাস্টারিং ভাল না হয় তবে আপনার প্রচুর বহিরাগত হবে। ডেটা পয়েন্টগুলি কোনও ক্লাস্টারে পড়তে সক্ষম নয়।
শ্রেণিবদ্ধকরণ এবং ক্লাস্টারিংয়ের মধ্যে মূল পার্থক্যগুলি হ'ল: শ্রেণিবিন্যাস ক্লাস লেবেলের সাহায্যে ডেটা শ্রেণিবিন্যাসের প্রক্রিয়া। অন্যদিকে, ক্লাস্টারিং শ্রেণিবিন্যাসের অনুরূপ তবে কোনও পূর্বনির্ধারিত শ্রেণীর লেবেল নেই। শ্রেণিবিন্যাস তদারকি শিক্ষার সাথে গিয়ার্ড করা হয়। বিপরীতে, ক্লাস্টারিং অযাচিত শিক্ষণ হিসাবেও পরিচিত। ক্লাস্টারিং প্রশিক্ষণের ডেটা সরবরাহ না করা অবস্থায় প্রশিক্ষণের নমুনা শ্রেণিবদ্ধকরণ পদ্ধতিতে সরবরাহ করা হয়।
আশা করি এটি সাহায্য করবে!
আমি বিশ্বাস করি শ্রেণীবদ্ধকরণ পূর্বনির্ধারিত শ্রেণিতে সেট করা ডেটা বা এমনকি যেতে যেতে ক্লাসগুলি সংজ্ঞায়িত করে এমন রেকর্ডগুলিকে শ্রেণিবদ্ধ করে। আমি এটিকে যে কোনও মূল্যবান ডেটা মাইনিংয়ের জন্য পূর্ব-প্রয়োজনীয় হিসাবে দেখি, আমি এটি অপ্রচলিত পড়াশুনায় ভাবতে চাই ie অর্থ উপাত্ত খনন করার সময় সে কী চাইছিল তা জানে না এবং শ্রেণিবিন্যাস একটি ভাল সূচনা পয়েন্ট হিসাবে কাজ করে
অন্য প্রান্তে ক্লাস্টারিং তত্ত্বাবধানে পড়াশোনার অধীনে আসে অর্থাৎ একটি কী প্যারামিটারগুলি সন্ধান করতে হয় তা জানতে পারে, সমালোচনামূলক স্তরের সাথে তাদের মধ্যে সম্পর্ক। আমি বিশ্বাস করি এটির জন্য পরিসংখ্যান এবং গণিতের কিছুটা বোঝার প্রয়োজন