ডেটা মাইনিংয়ের ক্ষেত্রে সমিতির নিয়ম এবং সিদ্ধান্তের গাছের মধ্যে ব্যবহারিক পার্থক্য কী?


19

এই দুটি কৌশলগুলির মধ্যে ব্যবহারিক পার্থক্যের কি খুব সাধারণ বর্ণনা আছে?

  • উভয়ই তত্ত্বাবধানে শিক্ষার জন্য ব্যবহৃত হয়েছে বলে মনে হয় (যদিও সমিতির নিয়মগুলিও নিরীক্ষণ ব্যবস্থা পরিচালনা করতে পারে)।

  • উভয় ভবিষ্যদ্বাণী জন্য ব্যবহার করা যেতে পারে

'ভাল' বর্ণনার সবচেয়ে কাছের আমি স্ট্যাটসফট পাঠ্যপুস্তক থেকে পেয়েছি । তারা বলে যে অ্যাসোসিয়েশন বিধিগুলি ব্যবহার করা হয়:

... বড় ডেটা সেটগুলিতে শ্রেণিবদ্ধ ভেরিয়েবলের নির্দিষ্ট মানগুলির মধ্যে সম্পর্ক বা সমিতি সনাক্ত করুন।

যদিও সিদ্ধান্তের শ্রেণিবদ্ধকারীদের অভ্যস্ত হিসাবে বর্ণনা করা হয়:

... এক বা একাধিক প্রেডিকটার ভেরিয়েবলের পরিমাপ থেকে শ্রেণিবদ্ধ নির্ভরশীল ভেরিয়েবলের ক্লাসে কেস বা অবজেক্টের সদস্যতার পূর্বাভাস দিন।

যাইহোক, আর ডেটা মাইনিংয়ের শেষে, তারা লক্ষ্য ক্ষেত্রের সাথে অ্যাসোসিয়েশন বিধিগুলি ব্যবহারের একটি উদাহরণ দেয়

সুতরাং উভয়ই গোষ্ঠী সদস্যতার পূর্বাভাস দেওয়ার জন্য ব্যবহার করা যেতে পারে, সিদ্ধান্তের গাছগুলি অ-শ্রেণীবদ্ধ ইনপুট ডেটা পরিচালনা করতে পারে এমন মূল পার্থক্য কি অ্যাসোসিয়েশন নিয়মগুলি পারে না? বা আরও কিছু মৌলিক আছে? একটি সাইট ( sqlserverdatamining.com ) বলে যে মূল পার্থক্যটি হ'ল:

অ্যাসোসিয়েশন বিধি জনপ্রিয়তা এবং / বা আত্মবিশ্বাসের ভিত্তিতে সিদ্ধান্তের নিয়মগুলি তথ্য অর্জনের ভিত্তিতে হয়।

সুতরাং (সম্ভবত আমার নিজের প্রশ্নের উত্তর দেওয়া) এর অর্থ কি এই যে অ্যাসোসিয়েশন বিধিগুলি ডেটাসেটে কতবার প্রদর্শিত হয় (এবং কতক্ষণ তারা 'সত্য' হয়) ঠিক তারপরেই মূল্যায়ন করা হয়, যখন সিদ্ধান্তের গাছগুলি বাস্তবে ভিন্নতা হ্রাস করার চেষ্টা করে?

যদি কেউ কোনও ভাল বিবরণ সম্পর্কে জানেন তবে তারা আমাকে নির্দেশ করতে ইচ্ছুক হলে তা দুর্দান্ত হবে।

উত্তর:


14

মূলত, সিদ্ধান্ত গাছগুলি একটি খাঁটি শ্রেণিবিন্যাস কৌশল । এই কৌশলগুলির লক্ষ্য তাদের বৈশিষ্ট্যগুলি ব্যবহার করে অজানা শ্রেণির রেকর্ড লেবেল করা। তারা মূলত (টার্গেট ভেরিয়েবল), শ্রেণিবিন্যাসের অবজেক্টে শ্রেণিবদ্ধ বৈশিষ্ট্য (টার্গেট ভেরিয়েবল) রেকর্ড বৈশিষ্ট্যগুলির সেট map (বৈশিষ্ট্য, ভেরিয়েবল) এর তৈরি করে। প্রশিক্ষণ সেট হিসাবে সংজ্ঞায়িত লেবেলযুক্ত রেকর্ডগুলির একটি সেট ব্যবহার করে এবং মধ্যে সম্পর্ক শিখেছে। শ্রেণিবদ্ধকরণ মডেলগুলির চূড়ান্ত উদ্দেশ্য হ'ল লেবেলবিহীন রেকর্ডগুলিতে ভুল-শ্রেণিবদ্ধকরণ ত্রুটি হ্রাস করা, যেখানে মডেল দ্বারা পূর্বাভাস করা ক্লাসটি আসল চিত্রের চেয়ে পৃথক। বৈশিষ্ট্যগুলি শ্রেণিবদ্ধ বা অবিচ্ছিন্ন হতে পারে। সি এফ সি এফএফ=এফ1,...,এফমিসিএফসিএফ

অ্যাসোসিয়েশন বিশ্লেষণ প্রথম অ্যাপ্লিকেশনগুলি বাজারের ঝুড়ি বিশ্লেষণ সম্পর্কে ছিল, এই অ্যাপ্লিকেশনটিতে আপনি কোনও লক্ষ্যতে কোনও বিশেষ মনোযোগ না দিয়ে আইটেমগুলির মধ্যে সংযোগ খুঁজে পেতে আগ্রহী। সাধারণত ব্যবহৃত ডেটাসেটগুলি লেনদেনের বিষয়গুলি: লেনদেনের সংগ্রহগুলির মধ্যে প্রতিটি আইটেমের সেট থাকে of উদাহরণস্বরূপ: আপনি rules as এর মতো নিয়ম সন্ধান করতে আগ্রহী

টি1={আমি1,আমি2}টি2={আমি1,আমি3,আমি4,আমি5}টি3={আমি2,আমি3,আমি4,আমি5}টিএন={আমি2,আমি3,আমি4,আমি5}
{আমি3,আমি5}{আমি4}

দেখা যাচ্ছে যে আপনি কিছু নির্দিষ্ট শ্রেণিবদ্ধকরণ কার্যগুলির জন্য অ্যাসোসিয়েশন বিশ্লেষণ ব্যবহার করতে পারেন, উদাহরণস্বরূপ যখন আপনার সমস্ত বৈশিষ্ট্যগুলি শ্রেণিবদ্ধ হয়। আপনার কেবল আইটেমগুলিকে বৈশিষ্ট্য হিসাবে দেখতে হবে, তবে এটিই নয় যা সমিতির বিশ্লেষণের জন্য জন্ম নিয়েছিল।


3
  • "অ্যাসোসিয়েশন বিধিগুলি রেকর্ডের ওভারল্যাপিং উপগ্রহগুলিকে জড়িত প্রদত্ত প্রান্তিকের উপরে সমস্ত বিধিগুলি সন্ধানের লক্ষ্য রাখে, অন্যদিকে সিদ্ধান্তের গাছগুলি এমন জায়গাগুলি খুঁজে পায় যেখানে বেশিরভাগ রেকর্ড একই শ্রেণীর অন্তর্গত। অন্যদিকে, সিদ্ধান্তের গাছগুলি সমিতির বিধি দ্বারা প্রাপ্ত বহু ভবিষ্যদ্বাণীমূলক নিয়মকে মিস করতে পারে কারণ তারা ধারাবাহিকভাবে ছোট ছোট উপসাগরগুলিতে বিভক্ত হয়ে যায় association

  • "অ্যাসোসিয়েশনের নিয়মগুলি অ্যালগরিদমগুলি ধীরে ধীরে হতে পারে, সাহিত্যে প্রস্তাবিত অনেকগুলি অপ্টিমাইজেশন থাকা সত্ত্বেও তারা একত্রিত স্থানে কাজ করে, অন্যদিকে সিদ্ধান্তের গাছগুলি তুলনামূলকভাবে আরও দ্রুত হতে পারে কারণ প্রতিটি বিভাজন ধারাবাহিকভাবে ছোট ছোট উপগ্রহগুলি প্রাপ্ত করে।"

  • আরেকটি সমস্যা হ'ল সিদ্ধান্ত গাছগুলি একই নিয়মের জন্য একই বৈশিষ্ট্যকে একাধিকবার পুনরাবৃত্তি করতে পারে কারণ এই জাতীয় গুণাবলী একটি ভাল বৈষম্যমূলক। এটি কোনও বড় বিষয় নয় যেহেতু বিধিগুলি সংমিশ্রণ এবং সুতরাং বিধিটি বৈশিষ্ট্যের জন্য একটি ব্যবধানে সরল করা যেতে পারে, তবে এই ধরনের ব্যবধানটি সাধারণত ছোট হবে এবং নিয়মটিও খুব নির্দিষ্ট। "

এর থেকে অংশগুলি:

অর্ডোনজ, সি।, এবং ঝাও, কে। (2011)। একাধিক টার্গেট গুণাবলী পূর্বাভাস দেওয়ার জন্য অ্যাসোসিয়েশন বিধি এবং সিদ্ধান্ত গাছগুলি মূল্যায়ন। বুদ্ধিমান ডেটা বিশ্লেষণ, 15 (2), 173–192।

এই বিষয়টি কভার করার একটি দুর্দান্ত নিবন্ধ, অবশ্যই পড়া দরকার।


2

আমরা যুক্তি দিতে পারি যে অ্যাসোসিয়েশন বিধি এবং সিদ্ধান্ত গাছ উভয়ই ব্যবহারকারীর জন্য নিয়মের একটি সেট প্রস্তাব করে এবং তাই উভয়ই একই রকম, তবে আমাদের অবশ্যই সিদ্ধান্ত গাছ এবং সমিতির বিধিগুলির মধ্যে তাত্ত্বিক পার্থক্য বুঝতে হবে এবং আরও কীভাবে উভয়ের দ্বারা প্রস্তাবিত বিধিগুলি অর্থের দিক থেকে আলাদা বা বা ব্যাবহৃত হচ্ছে.

প্রথমত, সিদ্ধান্ত গাছ একটি তত্ত্বাবধানের পদ্ধতি যেখানে অ্যালগরিদম একটি "ফলাফল" ভবিষ্যদ্বাণী করার চেষ্টা করে। বাস্তব জীবনের পরিস্থিতিতে "পরিণাম" এর একটি সাধারণ উদাহরণ হতে পারে, যেমন মন্থ, জালিয়াতি, কোনও প্রচারের প্রতিক্রিয়া ইত্যাদি So সুতরাং সিদ্ধান্তের নিয়মগুলি কোনও ফলাফলের পূর্বাভাস দেওয়ার জন্য ব্যবহৃত হয়।

অ্যাসোসিয়েশন রুল লার্নিং হ'ল একটি নিরক্ষিত পদ্ধতি যেখানে অ্যালগরিদম প্রায়শই বড় বাণিজ্যিক ডাটাবেসের মধ্যে আইটেমগুলির মধ্যে সমিতি খুঁজে পাওয়ার চেষ্টা করে। একটি বড় বাণিজ্যিক ডাটাবেসের একটি সাধারণ উদাহরণ হ'ল কোনও ই-বাণিজ্য ওয়েবসাইটে গ্রাহক ক্রয়ের ইতিহাসের মতো খুচরা বিক্রেতাদের লেনদেন থাকে। আইটেমগুলি স্টোর থেকে ক্রয় করা পণ্য বা কোনও অনলাইন স্ট্রিমিং প্ল্যাটফর্মে দেখা সিনেমা হতে পারে। কোনও পণ্য ক্রয় কীভাবে অন্য পণ্যের ক্রয়কে প্ররোচিত করে সে সম্পর্কে এসোসিয়েশন রুল লার্নিং।

দ্বিতীয়ত, সিদ্ধান্ত গাছগুলি কিছু অপরিচ্ছন্নতা / অনিশ্চয়তা মেট্রিকের উপর ভিত্তি করে নির্মিত হয়, যেমন তথ্য অর্জন, গিনি সহগ বা এনট্রপি, যেখানে সমিতির বিধিগুলি সমর্থন, আত্মবিশ্বাস এবং উত্তোলনের উপর ভিত্তি করে তৈরি করা হয় on

তৃতীয়ত, সিদ্ধান্ত গাছ একটি "তদারকি" পদ্ধতির হিসাবে এটির যথার্থতা পরিমাপযোগ্য, অন্যদিকে অ্যাসোসিয়েশন রুল লার্নিংটি একটি "অকার্যকর" দৃষ্টিভঙ্গি, এবং সুতরাং এর যথার্থতা বিষয়বস্তু।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.