আমরা কখন বলব যে ডেটাসেটটি শ্রেণিবদ্ধ নয়?


11

আমি অনেকবার এমন একটি ডেটাসেট বিশ্লেষণ করেছি যার উপরে আমি সত্যিই কোনও শ্রেণিবদ্ধকরণ করতে পারি নি। আমি শ্রেণিবদ্ধ পেতে পারি কিনা তা দেখার জন্য আমি সাধারণত নিম্নলিখিত পদক্ষেপগুলি ব্যবহার করেছি:

  1. সংখ্যাগত মানের বিপরীতে লেবেলের বাক্স প্লট তৈরি করুন।
  2. ক্লাস পৃথকযোগ্য কিনা তা দেখতে মাত্রিকতা 2 বা 3 এ হ্রাস করুন, কখনও কখনও এলডিএ ব্যবহার করে দেখুন।
  3. এসভিএম এবং র্যান্ডম অরণ্যগুলিকে ফিট করার জন্য দৃ Force়তার সাথে চেষ্টা করুন এবং বৈশিষ্ট্যগুলি গুরুত্ব দেয় কি না তা দেখার জন্য বৈশিষ্ট্য-গুরুত্বটি দেখুন।
  4. ক্লাস ভারসাম্যহীন কোনও সমস্যা হতে পারে কিনা তা পরীক্ষা করার জন্য আন্ডার স্যাম্পলিং এবং ওভার-স্যাম্পলিংয়ের মতো ক্লাস এবং কৌশলগুলির ভারসাম্যকে পরিবর্তন করার চেষ্টা করুন।

আমি ভাবতে পারি এমন আরও অনেকগুলি পন্থা রয়েছে তবে চেষ্টা করে দেখিনি। কখনও কখনও আমি জানি যে এই বৈশিষ্ট্যগুলি ভাল নয় এবং আমরা যে লেবেলের পূর্বাভাস দেওয়ার চেষ্টা করছি তার সাথে সম্পর্কিত নয়। তারপরে আমি অনুশীলনটি শেষ করতে সেই ব্যবসায়ের স্বীকৃতিটি ব্যবহার করি, এই উপসংহারে যে আমাদের আরও ভাল বৈশিষ্ট্য বা সম্পূর্ণ আলাদা লেবেল প্রয়োজন।

আমার প্রশ্নটি কীভাবে কোনও ডেটা সায়েন্টিস্ট রিপোর্ট করে যে এই বৈশিষ্ট্যগুলির সাথে শ্রেণিবদ্ধকরণ করা যায় না। প্রথমে বিভিন্ন অ্যালগরিদমে ডেটা ফিট করে এবং বৈধতা মেট্রিকের দিকে তাকানো কি সেরা বিকল্প?


আমার মনে হচ্ছে যদি এই প্রশ্নের স্পষ্ট এবং উদ্দেশ্যমূলক উত্তর থাকে তবে সমস্ত বৈজ্ঞানিক প্রচেষ্টা অর্থহীন হয়ে যায়। বিজ্ঞান হ'ল শিল্প।
Mephy

হাহা হ্যাঁ সত্য। আমি বিচ্ছিন্নতা খুঁজে পেতে আরও পদ্ধতি জানতে আগ্রহী। ক্লায়েন্টদের কাছে কীভাবে পরিসংখ্যানগতভাবে দেখানো যায় তার মতো আরও কিছু ব্যায়ামের জন্য আরও সময় দেওয়া নিরর্থক হতে পারে।
ভিসি_ডিম

1
আমি শেষ দুটি অনুচ্ছেদ বাদ দেওয়ার পরামর্শ দিচ্ছি, কারণ তারা প্রশ্নটি খুব বেশি / বিস্তৃত করে। প্রথম অংশটি - পেশাগতভাবে কোনও অ-ফলাফলকে কীভাবে পরিচালনা এবং প্রতিবেদন করা যায় - উত্তরদাতা হওয়া উচিত এবং ব্যক্তিগতভাবে আমার কাছে মনে হয় সাইটে আমাদের এই ধরণের ডেটা সায়েন্স পেশাদার শিষ্টাচার প্রশ্নটি আরও বেশি প্রয়োজন।
নিল স্লেটার

নীলকে বোঝায়। এটিকে সম্পাদনা কর্কট হতে হবে।
ভিসি_ডিম

উত্তর:


4

এটি আপনার ডেটা উপর নির্ভর করে। মানব স্তরের ত্রুটি বলে কিছু আছে। ধরুন মুদ্রিত বই পড়ার মতো কাজগুলি, মানুষ পড়তে লড়াই করে না এবং মুদ্রণের খারাপ মানের কারণে যদি ভুল হয় তবে তা নাও হতে পারে। হাতে লেখা পাণ্ডুলিপিগুলি পড়ার মতো ক্ষেত্রে, লেখকের ফন্টটি পাঠকের কাছে স্বতন্ত্র থাকলে সমস্ত শব্দ না বোঝার অনেক কিছুই ঘটতে পারে। প্রথম পরিস্থিতিতে মানব স্তরের ত্রুটি খুব কম এবং শেখার অ্যালগরিদমগুলির একই কর্মক্ষমতা থাকতে পারে তবে দ্বিতীয় উদাহরণটি এই সত্যটি চিত্রিত করে যে কিছু পরিস্থিতিতে মানুষের স্তরের ত্রুটি এত বেশি এবং একটি সাধারণ পদ্ধতিতে (যদি আপনি একই ব্যবহার করেন তবে) মানুষ হিসাবে বৈশিষ্ট্যগুলি) আপনার শেখার অ্যালগরিদমে এত ত্রুটি অনুপাত থাকবে।

পরিসংখ্যানগত শিক্ষায়, এমন কিছু বলা হয় Bayes Error, যখনই ক্লাসগুলির বিতরণ ওভারল্যাপ হয়, ত্রুটির অনুপাত বড়। বৈশিষ্ট্যগুলি পরিবর্তন না করে বর্তমান বন্টনগুলির বেয়েস ত্রুটিই সেরা পারফরম্যান্স এবং মোটেও হ্রাস করা যায় না।

আমি আপনাকে এখানে পড়ার পরামর্শ দিচ্ছি । নিয়োগকৃত বৈশিষ্ট্যগুলির সাথে প্রচুর পরিমাণে বয়েস ত্রুটিযুক্ত সমস্যাগুলি সেই বৈশিষ্ট্যগুলির স্থানের সাথে শ্রেণিবদ্ধ নয় considered অন্য উদাহরণ হিসাবে আপনি ধরে নিতে পারেন আপনি লাইট জ্বালিয়ে গাড়িগুলিকে শ্রেণিবদ্ধ করতে চান। আপনি যদি সকালে এটি করার চেষ্টা করেন, আপনার নিজের মধ্যে প্রচুর ত্রুটি হতে পারে এবং আপনি যদি শিখার অ্যালগরিদম প্রশিক্ষণের জন্য একই চিত্র ব্যবহার করেন তবে সেটিও হতে পারে।

এছাড়াও আমি আপনাকে সুপারিশ করছি আপনার ক্লাসগুলির বিতরণটি পরিবর্তন করবেন না। এই জাতীয় ক্ষেত্রে, সীমানার কাছাকাছি শ্রেণিবদ্ধের ফলাফল সম্পূর্ণ এলোমেলো হবে। আপনার মেশিন লার্নিং অ্যালগরিদম প্রশিক্ষণের জন্য ডেটা বিতরণ পরিবর্তন করা উচিত নয় এবং এটি যেমন আসল অবস্থায় রয়েছে তেমন হওয়া উচিত।


এটি সহায়ক, আমি বেয়েস ত্রুটি সম্পর্কে জানতাম না। ক্লাসের বিতরণ পরিবর্তন করার পরে সঠিকতা বাড়াতে আমার অসুবিধা হয়েছিল। আমি সম্মতি জানাই এটি দুর্দান্ত ধারণা নয়। তবুও আমি মাঝে মাঝে শ্রেণি শ্রেণিবিন্যাস পরিবর্তন করার চেষ্টা করেছি এই আশায় যে বৈশিষ্ট্যটি আরও দানাদার বা বিমূর্ত শ্রেণির প্রতিনিধিত্ব করতে পারে (EG। বানর, কুকুর এবং মমালকে অন্য পরিবর্তন করে)। আমি মনে করি যদি কোনও বয়েস ত্রুটি হয়, শ্রেণিবৃত্তি পরিবর্তন করা খুব বেশি উপকারে আসবে না।
vc_dim

@ সুমিতসিংহচৌহান বাস্তবে যে পরিস্থিতিতে বায়েসের ত্রুটি বড়, ফিচার ইঞ্জিনিয়ারিং করার চেষ্টা করা সবচেয়ে ভাল সমাধান। কারণ গভীর পড়াশোনা যা বৈশিষ্ট্যগুলি নিজেরাই সন্ধান করে, ডেটাসেটটি বড় নয় এমন ক্ষেত্রে ব্যবহার করা যাবে না।
মিডিয়া

5

এক শ্রেণীর একটি নমুনা উপাদান এবং অন্য শ্রেণীর একটি নমুনা উপাদান নিন। এই দুটি উপাদানের পক্ষে ঠিক একই বৈশিষ্ট্য ভেক্টর পাওয়া সম্ভব? যদি তা কখনই ঘটতে পারে তবে আপনার বর্তমান বৈশিষ্ট্য ভেক্টরগুলি ব্যবহার করে (ক্লাসিফিকেশন সিদ্ধান্তটি কোনও নির্দিষ্ট উপাদানের জন্য পুরোপুরি বৈশিষ্ট্য ভেক্টরে ভিত্তি করে) ব্যবহার করে দুটি শ্রেণি সম্পূর্ণরূপে sepeable হয় না।

অন্যদিকে, যদি এক শ্রেণীর প্রতিটি "এলিমেন্টের সাথে অন্য শ্রেণীর সাথে সম্পর্কিত উপাদান থাকে যেমন দুটি উপাদানগুলির বৈশিষ্ট্য ভেক্টর একই থাকে তবে দুটি বর্গ আপনার বর্তমান বৈশিষ্ট্য ভেক্টরগুলি ব্যবহার করে পৃথকীকরণযোগ্য।

তদুপরি, যদি সেই শর্তটি কেবলমাত্র আপনার কিছু উপাদানকে ধরে রাখে এবং অন্যদের জন্য নয়, তবে আপনি কোথাও কোথাও রয়েছেন এবং আপনি আপনার বর্তমান বৈশিষ্ট্য সেটটি ব্যবহার করে কোনও শ্রেণিবদ্ধকারীকে কতটা ভালভাবে আশা করতে পারেন তা পরিমাপের জন্য আপনি এটি ভিত্তি হিসাবে ব্যবহার করতে পারেন।

এই সমস্ত মূল্যায়নের বিভিন্ন ডিগ্রীতে তর্ক করতে ব্যবহার করা যেতে পারে যা আপনাকে আরও বৈশিষ্ট্যগুলি বের করতে হবে।


1
ধন্যবাদ রবার্ট এটি পরিচিত এবং সঠিক বলে মনে হচ্ছে। আমি কিছু প্রকল্পের জন্য একই বিশ্লেষণ করেছি। আমার একই বৈশিষ্ট্য ভেক্টরের সাথে একটি ডেটাসেট ছিল যাতে অন্যভাবে ট্যাগ হয় এবং আমি কতটা সঠিক হতে পারি তার ভিত্তি হিসাবে এটি ব্যবহার করে। কিছু সময় প্লট করা বক্স প্লটটিও সহায়তা করেছিল। এখনও অবধি আমি এই পদ্ধতির সন্ধান পেয়েছি যা আপনি ক্লায়েন্টদের বোঝানোর জন্য সর্বাধিক উল্লেখ করেছেন।
ভিসি_ডিম
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.