নিম্ন শ্রেণিবদ্ধকরণের নির্ভুলতা, এরপরে কী করবেন?

16

সুতরাং, আমি এমএল ক্ষেত্রে একজন নবাগত এবং আমি কিছু শ্রেণিবদ্ধকরণ করার চেষ্টা করি। আমার লক্ষ্য একটি ক্রীড়া ইভেন্টের ফলাফলের পূর্বাভাস দেওয়া। আমি কিছু dataতিহাসিক ডেটা সংগ্রহ করেছি এবং এখন একটি শ্রেণিবদ্ধ প্রশিক্ষণ দেওয়ার চেষ্টা করেছি। আমি প্রায় 1200 টি নমুনা পেয়েছি, এর মধ্যে 0.2 টি আমি পরীক্ষার উদ্দেশ্যে পৃথক করেছিলাম, অন্যদের আমি বিভিন্ন শ্রেণিবদ্ধের সাথে গ্রিড অনুসন্ধানে (ক্রস-বৈধকরণ অন্তর্ভুক্ত) রেখেছি। আমি এই মুহুর্তে রৈখিক, আরবিএফ এবং বহুকর্মীয় কার্নেল এবং এলোমেলো বন দ্বারা এসভিএম চেষ্টা করেছি। দুর্ভাগ্যক্রমে, আমি যথাযথভাবে 0.5 এর চেয়ে বড় (ক্লাসের এলোমেলো পছন্দ হিসাবে একই) পেতে পারি না। এর অর্থ কি আমি এইরকম জটিল ঘটনার ফলাফল নিয়ে ভবিষ্যদ্বাণী করতে পারি না? বা আমি কমপক্ষে 0.7-0.8 নির্ভুলতা পেতে পারি? যদি এটি সম্ভব হয়, তবে আমার আর কিসের দিকে নজর দেওয়া উচিত?

আরও ডেটা পাবেন? (আমি ডেটাসেটটি 5 বার পর্যন্ত বড় করতে পারি)
বিভিন্ন শ্রেণিবদ্ধ চেষ্টা করে দেখুন? (লজিস্টিক রিগ্রেশন, কেএনএন, ইত্যাদি)
আমার বৈশিষ্ট্য সেট পুনর্নির্মাণ? বিশ্লেষণের জন্য কি কোনও এমএল-সরঞ্জাম রয়েছে, কোন বৈশিষ্ট্যগুলি বুদ্ধিমান এবং কোনটি নয়? হতে পারে, আমার ফিচার সেটটি কমিয়ে দেওয়া উচিত (বর্তমানে আমার 12 টি বৈশিষ্ট্য রয়েছে)?

— fspirit
সূত্র

আপনার প্রশিক্ষণের সঠিকতা কি? এবং প্রতিটি ক্লাসে আপনার কতটি নমুনা রয়েছে?

— লিও

1

এটি কোন খেলাধুলা এবং আপনি একটি "সঠিক" শ্রেণিবিন্যাসকে কী বিবেচনা করেন? আপনি যদি কার্যত যে কোনও বড় খেলায় কোনও জয় / পরাজয়ের ফলাফলের পূর্বাভাস দেওয়ার চেষ্টা করছেন তবে এটি প্রায় দুর্গম নয় যে শ্রেণিবদ্ধকারীদের মধ্যে সবচেয়ে সাধারণ এমনকি 0.5-এর চেয়েও ভাল পূর্বাভাস দিতে পারে না। যদি আপনি হন, বলুন, ছড়িয়ে পড়া বা অন্য কোনও প্রতিবন্ধী ফলাফলের বিরুদ্ধে জয় / পরাজয়ের পূর্বাভাস দেওয়ার চেষ্টা করছেন, তবে 0.5 এর চেয়ে অনেক বেশি কঠিন হতে পারে।

— কার্ডিনাল

@ লিও প্রশিক্ষণের যথার্থতা প্রায় 0.5 ক্লাসগুলি সমানভাবে বিতরণ করা হয়, আমার 0 এবং 1 ক্লাস রয়েছে

— fspirit

@ কার্ডিনাল হ্যাঁ, আমি জয় / পরাজয়ের ফলাফল সম্পর্কে ভবিষ্যদ্বাণী করার চেষ্টা করছি, কোনও প্রতিবন্ধকতা নেই। পরীক্ষার সেটটিতে 0.8 যথার্থতা পৌঁছানো কি সম্ভব?

— ফসপিরিট

1

@ স্পিপিরিট: এটি খেলা এবং অংশগ্রহণকারীদের মধ্যে সামর্থ্যের অসামতার উপর নির্ভর করে, একটি জিনিসের জন্য। প্রতিটি প্রতিযোগিতায় কারা অংশ নিচ্ছেন তা কেবল জেনে রাখা প্রায়শই শক্তিশালী ভবিষ্যদ্বাণী হতে পারে। এখানে এবং এখানে সম্পর্কিত পোস্টগুলি বেশ কয়েকটি রয়েছে।

— কার্ডিনাল

17

প্রথমত, যদি আপনার শ্রেণিবদ্ধকারী এলোমেলো পছন্দের চেয়ে ভাল না করে, তবে ঝুঁকি রয়েছে যে বৈশিষ্ট্য এবং শ্রেণীর মধ্যে কেবল কোনও সংযোগ নেই। নিজেকে এমন অবস্থানে জিজ্ঞাসা করার একটি ভাল প্রশ্ন, আবহাওয়াটি কী আপনি বা কোনও ডোমেন বিশেষজ্ঞ প্রদত্ত বৈশিষ্ট্যের উপর ভিত্তি করে ক্লাসটি নির্ধারণ করতে পারেন (এলোমেলো শ্রেণিবদ্ধের চেয়ে যথার্থতার সাথে)। যদি না হয়, তবে আরও ডেটা সারি পাওয়া বা শ্রেণিবদ্ধ পরিবর্তন করা কোনও লাভ করবে না। আপনাকে যা করতে হবে তা হল বিভিন্ন বৈশিষ্ট্য ব্যবহার করে আরও ডেটা।

অন্যদিকে যদি আপনি মনে করেন যে ক্লাসটি নির্ধারণের জন্য প্রয়োজনীয় তথ্যগুলি ইতিমধ্যে লেবেলে রয়েছে, আপনার পরীক্ষা করা উচিত যে আপনার শ্রেণিবদ্ধ কোনও উচ্চ পক্ষপাত বা উচ্চ ভেরিয়েন্স সমস্যায় ভুগছেন কিনা।

এটি করার জন্য, প্রশিক্ষণের উদাহরণগুলির একটি ফাংশন হিসাবে বৈধতা ত্রুটি এবং প্রশিক্ষণ সেট ত্রুটি গ্রাফ করুন।

যদি লাইনগুলি একই মানটিতে রূপান্তরিত হয় বলে মনে হয় এবং শেষের দিকে কাছে থাকে তবে আপনার শ্রেণিবদ্ধের উচ্চ পক্ষপাত রয়েছে এবং আরও ডেটা যুক্ত করা কোনও উপকারে আসবে না। এক্ষেত্রে একটি ভাল ধারণা হ'ল হয় উচ্চতর বৈচিত্র্যযুক্ত একটির জন্য শ্রেণিবদ্ধার পরিবর্তন করা বা আপনার বর্তমানের নিয়মিতকরণের প্যারামিটারটি কমিয়ে দেওয়া।

অন্যদিকে লাইনগুলি যদি একে অপরের থেকে দূরে থাকে এবং আপনার একটি নিম্ন প্রশিক্ষণের সেট ত্রুটি রয়েছে তবে উচ্চ বৈধতা ত্রুটি রয়েছে, তবে আপনার শ্রেণিবদ্ধের উচ্চ বৈচিত্র রয়েছে। এক্ষেত্রে আরও ডেটা পাওয়া খুব সম্ভবত সাহায্য করার সম্ভাবনা রয়েছে। যদি আরও ডেটা পাওয়ার পরেও ভেরিয়েন্সটি খুব বেশি হয়ে যায়, আপনি নিয়মিতকরণের প্যারামিটারটি বাড়িয়ে নিতে পারেন।

আপনার মতো কোনও সমস্যার মুখোমুখি হওয়ার সময় আমি এই সাধারণ নিয়মগুলি ব্যবহার করব।

চিয়ার্স।

— sjm.majewski
সূত্র

আপনি কী বৈধতা সেট ত্রুটি এবং TEST সেট ত্রুটি বোঝাতে চেয়েছিলেন? নইলে আমি বিভ্রান্ত। আমি এমনকি ট্রেন সেট ত্রুটি জানি না, কারণ আমি মডেল চয়ন করতে বৈধতা সেট ত্রুটি ব্যবহার করি এবং সেগুলি পরীক্ষার সেটগুলিতে নির্বাচিত মডেলটি পরীক্ষা করে।

— ফস্পিরিট

না, মানে ট্রেনিং সেট ত্রুটি যেখানে লেখা আছে। প্রশিক্ষণের ত্রুটি হ'ল প্রশিক্ষণের সেট আকারের দ্বারা বিভক্ত ট্রেনিং সেটে বিভক্ত শ্রেণির উদাহরণগুলির সংখ্যা। একইভাবে পরীক্ষার সেট ত্রুটি হ'ল প্রশিক্ষণ সেট আকার দ্বারা বিভক্ত টেস্ট সেটে বিভক্ত শ্রেণির উদাহরণগুলির সংখ্যা। এছাড়াও আপনি কোর্সেরার মেশিন লার্নিং ক্লাস, ( শ্রেণি.কোর্স.আর.এ.এল.এম.এল- ২০১২-০০২ / নির্বাচন / ইন্ডেক্স ) পরীক্ষা করতে চাইতে পারেন , বিশেষত "মেশিন লার্নিং প্রয়োগের পরামর্শ" এর ভিডিওগুলি। এই পরামর্শগুলি আপনার পরিস্থিতির সাথে যথেষ্ট প্রাসঙ্গিক।

— sjm.majewski

আমি প্রথমবারের জন্য দৌড়কালে কোর্সটি অংশ নিয়েছি। প্রশিক্ষণ সেট ত্রুটির হিসাবে, আমি এখন এটিও আউটপুট দেব, এসভিএম এর পক্ষে এটি বেশ উচ্চ - ০.৫, তবে এলোমেলো বনাঞ্চলের জন্য এটি ০.

— ফ্যাসিরিট

5

শ্রেণিবিন্যাসের চেষ্টা করার আগে আমি একটি পদক্ষেপ ফিরে নেওয়ার এবং কিছু অনুসন্ধান ডেটা বিশ্লেষণ করার পরামর্শ দেব। আগ্রহের ফলাফলের সাথে কোনও সম্পর্ক আছে কিনা তা স্বতন্ত্র ভিত্তিতে আপনার বৈশিষ্ট্যগুলি পরীক্ষা করা মূল্যবান - এটি হতে পারে যে আপনার বৈশিষ্ট্যগুলি শ্রেণীর লেবেলের সাথে কোনও সম্পর্কযুক্ত নয়। আপনি কীভাবে জানবেন যে আপনার বৈশিষ্ট্যগুলির কোনও ব্যবহার হবে?

সম্পর্কের জন্য পরীক্ষা করার জন্য আপনি হাইপোথিসিস টেস্টিং বা পারস্পরিক সম্পর্ক বিশ্লেষণ করেই শুরু করতে পারেন। বৈশিষ্ট্যগুলির জন্য শ্রেণি নির্দিষ্ট হিস্টোগ্রাম উত্পন্ন করা (যেমন প্রতিটি অক্ষরের জন্য কোনও নির্দিষ্ট বৈশিষ্ট্যের জন্য প্রতিটি শ্রেণীর জন্য ডেটা হিস্টোগ্রামের প্লট করা )ও যদি কোনও বৈশিষ্ট্য দুটি শ্রেণীর মধ্যে ভালভাবে বৈষম্য দেখায় তবে এটি দেখানোর একটি ভাল উপায় হতে পারে।

আপনার গবেষণামূলক বিশ্লেষণের ফলাফলগুলি শ্রেণিবিন্যাসের জন্য আপনার পছন্দগুলিকে প্রভাবিত করতে না দিলেও এটি মনে রাখা গুরুত্বপূর্ণ। একই ডেটাতে পূর্বের অনুসন্ধানের বিশ্লেষণের ভিত্তিতে শ্রেণিবদ্ধকরণের জন্য বৈশিষ্ট্যগুলি নির্বাচন করা, অত্যধিক মানসিকতা এবং পক্ষপাতদুষ্ট পারফরম্যান্সের অনুমানের দিকে নিয়ে যেতে পারে ( এখানে আলোচনা দেখুন ) তবে একটি অনুসন্ধানী বিশ্লেষণ আপনাকে কমপক্ষে যে কাজটি করার চেষ্টা করছেন সেটি এমনকি কিনা সে সম্পর্কে একটি ধারণা দেবে সম্ভব.

— BGreene
সূত্র

আমি হিস্টোগ্রামগুলি আঁকতে চেষ্টা করব এবং সেগুলি দেখতে কেমন হবে তা দেখুন।

— এফস্পিরিট

@ গ্রিগেন - আপনার তৃতীয় অনুচ্ছেদটি আমার পক্ষে শক্ত। যদি অনুসন্ধানের বিশ্লেষণটি ফলাফলের সাথে প্রডাক্টর এক্স 1-কে অত্যন্ত সংযুক্ত করে দেখায়, যদি কোনও x1 কমপক্ষে একজন মাল্টিভিয়ারেট মডেলটিতে প্রার্থী ভবিষ্যদ্বাণী হিসাবে ব্যবহার না করে তবে এই সম্পর্কটিকে যাচাই করার উদ্দেশ্যটিকে কী পরাভূত করবে না?

— rolando2

@ রোল্যান্ডো 2 - আমি প্রস্তাব দিচ্ছি না যে আপনি কোনও বৈশিষ্ট্য বাছাইয়ের রুটিনের অংশ হিসাবে প্রার্থীকে বৈশিষ্ট্যটি অন্তর্ভুক্ত করবেন না তবে আপনার যেমন অনুসন্ধানী বিশ্লেষণের ভিত্তিতে বৈশিষ্ট্যগুলি বেছে নেওয়া উচিত না কারণ এটি উপকারী হবে। তবে শ্রেণিবদ্ধ মডেলটির সাধারণ সম্পাদিত পারফরম্যান্সের মূল্যায়নের উদ্দেশ্যে, বৈশিষ্ট্য নির্বাচনটি মডেল নির্বাচনের রুটিনের মধ্যে করা উচিত (অর্থাত ক্রস বৈধকরণের প্রতিটি ভাঁজের মধ্যে)। আমি যা পরামর্শ দিচ্ছি তা হল অনুসন্ধানী বিশ্লেষণ এবং শ্রেণিবিন্যাসকে পৃথক ক্রিয়াকলাপ হিসাবে বিবেচনা করা উচিত - প্রত্যেকে আপনাকে আপনার ডেটা সম্পর্কে বিভিন্ন জিনিস বলে

— বিগ্রেন

3

এটা ভাল যে আপনি আপনার ডেটা প্রশিক্ষণের ডেটা এবং পরীক্ষার ডেটাতে আলাদা করেছেন।

আপনি প্রশিক্ষণ দেওয়ার সময় কি আপনার প্রশিক্ষণের ত্রুটিটি হ্রাস পেয়েছে? যদি তা না হয় তবে আপনার প্রশিক্ষণ অ্যালগরিদমে আপনার একটি বাগ থাকতে পারে। আপনি আশা করছেন যে আপনার পরীক্ষার সেটটিতে ত্রুটিটি আপনার প্রশিক্ষণ সেটের ত্রুটির চেয়ে বেশি হবে, সুতরাং আপনার প্রশিক্ষণ সংস্থায় যদি আপনার অগ্রহণযোগ্যভাবে উচ্চ ত্রুটি থাকে তবে সাফল্যের খুব কম আশা থাকে।

বৈশিষ্ট্যগুলি থেকে মুক্তি পাওয়া কিছু ধরণের ওভারফিটিং এড়াতে পারে। তবে এটি আপনার প্রশিক্ষণ সেটে ত্রুটিটি উন্নত করা উচিত নয়। আপনার প্রশিক্ষণ সেটে একটি নিম্ন ত্রুটি এবং আপনার পরীক্ষার সেটগুলিতে একটি উচ্চ ত্রুটি এমন একটি ইঙ্গিত হতে পারে যা আপনি অত্যধিক নমনীয় বৈশিষ্ট্য সেটটি ব্যবহার করে বেশি পরিশ্রম করেন। তবে আপনার পরীক্ষার সেটের চেয়ে ক্রস-বৈধতার মাধ্যমে এটি পরীক্ষা করা নিরাপদ। একবার আপনি আপনার পরীক্ষার সেটের উপর ভিত্তি করে আপনার বৈশিষ্ট্য সেটটি নির্বাচন করেন, এটি আর পরীক্ষার সেট হিসাবে বৈধ নয়।

— ডগলাস জারে
সূত্র

আমি পৃথক ট্রেন, বৈধতা এবং পরীক্ষার সেট ব্যবহার করি। আমি বৈধতা সেট ত্রুটির উপর ভিত্তি করে হাইপার-প্যারামগুলি নির্বাচন করি এবং তারপরে পরীক্ষার সেটটিতে নির্বাচিত মডেলটি প্রয়োগ করি। আমি সন্দেহ করি প্রশিক্ষণের অ্যালগরিদমটিতে একটি ত্রুটি রয়েছে, কারণ আমি অফ-শেল্ফ লাইব ব্যবহার করি।

— ফস্পিরিট

50 %

$50\%$

"বৈশিষ্ট্যগুলি হ'ল ভয়ঙ্কর" সম্ভাবনায়, আমি কেসটি অন্তর্ভুক্ত করেছি যে কোনও সমাধান সম্ভব নয়। যাইহোক, আমি যে খুব সন্দেহ। আমি জানি এমন কোন খেলাধুলা নেই যেখানে এমন কোনও উপায় নেই যে দেখার জন্য কোনও প্রতিযোগী অন্যর চেয়ে প্রিয়। এটি রক-পেপার-কাঁচিগুলিতেও সম্ভব।

— ডগলাস জারে

1

"প্রথমে ডেটার প্লটগুলি দেখুন" নীতিটি অনুসরণ করবেন না কেন। একটি জিনিস আপনি যা করতে পারেন তা হ'ল দুটি কোভেরিয়েটের জন্য দুটি শ্রেণির শর্তসাপেক্ষ ঘনত্বের 2 ডি স্ক্যাটারপ্ল্লট। আপনি যদি এগুলি দেখেন এবং ব্যবহারিকভাবে কোনও পৃথকীকরণ দেখতে পান যা পূর্বাভাসের অভাবকে নির্দেশ করতে পারে এবং আপনি সমস্ত সমবায়ীদের সাথে এটি করতে পারেন। এটি আপনাকে পূর্বাভাস দেওয়ার জন্য এই covariates ব্যবহার করার ক্ষমতা সম্পর্কে কিছু ধারণা দেয়। আপনি যদি কিছু আশা দেখেন যে এই পরিবর্তনগুলি কিছুটা আলাদা করতে পারে তবে লিনিয়ার বৈষম্য, চতুর্ভুজ বৈষম্য, কর্নেল বৈষম্য, নিয়মিতকরণ, গাছের শ্রেণিবিন্যাস, এসভিএম ইত্যাদি সম্পর্কে চিন্তাভাবনা শুরু করুন

— মাইকেল আর চেরনিক
সূত্র

দুঃখিত, উম, কি covariate == বৈশিষ্ট্য আছে?

— এফস্পিরিট