কোনও ডেটা সেটে সেরা পারফরম্যান্সের সম্ভাবনা রয়েছে


9

বলুন আমার একটি শ্রেণিবিন্যাসের মতো একটি সাধারণ মেশিন লার্নিং সমস্যা আছে। দৃষ্টি বা অডিও স্বীকৃতিতে কিছু মানদণ্ড সহ আমি একজন মানুষ হিসাবে খুব ভাল শ্রেণিবদ্ধ। ক্লাসিফায়ার কতটা ভাল পেতে পারে সে সম্পর্কে আমার অন্তর্দৃষ্টি আছে।

তবে প্রচুর ডেটা সহ একটি পয়েন্ট হ'ল আমি জানি না যে আমি প্রশিক্ষিত ক্লাসিফায়ারটি কীভাবে পাওয়া সম্ভব। এটি এমন ডেটা যেখানে আমি ব্যক্তিগতভাবে খুব ভাল শ্রেণিবদ্ধী নই (বলুন, ইইজি তথ্য থেকে কোনও ব্যক্তির মেজাজকে শ্রেণিবদ্ধ করুন)। আমার সমস্যাটি কতটা কঠিন তা সম্পর্কে অন্তর্দৃষ্টি পাওয়া সম্ভব নয়।

এখন, যদি আমাকে একটি মেশিন লার্নিংয়ের সমস্যা উপস্থিত করা হয় তবে আমি কতটা ভাল পেতে পারি তা জানতে চাই। এই সম্পর্কে কোন নীতিগত পন্থা আছে? আপনি এই কিভাবে করবেন?

তথ্য দেখুন? সহজ মডেল দিয়ে শুরু করবেন? খুব জটিল মডেলগুলি দিয়ে শুরু করুন এবং দেখুন যে আমি বেশি পরিমাণে ফিট করতে পারি? আপনি যদি এই প্রশ্নের উত্তর দিতে চান তবে আপনি কী খুঁজছেন? আপনি কখন চেষ্টা বন্ধ করবেন?

উত্তর:


6

আমি জানি না যে এটি উত্তর হিসাবে গণনা করা হয়েছে ...

এটিই একটি সমস্যা যা আপনাকে রাতে বাড়িয়ে তোলে। আপনি কি আরও ভাল মডেল তৈরি করতে পারেন? পিএইচডি-কমিকস এটিকে সুন্দরভাবে বর্ননা করে (কমিক্সগুলি আপলোড করার অনুমতি দেওয়া হচ্ছে কিনা তা আমি জানি না, তাই আমি কেবল তাদের লিঙ্ক করেছি)

আমার ব্যক্তিগত অভিজ্ঞতা থেকে, মেশিন লার্নিং প্রতিযোগিতায় অংশ নিয়ে প্রাপ্তি এখানে আঙ্গুলের একটি নিয়ম।

কল্পনা করুন যে আপনি একটি শ্রেণিবিন্যাস টাস্ক দেওয়া হয়েছে। বসুন, এক ঘন্টা বা তার চেয়ে কম সময় ধরে আপনি কীভাবে সমস্যার মুখোমুখি হন এবং এই ক্ষেত্রে শিল্পের অবস্থাটি পরীক্ষা করে দেখুন। এই গবেষণার উপর ভিত্তি করে একটি মডেল তৈরি করুন, প্রায়শই এমন একটি যা খুব বেশি পরামিতি টুইটগুলি ছাড়াই স্থিতিশীল হিসাবে পরিচিত। ফলস্বরূপ পারফরম্যান্স সর্বাধিক অর্জনযোগ্য পারফরম্যান্সের প্রায় 80% হয়ে থাকবে।

এই নিয়ম তথাকথিত পেরেটো নীতি ভিত্তিক, এটি অপটিমাইজেশনের ক্ষেত্রেও প্রযোজ্য। একটি সমস্যা দেওয়া, আপনি একটি সমাধান তৈরি করতে পারেন যা যুক্তিসঙ্গত ভাল দ্রুত সম্পাদন করে তবে সেই সময় থেকে উন্নয়নের অনুপাতটি সময়ের প্রচেষ্টাতে দ্রুত হ্রাস পায়।

কিছু চূড়ান্ত শব্দ: আমি যখন নতুন শ্রেণিবদ্ধকরণ অ্যালগরিদমগুলি সম্পর্কে কাগজপত্র পড়ি, তখন আমি আশা করি লেখকরা তাদের নতুন জাতকে "পেরেটো-অনুকূলিত" পদ্ধতির সাথে তুলনা করবেন, অর্থাত্ শিল্পের অবস্থা তৈরির জন্য তারা যুক্তিসঙ্গত সময় ব্যয় করবেন বলে আমি প্রত্যাশা করি (কারও কারও কাছে কম বেশি প্যারামিটার অপ্টিমাইজেশন প্রয়োজন)। দুর্ভাগ্যক্রমে, অনেকে তা করেন না।


0

প্রচলিত উপায়টি হ'ল আরওসি এবং এর আওতাধীন অঞ্চল (এউসি) বিবেচনা করা। এই পদ্ধতির পিছনে যুক্তিটি হ'ল নির্দিষ্ট মিথ্যা ধনাত্মক হারের জন্য সত্য ধনাত্মক হার যত বেশি উচ্চতর শ্রেণিবদ্ধকারী। সমস্ত সম্ভাব্য মিথ্যা ধনাত্মক হারের সাথে একীকরণ আপনাকে সামগ্রিক পরিমাপ দেয়।


3
যতদূর আমি ওপি বুঝতে পেরেছি, তার সমস্যাটি কোনও শ্রেণিবদ্ধের পারফরম্যান্সের পরিমাপের নয় (যা প্রত্যাশিত ভবিষ্যতের প্রত্যাশিত পারফরম্যান্সের জন্য একটি ভাল অনুমান) তবে কীভাবে একজন সবাই সমস্ত পেতে পারেন, অর্থাৎ সর্বোচ্চটি কী (একদমই নয়) প্রতি মেট্রিক (এউসি সর্বোচ্চে 1 বা
এটির মতো অন্য

হ্যাঁ, এটাই আমি বোঝাতে চাইছিলাম
বায়ারজ

0

আপনার যদি আপনার ডেটাটি ভিজ্যুয়ালাইজ করার কিছু উপায় থাকে তবে এটি সর্বোত্তম সম্ভাবনাময় দৃশ্যাবলী তবে সমস্ত ডেটা একইভাবে ভিজ্যুয়ালাইজ করা যায় না, তাই আপনাকে ডেটা প্রজেক্ট করার জন্য আপনার নিজস্ব উপায় খুঁজে বের করতে হবে যা আপনাকে আপনার ডেটা বুঝতে সহায়তা করতে পারে উত্তম.

তবে, সাধারণভাবে, আমি সাধারণত ডেটার একটি ছোট নমুনা গ্রহণ করি, এআরএফএফ এ রূপান্তর করি এবং ডব্লিউইকাএ থেকে বিভিন্ন ক্লাস্টারিং অ্যালগরিদম চেষ্টা করি। তারপরে, আমি কেবল দেখতে পাচ্ছি কোন অ্যালগরিদম আমাকে আরও ভাল বিভ্রান্তির ম্যাট্রিক্স দেয়। এটি আমাকে ক্লাসগুলি কীভাবে আলাদা করা হয়েছে তার একটি ইঙ্গিত দেয় এবং সেই নির্দিষ্ট অ্যালগরিদম কেন এই ডেটার জন্য আরও ভাল করে তা তদন্তের অনুমতি দেয়। আমি ক্লাস্টারের সংখ্যাও পরিবর্তন করি (যেমন আমি কেবল k = 2 ব্যবহার করি না, আমি k = 3, 4 ইত্যাদি ব্যবহার করি)। এটি আমাকে একটি ধারণা দেয় যে ডেটাতে টুকরো টুকরো টুকরো আছে বা একটি শ্রেণি অন্য শ্রেণির চেয়ে আরও খণ্ডিত। যদি আপনি ক্লাস্টারিংয়ের জন্য প্রশিক্ষণ এবং পরীক্ষার পয়েন্টগুলি একসাথে মিশ্রিত করেন তবে আপনি কোন প্রশিক্ষণ পয়েন্টগুলি দ্বারা কোন ক্লাস্টারগুলি উপস্থাপন করা হচ্ছে তাও মাপতে পারবেন। কিছু ক্লাস্টারগুলি অত্যধিক উপস্থাপিত হতে পারে এবং কিছুগুলি নিম্ন-উপস্থাপিত হতে পারে, উভয়ই এমন সমস্যা সৃষ্টি করতে পারে যা একটি শ্রেণিবদ্ধ শিখছে।

সর্বদা আপনার প্রশিক্ষণের নির্ভুলতা পরীক্ষা করুন। যদি আপনার প্রশিক্ষণের যথার্থতা ভাল না দেখায় তবে ভুল শ্রেণিবদ্ধ প্রশিক্ষণ পয়েন্টগুলিও একটি বড় ইঙ্গিত।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.