শ্রেণিগুলিতে রৈখিকভাবে পৃথক পৃথক পৃথক পৃথক পৃথক পৃথক পৃথক পৃথক স্থানে কেন এমন উপাত্তকে উচ্চতর মাত্রায় ফিচার স্থান হিসাবে স্থানান্তরিত করা?


10

আমি আমার বইতে (ওয়েব এবং উইলে স্ট্যাটিসটিকাল প্যাটার্নের শ্রেণিবিন্যাস) এসভিএমগুলি এবং রৈখিকভাবে পৃথকীকরণযোগ্য নয় এমন ডেটা বিভাগে পড়েছি:

অনেক বাস্তব-বাস্তব ব্যবহারিক সমস্যার ক্ষেত্রে ক্লাসগুলি পৃথক করার কোনও লিনিয়ার সীমানা থাকবে না এবং সর্বোত্তম পৃথকীকরণের হাইপারপ্লেনের সন্ধানের সমস্যাটি অর্থহীন। এমনকি যদি আমরা পরিশীলিত বৈশিষ্ট্য ভেক্টর, , যেখানে শ্রেণিগুলি লাইনগতভাবে পৃথক পৃথক, যেখানে উচ্চতর মাত্রার বৈশিষ্ট্যযুক্ত স্থানটিতে ডেটা রুপান্তরিত করতে পারে, এটি তথ্যের একটি অতিরিক্ত-ফিট করে এবং তাই সাধারণভাবে সাধারণীকরণের দক্ষতা কমিয়ে দেয় ।Φ(x)

শ্রেণিগুলিকে ধারাবাহিকভাবে পৃথক করা যায় এমন বিভাগগুলিকে একটি উচ্চ-মাত্রিক বৈশিষ্ট্য জায়গাতে কেন ডেটা রূপান্তর করা অতিমাত্রায় ফিটনেস এবং দুর্বল সাধারণীকরণের দক্ষতার দিকে পরিচালিত করে?

উত্তর:


8

@ ফ্রেন্ডের সম্পর্কে এটি সম্পর্কে একটি ভাল পোস্ট রয়েছে তবে সাধারণভাবে বলতে গেলে আপনি যদি সেখান থেকে উচ্চ মাত্রিক বৈশিষ্ট্যযুক্ত স্থান এবং ট্রেনে রূপান্তর করেন তবে শিখার অ্যালগরিদম উচ্চতর স্থানের বৈশিষ্ট্যগুলিকে বিবেচনায় নিতে 'বাধ্য' হয়, যদিও তাদের কিছু নাও থাকতে পারে আসল ডেটা দিয়ে করতে, এবং কোন ভবিষ্যদ্বাণীপূর্ণ গুণাবলী অফার করে।

এর অর্থ হ'ল প্রশিক্ষণ দেওয়ার সময় আপনি কোনও শেখার নিয়মকে যথাযথভাবে সাধারণকরণ করতে যাচ্ছেন না।

একটি স্বজ্ঞাত উদাহরণ নিন: ধরুন আপনি উচ্চতা থেকে ওজনের পূর্বাভাস দিতে চেয়েছিলেন। মানুষের ওজন এবং উচ্চতাগুলির সাথে সম্পর্কিত আপনার কাছে এই সমস্ত ডেটা রয়েছে। আসুন আমরা এটি বলতে পারি যে তারা সাধারণত একটি রৈখিক সম্পর্ক অনুসরণ করে। এটি হ'ল আপনি ওজন (ডাব্লু) এবং উচ্চতা (এইচ) এরূপ বর্ণনা করতে পারেন:

W=mHb

, যেখানে হ'ল আপনার লিনিয়ার সমীকরণের opeাল, এবং হ'ল ই-ইন্টারসেপ্ট, বা এই ক্ষেত্রে, ডাব্লু-ইন্টারসেপ্ট।mb

আমাদের বলুন যে আপনি একটি পাকা জীববিজ্ঞানী, এবং আপনি জানেন যে সম্পর্কটি রৈখিক। আপনার ডেটা দেখে মনে হচ্ছে উপরের দিকে ট্র্যাটারের প্লট লাগছে। আপনি যদি 2-মাত্রিক জায়গাতে ডেটা রাখেন তবে আপনি এটির মাধ্যমে একটি লাইন মাপসই করবেন। এটি সমস্ত পয়েন্টগুলিতে আঘাত নাও করতে পারে তবে ঠিক আছে - আপনি জানেন যে সম্পর্কটি লিনিয়ার, এবং যাইহোক আপনি একটি ভাল আনুমানিকতা চান।

এখন বলুন যে আপনি এই 2-মাত্রিক ডেটা নিয়েছেন এবং এটিকে উচ্চ মাত্রিক স্থানটিতে রূপান্তর করেছেন। সুতরাং শুধুমাত্র পরিবর্তে , এছাড়াও আপনি আরও 5 মাত্রা যোগ, , , , , এবং ।HH2H3H4H5H2+H7

এখন আপনি যান এবং এই ডেটা মাপসই জন্য বহুবর্ষের সহ-কার্যকারিতা সন্ধান করুন। এটি হ'ল, আপনি এই বহুবর্ষের জন্য সহ-কার্যকারিতা খুঁজতে চান যা ডেটা 'সেরা ফিট করে':ci

W=c1H+c2H2+c3H3+c4H4+c5H5+c6H2+H7

আপনি যদি তা করেন তবে আপনি কোন ধরণের লাইন পাবেন? আপনি এটি দেখতে পাবেন যা অনেকটা @ ফ্রেন্ডের ডানদিকের প্লটের মত দেখাচ্ছে। আপনার উপাত্তকে উপস্থাপন করা হয়েছে, কারণ আপনি আপনার শিক্ষাগত অ্যালগরিদমকে উচ্চতর অর্ডার পলিনোমিয়ালগুলি বিবেচনার জন্য 'বাধ্য' করেছিলেন যার কোনও কিছুই করার নেই do জৈবিকভাবে বলতে গেলে ওজন কেবল উচ্চতার উপর নির্ভর করে রৈখিকভাবে। এটি বা কোনও উচ্চতর অর্ডার বাজেপালার উপর নির্ভর করে না ।H2+H7

এ কারণেই যদি আপনি উচ্চতর অর্ডার মাত্রায় ডেটা অন্ধভাবে রূপান্তর করেন তবে আপনি খুব বেশি ঝুঁকির ঝুঁকি নিয়ে যান, এবং সাধারণীকরণ করেন না।


6

ধরা যাক আমরা লিনিয়ার রিগ্রেশন (যা এসভিএম কী করে মূলত এটি বেশ সুন্দর) ব্যবহার করে সমতলতে 2 ডি পয়েন্টের সেটটি প্রায় এমন ফাংশন সন্ধান করার চেষ্টা করছি। লাল ক্রসগুলির নীচে 3 টি চিত্রের মধ্যে পর্যবেক্ষণ (প্রশিক্ষণ ডেটা) এবং 3 টি নীল রেখাগুলি প্রতিরোধের জন্য বিভিন্ন ডিগ্রি পলিনমিয়ালের সমীকরণকে উপস্থাপন করে।

এখানে চিত্র বর্ণনা লিখুন

প্রথম চিত্রটি লিনিয়ার সমীকরণ দ্বারা উত্পন্ন হয়। আপনি দেখতে পাচ্ছেন, এটি পয়েন্টগুলি বেশ খারাপভাবে প্রতিফলিত করে। এটিকে আন্ডারফিটিং বলা হয় , কারণ আমরা অ্যালগরিদমকে খুব কম "ডিগ্রি অফ ফ্রিডম" (খুব ছোট ডিগ্রির বহুপদী) শিখিয়েছি । দ্বিতীয় চিত্রটি আরও ভাল - আমরা দ্বিতীয় ডিগ্রির বহুবচন ব্যবহার করেছি এবং এটি দেখতে বেশ ভাল দেখাচ্ছে। তবে, আমরা যদি আরও "ডিগ্রি অফ ডিগ্রি" বৃদ্ধি করি তবে আমরা তৃতীয় চিত্র পাই। এতে নীল রেখাটি ক্রসগুলি দিয়ে সরাসরি আসে, তবে আপনি কি বিশ্বাস করেন যে এই লাইনটি সত্যই নির্ভরতা বর্ণনা করে? আমি তাই মনে করি না. হ্যাঁ, প্রশিক্ষণে শেখার ত্রুটি (ক্রস এবং রেখার মধ্যে দূরত্ব) খুব ছোট, তবে আমরা যদি আরও একটি পর্যবেক্ষণ যুক্ত করি (বলুন, বাস্তব তথ্য থেকে), তবে সম্ভবত এর জন্য ত্রুটিটি আরও বড় হবে যদি আমরা দ্বিতীয় থেকে সমীকরণ ব্যবহার করি তবে চিত্র। এই প্রভাবটিকে ওভারফিটিং বলা হয়- আমরা প্রশিক্ষণের ডেটা খুব ঘনিষ্ঠভাবে অনুসরণ করার এবং ঝামেলা পেতে চেষ্টা করি । একক ভেরিয়েবলের বহুভুজ ব্যবহার কর্নেলের একটি সাধারণ উদাহরণ - একটি মাত্রা ( ) এর পরিবর্তে আমরা বেশ কয়েকটি ( , , , ইত্যাদি) ব্যবহার করি। আপনি দেখতে পারেন যে উচ্চ মাত্রিক মহাকাশ ডেটা অনুবাদ পারে underfit পরাস্ত করতে সাহায্য , কিন্তু এটি করতে পারেন overfit হতে । আসল চ্যালেঞ্জটি হ'ল "ঠিক সঠিক" কী তা খুঁজে পাওয়া। এই বিষয়টিতে আপনার আরও গবেষণার জন্য কয়েকটি টিপস। ক্রস যাচাইকরণ নামক পদ্ধতির সাহায্যে আপনি ওভারফিটিং সনাক্ত করতে পারেনxxx2x3। সংক্ষেপে, আপনি আপনার 10 টি ভাগে ডেটা বিভক্ত করেন, প্রশিক্ষণের জন্য তাদের 9 টি এবং বৈধতার জন্য 1 নিন 1 যদি বৈধতা সেটটিতে ত্রুটি ট্রেনের সেটের তুলনায় অনেক বেশি হয়, তবে আপনি ওভারফিট পেয়েছেন। বেশিরভাগ মেশিন লার্নিং অ্যালগরিদম কিছু প্যারামিটার ব্যবহার করে (যেমন এসভিএম-তে কার্নেলের প্যারামিটার) যা ওভারফিটিংকে কাটিয়ে উঠতে দেয়। এছাড়াও, এখানে একটি জনপ্রিয় কীওয়ার্ড হ'ল নিয়মিতকরণ - অ্যালগরিদমের পরিবর্তন যা সরাসরি অপ্টিমাইজেশন প্রক্রিয়াটিকে প্রভাবিত করে, আক্ষরিকভাবে বলে যে "প্রশিক্ষণের ডেটা খুব কাছাকাছি অনুসরণ করবেন না" saying

বিটিডাব্লু, আমি নিশ্চিত নই যে এই ধরণের প্রশ্নের জন্য ডিএসপি সঠিক সাইট, সম্ভবত আপনিও ক্রসভিলেটেডে যেতে আগ্রহী হবেন ।


এটি ছিল - স্টোরেন - মেশিন লার্নিংয়ের অ্যান্ড্রু এনগির ভিডিও বক্তৃতা থেকে ধার করা হয়েছিল। যদি না আপনি ডঃ এনজি। সেক্ষেত্রে, আপনি কি আপনার ল্যাবটির জন্য পিএইচডি শিক্ষার্থী খুঁজছেন? (আপনারা যারা আগ্রহী তাদের জন্য বক্তৃতা
কোর্স.কম.-এ

@ সাইবারমেন: এটি ইমেজস.কম.কম থেকে চুরি করা হয়েছিল :) তবে হ্যাঁ, স্বরলিপিটি এনজি-র সাথে খুব মিল। এবং আমি অবশ্যই অবশ্যই তার পাঠ্যক্রমটি (এবং অন্যান্য কাগজপত্র) মেশিন লার্নিংয়ের সাথে পরিচয় করিয়ে দেওয়ার পরামর্শ দেব।
বন্ধু

আমি মনে করি কমপক্ষে অন্যান্য এসই সাইটের মধ্যে এই ধরণের প্রশ্নের জন্য ডিএসপি হ'ল সঠিক জায়গা।
জিগিলি

2

আপনি কি আরও পড়েন?

6.3.10 বিভাগের শেষে:

"তবে, প্রায়শই কার্নেলের প্যারামিটারগুলি সেট করা আবশ্যক এবং একটি দুর্বল পছন্দ দুর্বল সাধারণীকরণের দিকে পরিচালিত করতে পারে a নির্দিষ্ট সমস্যার জন্য সেরা কার্নেলের পছন্দ সমাধান করা হয়নি এবং বিশেষ সমস্যাগুলির জন্য বিশেষ কার্নেলগুলি নেওয়া হয়েছে, উদাহরণস্বরূপ নথির শ্রেণিবিন্যাস "

যা আমাদের 6.3.3 বিভাগে নিয়ে যায়:

" গ্রহণযোগ্য কার্নেলগুলি অবশ্যই কোনও বৈশিষ্ট্যের জায়গার অভ্যন্তরীণ পণ্য হিসাবে প্রকাশযোগ্য হতে হবে, যার অর্থ তারা অবশ্যই মার্সারের শর্ত পূরণ করতে পারে"

কার্নেলগুলি তাদের বেশ কঠিন ক্ষেত্রের দ্বারা আপনার বড় ডেটা থাকতে পারে যেখানে বিভিন্ন অংশে বিভিন্ন ধরণের পরামিতি প্রয়োগ করা উচিত, যেমন স্মুথ করা, তবে কখন তা ঠিক জানেন না। অতএব এ জাতীয় জিনিসটি সাধারণীকরণ করা বেশ কঠিন।


আমি যেমন বলেছিলাম "৪.২.৫ সাপোর্ট ভেক্টর মেশিনগুলি" পড়ছি, আপনি কী section নং বিভাগের কথা বলছেন তা আমি জানি না। যেহেতু আমি প্রশ্নটিতে যা উল্লেখ করেছি তার পরে অনুচ্ছেদে এটি সম্পর্কে কিছুই নেই, আমি ভেবেছিলাম এখানে আরও ভাল জিজ্ঞাসা করব।
জিগিলি

দুঃখিত, আমি এটি স্ট্যাটিস্টিকাল প্যাটার্ন রিকগনিশনটিও ওয়েব দ্বারা মিশ্রিত করেছি , যা আমি এখনই দেখছি এবং যার একই অধ্যায় রয়েছে।
সিগ্রলামি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.