বাস্তব অনুশীলনে মেশিন লার্নিং সম্পর্কে এগুলি কী?


11

আমি মেশিন লার্নিংয়ে একজন নতুন আগত (কিছু পরিসংখ্যানও), জ্ঞান শিখছি (তদারকি / নিরীক্ষণযোগ্য শিখার অ্যালগরিদম, প্রাসঙ্গিক অপ্টিমাইজেশন পদ্ধতি, নিয়মিতকরণ, কিছু দর্শন (যেমন পক্ষপাত-বৈচিত্র্য বাণিজ্য-বন্ধ?)) শিখছি। আমি জানি যে কোনও বাস্তব অনুশীলন না করে, আমি সেই মেশিন লার্নিং স্টাফগুলি সম্পর্কে গভীর ধারণা অর্জন করতে পারি না।

তাই আমি বাস্তব ডেটা দিয়ে কিছু শ্রেণিবিন্যাস সমস্যা দিয়ে শুরু করি, হস্তাক্ষর ডিজিটের শ্রেণিবিন্যাস (এমএনআইএসটি) বলুন। আমার অবাক করার বিষয়, কোনও বৈশিষ্ট্য শিখন / ইঞ্জিনিয়ারিং ছাড়াই নির্ভুলতা 0.97 এ পৌঁছেছে ইনপুট হিসাবে কাঁচা পিক্সেল মান সহ এলোমেলো-বন শ্রেণিবদ্ধ ব্যবহার করে। আমি অন্যান্য শেখার অ্যালগরিদমগুলি যেমন এসভিএম, এলআরটি পরামিতিগুলির সাথে টিউন করার চেষ্টা করেছি।

তারপরে আমি হারিয়ে গেলাম, খুব সহজ হবে নাকি আমি এখানে কিছু মিস করছি? শুধু কি সরঞ্জামদণ্ড থেকে একটি শেখার অ্যালগরিদম চয়ন এবং কিছু পরামিতি টিউন?

এটি যদি অনুশীলনে মেশিন লার্নিংয়ের বিষয়ে হয় তবে আমি এই ক্ষেত্রে আমার আগ্রহ হারাব। আমি কিছু দিন ধরে কিছু ব্লগ ভেবেছিলাম এবং পড়েছি এবং আমি কিছু সিদ্ধান্তে পৌঁছেছি:

  1. অনুশীলনে মেশিন লার্নিংয়ের সবচেয়ে গুরুত্বপূর্ণ অংশটি হ'ল ফিচার ইঞ্জিনিয়ারিং , যা তথ্য দেওয়া হয়, বৈশিষ্ট্যের আরও ভাল প্রতিনিধিত্ব খুঁজে বের করুন।

  2. কোনটি অ্যালগরিদম ব্যবহার করতে হবে তা শিখতেও গুরুত্বপূর্ণ, প্যারামিটার টিউনিংও, তবে চূড়ান্ত পছন্দটি পরীক্ষা-নিরীক্ষার বিষয়ে আরও বেশি।

আমি নিশ্চিত যে আমি এটি সঠিকভাবে বুঝতে পেরেছি না, আশা করি যে কেউ আমাকে সংশোধন করতে পারে এবং অনুশীলনে মেশিন লার্নিং সম্পর্কে আমাকে কিছু পরামর্শ দিতে পারে।


1
আমি মনে করি না যে আমি আপনার প্রশ্নের সম্পূর্ণরূপে উত্তর দিতে পারব, তবে আমি আপনাকে আশ্বস্ত করতে চাই যে এখানে প্রচুর সমস্যা রয়েছে যেখানে অ্যালগরিদম / সরঞ্জামগুলি দুর্বল বৈশিষ্ট্যের গুণমান ছাড়াও অসন্তুষ্টিজনক (আমার অভিজ্ঞতায় সামাজিক বিজ্ঞানগুলি দ্বন্দ্বপূর্ণ) উভয় পরিস্থিতিতে)। আমি মনে করি না যে এটিই আপনার একমাত্র উদ্বেগ, তবে আপনি এখনও পর্যন্ত আপনার প্রকল্পের স্বাচ্ছন্দ্যে বিরক্ত বোধ করছেন।

1
@ ম্যাথেজ, হ্যাঁ, আমি যখন আসল সমস্যার মুখোমুখি হচ্ছি তখনই কোথায় শুরু করব তা না জেনে আমি হারিয়ে গেলাম, কী কী দরকারী বৈশিষ্ট্যগুলি বের করতে বা কেবল একটি শেখার অ্যালগরিদম বাছাই করতে এবং চালানোর জন্য প্রকৃতির সন্ধানের জন্য ডেটা বিশ্লেষণ করা উচিত?
অ্যাভোকাডো

আমি একটি প্লেনে যে সঠিকভাবে 97 বার 100 উড়ে যাওয়া- বোর্ড না
lcrmorin

উত্তর:


12

অনুশীলনে মেশিন লার্নিং (এমএল) নির্ভর করে এমএল করার লক্ষ্য কী। কিছু পরিস্থিতিতে, কঠিন প্রি-প্রসেসিং এবং বাইরের অফ এমএল পদ্ধতিগুলির স্যুট প্রয়োগ করা যথেষ্ট ভাল হতে পারে। যাইহোক, এই পরিস্থিতিতেও, সমস্যাগুলি ভুল হয়ে যাওয়ার সময় সমস্যাগুলি সমাধান করতে সক্ষম হতে পদ্ধতিগুলি কীভাবে কাজ করে তা বোঝা গুরুত্বপূর্ণ। তবে বাস্তবে এমএল এর চেয়ে অনেক বেশি হতে পারে এবং এমএনআইএসটি কেন এটির একটি ভাল উদাহরণ।

এমএনআইএসটি ডেটাসেটে 'ভাল' পারফরম্যান্স পাওয়া ছদ্মবেশী সহজ। উদাহরণস্বরূপ, এমএনআইএসটি পারফরম্যান্সে ইয়ান লে কানের ওয়েবসাইট অনুসারে, ইউক্লিডিয়ান দূরত্বের মেট্রিক (এল 2) সহ কে নিকটতম প্রতিবেশী (কে-এনএন) এরও ত্রুটি হার 3% রয়েছে, যা আপনার বক্স-অফ-দ্য বাক্সের মতো om বন। জংগল. এল 2 কে-এনএন এমএল অ্যালগরিদম যতটা সহজ হিসাবে আসে। অন্যদিকে, ইয়ান, যোশুয়া, লিওন এবং প্যাট্রিকের সেরা, এই ডেটাসেটে প্রথম শট লেইনেট -4 এর একটি ত্রুটি হার 0.7%, 0.7% 3% এর চতুর্থ অংশের চেয়ে কম, সুতরাং যদি আপনি এই সিস্টেমটিকে রাখেন হস্তাক্ষর অঙ্কগুলি পড়তে অনুশীলন করুন, নিষ্পাপ অ্যালগরিদমকে তার ত্রুটিগুলি ঠিক করতে চারগুণ মানুষের প্রচেষ্টা প্রয়োজন।

ইয়ান এবং সহকর্মীরা যে কনভোলশনাল নিউরাল নেটওয়ার্ক ব্যবহার করেছেন তা টাস্কের সাথে মিলেছে তবে আমি এই 'ফিচার ইঞ্জিনিয়ারিং' বলব না, এতটা ডেটা বোঝার চেষ্টা করার মতো এবং সেই বোঝার শিখার অ্যালগরিদমে প্রবেশ করানো।

সুতরাং, পাঠগুলি কি:

  1. আউট অফ দ্য বাক্স পদ্ধতি এবং ভাল প্রিপ্রোসেসিং ব্যবহার করে নির্বাক পারফরম্যান্সের বেসলাইন পৌঁছানো সহজ। আপনার সর্বদা এটি করা উচিত, যাতে আপনি জানেন যে বেসলাইনটি কোথায় এবং আপনার প্রয়োজনীয়তার জন্য এই পারফরম্যান্স স্তরটি যথেষ্ট ভাল কিনা। যদিও সচেতন থাকুন, প্রায়শই অফ-অফ-বক্সের এমএল পদ্ধতিগুলি 'ভঙ্গুর' অর্থাত্ প্রাক-প্রক্রিয়াজাতকরণের জন্য আশ্চর্যরকম সংবেদনশীল। আপনি যখন বাক্সের বাইরে থাকা সমস্ত পদ্ধতি প্রশিক্ষণ নেন, তখন সেগুলি ব্যাগ করার চেষ্টা করা প্রায় সবসময়ই ভাল ধারণা।
  2. কঠিন সমস্যাগুলির জন্য হয় ডোমেন-নির্দিষ্ট জ্ঞান বা অনেক বেশি ডেটা বা উভয়ই সমাধানের প্রয়োজন। ফিচার ইঞ্জিনিয়ারিং অর্থ এমএল অ্যালগরিদমকে সহায়তা করতে ডোমেন-নির্দিষ্ট জ্ঞান ব্যবহার করা। তবে, আপনার যদি পর্যাপ্ত ডেটা, একটি অ্যালগরিদম (বা পদ্ধতির) থাকে যা জটিল বৈশিষ্ট্যগুলি শিখতে সেই ডেটার সুবিধা নিতে পারে, এবং এই অ্যালগরিদম প্রয়োগকারী বিশেষজ্ঞ তখন আপনি কখনও কখনও এই জ্ঞানটি (যেমন: কাগল মের্ক চ্যালেঞ্জ ) পূর্বাভাস করতে পারেন । এছাড়াও, কখনও কখনও ডোমেন বিশেষজ্ঞরা ভাল বৈশিষ্ট্যগুলি কী তা সম্পর্কে ভুল হন; তাই আরও ডেটা এবং এমএল দক্ষতা সর্বদা সহায়ক।
  3. যথাযথতা নয় ত্রুটি হার বিবেচনা করুন। 99% নির্ভুলতার সাথে একটি এমএল পদ্ধতি 98% যথার্থতার সাথে অর্ধেক ত্রুটি করে; কখনও কখনও এটি গুরুত্বপূর্ণ।

2
+1, অনেক ধন্যবাদ। আমি আপনার উত্তরটি পড়তে পড়তে, যদি ফিচার ইঞ্জিনিয়ারিং করার জন্য আমার কাছে ডোমেন-নির্দিষ্ট জ্ঞান না থাকে তবে প্রদত্ত ডেটা ব্যবহার করে ফিচার লার্নিং করার জন্য আমার ভাল পদ্ধতি উদ্ভাবনের দিকে মনোনিবেশ করা উচিত, এবং বিভিন্ন শিখনের অ্যালগরিদমগুলি চেষ্টা করা উচিত।
অ্যাভোকাডো

@ লোগানোকলস বা অন্য লোকেরা অনুরূপ ডেটাতে কী করেছে বা কোনও ডোমেন-বিশেষজ্ঞের সাথে কথা বলতে পারে তাও আপনি পড়তে পারেন।
qdjm

7

আমি মনে করি যে ব্লগ বা ওয়েবসাইটগুলিতে আপনি যে উদাহরণগুলি খুঁজে পান সেগুলি উদাহরণ যেখানে এটি সাধারণভাবে ভাল পদ্ধতিতে কাজ করে (যদিও, অবশ্যই, সেগুলি উন্নত করা যেতে পারে) is

আমার বিশেষত্ব বৈশিষ্ট্য ইঞ্জিনিয়ারিংয়ে রয়েছে এবং আমি আপনাকে বলতে পারি যে প্রায়শই স্ট্যান্ডার্ড অ্যালগরিদমগুলি মোটেই ভাল কাজ করে না। (এই ক্ষেত্রটি সম্পর্কে আমার কোনও জ্ঞান নেই তবে প্রায়শই আমি যাদের সাথে থাকি তাদের সাথেই কাজ করি))।

এখানে একটি বাস্তব সমস্যা আছে যেখানে আমি 6 মাস ধরে কাজ করেছি: 100 টি নমুনা এবং 10000 ভেরিয়েবল সহ একটি ম্যাট্রিক্স এক্স দেওয়া হয়েছে যা রোগীদের জিনগত মান উপস্থাপন করে এবং 100 x 1 আকারের আউটপুট y যা হাড়ের ঘনত্বের প্রতিনিধিত্ব করে।

আপনি আমাকে বলতে পারবেন কোন জিনগুলি হাড়ের ঘনত্বকে প্রভাবিত করে?

এখন আমি অন্য একটি সমস্যা নিয়ে কাজ করছি। আমার কাছে 2000 টি নমুনা এবং 12000 ভেরিয়েবল সহ একটি উত্পাদন উত্পাদনের ডেটাসেট রয়েছে। আমার বস এই ডেটাসেটটি থেকে 30 টিরও বেশি ভেরিয়েবল অপ্রচলিত উপায়ে বের করতে চাইবেন।
আমি কিছু অ্যালগরিদম চেষ্টা করেছি তবে আমি 600 এর চেয়ে কম ভেরিয়েবল চয়ন করতে পারি না কারণ এগুলির মধ্যে খুব খুব সংযোগ রয়েছে। (আমি এখনও এটি নিয়ে কাজ করছি ...)

বিবেচনা করার জন্য আরেকটি গুরুত্বপূর্ণ ভাবনা হ'ল বিভিন্ন অ্যালগরিদমের গতি সম্পাদনা। অনেক পরিস্থিতিতে আপনি 20 মিনিটের জন্য ফলাফলের জন্য অপেক্ষা করতে পারবেন না। উদাহরণস্বরূপ আপনার কখন জানতে হবে নিপালস কখন ব্যবহার করবেন এবং কখন পিসিএ গণনা করার জন্য এসভিডি ব্যবহার করবেন।

আশা করি এটি মিলগুলিতে প্রচলিত সমস্যাগুলির একটি ধারণা দিতে পারে।


n<<p
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.