অটোমেটেড মেশিন কি একটি স্বপ্ন শিখছে?


12

মেশিন লার্নিংয়ের আবিষ্কারের সাথে সাথে আমি বিভিন্ন আকর্ষণীয় কৌশলগুলি দেখতে পাই যেমন:

  • অ্যালগরিদমগুলি স্বয়ংক্রিয়ভাবে কৌশলগুলির সাথে টিউন করুন যেমন grid search,
  • একই "টাইপ" এর বিভিন্ন অ্যালগরিদমের সংমিশ্রণের মাধ্যমে আরও সঠিক ফলাফল পান, যা boosting,
  • বিভিন্ন অ্যালগরিদমের সংমিশ্রণের মাধ্যমে আরও সঠিক ফলাফল পান (তবে একই ধরণের অ্যালগোরিদম নয়), এটি stacking,
  • এবং সম্ভবত আরও অনেক কিছু আমাকে এখনও আবিষ্কার করতে হবে ...

আমার প্রশ্নটি নিম্নলিখিত: এই সমস্ত টুকরা রয়েছে। তবে কী এগুলিকে একত্রে অ্যালগরিদম তৈরি করা সম্ভব যা ইনপুট ক্লিন হওয়া ডেটা হিসাবে গ্রহণ করে এবং সমস্ত কৌশলগুলির মধ্যে সবচেয়ে ভাল ব্যবহার করে ভাল ফলাফল আউটপুট করে? (অবশ্যই এটি কোনও পেশাদার ডেটা সায়েন্টিস্টের চেয়ে কম দক্ষ হবে তবে তিনি আমার চেয়ে ভাল হবেন!) যদি হ্যাঁ, আপনার কি নমুনা কোড রয়েছে বা ফ্রেমওয়ার্কগুলি জানেন যে এটি করতে পারে?

সম্পাদনা: কিছু উত্তরের পরে মনে হচ্ছে কিছু সংকীর্ণ করতে হবে। আসুন একটি উদাহরণ নেওয়া যাক, শ্রেণিবদ্ধ ডেটা সহ আমাদের একটি কলাম রয়েছে, আসুন yআমরা এটি কল করি এবং আমরা এটি Xডুমারি বা আসল সংখ্যাসূচক ডেটা (উচ্চতা, তাপমাত্রা) এমন সংখ্যাসূচক ডেটা থেকে ভবিষ্যদ্বাণী করতে চাই । আমরা ধরে নিলাম পরিষ্কারের কাজ আগেও হয়ে গেছে। এমন কোন অ্যালগোরিদম রয়েছে যা এই জাতীয় ডেটা নিতে পারে এবং পূর্বাভাস দেয়? (একাধিক অ্যালগরিদমগুলি পরীক্ষা করে, সেগুলি টিউন করে, বুস্টিং ইত্যাদি)) যদি হ্যাঁ, তবে এটি গণনাগতভাবে দক্ষ (যদি আমরা সাধারণ অ্যালগরিদমের সাথে তুলনা করি তবে একটি যুক্তিসঙ্গত সময়ে কি গণনা করা হয়), এবং আপনার কোডের উদাহরণ রয়েছে?


1
সম্ভবত শক্তিশালী এআই না হওয়া পর্যন্ত না।
গুং - মনিকা পুনরায়

1
স্বয়ংক্রিয় টিউনিংয়ের সাথে আপনি মেশিন লার্নিংয়ে হাইপারপ্যারামিটার অনুসন্ধান সম্পর্কে পড়তে আগ্রহী হতে পারেন । গ্রিড অনুসন্ধান হাইপারপ্যারামিটারগুলি অনুকূল করতে একটি ভয়ঙ্কর উপায়।
মার্ক ক্লেসেন

2
না আপনি আছে এত ব্যবহার করতে ফর্ম্যাটিং ?
সাইকোরাক্স মনিকাকে

2
এমন কিছু পণ্য রয়েছে যা দাবি করে যে তারা আপনার বর্ণনা অনুযায়ী যা করে, যেমন ক্রিস্টাল বল । আমি ব্যক্তিগতভাবে তাদের উপর বিশ্বাস করি না, তবে আপনি যেমন লিখেছেন: তারা পরিসংখ্যান সম্পর্কে কোনও ধারণা না রাখার চেয়ে কাজটি আরও ভাল করেন
আকাকাল

1
পূর্বাভাসের জন্য auto.arima( forecastগ্রন্থাগার থেকে ) মানুষের চেয়ে ভাল হতে পারে - রব হ্যান্ডম্যান তার উপস্থাপনাগুলিতে বেশ কয়েকবার উল্লেখ করেছেন। সুতরাং এমন কিছু ক্ষেত্র রয়েছে যেখানে কিছু ধরণের "স্বয়ংক্রিয় শিক্ষণ" সাফল্যের সাথে প্রয়োগ করা হয়।
টিম

উত্তর:


7

আপনি যদি আগে থেকেই জানেন যে আপনি কী ধরণের ডেটা খাবেন ("এগুলি সিপিজির মাসিক বিক্রয়, দাম এবং প্রচারের মার্কার সহ এবং আমি একটি পয়েন্ট পূর্বাভাস চাই"), তাই আপনি সময়ের আগে আপনার সেটআপটি টিউন করতে পারেন, সম্ভবত এটি হবে সম্ভব এবং ইতিমধ্যে সম্পন্ন হয়েছে, নির্দিষ্ট কিছু নির্দিষ্ট কাজের জন্য বিভিন্ন "বিশেষজ্ঞ সিস্টেম" দেখুন।

আপনি যদি এমন কোনও কিছু খুঁজছেন যা কোনও ধরণের ডেটা নিতে পারে এবং এর সাথে "দরকারী কিছু" করতে পারে ("আহা, আমি এখানে হস্তাক্ষর এবং আউটপুট জিপ কোডগুলি চিনতে পারব, এবং সেখানে আমার জালিয়াতি সনাক্তকরণ করা উচিত, এবং এই ইনপুট ফাইলটি স্পষ্টতই একটি ক্রেডিট স্কোরিং টাস্ক "), না, আমি মনে করি না যে এটি দীর্ঘ সময়ের মধ্যে ঘটবে।

একটি মতামত ভিত্তিক প্রশ্ন হিসাবে ভাল বন্ধ হতে পারে কি একটি মতামত ভিত্তিক উত্তর জন্য দুঃখিত।


সম্পাদিত প্রশ্নটি সম্বোধন করতে সম্পাদনা:

yX

y


আমি আমার প্রশ্নটি আপনাকে ধন্যবাদ দিয়েছি, সেখানে প্রথম অংশ রয়েছে "যাই হোক না কেন ইনপুট নিন এবং ফলাফলটি নিক্ষেপ করুন" এবং আপনার উত্তরটি সত্যই অন্তর্দৃষ্টিপূর্ণ, এবং একটি দ্বিতীয় অংশ "নির্দিষ্ট ধরণের প্রশ্নগুলির জন্য, এবং ডেটা ফর্ম্যাটিং, আমাকে সন্ধান করুন ফলাফল".
Pholochtairze

নিশ্চিত না যে শেষ অনুচ্ছেদটি এখনও বিভিন্ন ধরণের সমস্যার গভীর গভীর শিক্ষার অসীম সাফল্যকে ধারণ করে। এই পদ্ধতিগুলি অবশ্যই সাধারণ উদ্দেশ্য, তবুও তারা কম্পিউটার ভিশন এবং এনএলপির মতো কয়েকটি অ্যাপ্লিকেশন ডোমেনে রেকর্ড ধারণ করে। কারও পক্ষে যুক্তি হতে পারে যে স্থাপত্যগুলি কাজের মধ্যে পৃথক, তবে একটি তাত্ত্বিক স্তরে একটি সম্পূর্ণ সংযুক্ত গভীর নেটওয়ার্ক কমপক্ষে যতটা ভাল সঞ্চালন করবে, বলুন, কনভোলশনাল নেটওয়ার্কগুলি, এটি ঠিক যে যথাযথ প্রশিক্ষণের পদ্ধতিগুলি অধরা থাকে।
মার্ক ক্লেসেন

@ মার্কক্লেজেন: আমি বলব যে "সঠিক প্রশিক্ষণের পদ্ধতিগুলি অধরা রয়ে গেছে" এমন এক বিন্দু যেখানে আপনার এখনও ডোমেন নির্দিষ্ট দক্ষতার প্রয়োজন হবে।
স্টিফান কোলাসা

7

আপনি যা বর্ণনা করেছেন তা ইতিমধ্যে কিছুটা হলেও বিদ্যমান রয়েছে, উদাহরণস্বরূপ অটোওয়াকায় এবং সক্রিয়ভাবে গবেষণা করা হচ্ছে (যেমন চ্যালের্নের অটোএমএলের মতো চ্যালেঞ্জ )।

এটি সাধারণত হাইপারপ্যারমিটার অপ্টিমাইজেশনের সাবফিল্ডে বিবেচনা করা হয়। অপ্টিউটিউশন , হাইপারপট এবং প্যারামিলস এর মতো সফ্টওয়্যার প্যাকেজগুলি কোনও প্রদত্ত পদ্ধতির জন্য হাইপারপ্যারামিটারগুলি স্বয়ংক্রিয়ভাবে অনুকূলিত করতে এবং কোন পদ্ধতির সেরা হতে পারে তা চয়ন করতে ব্যবহার করা যেতে পারে। এটি বলেছে যে এই ধরনের অপ্টিমাইজেশান সমস্যাগুলি তুচ্ছ নয় এবং সাধারণত স্বয়ংক্রিয়ভাবে সেরা মডেলটি পেতে (বা এটির কাছাকাছি) দীর্ঘ সময় লাগে।

আপনি Optunity ব্যবহার স্বয়ংক্রিয়ভাবে শ্রেষ্ঠ শেখার আলগোরিদিম নির্ধারণ করতে একটি উদাহরণ জানতে পারেন এবং তার hyperparameters নিখুত http://optunity.readthedocs.org/en/latest/notebooks/notebooks/sklearn-automated-classification.html


4

হাইপার প্যারামিটার টিউনিং এবং সংগৃহীত মডেলগুলির অগ্রগতিগুলি মডেল বিল্ডিংয়ের বাইরে অনেকগুলি 'আর্ট' নিচ্ছে। তবে, মডেল গঠনের দুটি গুরুত্বপূর্ণ বিষয় রয়েছে যে হাইপার প্যারামিটার টিউনিং এবং এনসেম্বেবলগুলি এতে আচরণ করে না এবং আপনাকে সেরা সম্ভাব্য মডেলটি সন্ধান থেকে বিরত রাখবে।

প্রথমত, নির্দিষ্ট ধরণের ডেটা মডেলিংয়ে নির্দিষ্ট ধরণের অ্যালগরিদম ভাল। উদাহরণস্বরূপ, যদি আপনার ভেরিয়েবলগুলির মধ্যে ইন্টারঅ্যাকশন হয়, তবে একটি অ্যাডিটিভ মডেল সেগুলি খুঁজে পাবে না, তবে সিদ্ধান্তের গাছটি হবে। মডেলগুলি বিভিন্ন ডেটাসেটে কীভাবে আচরণ করে তা জেনে এবং সঠিকটি বাছাই করে সেরা মডেলিংয়ের অ্যালগরিদম খুঁজতে ডোমেন সম্পর্কে জ্ঞানের প্রয়োজন হতে পারে।

দ্বিতীয়ত, বৈশিষ্ট্য ইঞ্জিনিয়ারিং এবং বৈশিষ্ট্য নিষ্কাশন মডেল বিল্ডিংয়ের আসল 'আর্ট'। আপনার প্রশ্নটি ধরে নিয়েছে যে ডেটাসেট ইতিমধ্যে প্রস্তুত। তবে আপনি যা অনুমান করবেন না তা হ'ল আপনি যা মডেল করার চেষ্টা করছেন তার সেরা সম্ভাব্য উপস্থাপনা হ'ল ডেটাসেট। এটি সর্বদা এবং মুক্ত প্রশ্ন is অনেক ক্ষেত্রে, যেখানে ডেটা সেটটি জটিল, আপনি দিনব্যাপী বৈশিষ্ট্যগুলি ইঞ্জিনিয়ার করতে পারেন, তবে আপনি অ্যালগোরিদমে আরও এবং বেশি শব্দ ছুঁড়ে মারার ঝুঁকিপূর্ণ। কোন বৈশিষ্ট্যগুলি যুক্ত করতে হবে তা জানতে আপনার অবশ্যই কোনও বৈশিষ্ট্যটি একটি পরিসংখ্যানগত দৃষ্টিকোণ থেকে অর্থবোধ তৈরি করে এবং কোনটি ডোমেন বিশেষজ্ঞের দৃষ্টিকোণ থেকে বোঝায়।

এই দুটি কারণে, আমি এই সিদ্ধান্তে পৌঁছেছি যে না, আপনি কোনও অ্যালগরিদম খুঁজে পেতে সক্ষম হবেন না যা স্বয়ংক্রিয়ভাবে সেরা সম্ভাব্য মডেলটি খুঁজে পায় । এই কারণেই আমি সফটওয়্যার বিক্রেতাদের পিচিং সরঞ্জামগুলিতে সন্দেহ করি যা ডেটা বিজ্ঞানীদের প্রয়োজনের প্রতিস্থাপন করে।

তবে, যদি আপনি সর্বোত্তম হাইপার প্যারামিটার সহ, মডেলগুলির একটি নির্দিষ্ট সেট থেকে সেরা মডেল সন্ধানের জন্য আপনার উচ্চাকাঙ্ক্ষাকে সংকীর্ণ করে থাকেন, যেখানে 'সেরা' কোনও প্রশিক্ষণ সংস্থায় সর্বোচ্চ ভবিষ্যদ্বাণীমূলক নির্ভুলতা হিসাবে সংজ্ঞায়িত করা হয় তবে হ্যাঁ, এটি সম্ভব this

কীভাবে স্বয়ংক্রিয়ভাবে মডেলগুলি টিউন করবেন তার উদাহরণ হিসাবে caretপ্যাকেজটি দেখুন Rcaretগ্রিড অনুসন্ধান ব্যবহার করে, যার ত্রুটি রয়েছে এবং এটি একবারে কেবল একটি মডেল তৈরি করে। তবে বিভিন্ন বিভিন্ন প্যাকেজ থেকে মডেলের দীর্ঘ তালিকার জন্য মডেল এবং সুবিধাজনক মোড়কের তুলনা করার জন্য বিভিন্ন কার্য রয়েছে R


আমি সম্মত হই যে আমরা এখনও সম্পূর্ণ স্বয়ংক্রিয়ভাবে মেশিন লার্নিং থেকে অনেক দূরে রয়েছি, তবে আপনি যে কারণে উল্লেখ করেছেন তা নয়। দুটি জিনিস: (i) প্রদত্ত সেট থেকে সেরা মডেল (+ এর হাইপারপাটারিগুলি অনুকূলকরণ) ইতিমধ্যে সম্ভব এবং (ii) বৈশিষ্ট্য ইঞ্জিনিয়ারিং এবং বৈশিষ্ট্য নিষ্কাশন গভীর শিক্ষার অগ্রগতির কারণে গুরুত্ব হারাচ্ছে losing আমাদের বর্তমানে যে প্রধান বিষয়টির অভাব রয়েছে তা হ'ল পূর্ব জ্ঞান এবং ক্ষেত্রের নির্দিষ্ট জ্ঞানকে অন্তর্ভুক্ত করার স্বয়ংক্রিয় উপায়।
মার্ক ক্লিসেন

আমার ধারণা (আমি) সেরা মডেলটি খুঁজে পেতে এবং (ii) সেরা বৈশিষ্ট্যগুলি সন্ধানের সাহায্য ব্যতীত "পূর্ববর্তী জ্ঞান এবং ক্ষেত্রের নির্দিষ্ট জ্ঞান" এমএল প্রক্রিয়াটিকে কীভাবে উন্নত করতে পারে তা আমি দেখতে পাই না। আমি দ্বিতীয় থেকে শেষ অনুচ্ছেদের সাথে সত্য মডেল এবং অনুকূল (সর্বাধিক নির্ভুলতা) মডেলগুলির মধ্যে পার্থক্য করার চেষ্টা করেছি।
ব্র্যান্ডকো

মডেলিং প্রক্রিয়ায় যেমন ভ্রান্ত লেবেল এবং / অথবা তথ্য ফাঁসের প্রকট ত্রুটিগুলি উদঘাটনের জন্য, কীভাবে অনুপস্থিত ডেটা মোকাবেলা করতে হবে, আসল শেখার কার্যটি চিহ্নিতকরণ (+ একটি উপযুক্ত স্কোর / ক্ষতি ফাংশন) এবং সাধারণত একটি সম্পূর্ণ ডেটা ক্লিনআপ (যা সর্বদা থাকে আমি জড়িত সমস্ত ব্যবহারিক সমস্যার মূল প্রচেষ্টা ছিল)।
মার্ক ক্লেসেন

2

আপনি কাকে জিজ্ঞাসা করেন তার উপর নির্ভর করে।

আমি সম্প্রতি কনটেক্সট রিলেভেন্টে স্কট গোল্ডারের একটি বক্তব্য শুনেছি । তাদের পণ্যটি মূলত একটি বৈশিষ্ট্য এবং মডেল নির্বাচন রোবট। মূল অন্তর্নিহিত মডেলটি লজিস্টিক রিগ্রেশন, তবে সিস্টেমটি মূলত সঠিক ভবিষ্যদ্বাণী উত্পন্ন করার জন্য বৈশিষ্ট্য নির্বাচন, মাত্রা হ্রাস, নিয়মিতকরণ ইত্যাদির সঠিক সংমিশ্রণটি সনাক্ত করতে মেশিন লার্নিং ব্যবহার করে। এটি একটি খুব চিত্তাকর্ষক বক্তৃতা ছিল, এবং বিবরণগুলি সমস্ত খুব স্বত্বাধিকারী। স্পষ্টতই তাদের ক্লায়েন্টদের মধ্যে প্রধান আর্থিক সংস্থাগুলি অন্তর্ভুক্ত রয়েছে এবং সিস্টেমটি নির্বিচারে বিশাল ডেটা সেটগুলি পরিচালনা করতে পারে।

কমপক্ষে কয়েকটি লোক মনে হয় স্বয়ংক্রিয়ভাবে ডেটা বিজ্ঞান ইতিমধ্যে এখানে রয়েছে, কমপক্ষে কিছু নির্দিষ্ট অ্যাপ্লিকেশনের জন্য। এবং এই লোকগুলির মধ্যে কিছু (প্রাসঙ্গিক সম্পর্কিত ক্লায়েন্ট) এটিকে অ্যাক্সেসের জন্য স্পষ্টতই নাক দিয়ে অর্থ প্রদান করছে।


1

না এটি স্বপ্ন নয়। H2O মেশিন লার্নিং লাইব্রেরিতে আমরা এটি (আপনার উল্লিখিত সমস্ত কৌশলগুলির সংমিশ্রণ, স্ট্যাকড এনসেম্বেলস সহ) প্রয়োগ করেছি । আপনি এটি সম্পর্কে আরও পড়তে পারেন এবং এখানে আর এবং পাইথনের কোড উদাহরণগুলি খুঁজে পেতে পারেন ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.