ফিচার সিলেকশন এবং হাইপারপ্যারমিটার অপ্টিমাইজেশন কীভাবে মেশিন লার্নিং পাইপলাইনে অর্ডার করা উচিত?


15

সেন্সর সংকেতগুলিকে শ্রেণিবদ্ধ করা আমার উদ্দেশ্য। আমার সমাধানটির এখনও অবধি ধারণাটি হ'ল: i) কাঁচা সংকেত থেকে ইঞ্জিনিয়ারিং বৈশিষ্ট্য ii) রিলিফএফ এবং একটি ক্লাস্টারিং পদ্ধতির সাথে প্রাসঙ্গিক বৈশিষ্ট্য নির্বাচন করা iii) এনএন, র্যান্ডম ফরেস্ট এবং এসভিএম প্রয়োগ করুন

তবে আমি একটি দ্বিধায় পড়েছি in Ii) এবং iii) তে রিলিফএফ বা উইন্ডো দৈর্ঘ্যের জন্য কে-নিকটতম নেগবার্সের মতো হাইপারপ্যারামিটার রয়েছে, যার জন্য সেন্সর সংকেতটি মূল্যায়ন করা হয়, বা এনএন এর প্রতিটি স্তরের গোপন ইউনিটের সংখ্যা

এখানে আমি এখানে 3 টি সমস্যা দেখছি: 1) বৈশিষ্ট্য নির্বাচনের পরামিতিগুলি শ্রেণিবদ্ধের কর্মক্ষমতাকে প্রভাবিত করবে 2) শ্রেণিবদ্ধের হাইপারপ্যারামিটারের অনুকূলকরণ বৈশিষ্ট্যগুলির পছন্দকে প্রভাবিত করবে। 3) কনফিগারেশনের প্রতিটি সম্ভাব্য সংমিশ্রণের মূল্যায়ন অবিচল।

সুতরাং আমার প্রশ্নগুলি হ'ল: ক) আমি কী একটি সরলকরণ অনুমান করতে পারি, সেন্ট টিউনিং বৈশিষ্ট্য নির্বাচনের পরামিতিগুলিকে ক্লাসিফায়ার পরামিতিগুলি টিউন করা যেতে পারে? খ) অন্য কোন সম্ভাব্য সমাধান আছে?


আমি মনে করি বৈশিষ্ট্য নির্বাচনের টিউনিং এবং শ্রেণিবদ্ধ টিউনটি ডিক্লোলিং বৈধ, যেহেতু রিলিফএফের হিউরিটসিক আন্তঃ-শ্রেণীর বৈচিত্রকে সর্বাধিক করে তোলা এবং অন্তর্-শ্রেণীর বৈচিত্রকে কমিয়ে আনা যা একটি ভাল শ্রেণিবদ্ধকেও নির্দেশ করে। রিলিফএফের জন্য সর্বোত্তম প্যারামিটারগুলির জন্য টিউন করা একটি ভাল শ্রেণিবদ্ধকে আরও 'সম্ভাবনা' করে তোলে। তবে এই ধারণাকে ব্যাক করার জন্য গাণিতিক সূত্র রাখা খুব সুন্দর হবে।
গ্রুনওয়ালস্কি

1
এই প্রশ্নের একটি নির্দিষ্ট বৈকল্পিক: বৈশিষ্ট্য নির্বাচনটি ক্রসওডিয়েশন রুটিনের অংশ হওয়া উচিত (যেমন: # প্রতিটি শ্রেণিবদ্ধ হাইপারপ্যারাম সেট: # প্রতিটি কে-ফোল্ড সিভি চালানোর জন্য: 1) বৈশিষ্ট্য নির্বাচন, 2) বৈশিষ্ট্য স্কেলিং, 3) শ্রেণিবদ্ধ ফিট 4) পরীক্ষা সেট ভবিষ্যদ্বাণী?
নিকোলাস রিবেল

1
@ নিকোলাসআরেবল আমি কেবলমাত্র মূল প্রশ্নের উত্তর লিখেছিলাম, এবং আপনার প্রশ্নের
উত্তরেও

উত্তর:


15

আপনি ইতিমধ্যে নিজেকে পর্যবেক্ষণ করার মতো, আপনার বৈশিষ্ট্যগুলির পছন্দ (বৈশিষ্ট্য নির্বাচন) এর প্রভাব থাকতে পারে যার উপরে আপনার অ্যালগোরিদমের হাইপারপ্যারামিটারগুলি সর্বোত্তম এবং আপনার অ্যালগরিদমের জন্য আপনি কোন হাইপারপ্যারামিটারগুলি নির্বাচন করেন তাতে কোন বৈশিষ্ট্যগুলির পছন্দটি সর্বোত্তম হবে তার উপর প্রভাব ফেলতে পারে।

সুতরাং, হ্যাঁ, আপনি যদি সত্যিই আপনার মডেলটির বাইরে থাকা প্রতিটি পারফরম্যান্সকে ছড়িয়ে দেওয়ার বিষয়ে যত্নবান হন এবং আপনি প্রয়োজনীয় পরিমাণ গণনা সামর্থ্য করতে পারেন তবে সেরা সমাধান সম্ভবত "একই সাথে" বৈশিষ্ট্য নির্বাচন এবং হাইপারপ্যারাম্টার টিউনিং করা। যদিও এটি সম্ভবত সহজ নয় (আপনি কীভাবে বৈশিষ্ট্য নির্বাচন করবেন তার উপর নির্ভর করে)। আমি এটি যেভাবে কাজ করেছিলাম তা কল্পনা করার মতো হবে প্রার্থী হিসাবে বিভিন্ন বৈশিষ্ট্যযুক্ত বৈশিষ্ট্য থাকা এবং সেই সমস্ত প্রার্থীর মধ্যে একটি সেট বৈশিষ্ট্য একটি অতিরিক্ত হাইপারপ্যারামিটার হিসাবে সেট করে চিকিত্সা করা।

অনুশীলনে এটি যদিও বাস্তবে সম্ভব হবে না। সাধারণভাবে, যদি আপনি সমস্ত সম্ভাব্য সংমিশ্রণের মূল্যায়ন করতে না পারেন, তবে আমি সুপারিশ করব:

  1. হাইপারপ্রেমিটারগুলিকে খুব আলগাভাবে অপ্টিমাইজ করুন, কেবলমাত্র এটি নিশ্চিত করার জন্য যে আপনি কিছু হাইপারপ্যারামিটারগুলিতে অত্যন্ত খারাপ মান নির্ধারণ করেন না। আপনার হাইপারপ্যারামিটারগুলি সম্পর্কে আপনার যদি ভাল জ্ঞান থাকে বা খুব সংক্ষিপ্ত হাইপারপ্যারমিটার অপ্টিমাইজেশন পদ্ধতিটি সম্পন্ন করে তবে আপনি কেবল অন্যথায় ভাল হতে জানেন এমন বৈশিষ্ট্যগুলির একটি গুচ্ছ ব্যবহার করে এটি প্রায়শই হাত দ্বারা করা যেতে পারে।

  2. হাইপারপ্যারামিটারগুলির সাথে বৈশিষ্ট্য নির্বাচন, যা সম্ভবত 100% অনুকূলিত নয় তবে কমপক্ষে অত্যন্ত ভয়ঙ্করও নয় terrible আপনার যদি ইতিমধ্যে কমপক্ষে কিছুটা শালীনভাবে কনফিগার করা মেশিন লার্নিং অ্যালগরিদম থাকে তবে ভাল বৈশিষ্ট্যগুলি মাইক্রো-অপটিমাইজিং হাইপারপ্যারামিটারগুলির চেয়ে আপনার পারফরম্যান্সের জন্য উল্লেখযোগ্যভাবে গুরুত্বপূর্ণ হবে। চরম উদাহরণ: আপনার কোনও বৈশিষ্ট্য না থাকলে আপনি কোনও কিছুর পূর্বাভাস দিতে পারবেন না। আপনার যদি কোনও প্রতারণামূলক বৈশিষ্ট্য থাকে যাতে শ্রেণীর লেবেল থাকে তবে আপনি সবকিছুকে নিখুঁতভাবে শ্রেণিবদ্ধ করতে পারেন।

  3. উপরের পদক্ষেপে নির্বাচিত বৈশিষ্ট্যগুলি সহ হাইপারপ্যারামিটারগুলি অনুকূল করুন। এটি এখনই একটি ভাল বৈশিষ্ট্যযুক্ত সেট হওয়া উচিত, যেখানে এটি হাইপারপ্যারামগুলিকে কিছুটা অনুকূল করতে পারে।


এই সমস্ত বিষয় (বৈশিষ্ট্য নির্বাচন, হাইপারপ্যারমিটার অপ্টিমাইজেশন) কে-ফোল্ড ক্রস বৈধতার সাথে কীভাবে ইন্টারঅ্যাক্ট করে তা নিয়ে নোকলাস মন্তব্যগুলিতে পোস্ট করা অতিরিক্ত প্রশ্নের সমাধানের জন্য: আমি বলব এটি নির্ভর করে।

আপনি যখনই কোনও ফোল্ডারের কোনওটিতে ডেটা ব্যবহার করেন এবং তারপরে একই ভাঁজটিতে পারফরম্যান্সটি মূল্যায়ন করেন, আপনি আপনার পারফরম্যান্সের পক্ষপাতদুষ্ট অনুমান পাবেন (আপনি পারফরম্যান্সকে বেশি মূল্যায়ন করবেন)। সুতরাং, যদি আপনি বৈশিষ্ট্য নির্বাচনের পদক্ষেপের জন্য সমস্ত ভাঁজে ডেটা ব্যবহার করেন এবং তারপরে সেই ফোল্ডগুলির প্রত্যেকটির পারফরম্যান্সের মূল্যায়ন করেন তবে আপনি তাদের প্রতিটিটির জন্য পারফরম্যান্সের পক্ষপাতদুষ্ট অনুমান পাবেন (যা ভাল নয়)। একইভাবে, যদি আপনার কাছে ডেটা-চালিত হাইপারপ্যারামিটার অপ্টিমাইজেশন থাকে এবং নির্দিষ্ট ভাঁজগুলি (বা সমস্ত ভাঁজ) থেকে ডেটা ব্যবহার করা হয় এবং সেই একই ভাঁজগুলিতে মূল্যায়ন করা হয়, আপনি আবার কার্য সম্পাদনের পক্ষপাতদুষ্ট অনুমান পাবেন। সম্ভাব্য সমাধানগুলি হ'ল:

  1. প্রতিটি ভাঁজের মধ্যে পৃথকভাবে সম্পূর্ণ পাইপলাইন পুনরাবৃত্তি করুন (উদাহরণস্বরূপ প্রতিটি ভাঁজের মধ্যে বৈশিষ্ট্য নির্বাচন + হাইপারপ্যারমিটার অপ্টিমাইজেশন এবং প্রশিক্ষণ মডেল করুন)। এটি করার অর্থ হ'ল কে-ফোল্ড ক্রস বৈধতা আপনাকে এই সম্পূর্ণ পাইপলাইনটির পারফরম্যান্সের পক্ষপাতহীন অনুমান দেয় ।

  2. আপনার প্রারম্ভিক ডেটাসেটটি একটি '' প্রিপ্রোসেসিং ডেটাসেট '' এবং একটি '' ট্রেন / টেস্ট ডেটাসেট '' এ বিভক্ত করুন। আপনি '' প্রিপ্রসেসিং ডেটাসেট '' এ আপনার বৈশিষ্ট্য নির্বাচন + হাইপারপ্যারমিটার অপ্টিমাইজেশন করতে পারেন। তারপরে, আপনি আপনার নির্বাচিত বৈশিষ্ট্য এবং হাইপারপ্যারামিটারগুলি ঠিক করেন এবং '' ট্রেন / টেস্ট ডেটাসেট '' তে কে-ফোল্ড ক্রস বৈধকরণ করেন। এটি করার অর্থ হ'ল কে-ফোল্ড ক্রস বৈধতা আপনাকে স্থির বৈশিষ্ট্য-সেট এবং হাইপারপাটারমিটার মানগুলি দিয়ে আপনার এমএল অ্যালগরিদমের পারফরম্যান্সের পক্ষপাতহীন অনুমান দেয় ।

দুটি সমাধান কীভাবে পারফরম্যান্সের কিছুটা পৃথক অনুমানের ফলাফল দেয় তা নোট করুন। কোনটি আরও আকর্ষণীয় তা আপনার ব্যবহারের ক্ষেত্রে নির্ভর করে, আপনি কীভাবে অনুশীলনে আপনার মেশিন লার্নিং সলিউশন স্থাপন করতে চান তার উপর নির্ভর করে। আপনি যদি উদাহরণস্বরূপ, এমন একটি সংস্থা যা বৈশিষ্ট্য নির্বাচনের সম্পূর্ণ পাইপলাইন + হাইপারপ্যারমিটার অপ্টিমাইজেশন + প্রশিক্ষণ প্রতি দিন / সপ্তাহ / মাস / বছর / যাই হোক না কেন স্বয়ংক্রিয়ভাবে চলমান চায়, আপনিও সেই সম্পূর্ণটির সম্পাদনায় আগ্রহী হবেন পাইপলাইন, এবং আপনি প্রথম সমাধান চান।

অন্যদিকে, আপনি যদি আপনার জীবনে একবারে কেবল বৈশিষ্ট্য নির্বাচন + হাইপারপ্যারমিটার অপ্টিমাইজেশন করতে সক্ষম হন এবং তারপরে কেবল কিছুটা নিয়মিত আপনার অ্যালগরিদমকে পুনরায় প্রশিক্ষণ করুন (বৈশিষ্ট্য-সেট এবং হাইপারপ্যারাম মানগুলি স্থির করে), তবে পারফরম্যান্স কেবলমাত্র সেই পদক্ষেপটিই আপনার আগ্রহী এবং আপনার দ্বিতীয় সমাধানের দিকে যাওয়া উচিত


1
আপনি পাশাপাশি রেফারেন্স প্রদান করতে পারেন?
নিকোলাস রিবেল

1
এই পোস্টে একটি সুপরিচিত বইয়ের কিছু ছবি রয়েছে: নোডলপয়েন্ট / নোট- পারফর্ম- ফিচার- সিলেকশন । তারা আমার '' সম্ভাব্য সমাধান 1 '' এর সাথে একমত বলে মনে হচ্ছে। আমার নিজের ... ছাড়া অন্য মামলার জন্য প্রয়োজনীয় রেফারেন্স নেই? আমি সেখানে আমার যুক্তি / অনুপ্রেরণা সরবরাহ করেছি, যা আমার মতে চেক করা হয়, সুতরাং এটিই রেফারেন্স: ডি
ডেনিস সুমারস

1
ESL এর সেই অধ্যায়টি যে কোনও ভবিষ্যদ্বাণীমূলক মডেলারের জন্য 100% প্রয়োজনীয় পড়া উচিত।
ম্যাথু ড্রুরি

সুতরাং সলন 1 সম্পর্কিত, আপনি সিভিতে কয়েকটি আইটারে বৈশিষ্ট্য নির্বাচন (এফএস) এবং হাইপারপ্যারাম অপ্টিমাইজেশন (হো) চালানোর পরে আপনার চূড়ান্ত বৈশিষ্ট্য সেট এবং মডেল হাইপারপ্রেমেটারগুলি কীভাবে পাবেন? পাশাপাশি, আমরা যখন সিভি এর ইটারে এইগুলি সম্পাদন করি, আমরা কি প্রথমে fs চালাব এবং তারপরে হো those বৈশিষ্ট্যগুলি ব্যবহার করে?
এসএমএ

1
@ স্কিম সিভি সাধারণত পারফরম্যান্সের একটি ভাল অনুমান পেতে ব্যবহৃত হয়। আপনি সাধারণত ফোল্ডগুলির একটিতে প্রশিক্ষিত কোনও মডেল সরাসরি ব্যবহার শুরু করবেন না । আপনি যদি সিভিয়ের মাধ্যমে অনুমান অনুযায়ী পারফরম্যান্স সন্তুষ্টিকর বলে মনে করেন তবে আপনি সম্পূর্ণ প্রশিক্ষণ ডেটাসেটে (আবার, বৈশিষ্ট্য নির্বাচন এবং হাইপারপ্যারাম টিউনিং সহ) সম্পূর্ণ পাইপলাইনটি চালাবেন। বৈশিষ্ট্যটি সেট + হাইপারপ্যারামস + মডেল যা থেকে আপনি এটি পাবেন "প্রযোজনা"K1
ডেনিস সুমারস

4

হাইপার-প্যারামিটার টিউনিং এবং বৈশিষ্ট্য নির্বাচনকে একই করে এমন কোনও পদ্ধতির উল্লেখ কেউ করেনি তাই আমি এটি সম্পর্কে কথা বলব। এই ক্ষেত্রে আপনার শুরুতে সমস্ত বৈশিষ্ট্যগুলি ইঞ্জিনিয়ার করা উচিত এবং সেগুলি সমস্ত অন্তর্ভুক্ত করা উচিত।

পরিসংখ্যান সম্প্রদায়ের এখন গবেষণা বৈশিষ্ট্য নির্বাচনকে একটি টিউনিং মাপদণ্ড করার চেষ্টা করেছে। মূলত আপনি কোনও মডেলকে এমনভাবে শাস্তি দেন যাতে কেবলমাত্র কয়েকটি বৈশিষ্ট্য বেছে নেওয়া উত্সাহিত হয় যা এটি সেরা ভবিষ্যদ্বাণী করতে সহায়তা করে। আপনি কত বড় জরিমানা নিতে হবে তা নির্ধারণ করতে আপনি একটি টিউনিং প্যারামিটার যুক্ত করেন।

অন্য কথায় আপনি মডেলটিকে আপনার জন্য বৈশিষ্ট্যগুলি বাছাই করতে অনুমতি দেন এবং আপনার কম-বেশি বৈশিষ্ট্যের সংখ্যা নিয়ন্ত্রণ করতে পারেন। এটি আসলে গণনা হ্রাস করে কারণ আপনাকে আর কোন বৈশিষ্ট্যগুলি স্থির করতে হবে তা নয় ঠিক কতগুলি বৈশিষ্ট্য রয়েছে এবং বাকিগুলি কী মডেলটি করে does

সুতরাং আপনি যখন প্যারামিটারে ক্রস-বৈধকরণ করেন তখন আপনি কার্যকরভাবে বৈশিষ্ট্য নির্বাচনের ক্ষেত্রে ক্রস-বৈধকরণও করছেন।

ইতিমধ্যে অনেক এমএল মডেল রয়েছে যা এই বৈশিষ্ট্য নির্বাচনটি কোনও না কোনও উপায়ে অন্তর্ভুক্ত করে।

  • দ্বিগুণ-নিয়মিত সমর্থন ভেক্টর মেশিনগুলি যা সাধারণ এসভিএমের মতো তবে বৈশিষ্ট্য নির্বাচনের সাথে রয়েছে
  • ইলাস্টিক নেট যা লিনিয়ার রিগ্রেশন নিয়ে কাজ করে
  • নিউরাল নেটওয়ার্কগুলিতে ড্রপ-আউট নিয়মিতকরণ (এর জন্য রেফারেন্স নেই)
  • এলোমেলো বন সাধারণত বৈশিষ্ট্যগুলির এলোমেলো উপসেটগুলি করে তাই আপনার জন্য হ্যান্ডলগুলি বৈশিষ্ট্য নির্বাচন করে

সংক্ষেপে, জটিলতা হ্রাস করতে এবং ক্রস-বৈধকরণ করতে সক্ষম হওয়ার জন্য লোকেরা একই সাথে প্যারামিটার টিউনিং এবং বৈশিষ্ট্য নির্বাচনকে অন্তর্ভুক্ত করার চেষ্টা করেছে


0

@ ডেনিসসোমারের একটি দুর্দান্ত সমাধান রয়েছে। আমি দুটি অনুরূপ সমাধান যুক্ত করব যা কিছুটা আরও স্পষ্ট এবং ফিচার ইঞ্জিনিয়ারিং এবং নির্বাচনের উপর ভিত্তি করে : ম্যাক্স কুহন এবং কেজেল জনসনের ভবিষ্যদ্বাণীপূর্ণ মডেলগুলির জন্য একটি ব্যবহারিক পদ্ধতির

কুহন একটি ডেটাসেটের resampleবর্ণনা দেওয়ার জন্য শব্দটি ব্যবহার করে foldতবে স্ট্যাকএক্সচেঞ্জের প্রভাবশালী শব্দটি মনে হয় fold, তাই আমি foldনীচের শব্দটি ব্যবহার করব ।

বিকল্প 1 - নেস্টেড অনুসন্ধান

যদি গণনা শক্তি কোনও সীমাবদ্ধ ফ্যাক্টর না হয় তবে নেস্টেড বৈধতা পদ্ধতির সুপারিশ করা হয়, যেখানে বাসা বাঁধার তিনটি স্তর রয়েছে:

1) বাহ্যিক ভাঁজ, প্রতিটি ভাঁজ আলাদা বৈশিষ্ট্য উপসেট সহ with

2) একটি হাইপারপ্যারামিটার অনুসন্ধানের সাথে অভ্যন্তরীণ ভাঁজগুলি প্রতিটি ফোল্ড

3) প্রতিটি হাইপারপ্যারমিটার অনুসন্ধানের অভ্যন্তরীণ ভাঁজ, প্রতিটি ভাঁজ আলাদা হাইপারপ্যারামিটার সেট সহ।

এখানে আলগোরিদিম:

-> Split data into train and test sets.
-> For each external fold of train set:
    -> Select feature subset.
    -> Split into external train and test sets.

    -> For each internal fold of external train set:
        -> Split into internal train and test sets.
        -> Perform hyperparameter tuning on the internal train set. Note that this
           step is another level of nesting in which the internal train set is split
           into multiple folds and different hyperparameter sets are trained and tested on
           different folds.
    -> Examine the performance of the best hyperparameter tuned model 
       from each of the inner test folds. If performance is consistent, redo 
       the internal hyperparameter tuning step on the entire external train set.
    -> Test the model with the best hyperparameter set on the external test set.

-> Choose the feature set with the best external test score.
-> Retrain the model on all of the training data using the best feature set 
   and best hyperparameters for that feature set. 

এখানে চিত্র বর্ণনা লিখুন ১১.২ অধ্যায় থেকে চিত্র: সাধারণ ফিল্টার

-> Select feature subsetধাপ র্যান্ডম হতে উহ্য হয়, কিন্তু অন্যান্য কৌশল, যা বই রূপরেখা হয় অধ্যায় 11

স্পষ্ট করার জন্য -> Perform hyperparameter tuning step, আপনি নেস্টেড ক্রস বৈধতার প্রস্তাবিত পদ্ধতির সম্পর্কে পড়তে পারেন । ধারণাটি হ'ল বারবার ডেটাগুলির বিভিন্ন ভাঁজগুলিতে প্রশিক্ষণ এবং পরীক্ষার প্রক্রিয়া সম্পাদন করে এবং পরীক্ষার ফলাফলের গড়ের দিকে লক্ষ্য রেখে একটি প্রশিক্ষণ প্রক্রিয়াটির দৃust়তা পরীক্ষা করা।

বিকল্প 2 - পৃথক হাইপারপ্যারামিটার এবং বৈশিষ্ট্য নির্বাচন অনুসন্ধান

-> Split data into hyperameter_train, feature_selection_train, and test sets.

-> Select a reasonable subset of features using expert knowledge.

-> Perform nested cross validation with the initial features and the 
   hyperparameter_train set to find the best hyperparameters as outlined in option 1.

-> Use the best hyperparameters and the feature_selection_train set to find 
   the best set of features. Again, this process could be nested cross 
   validation or not, depending on the computational cost that it would take 
   and the cost that is tolerable.

এখানে কীভাবে কুহান এবং জনসন বাক্যটি প্রক্রিয়াটি লিখেছেন:

সুরক্ষা পরামিতিগুলির একটি মডেলটির সাথে বিশ্বব্যাপী অনুসন্ধান পদ্ধতির সংমিশ্রণের সময়, আমরা পরামর্শ দিই যে, সম্ভব হলে, সমস্যাটি সম্পর্কে বিশেষজ্ঞ জ্ঞান ব্যবহার করে প্রথমে বৈশিষ্ট্যটি সেটটি উইনউইন করে দেওয়া হবে। এরপরে, সুরক্ষা পরামিতি মানগুলির একটি যুক্তিসঙ্গত পরিসর চিহ্নিত করা গুরুত্বপূর্ণ। যদি পর্যাপ্ত সংখ্যক নমুনা পাওয়া যায় তবে এগুলির একটি অনুপাত বিভক্ত হয়ে যায় এবং সমস্ত বৈশিষ্ট্য ব্যবহার করে সম্ভাব্য ভাল পরামিতি মানগুলির একটি ব্যাপ্তি খুঁজে পাওয়া যায়। টিউনিং প্যারামিটার মানগুলি বৈশিষ্ট্য উপসেটগুলির জন্য নিখুঁত পছন্দ নাও হতে পারে তবে সর্বোত্তম উপসেট সন্ধানের জন্য এগুলি যথাযথভাবে কার্যকর হওয়া উচিত।

অধ্যায় 12.5: গ্লোবাল অনুসন্ধানের পদ্ধতি


-1

আমি মনে করি আপনি সেখানে বেশ কিছুটা ভাবছেন। বৈশিষ্ট্য নির্বাচন, যা বৈশিষ্ট্য ইঞ্জিনিয়ারিংয়ের অংশ, সাধারণত সহায়ক তবে কিছু অপ্রয়োজনীয় বৈশিষ্ট্য কোনও মেশিন লার্নিং সিস্টেমের প্রাথমিক পর্যায়ে খুব ক্ষতিকারক নয়। সুতরাং সর্বোত্তম অনুশীলন হ'ল আপনি প্রথমে সমস্ত অর্থবোধক বৈশিষ্ট্য উত্পন্ন করেন, তারপরে এ্যালগোরিদম এবং টিউন মডেলগুলি নির্বাচন করতে তাদের ব্যবহার করুন, মডেলটির টিউন করার পরে আপনি বৈশিষ্ট্য সেটটি ট্রিম করতে পারবেন বা নতুন বৈশিষ্ট্যগুলি ব্যবহার করার সিদ্ধান্ত নিতে পারেন।

মেশিন লার্নিং পদ্ধতিটি আসলে একটি পুনরাবৃত্তি প্রক্রিয়া, যার মধ্যে আপনি বৈশিষ্ট্য ইঞ্জিনিয়ারিং করেন, তারপরে কয়েকটি অ্যালগরিদম দিয়ে চেষ্টা করুন, তারপরে মডেলগুলিকে টিউন করুন এবং ফলাফলটি থেকে সন্তুষ্ট না হওয়া পর্যন্ত ফিরে যান।


আপনার অর্থ এটি চেষ্টা করছে যে এটি কাজ করে
অবিচ্ছিন্ন

এমএল পদ্ধতিতে চেষ্টা করা হচ্ছে, এলোমেলোভাবে নয়। প্রকৃতপক্ষে এমএল আসলে কিছুটা হলেও হ্যাকিংয়ের জন্য।
THN
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.