নতুন পর্যবেক্ষণ উপলব্ধ থাকলে কোনও মডেলকে পুনরায় প্রশিক্ষণ দেওয়া উচিত?


28

সুতরাং, আমি এই বিষয়ে কোনও সাহিত্যের সন্ধান করতে পারিনি তবে মনে হচ্ছে এটি একটি মূল্যবান মূল্য দেওয়ার মতো:

  • নতুন পর্যবেক্ষণ উপলব্ধ থাকলে মডেল প্রশিক্ষণ এবং অনুকূলকরণের সেরা অনুশীলনগুলি কী কী?

  • পূর্বাভাস হ্রাস শুরু হওয়ার আগে কোনও মডেল পুনরায় প্রশিক্ষণের সময়কাল / ফ্রিকোয়েন্সি নির্ধারণ করার কোনও উপায় আছে কি?

  • সামগ্রিক ডেটার জন্য প্যারামিটারগুলি পুনরায় অনুকূলিত করা হলে এটি কি অত্যধিক মানানসই?

মনে রাখবেন যে পড়াশোনা অগত্যা অনলাইনে নাও হতে পারে। সাম্প্রতিক ভবিষ্যদ্বাণীগুলিতে উল্লেখযোগ্য বৈকল্পিকতা পর্যবেক্ষণ করে কেউ একটি বিদ্যমান মডেলটিকে আপগ্রেড করতে চাইতে পারে।


উত্তরটি ব্যবসায়ের ডোমেন এবং নির্দিষ্ট মডেল অ্যাপ্লিকেশনটির উপর নির্ভর করে।
পিট

উত্তর:


16
  1. একবার কোনও মডেল প্রশিক্ষিত হয়ে গেলে এবং আপনি নতুন ডেটা পাবেন যা প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে, আপনি আগের মডেলটি লোড করতে এবং এটিতে প্রশিক্ষণ দিতে পারেন। উদাহরণস্বরূপ, আপনি নিজের মডেলটিকে .pickleফাইল হিসাবে সংরক্ষণ করতে পারেন এবং এটিকে লোড করতে এবং নতুন ডেটা উপলভ্য হলে এটিতে আরও প্রশিক্ষণ দিতে পারেন। মনে রাখবেন যে মডেলটি সঠিকভাবে পূর্বাভাস দেওয়ার জন্য the new training data should have a similar distribution as the past data,।
  2. আপনি যে ডেটাसेट ব্যবহার করছেন তার উপর ভিত্তি করে ভবিষ্যদ্বাণীগুলি হ্রাস পেতে থাকে। উদাহরণস্বরূপ, আপনি যদি টুইটার ডেটা ব্যবহার করে প্রশিক্ষণের চেষ্টা করছেন এবং আপনি এমন কোনও পণ্য সম্পর্কিত ডেটা সংগ্রহ করেছেন যা সেদিন ব্যাপকভাবে টুইট হয়েছে। তবে আপনি যদি কিছু দিন পরে সেই টুইটগুলি ব্যবহার করেন যখন সেই পণ্যটি নিয়ে আলোচনা হয় না, তবে এটি পক্ষপাতদুষ্ট হতে পারে। The frequency will be dependent on datasetএবং এ জাতীয়ভাবে নির্দিষ্ট করার জন্য নির্দিষ্ট সময় নেই। If you observe that your new incoming data is deviating vastly, then it is a good practise to retrain the model
  3. সমষ্টিভিত্তিক ডেটাগুলিতে প্যারামিটারগুলি অনুকূল করা অত্যধিক উপযোগী নয়। বড় ডেটা অতিরিক্ত সাফল্য বোঝায় না। অতিরিক্ত-ফিটিংয়ের জন্য পরীক্ষা করতে ক্রস বৈধতা ব্যবহার করুন।

সুতরাং ডেটা-সেট আসার প্রকৃতি যদি পুরো জুড়ে সামঞ্জস্য বজায় থাকে তবে মডেলটি শিখতে পারে এমন নতুন কিছু নেই?
ব্যবহারকারী140323

যদি ডেটা পরিবর্তন না হয় এবং আপনি যদি বর্তমান মডেলের যথার্থতার সাথে সন্তুষ্ট হন তবে আমি এটি পুনরায় প্রশিক্ষণের কোনও অর্থ দেখছি না।
হিমা বর্ষা

@ আয়ুষ, সম্ভবত আপনি আগত ডেটা বৈধতা সেট হিসাবে ব্যবহার করতে পারেন এবং আপনার বর্তমান মডেলটি পরীক্ষা করতে পারেন।
হিমা বর্ষা

এখনও গ্রহণ করতে খুব তাড়াতাড়ি, তবে আমি করব। ধন্যবাদ!
ব্যবহারকারী140323

হ্যালো @ tktktk0711, আপনাকে দেখানোর জন্য আমার কাছে বর্তমানে কোনও কোড নেই। তবে কেবল এটির মধ্য দিয়ে যান যা কোডের সাথে অন্য কোনও লিঙ্কে নির্দেশ করে। github.com/tflearn/tflearn/issues/39
হিমা বর্ষা

20

যখন নতুন পর্যবেক্ষণগুলি উপলভ্য থাকে তখন আপনার মডেলটিকে পুনরায় প্রশিক্ষণের জন্য তিনটি উপায় রয়েছে:

  1. অনলাইন: প্রতিবার একটি নতুন পর্যবেক্ষণ পাওয়া গেলে, আপনি আপনার মডেলটিকে আরও প্রশিক্ষণের জন্য এই একক ডেটা পয়েন্টটি ব্যবহার করেন (উদাহরণস্বরূপ আপনার বর্তমান মডেলটি লোড করুন এবং সেই একক পর্যবেক্ষণের সাথে ব্যাকপ্রোপেশন করে আরও প্রশিক্ষণ দিন)। এই পদ্ধতির সাহায্যে আপনার মডেলটি ক্রমানুসারে পদ্ধতিতে শিখবে এবং স্থানীয়ভাবে আপনার ডেটাতে সাজানো যাতে এটি পুরানো পর্যবেক্ষণের চেয়ে সাম্প্রতিক পর্যবেক্ষণ দ্বারা আরও বেশি প্রভাবিত হবে। এটি এমন পরিস্থিতিতে কার্যকর হতে পারে যেখানে আপনার মডেলটিকে গতিশীলভাবে ডেটাতে নতুন প্যাটার্নগুলির সাথে মানিয়ে নিতে হবে। আপনি যখন অত্যন্ত বড় ডেটা সেটগুলির সাথে কাজ করছেন তখন এটি কার্যকর হয় যার জন্য একবারে এর সমস্ত সম্পর্কে প্রশিক্ষণ অসম্ভব।
  2. অফলাইন: আপনি আপনার ইতিমধ্যে বিদ্যমান ডেটা সেটে নতুন পর্যবেক্ষণগুলি যুক্ত করুন এবং পুরোপুরি এই নতুন, আরও বড় ডেটা সেটটিতে আপনার মডেলটিকে পুনরায় প্রশিক্ষণ করুন। এটি সাধারণত লক্ষ্য ফাংশনের আরও ভাল গ্লোবাল অনুমানের দিকে পরিচালিত করে এবং আপনার যদি একটি নির্দিষ্ট ডেটা সেট থাকে, বা আপনার কাছে প্রায়শই নতুন পর্যবেক্ষণ না হয় তবে এটি খুব জনপ্রিয়। তবে এটি বড় ডেটা সেটগুলির জন্য অযৌক্তিক।
  3. এনএন

বেশিরভাগ মডেলগুলি আজ ব্যাচ / মিনি ব্যাচ ব্যবহার করবে এবং ব্যাচের আকারের জন্য পছন্দটি আপনার অ্যাপ্লিকেশন এবং মডেলের উপর নির্ভর করবে। সঠিক আকারের ব্যাচ নির্বাচন করা আপনার মডেলটিকে পুনরায় প্রশিক্ষণ দেওয়ার জন্য সঠিক ফ্রিকোয়েন্সি চয়ন করার সমান। যদি আপনার নতুন পর্যবেক্ষণটি আপনার বিদ্যমান ডেটাগুলির সাথে স্বল্প পরিমাণে পরিবর্তন করে থাকে তবে আমি বৃহত্তর ব্যাচগুলি প্রস্তাব করতে পারি (সম্ভবত 256-512) এবং যদি বিপরীতভাবে নতুন পর্যবেক্ষণগুলি আপনার বিদ্যমান ডেটার সাথে ব্যাপকভাবে পরিবর্তিত হয়, ছোট ব্যাচগুলি ব্যবহার করুন (8-256)। দিনের শেষে, ব্যাচের আকার অন্য ধরণের হাইপার-প্যারামিটারের মতো যা আপনাকে টিউন করতে হবে এবং যা আপনার ডেটাতে নির্দিষ্ট


হাই, আমি আপনাকে অনলাইনে জিজ্ঞাসা করতে চাই: নতুন ডেটার জন্য অনলাইন হিসাবে। এই পদ্ধতিটি কি কিছু এমএল মডেলকে সীমাবদ্ধ করে, মানে পুরো মেশিন শেখা নয়।
tktktk0711

আপনি কি কোনও টেনসরফ্লো উদাহরণগুলি জানেন যা ব্যাচ ব্যবহার করে ?
ম্যাক্সিম্মে

1

আপনার সমস্যা অনলাইন লার্নিং পদ্ধতির ছত্রছায়ায় আসে। আগত ডেটার একটি স্ট্রিম ধরে নিলে, আপনি সেই একক উদাহরণ ব্যবহার করে আপনার মডেল প্যারামিটারগুলি আপডেট করতে স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত পদ্ধতিটি ব্যবহার করতে পারেন।

যদি আপনার ব্যয় ফাংশনটি হয়:

সর্বনিম্নθজে(এক্স,Y,θ)

θএক্সআমি,Yআমি

θটি=θটি-1-θজে(এক্সআমি,Yআমি)

এটি মূলত ব্যাচের আকার 1 সহ এসজিডি।

অন্য একটি কৌশল আছে, আপনি উইন্ডো / বাফার ভিত্তিক পদ্ধতি অবলম্বন করতে পারেন, যেখানে আপনি স্ট্রিম থেকে কয়েকটি উদাহরণ বাফার করেন এবং এটিকে ব্যাচ হিসাবে বিবেচনা করুন এবং ব্যাচ এসজিডি ব্যবহার করুন। সেক্ষেত্রে আপডেট সমীকরণটি হয়ে উঠবে:

θটি=θটি-1-Σআমিθজে(এক্সআমি,Yআমি)

এটি মূলত মিনি ব্যাচের এসজিডি।


0

প্রশ্ন: আপনি কি পুনরায় প্রশিক্ষণ করবেন?

উত্তরটি আপনার মডেলটি কী করার চেষ্টা করে এবং কোন পরিবেশে এটি প্রয়োগ করা হয় তার উপর নির্ভর করে।

আমি কয়েকটি উদাহরণ দিয়ে ব্যাখ্যা করতে পারি:

মনে করুন যে আপনার মডেল গ্রাহকদের আচরণ সম্পর্কে ভবিষ্যদ্বাণী করার চেষ্টা করে, যেমন কোনও গ্রাহক তার জন্য উপযুক্ত কোনও প্রস্তাব দেওয়ার পরে আপনার পণ্য কেনার সম্ভাবনা কতটা সম্ভব। স্পষ্টতই, সময়ের সাথে সাথে বাজার পরিবর্তিত হয়, গ্রাহকদের পছন্দসমূহ পরিবর্তন হয় এবং আপনার প্রতিযোগীরা সমন্বয় করে। আপনার পাশাপাশি সামঞ্জস্য করা উচিত, তাই আপনাকে পর্যায়ক্রমে পুনরায় প্রশিক্ষণ করা দরকার। এই জাতীয় ক্ষেত্রে আমি নতুন ডেটা যুক্ত করার পরামর্শ দিচ্ছি, তবে পুরানো ডেটা বাদ দেবে যা আর প্রাসঙ্গিক নয়। যদি বাজারটি দ্রুত পরিবর্তিত হয় তবে আপনার কেবলমাত্র নতুন ডেটার উপর ভিত্তি করে পর্যায়ক্রমে পুনরায় প্রশিক্ষণের বিষয়টি বিবেচনা করা উচিত।

অন্যদিকে, যদি আপনার মডেল চিকিত্সা শর্তে কিছু ইমেজিং (উদাহরণস্বরূপ এক্স-রে বা এমআরআই) শ্রেণিবদ্ধ করেন এবং মডেলটি ভাল পারফর্ম করে, তবে প্রযুক্তি বা চিকিত্সা সম্পর্কিত কোনও উপায় পরিবর্তন না হলে আপনাকে পুনরায় প্রশিক্ষণের দরকার নেই do । আরও ডেটা যুক্ত করা খুব বেশি উন্নতি করবে না।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.