গ্রেডিয়েন্ট বংশোদ্ভূত এবং স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত মধ্যে পার্থক্য কি?


24

গ্রেডিয়েন্ট বংশোদ্ভূত এবং স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত মধ্যে পার্থক্য কি?

আমি এগুলির সাথে খুব বেশি পরিচিত নই, আপনি একটি সংক্ষিপ্ত উদাহরণ দিয়ে পার্থক্যটি বর্ণনা করতে পারবেন?

উত্তর:


28

দ্রুত সরল ব্যাখ্যার জন্য:

গ্রেডিয়েন্ট বংশোদ্ভূত (জিডি) এবং স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত (এসজিডি) উভয় ক্ষেত্রে, আপনি একটি ত্রুটি ফাংশন হ্রাস করতে পুনরাবৃত্ত পদ্ধতিতে প্যারামিটারগুলির একটি সেট আপডেট করেন।

জিডিতে থাকাকালীন, অন্যদিকে, এসজিডি-তে নির্দিষ্ট পুনরাবৃত্তির ক্ষেত্রে প্যারামিটারের জন্য একক আপডেট করতে আপনার প্রশিক্ষণে থাকা সমস্ত নমুনাগুলি চালাতে হয়, আপনি নিজের প্রশিক্ষণ সেট থেকে কেবলমাত্র এক বা প্রশিক্ষণের নমুনার সাবস্কিট ব্যবহার করতে পারেন একটি নির্দিষ্ট পুনরাবৃত্তিতে একটি পরামিতি জন্য আপডেট করতে। আপনি যদি সাবসেট ব্যবহার করেন তবে এটিকে মিনিবাচ স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত বলা হয়।

সুতরাং, যদি প্রশিক্ষণের নমুনাগুলির সংখ্যা বড় হয়, বাস্তবে খুব বড়, তবে গ্রেডিয়েন্ট বংশদ্ভুত ব্যবহার খুব বেশি সময় নিতে পারে কারণ প্রতিটি পুনরাবৃত্তিতে আপনি যখন প্যারামিটারগুলির মানগুলি আপডেট করছেন, আপনি সম্পূর্ণ প্রশিক্ষণের সেটটি চালাচ্ছেন। অন্যদিকে, এসজিডি ব্যবহার দ্রুত হবে কারণ আপনি কেবলমাত্র একটি প্রশিক্ষণের নমুনা ব্যবহার করেন এবং এটি প্রথম নমুনা থেকে সরাসরি নিজেকে উন্নত করা শুরু করে।

জিডির তুলনায় এসজিডি প্রায়শই আরও দ্রুত রূপান্তরিত করে তবে ত্রুটি ফাংশনটি জিডির ক্ষেত্রে ততটা হ্রাস করা যায় না। প্রায়শই বেশিরভাগ ক্ষেত্রে, পরামিতি মানগুলির জন্য আপনি এসজিডিতে যে ঘনিষ্ঠ সান্নিধ্য পান তা যথেষ্ট কারণ তারা অনুকূল মানগুলিতে পৌঁছে যায় এবং সেখানে দোদুল্যমান হয়।

যদি আপনার ব্যবহারিক ক্ষেত্রে এটির উদাহরণ প্রয়োজন হয় তবে অ্যান্ড্রু এনজির নোটগুলি এখানে দেখুন যেখানে তিনি উভয় ক্ষেত্রে জড়িত পদক্ষেপগুলি স্পষ্টভাবে দেখান। cs229-নোট

সূত্র: কওরা থ্রেড


ধন্যবাদ, সংক্ষেপে এই মত? গ্রেডিয়েন্ট বংশদ্ভুতের তিনটি রূপ রয়েছে: ব্যাচ, স্টোকাস্টিক এবং মিনিবাচ: সমস্ত প্রশিক্ষণের নমুনা মূল্যায়ন করার পরে ব্যাচ ওজনকে আপডেট করে। স্টোকাস্টিক, ওজন প্রতিটি প্রশিক্ষণের নমুনার পরে আপডেট করা হয়। মিনিব্যাচ উভয় বিশ্বের সেরা একত্রিত। আমরা সম্পূর্ণ ডেটা সেট ব্যবহার করি না, তবে আমরা একক ডেটা পয়েন্ট ব্যবহার করি না। আমরা আমাদের ডেটা সেট থেকে এলোমেলোভাবে নির্বাচিত ডেটার সেট ব্যবহার করি। এইভাবে, আমরা গণনা ব্যয় হ্রাস করি এবং স্টোকাস্টিক সংস্করণের চেয়ে কম বৈকল্পিকতা অর্জন করি।
বিকাশকারী

5

স্টোকাস্টিক শব্দের অন্তর্ভুক্ত করার অর্থ হ'ল প্রশিক্ষণ ডেটা থেকে র্যান্ডম নমুনাগুলি গ্রেডিয়েন্ট বংশোদ্ভূত কাঠামোর মধ্যে অপ্টিমাইজেশনের সময় প্যারামিটার আপডেট করার জন্য প্রতিটি রানেই বেছে নেওয়া হয় ।

তা না করে কেবল পুনরাবৃত্তিতে ত্রুটিগুলি এবং হালকা ওজনকে হালনাগাদ করা হয় না (কারণ আমরা কেবলমাত্র একযোগে নমুনার একটি ছোট নির্বাচন প্রক্রিয়া করি), এটি প্রায়শই আরও দ্রুত আরও সর্বোত্তম দিকে এগিয়ে যেতে সহায়তা করে। একটি আছে উত্তর লক্ষ্য করবেন সেগুলো এখানে কেন অফার সুবিধা প্রশিক্ষণ জন্য সম্ভাব্যতার সূত্রাবলি minibatches ব্যবহার হিসেবে আরও তথ্যের জন্য।

সবচেয়ে খারাপ দিকগুলির মধ্যে একটি হ'ল এটি হ'ল সর্বোত্তমের পথটি (এটি ধরে নেওয়া সর্বদা একই সর্বোত্তম হতে পারে) খুব উচ্চস্বরে হতে পারে। সুতরাং গ্রেডিয়েন্ট বংশোদ্ভূত প্রতিটি পুনরাবৃত্তিতে ত্রুটিটি কীভাবে কমছে তা দেখিয়ে একটি সুন্দর মসৃণ লোকসানের বক্ররেখার পরিবর্তে আপনি এ জাতীয় কিছু দেখতে পাবেন:

গোলমাল ক্ষতি বাঁকানো

আমরা সময়ের সাথে সাথে ক্ষয়ক্ষতি কমতে দেখি, তবে মহাকালের মহাকাল থেকে ট্রেনিং ব্যাচে ট্রেনিং ব্যাচ পর্যন্ত বিভিন্ন রকমের পরিবর্তন রয়েছে, তাই বক্ররেখা গোলমাল is

এটি কেবল কারণ আমরা প্রতিটি পুনরাবৃত্তিতে পুরো ডাটাবেস থেকে আমাদের stachastically / এলোমেলোভাবে নির্বাচিত সাবসেটের মধ্যে গড় ত্রুটি গণনা করি। কিছু নমুনা উচ্চ ত্রুটি উত্পাদন করবে, কিছু কম। সুতরাং গ্রেডিয়েন্ট বংশোদ্ভূত উত্সের এক পুনরাবৃত্তির জন্য আমরা এলোমেলোভাবে যে নমুনাগুলি ব্যবহার করেছি তার উপর নির্ভর করে গড়টি পরিবর্তিত হতে পারে।


ধন্যবাদ, সংক্ষেপে এই মত? গ্রেডিয়েন্ট বংশদ্ভুতের তিনটি রূপ রয়েছে: ব্যাচ, স্টোকাস্টিক এবং মিনিবাচ: সমস্ত প্রশিক্ষণের নমুনা মূল্যায়ন করার পরে ব্যাচ ওজনকে আপডেট করে। স্টোকাস্টিক, ওজন প্রতিটি প্রশিক্ষণের নমুনার পরে আপডেট করা হয়। মিনিব্যাচ উভয় বিশ্বের সেরা একত্রিত। আমরা সম্পূর্ণ ডেটা সেট ব্যবহার করি না, তবে আমরা একক ডেটা পয়েন্ট ব্যবহার করি না। আমরা আমাদের ডেটা সেট থেকে এলোমেলোভাবে নির্বাচিত ডেটার সেট ব্যবহার করি। এইভাবে, আমরা গণনা ব্যয় হ্রাস করি এবং স্টোকাস্টিক সংস্করণের চেয়ে কম বৈকল্পিকতা অর্জন করি।
বিকাশকারী

আমি বলব সেখানে ব্যাচ রয়েছে, যেখানে একটি ব্যাচ পুরো প্রশিক্ষণের সেট (তাই মূলত একটি যুগ), তারপরে মিনি-ব্যাচ রয়েছে, যেখানে একটি উপসেট ব্যবহার করা হয়েছে (সুতরাং পুরো সংখ্যার চেয়ে কোনও সংখ্যা কম) এন) - এই উপসেটটি এলোমেলোভাবে বেছে নেওয়া হয়েছে, সুতরাং এটি স্টোকাস্টিক। একটি একক নমুনা ব্যবহার করা অনলাইন লার্নিং হিসাবে উল্লেখ করা হবে , এবং এটি মিনি-ব্যাচের একটি উপসেট ... বা কেবল মিনি ব্যাচ সহ n=1
n1k31t4

tks, এটি পরিষ্কার!
ডাটদিনহোকোক

5

গ্রেডিয়েন্ট বংশোদ্ভূত বা ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূতিতে আমরা প্রথম যুগের পুরো প্রশিক্ষণের তথ্য ব্যবহার করি যেখানে স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূতিতে আমরা প্রতি যুগের জন্য একক প্রশিক্ষণের উদাহরণ ব্যবহার করি এবং মিনি-ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত এই দুটি চূড়ান্তের মধ্যে রয়েছে যা আমরা ব্যবহার করতে পারি যুগের আগে প্রশিক্ষণের জন্য একটি মিনি ব্যাচ (ছোট অংশ), মিনি-ব্যাচের আকার বাছাইয়ের জন্য থাম্বের বিধি 32, 64, 128 ইত্যাদির মতো 2 এর ক্ষমতায় রয়েছে
আরও তথ্যের জন্য: সিএস 231n লেকচার নোট


ধন্যবাদ, সংক্ষেপে এই মত? গ্রেডিয়েন্ট বংশদ্ভুতের তিনটি রূপ রয়েছে: ব্যাচ, স্টোকাস্টিক এবং মিনিবাচ: সমস্ত প্রশিক্ষণের নমুনা মূল্যায়ন করার পরে ব্যাচ ওজনকে আপডেট করে। স্টোকাস্টিক, ওজন প্রতিটি প্রশিক্ষণের নমুনার পরে আপডেট করা হয়। মিনিব্যাচ উভয় বিশ্বের সেরা একত্রিত। আমরা সম্পূর্ণ ডেটা সেট ব্যবহার করি না, তবে আমরা একক ডেটা পয়েন্ট ব্যবহার করি না। আমরা আমাদের ডেটা সেট থেকে এলোমেলোভাবে নির্বাচিত ডেটার সেট ব্যবহার করি। এইভাবে, আমরা গণনা ব্যয় হ্রাস করি এবং স্টোকাস্টিক সংস্করণের চেয়ে কম বৈকল্পিকতা অর্জন করি।
বিকাশকারী
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.