প্রশ্ন ট্যাগ «gradient-descent»

4
পাইটরঞ্চ, গ্রেডিয়েন্ট আর্গুমেন্টগুলি কী
আমি পাইটর্চের ডকুমেন্টেশনগুলি পড়ছি এবং যেখানে তারা লিখেছে তার একটি উদাহরণ পেয়েছি gradients = torch.FloatTensor([0.1, 1.0, 0.0001]) y.backward(gradients) print(x.grad) যেখানে x হল প্রাথমিক পরিবর্তনশীল, যেখান থেকে y নির্মিত হয়েছিল (একটি 3-ভেক্টর)। প্রশ্নটি হল, গ্রেডিয়েন্টস টেনসারের 0.1, 1.0 এবং 0.0001 টি আর্গুমেন্ট কী? ডকুমেন্টেশন যে খুব স্পষ্ট নয়।

2
আমাদের পাইটর্চে শূন্য_গ্রাড () কেন কল করতে হবে?
zero_grad()প্রশিক্ষণের সময় পদ্ধতিটি কল করা প্রয়োজন। তবে ডকুমেন্টেশন খুব বেশি সহায়ক নয় | zero_grad(self) | Sets gradients of all model parameters to zero. আমাদের কেন এই পদ্ধতিটি কল করার দরকার আছে?

9
নিউরাল নেটওয়ার্কগুলির ওজন এলোমেলো সংখ্যায় কেন করা উচিত? [বন্ধ]
বন্ধ থাকে। এই প্রশ্নটি স্ট্যাক ওভারফ্লো নির্দেশিকাগুলি পূরণ করে না । এটি বর্তমানে উত্তর গ্রহণ করছে না। এই প্রশ্নটি উন্নত করতে চান? প্রশ্ন আপডেট করুন তাই এটা -বিষয়ে স্ট্যাক ওভারফ্লো জন্য। 20 ঘন্টা আগে বন্ধ ছিল । এই প্রশ্নটি উন্নত করুন আমি স্ক্র্যাচ থেকে একটি নিউরাল নেটওয়ার্ক তৈরি করার চেষ্টা …

5
প্রশিক্ষণের সময় ন্যানের সাধারণ কারণ
আমি লক্ষ্য করেছি যে প্রশিক্ষণের সময় ঘন ঘন ঘটনাটি NANচালু হচ্ছে। প্রায়শই মনে হয় এটি অভ্যন্তরীণ পণ্য / সম্পূর্ণরূপে সংযুক্ত বা সমঝোতার স্তরগুলিতে ওজন দ্বারা প্রবর্তিত হয়। গ্রেডিয়েন্ট গণনাটি ফুঁকছে বলে এটি কি ঘটছে? বা এটি ওজন সূচনা করার কারণে (যদি তা হয় তবে ওজন সূচনা কেন কার্যকর হয়)? অথবা …

1
আর: আমার নিজস্ব গ্রেডিয়েন্ট বুস্টিং অ্যালগরিদম বাস্তবায়ন
আমি আমার নিজস্ব গ্রেডিয়েন্ট বুস্টিং অ্যালগরিদম লেখার চেষ্টা করছি। আমি বুঝতে পারি যে এখানে বিদ্যমান প্যাকেজ রয়েছে gbmএবং xgboost,তবে আমি বুঝতে চেয়েছিলাম কীভাবে আমার নিজের লেখার মাধ্যমে অ্যালগরিদম কাজ করে। আমি irisডেটা সেট ব্যবহার করছি , এবং আমার ফলাফল Sepal.Length(অবিচ্ছিন্ন)। আমার ক্ষতির ফাংশনটি mean(1/2*(y-yhat)^2)(মূলত সামনে 1/2 সহ গড় স্কোয়ার ত্রুটি), …
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.