শুধু স্নায়বিক নেটওয়ার্ক এবং গভীর শিক্ষণ কেন ডাম্প করবেন না? [বন্ধ]


25

সাধারণভাবে গভীর শিক্ষণ এবং নিউরাল নেটওয়ার্কগুলির সাথে মৌলিক সমস্যা।

  1. প্রশিক্ষণ ডেটা ফিট করে এমন সমাধানগুলি অসীম। আমাদের কাছে নির্দিষ্ট গাণিতিক সমীকরণ নেই যা কেবলমাত্র একক দ্বারা সন্তুষ্ট এবং আমরা বলতে পারি জেনারেলাইজেশনকে সেরা। সহজভাবে বলতে গেলে আমরা জানি না কোনটি জেনারেল করে তোলে সেরা।

  2. ওজন অনুকূলকরণ একটি উত্তল সমস্যা নয়, তাই আমরা কখনই জানি না যে আমরা কোনও বিশ্বব্যাপী বা স্থানীয় নূন্যতমের সাথে শেষ করব।

তাহলে কেন কেবল নিউরাল নেটওয়ার্কগুলি ডাম্প না করে তার পরিবর্তে আরও ভাল এমএল মডেলটি অনুসন্ধান করা হবে? আমরা যা বুঝি এমন কিছু, এবং এমন কিছু যা গাণিতিক সমীকরণের সেটগুলির সাথে সামঞ্জস্যপূর্ণ? লিনিয়ার এবং এসভিএম এর গাণিতিক ত্রুটি নেই এবং গাণিতিক সমীকরণের এএ সেটগুলির সাথে সম্পূর্ণ সুসংগত। কেন কেবল একই লাইনে চিন্তা করবেন না (যদিও লিনিয়ার হওয়ার দরকার নেই) এবং লিনিয়ার এবং এসভিএম এবং নিউরাল নেটওয়ার্ক এবং গভীর শিক্ষার চেয়ে ভাল একটি নতুন এমএল মডেল নিয়ে এসেছেন?


37
আপনি যদি এটি খুঁজে পান, লোকেরা করবে।
ম্যাথু

23
"কেন আসবে না ...?" আপনি বিশ্বাস করবেন না যে কতজন গবেষক হুবহু তা করতে ব্যস্ত! তাদের এখন পর্যন্ত সাফল্য হয়নি।
কিলিয়ান ফট

31
"সমস্ত মডেলগুলি ভুল তবে কিছু দরকারী" এবং এনএনএস অবশ্যই কার্যকর।
জোশ

15
@ রাজেশদাচিরাজু - এটি একটি পুরানো প্রথা, তবে আমি সম্ভবত কিছুটা অস্পষ্ট ছিলাম। আপনি জিজ্ঞাসা করলেন কেন এনএন গুলি পুরোপুরি ফেলে না কেন? আমার প্রতিবেদনটি হ'ল এগুলি নিখুঁত নয়, তবে তারা কার্যকর। লোকেরা গাড়িগুলি অট্রোড্রাইভ করতে, বিদেশী ভাষাগুলি অনুবাদ করতে, ভিডিও ট্যাগ করতে, তিমি সংরক্ষণে এমনকি আপনার ফটোগুলিতে কুকুরের কান দিয়ে এই জঞ্জাল স্ন্যাপচ্যাট ফিল্টারগুলি প্রয়োগ করতে তাদের ব্যবহার করে! যেমন তারা কাজ করে, তাই আমরা তাদের ব্যবহার চালিয়ে যাচ্ছি :)
জোশ

13
আপনি কী জানেন ভুলটিও: নিউটনীয় যান্ত্রিক। কোয়ান্টাম বলবিজ্ঞান. আপেক্ষিকতা। সমস্ত পদার্থবিজ্ঞান ভুল (সমস্ত কিছুই বর্ণনা করে এমন একক মডেল নেই, সবার ত্রুটি আছে)। রসায়ন অনেকগুলি জিনিস দিয়ে সম্পূর্ণ ভুল (একটি পরমাণুর বর্ণনা সর্বদা একটি ভাল অনুমান মাত্র তবে কখনও সঠিক নয়) বিশ্বের একমাত্র সত্য জিনিস গণিত। খাঁটি গণিত অন্য সব কিছুই সঠিক উত্তরের কাছে আসে। আমাদের কি বাকিটা ফেলে দেওয়া উচিত? (ভুল আইন দ্বারা নির্মিত আপনার কম্পিউটার থেকে শুরু?) না। আবার: সমস্ত মডেল ভুল, তবে কিছু কার্যকর।
মায়ু 36

উত্তর:


48
  1. কোন সমাধানটি সবচেয়ে ভাল জেনারেল করে তা এক্ষেত্রে জানতে সক্ষম না হওয়া, তবে এটি অন্যথায় ভাল সমাধান ব্যবহার থেকে আমাদের বিরত রাখতে পারে না। মানুষেরা নিজেরাই প্রায়শই জানে না কী সর্বোত্তমকে কী সাধারণ করে তোলে (উদাহরণস্বরূপ, পদার্থবিজ্ঞানের একত্রীকরণ তত্ত্বকে প্রতিযোগিতা করে) তবে এটি আমাদের খুব বেশি সমস্যা সৃষ্টি করে না।

  2. এটি দেখানো হয়েছে যে স্থানীয় ন্যূনতমের কারণে প্রশিক্ষণ ব্যর্থ হওয়া অত্যন্ত বিরল। একটি গভীর নিউরাল নেটওয়ার্কের বেশিরভাগ স্থানীয় ন্যূনতম বিশ্বব্যাপী ন্যূনতমের নিকটবর্তী, তাই এটি কোনও সমস্যা নয়। সূত্র

তবে এর বিস্তৃত উত্তরটি হ'ল আপনি সারাদিন অযৌক্তিকতা এবং মডেল নির্বাচন সম্পর্কে কথা বলতে পারেন এবং লোকেরা এখনও স্নায়বিক নেটওয়ার্কগুলি কেবল অন্য কারও চেয়ে ভাল কাজ করার কারণে ব্যবহার করবেন (কমপক্ষে চিত্রের শ্রেণিবদ্ধকরণের মতো জিনিসগুলিতে)।

অবশ্যই কিছু লোক রয়েছে যে তর্ক করছে যে আমাদের সিএনএন-তে খুব বেশি মনোযোগ দেওয়া উচিত নয় যেমন সম্প্রদায়ের কয়েক দশক আগে এসভিএমগুলিতে মনোনিবেশ করা হয়েছিল, এবং এর পরিবর্তে পরবর্তী বড় জিনিসটির সন্ধান করা চালিয়ে যান। বিশেষত, আমি মনে করি আমি মনে করি হিন্টন সিএনএন-এর কার্যকারিতা নিয়ে অনুশোচনা করে এমন একটি বিষয় যা গবেষণার ক্ষেত্রে বাধা সৃষ্টি করতে পারে। সম্পর্কিত পোস্ট


1
আমি বিশেষ করে শেষ অনুচ্ছেদটি পছন্দ করি।
রাজেশ দাচিরাজু

10
আপনার # 2 পয়েন্টের জন্য প্রশংসা আছে?
DrMcCleod

@ ডিআরএমসি ক্লিওড: আমার কাছে দ্বিতীয় পয়েন্টটি আরও জিঙ্গিজমের মতো দেখাচ্ছে। শুধু হালকা অর্থে।
রাজেশ দাচিরজু

6
@ ডিআরএমসিক্লিয়োডে প্রচুর কাজ রয়েছে যা থেকে বোঝা যায় যে স্থানীয় মিনিমা বিশ্বব্যাপী মিনিমার খুব নিকটবর্তী এবং এর পরিবর্তে সেই জিন পয়েন্টগুলিই ইস্যু are দেখুন এই জিন পয়েন্ট আলোচনা ও জন্য কাগজ এই কেন আঞ্চলিক মিনিমা অগত্যা খারাপ না তাদের জন্য কাগজ।
jld

1
আমি কেবল একটি থিয়েটার পছন্দ করব, আশা করি। তবে ধরুন আমি জানি যে আমি সত্যিই যে সিনেমাটি দেখতে চাই তার চেয়ে প্রায় কোনও সিনেমা উপভোগ করব। তারপরে 10 টি প্রেক্ষাগৃহ থাকলে আমি হতাশ হব না এবং আমাকে এলোমেলোভাবে একটি বেছে নিতে হবে, কারণ আমি জানি যে কোনও থিয়েটার এবং সিনেমা আমাকে সন্তুষ্ট রাখবে।
shimao

14

আপনার প্রশ্নের মন্তব্যে যেমন উল্লেখ করা হয়েছে, সেখানে আরও অনেক লোক আরও ভাল কিছু খুঁজে পাওয়ার জন্য কাজ করছেন। আমি যদিও @ জোশের দেওয়া মন্তব্যটি প্রসারিত করে এই প্রশ্নের উত্তর দিতে চাই


সমস্ত মডেল ভুল তবে কিছু দরকারী (উইকি)

উপরের বিবৃতিটি একটি সাধারণ সত্য যা পরিসংখ্যানের মডেলগুলির প্রকৃতি বর্ণনা করতে ব্যবহৃত হয়। আমাদের উপলভ্য থাকা ডেটা ব্যবহার করে আমরা এমন মডেল তৈরি করতে পারি যা আমাদের কাছে আনুমানিক মান হিসাবে আনুমানিক মূল্য হিসাবে কার্যকর কাজ করতে দেয়।

উদাহরণস্বরূপ লিনিয়ার রিগ্রেশন নিন

বেশ কয়েকটি পর্যবেক্ষণ ব্যবহার করে আমরা স্বতন্ত্র ভেরিয়েবল (গুলি) এর জন্য কোনও মান (গুলি) প্রদত্ত একটি নির্ভরশীল ভেরিয়েবলের জন্য একটি আনুমানিক মান দিতে আমরা একটি মডেল ফিট করতে পারি।

বার্নহ্যাম, কেপি; অ্যান্ডারসন, ডিআর (2002), মডেল নির্বাচন এবং মাল্টিমোডেল> অনুমান: একটি ব্যবহারিক তথ্য-তাত্ত্বিক পদ্ধতির (দ্বিতীয় সংস্করণ):

"একটি মডেল বাস্তবের সরলীকরণ বা সান্নিধ্য হয় এবং তাই বাস্তবের সমস্ত চিত্রকে প্রতিফলিত করে না ... ... বক্স উল্লেখ করেছে যে" সমস্ত মডেল ভুল, তবে কিছু কার্যকর। " অত্যন্ত দরকারী থেকে দরকারী, কিছুটা উপকারী থেকে অবশেষে মূলত অকেজো হয়ে যায় "

আমাদের মডেল থেকে বিচ্যুতিগুলি (উপরের চিত্রে যেমন দেখা যায়) এলোমেলোভাবে উপস্থিত হয়, কিছু পর্যবেক্ষণ লাইনের নীচে থাকে এবং কিছু উপরে থাকে তবে আমাদের রিগ্রেশন লাইনটি একটি সাধারণ সম্পর্ককে দেখায়। যদিও আমাদের মডেলের বিচ্যুতি এলোমেলোভাবে উপস্থিত হয়, বাস্তবের দৃশ্যে অন্যান্য কারণও খেলতে পারে যা এই বিচ্যুতি ঘটায়। উদাহরণস্বরূপ, গাড়ি দেখার সময় কল্পনা করুন তারা যখন কোনও মোড় দিয়ে গাড়ি চালাচ্ছেন যেখানে চালিয়ে যাওয়ার জন্য তাদের বাম বা ডানদিকে ঘুরতে হবে, গাড়িগুলি কোনও নির্দিষ্ট প্যাটার্নে পরিণত হবে না। আমরা যখন বলতে পারি যে গাড়িগুলি যেদিকে ঘুরিয়েছে সেগুলি পুরো এলোমেলো, প্রতিটি চালক কী মোড়কে পৌঁছায় এবং সেই মুহুর্তে কোন দিকে ঘুরতে হবে তা এলোমেলো সিদ্ধান্ত নেয়? বাস্তবে তারা সম্ভবত কোনও নির্দিষ্ট কারণে সুনির্দিষ্ট কোথাও যাচ্ছেন, এবং প্রতিটি গাড়ি তাদের যুক্তি সম্পর্কে জিজ্ঞাসা করতে থামানোর চেষ্টা না করে আমরা কেবল তাদের ক্রিয়াটি এলোমেলো হিসাবে বর্ণনা করতে পারি।

যেখানে আমরা ন্যূনতম বিচ্যুতিতে একটি মডেল ফিট করতে সক্ষম, আমরা কীভাবে নিশ্চিত হতে পারি যে কোনও এক জায়গায় অজানা, অলক্ষিত বা অপরিমেয় পরিবর্তনশীল অদৃশ্যটি আমাদের মডেলটিকে ফেলে দেয়? ব্রাজিলের একটি প্রজাপতির ডানার ঝাপটানি টেক্সাসে টর্নেডো সেট করে?

আপনি একা উল্লেখ করেছেন লিনিয়ার এবং এসভিএন মডেলগুলি ব্যবহার করার ক্ষেত্রে সমস্যাটি হ'ল আমাদের কিছু পরিবর্তনশীল এবং সেগুলি একে অপরকে কীভাবে প্রভাবিত করে তা ম্যানুয়ালি পর্যবেক্ষণ করতে আমাদের কিছুটা প্রয়োজন। আমাদের তখন কোন ভেরিয়েবল গুরুত্বপূর্ণ তা নির্ধারণ করতে হবে এবং একটি কার্য-নির্দিষ্ট অ্যালগরিদম লিখতে হবে। এটি কেবল আমাদের সামনে কয়েকটি পরিবর্তনশীল থাকলে সোজা হয়ে যেতে পারে, তবে আমাদের যদি কয়েক হাজার থাকে? আমরা যদি কোনও জেনারেলাইজড ইমেজ রিকগনিশন মডেল তৈরি করতে চাইতাম, তবে কি এই পদ্ধতির মাধ্যমে বাস্তবতাই অর্জন করা যেতে পারে?

গভীর লার্নিং এবং কৃত্রিম নিউরাল নেটওয়ার্কস (এএনএন) আমাদের বিপুল পরিমাণে ভেরিয়েবল (উদাহরণস্বরূপ চিত্র গ্রন্থাগার) সমেত বিশাল ডেটা সেটগুলির জন্য দরকারী মডেল তৈরি করতে সহায়তা করতে পারে। যেমনটি আপনি উল্লেখ করেছেন, অজানা সংখ্যক সমাধান রয়েছে যা এএনএন ব্যবহার করে ডেটা মাপসই করতে পারে তবে এই সংখ্যাটি কী আমাদের সমাধান এবং ত্রুটির মধ্য দিয়ে সমাধানের পরিমাণের তুলনায় কী আলাদা হবে?

এএনএনগুলির প্রয়োগ আমাদের জন্য বেশিরভাগ কাজ করে, আমরা আমাদের ইনপুটগুলি এবং আমাদের পছন্দসই ফলাফলগুলি নির্দিষ্ট করতে পারি (এবং উন্নতি করতে পরে সেগুলিকে টুইঙ্ক করতে পারি) এবং সমাধানটি বের করার জন্য এটি এএনএন-এর কাছে রেখে দিতে পারি। এ কারণেই এএনএনকে প্রায়শই "ব্ল্যাক বক্স" হিসাবে বর্ণনা করা হয় । প্রদত্ত ইনপুট থেকে তারা একটি আনুমানিক আউটপুট আউটপুট দেয়, তবে (সাধারণ শর্তে) এই অনুমানগুলিতে কীভাবে তারা প্রায় অনুমান করা হয়েছিল তার বিবরণ অন্তর্ভুক্ত করে না।

এবং তাই এটি কী সমস্যার সমাধান করার চেষ্টা করছেন তা আসলেই নেমে আসে, কারণ সমস্যাটি নির্দেশ করবে যে কোন মডেল পদ্ধতির বেশি কার্যকর। মডেলগুলি একেবারে নির্ভুল নয় এবং তাই সর্বদা 'ভুল' হওয়ার একটি উপাদান থাকে তবে আপনার ফলাফলগুলি যত বেশি সঠিক সেগুলি তত বেশি সঠিক। আনুমানিকতা কীভাবে করা হয়েছিল তার ফলাফলগুলিতে আরও বিশদ থাকাও সমস্যাটির উপর নির্ভর করে এটি বর্ধিত নির্ভুলতার চেয়ে আরও কার্যকর হতে পারে।

উদাহরণস্বরূপ যদি আপনি কোনও ব্যক্তির ক্রেডিট স্কোর গণনা করছেন, রিগ্রেশন এবং এসভিএম ব্যবহার করে এমন গণনা সরবরাহ করে যা আরও ভালভাবে অন্বেষণ করা যায়। উভয়ই মডেলটিকে সরাসরি ঝাপটতে সক্ষম এবং গ্রাহকদের তাদের পৃথক পৃথক স্কোরের জন্য পৃথক স্বতন্ত্র ভেরিয়েবলের প্রভাবটি ব্যাখ্যা করতে সক্ষম হওয়াই খুব দরকারী। একটি এএনএন আরও সঠিক স্কোর অর্জনের জন্য বৃহত পরিমাণে ভেরিয়েবল প্রসেসিংয়ে সহায়তা করতে পারে, তবে এই নির্ভুলতাটি আরও কার্যকর হবে কি?


6
আপনি কিছু ভাল বক্তব্য রাখেন, তবে "অনেক ক্ষেত্রে আমাদের পর্যবেক্ষণ এবং ভবিষ্যদ্বাণীগুলি উপযুক্ত লাইনে ঠিক বসবে না" এই সত্যটি "সমস্ত মডেল ভুল" স্লোগানটির যথাযথ বিক্ষোভ নয়। লিনিয়ার রিগ্রেশন-এ আমরা ই মডেলিং করছি (ওয়াই | এক্স) এবং সুতরাং লাইনে ঠিক মিথ্যা কথা না বলা পয়েন্টগুলি আমাদের মডেলের কোনও ঘাটতি প্রদর্শন করে না। এলোমেলোতা পূর্বনির্ধারিত এবং প্রত্যাশিত; মডেলটি "ভুল" নয় যখন আমরা লাগানো লাইন থেকে বিচ্যুতি পর্যবেক্ষণ করি।
ক্লামবার্ড

@ ক্লম্বার্ড মন্তব্যের জন্য ধন্যবাদ। আমি আমার উত্তরটি আরও বিশদ দিয়ে আপডেট করেছি যা এটি উদাহরণ হিসাবে ব্যবহার করার পিছনে আমার যুক্তি ব্যাখ্যা করে। আমি আমার উত্তরে আরও দার্শনিক দৃষ্টিভঙ্গি নিয়েছি এবং সুনির্দিষ্টতার চেয়ে বেশি সাধারণ ভাষায় কথা বলেছি, এই সম্প্রদায়ের এটি আমার প্রথম পোস্ট তাই ক্ষমা প্রার্থনা যদি এটি করার জায়গা না হয়। আপনি সুনির্দিষ্ট সম্পর্কে জ্ঞানী বলে মনে হচ্ছে, আপনি কি আপনার মন্তব্যে আরও কিছুটা ব্যাখ্যা করতে পারবেন? আমার কাছে প্রশ্নটি হল, যেখানে বিচ্যুতি ঘাটতি প্রদর্শন করে না, সেখানে 0.01 এর আর-স্কোয়ারযুক্ত একটি রিগ্রেশন মডেলটিও "ভুল" নয়?
ক্যারোসিভ

2
আপনার পোস্টের সাথে আমার একমাত্র ইস্যু আপনি ফ্রেজ হয় "হিসাবে অনেক ক্ষেত্রে আমাদের পর্যবেক্ষণ এবং পূর্বাভাস লাগানো লাইনে ঠিক বসতে হবে না ...। এই এক উপায় যা আমাদের মডেল প্রায়ই 'ভুল' হয় ..." । আমি কেবল বলছি যে মডেলটির স্পেসিফিকেশনটিতে একটি ত্রুটি শব্দ রয়েছে এবং তাই (একা) যে পর্যবেক্ষণ করা ডেটা লাগানো লাইনে পড়ে না তা মডেল "অন্যায়" নির্দেশ করে না। এটি একটি সূক্ষ্ম শব্দার্থক পার্থক্য মত মনে হতে পারে তবে আমি মনে করি এটি গুরুত্বপূর্ণ
klumbard

1
মূল বক্তব্য, যা আপনি সম্বোধন করেন তা হ'ল সমস্ত মডেলগুলি ভুল বাদ দেয় কারণ বাদ দেওয়া পরিবর্তনশীল পক্ষপাত এবং তেমনি কার্যকরী ফর্মের ভুল ব্যাখ্যা। প্রতিবার আপনি যখন কোনও রিগ্রেশন মডেল লিখে লিখেন এবং অনুমানের উপর অনুমান করেন, আপনি ধরে নিচ্ছেন আপনি মডেলটি সঠিকভাবে নির্দিষ্ট করেছেন, যা কখনই হয় না।
ক্লুমবার্ড

1
@ ক্লম্বার্ড ওহ আমি দেখতে পাচ্ছি যে আপনি এখন থেকে আসছেন। সুতরাং যদিও মডেলটি এমন নির্ভুলতা নির্ধারণ করে যা সম্পূর্ণ নির্ভুল হওয়ার সম্ভাবনা নেই, তবুও আমরা মূল্যায়নের মূল্য থেকে কতটা বিচ্যুত হতে পারে তা জানাতে ত্রুটি শব্দটি পরিমাপ করতে পারি এবং এভাবে মডেলটি অন্তর্নিহিত ভুল বলেও ভুল হবে। আমি আমার উত্তরটি থেকে এই অংশটি নেব, আমি মনে করি আমার বক্তব্যটি এর পরে যুক্ত অংশে আরও ভালভাবে ব্যাখ্যা করা হয়েছে। ব্যাখ্যা করার জন্য ধন্যবাদ :)
ক্যারোজিভ

8

গ্লোবাল ন্যূনতমটি পাশাপাশি অকেজো হতে পারে, তাই আমরা এটি খুঁজে পাই কিনা এবং না পেয়ে আমাদের সত্যিকারের যত্ন নেই। কারণটি হ'ল গভীর নেটওয়ার্কগুলির জন্য, এটির সন্ধানের সময়টি কেবলমাত্র নেটওয়ার্কের আকার বাড়ার সাথে সাথে এটি দীর্ঘতর হয়ে ওঠে না, তবে বৈশ্বিক ন্যূনতমও প্রায়শই প্রশিক্ষণের সেটটিকে উপস্থাপনের সাথে মিলে যায়। সুতরাং ডিএনএন এর সাধারণীকরণের ক্ষমতা (যা আমরা সত্যই যত্নশীল) ক্ষতিগ্রস্থ হবে। এছাড়াও, প্রায়শই আমরা ক্ষতির ফাংশনের একটি উচ্চ মানের সাথে সমান চাটুকার মিনিমা পছন্দ করি, ক্ষতির ক্ষুদ্র মিনিমার তুলনায় ক্ষতির কার্যকারিতার নিম্ন মানের সাথে মিল রাখি কারণ দ্বিতীয়টি ইনপুটগুলির অনিশ্চয়তার সাথে খুব খারাপ আচরণ করবে deal এটি বয়েসিয়ান ডিপ লার্নিংয়ের বিকাশের সাথে ক্রমশ স্পষ্ট হয়ে উঠছে। দৃust় অপ্টিমাইজেশান নির্ধারিত অপ্টিমাইজেশনকে প্রায়শই মারধর করে, যখন বাস্তব বিশ্বের সমস্যার ক্ষেত্রে প্রয়োগ হয় যেখানে অনিশ্চয়তা গুরুত্বপূর্ণ।

শেষ অবধি, এটি সত্য যে ডিএনএনরা কেবলমাত্র চিত্রের শ্রেণিবদ্ধকরণ এবং এনএলপি-তে এক্সজিবিস্টের মতো পদ্ধতিগুলির গাধাটিকে লাথি দেয়। কোনও সংস্থা যা চিত্রের শ্রেণিবদ্ধকরণের বাইরে লাভ করতে হবে তাদের সঠিকভাবে উত্পাদনের জন্য মডেল হিসাবে বেছে নেবে ( এবং বৈশিষ্ট্য ইঞ্জিনিয়ারিং, ডেটা পাইপলাইন ইত্যাদিতে উল্লেখযোগ্য পরিমাণে অর্থ বিনিয়োগ করবে তবে আমি ডিগ্রি করি)। এর অর্থ এই নয় যে তারা সমস্ত এমএল পরিবেশে আধিপত্য বিস্তার করে: উদাহরণস্বরূপ, তারা কাঠামোগত ডেটাতে এক্সজিবিস্টের চেয়েও খারাপ কাজ করে (কাগল প্রতিযোগিতার শেষ বিজয়ীরা দেখুন) এবং তারা এখনও টাইম সিরিজ মডেলিংয়ের কণা ফিল্টারগুলি না করে বলে মনে হয়। তবে আরএনএন-তে সাম্প্রতিক কিছু উদ্ভাবন এই পরিস্থিতিটি সংশোধন করতে পারে।


2
সত্যি? একটি ডাউনভোট? এটি কিছুটা অপ্রয়োজনীয়। এটি যুক্তিসঙ্গত উত্তর (+1)।
usεr11852 বলছেন

5
@ রাজেশদাচিরাজু যেহেতু আপনি স্পষ্টতই আমি যা যা জানব বা অবগত হব তা আবিষ্কার করার চেষ্টা করছিলাম, আপনি সম্ভবত শিখতে আগ্রহী হবেন যে আপনার কাছে নিউরাল নেটওয়ার্কগুলি এবং নন-উত্তল অপ্টিমাইজেশান সম্পর্কে যথেষ্ট ধারণা রয়েছে এমন লোকেরা আপনার সম্পর্কে নিয়মিত কথা বলছেন নিউরাল নেটওয়ার্কগুলির জন্য একটি একক গ্লোবাল ন্যূনতম। এই পরিভাষাটি ব্যবহার করে বিশাল আকারের কাগজপত্রগুলির মধ্যে আপনি এটি পড়ার চেষ্টা করতে পারেন এবং আপনি কোথায় ভুল করছেন তা বুঝতে পারছেন কিনা।
ডেল্টাভিও

2
@ রাজেশদাছিরাজু: আপনার যুক্তি ব্যাখ্যা করার জন্য আপনাকে ধন্যবাদ, অনেক লোক বিরক্ত করবেন না। বলা হচ্ছে, আমি মনে করি এর জন্য আপনার যুক্তি ত্রুটিযুক্ত এবং একটি বিশেষ বাক্যাংশের ভুল ব্যাখ্যা থেকে উদ্ভূত। আমি ডেল্টাভের সাথে একমত যে এই মানক পরিভাষা।
usεr11852

1
@ ডেলটাইভ: আমার বক্তব্যটি হ'ল, একাধিক ওজন ভেক্টর থাকতে পারে যা প্রশিক্ষণের ডেটাতে 0 টি ক্ষতিগ্রস্ত হতে পারে (অবশ্যই আর্কিটেকচারকে ধ্রুবক বজায় রেখে)। পুরো পয়েন্ট অফ ট্রেনিং এটি ওয়েট ভেক্টর ইনস্টল করা? সুতরাং আমি আপনার সাথে একমত নই। এর মধ্যে একটি ওজন ভেক্টর অত্যন্ত কার্যকর। তবে আমি অনুরোধ জানাতে সম্মত হন এবং এই কথোপকথনটি এখানেই শেষ করুন।
শ্রদ্ধেয়

1

7

আমি মনে করি এই প্রশ্নটি সম্পর্কে ভাবার সবচেয়ে ভাল উপায় হ'ল প্রতিযোগিতামূলক মার্কেট প্লেসের মাধ্যমে। যদি আপনি গভীর শিক্ষণ ফেলে দেন এবং আপনার প্রতিযোগীরা এটি ব্যবহার করে এবং আপনি যা ব্যবহার করেছেন তার চেয়ে ভাল কাজ করার ঘটনা ঘটে তবে আপনাকে বাজারের জায়গায় মারধর করা হবে।

আমি মনে করি এটি ঘটছে, কিছু অংশে, আজ, অর্থাত্ গভীর শিখনটি বাজারের জায়গাগুলির পুরো সমস্যার জন্য কোনও কিছুর চেয়ে ভাল কাজ করে। উদাহরণস্বরূপ, গভীর শিক্ষার সাহায্যে অনলাইন ভাষার অনুবাদকগণ পূর্বে ব্যবহৃত বিশুদ্ধ ভাষাগত পদ্ধতির চেয়ে ভাল। মাত্র কয়েক বছর আগে এটি ছিল না, তবে গভীর শিক্ষার অগ্রগতি তাদের নেতৃত্বের পদে নিয়ে এসেছিল যারা বাজারে নেতৃত্ব দেয়।

আমি "বাজার" পুনরাবৃত্তি করতে থাকি কারণ এটিই গভীর শিক্ষায় বর্তমানের উত্সাহকে চালাচ্ছে। এই মুহুর্তে ব্যবসায়ের কোনও কার্যকর কিছু পাওয়া যায়, যা কিছু বিস্তৃত হয়ে উঠবে। এটি নয় যে আমরা , কমিটি সিদ্ধান্ত নিয়েছিলাম যে গভীর শিক্ষার জনপ্রিয় হওয়া উচিত। এটা ব্যবসা এবং প্রতিযোগিতা।

দ্বিতীয় অংশটি হ'ল এমএল আসল সাফল্যের পাশাপাশি, নৌকাটি মিস করারও ভয় রয়েছে। প্রচুর ব্যবসায়ের অদ্ভুততা রয়েছে যে তারা যদি এআই থেকে বাদ পড়ে তবে তারা ব্যবসা হিসাবে ব্যর্থ হবে। এই ভয়টি এই সমস্ত পরামর্শক বাড়িগুলি, গার্টনার্স ইত্যাদির দ্বারা খাওয়ানো হচ্ছে, সিইওদের ফিসফিস করে জানিয়েছে যে তাদের অবশ্যই এআই করতে হবে বা আগামীকাল মারা যাবে।

কারওাই ব্যবসায়কে গভীর শিক্ষার জন্য জোর করে না। আইটি এবং আর অ্যান্ড ডি একটি নতুন খেলনা নিয়ে উত্তেজিত। একাডেমিয়ার প্রফুল্লতা, সুতরাং এই দলটি সংগীত বন্ধ না হওয়া পর্যন্ত স্থায়ী হতে চলেছে, অর্থাৎ গভীর শিক্ষণ সরবরাহ করা বন্ধ না হওয়া পর্যন্ত। এর মধ্যে আপনি এটিকে ফেলে দিতে পারেন এবং আরও ভাল সমাধান নিয়ে আসতে পারেন।


একাডেমিক গবেষণা তহবিল সম্পর্কে কি? আপনি কি কিছু আলোকপাত করতে পারেন?
রাজেশ দাচিরাজু

2
শিল্প থেকে প্রচুর তহবিল আসে। শিল্প থেকে সর্বাধিক অর্থ প্রাপ্ত অধ্যাপকরা হলেন একাডেমিয়ার সবচেয়ে প্রভাবশালী। বিশ্ববিদ্যালয়গুলি সংস্থাগুলির কাছ থেকে প্রাপ্ত বিশাল অঙ্কের অর্থ কেড়ে নেয়, তাই তারা এই অধ্যাপকদের পছন্দ করে। আপনি যদি এই এনওয়াইটি নিবন্ধটি পড়েন তবে আপনি একাডেমিয়া এবং শিল্প উভয় ক্ষেত্রে উন্মাদ সম্পর্কে ধারণা পেতে পারেন
আকসাকাল

বাজারের জন্য খুব ভাল রেফারেন্স (+1): আমি একই বলেছি ("একটি সংস্থা যা চিত্রের শ্রেণিবদ্ধকরণের বাইরে লাভ করতে হবে তাদের সঠিকভাবে উত্পাদনের জন্য মডেল হিসাবে নির্বাচন করবে")। যাইহোক, আমি হালকাভাবে প্যারানয়েয়ার সাথে একমত নই। এটি একটি সত্য (ভৌতিক নয়) ওয়েমো টেসলা, অডি এবং অন্য গাড়ি প্রস্তুতকারককে পরাজিত করার জন্য প্রস্তুত, যার নাম আমি এখন মনে করতে পারি না, এবং ডিপ লার্নিংয়ে গুগলের বিশাল বিনিয়োগের কারণে এটি বেশিরভাগ অংশে রয়েছে। অডি অবশ্যই SIFT এবং SURF ব্যবহার করতে পারত (ভালভাবে পরীক্ষিত কম্পিউটার ভিশন প্রযুক্তি যা
কোনওভাবেই

... চেয়েছিলেন। সিআইএফটি, এসআরএফ এবং অন্যান্য জ্যামিতি-ভিত্তিক পদ্ধতির ক্ষেত্রে ডিএলের শ্রেষ্ঠত্ব, যখন চিত্রের শ্রেণিবিন্যাসের কথা আসে তখন এটি পাঁচ বছরের কঠিন একাডেমিক এবং শিল্প গবেষণা দ্বারা সত্যায়িত। এটি অবশ্যই কোনও নিরাময়ের বিষয় নয় (আইবিএম ওয়াটসনের ব্যর্থতা দেখুন), এবং এর কিছু হাইপ রয়েছে, তবে এর মধ্যে রয়েছে কঠোর ও শীতল ঘটনাও।
ডেল্টাভিউ

2
@ ডেলটাইভ এমএল অবশ্যই কিছু অ্যাপ্লিকেশনগুলিতে কাজ করে তবে আমি মনে করি যে এটি আজকের বিস্তৃত ছড়িয়ে পড়া প্যারানিয়া এবং প্রচুর পরিমাণে হাইপের কারণে is এটি কাজ করছে বা না সিটিও কেবল এটির জন্য চলছে। আমি বন্ধুদের যারা কোন ধারণা আমি কি বিষয়ে মাত্র এক বছর আগে কথা ছিল ছিল এখন তারা বলে যে এআই ভবিষ্যৎ হয়, তারা বাস্তবায়নের ইত্যাদি শুরু করতে যাচ্ছেন
Aksakal

4

দুর্দান্ত উত্তর রয়েছে, বেশিরভাগই ডিএল এবং এএনএনগুলির কার্যকারিতা নিয়ে বিবেচনা করা হয়। তবে আমি ওপিটিকে আরও মৌলিক উপায়ে আপত্তি জানাতে চাই, যেহেতু প্রশ্নটি ইতিমধ্যে স্নায়বিক নেটওয়ার্কগুলির গাণিতিক অসঙ্গতিটিকে মঞ্জুর করে।

প্রথম সব, সেখানে হয় পিছনে একটি গাণিতিক তত্ত্ব (অধিকাংশ মডেলগুলি) নিউরাল নেটওয়ার্ক। আপনি একইভাবে তর্ক করতে পারেন যে লিনিয়ার রিগ্রেশন সাধারণ হয় না, যদি না অন্তর্নিহিত মডেল ... ভাল, রৈখিক হয়। নিউরাল অ্যালগরিদমে, একটি মডেল ধরে নেওয়া হয় (এমনকি স্পষ্টভাবে না হলেও) এবং ফিটিং ত্রুটি গণনা করা হয়। অ্যালগরিদমগুলি বিভিন্ন হিউরিস্টিক্সের মাধ্যমে সংশোধিত হয়েছে তা মূল গাণিতিক সমর্থনকে বাতিল করে না। বিটিডাব্লু, স্থানীয় অপ্টিমাইজেশন একটি গাণিতিকভাবে সামঞ্জস্যপূর্ণ, একা দরকারী, থিয়োরি ছেড়ে দিন।

এই লাইনের সাথে, যদি নিউরাল নেটওয়ার্কগুলি বিজ্ঞানীদের পুরো টুলবক্সের মধ্যে কেবল একটি শ্রেণির পদ্ধতি গঠন করে, তবে নিউরাল নেটওয়ার্কগুলি অন্যান্য কৌশলগুলি থেকে পৃথককারী কোন রেখাটি? আসলে, এসভিএমগুলি একসময় এনএনগুলির একটি শ্রেণি হিসাবে বিবেচিত হত এবং তারা এখনও একই বইগুলিতে প্রদর্শিত হয়। অন্যদিকে, এনএনগুলি কিছু সরলকরণের সাথে একটি (ননলাইনার) রিগ্রেশন কৌশল হিসাবে বিবেচনা করা যেতে পারে with আমি ওপিটির সাথে একমত যে আমাদের অবশ্যই আরও ভাল, সুপ্রতিষ্ঠিত, দক্ষ অ্যালগরিদমগুলি অনুসন্ধান করা উচিত, আপনি তাদের এনএন হিসাবেই লেবেল করুন না কেন।


অসঙ্গত হওয়ার সমস্যাটি হ'ল, কেউ সাধারণ প্রশ্ন জিজ্ঞাসা করতে পারে না, কখন প্রশিক্ষণ বন্ধ করে হাল ছেড়ে দেওয়া উচিত? 'ড্রপট', 'ওজন ক্ষয়', 'রিলু' এবং বিভিন্ন ক্রিয়াকলাপ, ব্যাচের সাধারণীকরণ, সর্বোচ্চ পুলিং, সফটম্যাক্স, প্রারম্ভিক স্টপিং, বিভিন্ন শিক্ষার হারের শিডিয়ুল এবং এগুলির সমস্ত অনুক্রম এবং সংমিশ্রণ যেমন ডিজাইনারকে সর্বদা সন্দেহ করে তোলে কিছুটা ছেড়ে দিতে হবে কি না।
রাজেশ দাচিরাজু

1
@ রাজেশদাচিরাজু বহির্মুখী বিন্দু অপ্টিমাইজেশন অ্যালগরিদমে পেনাল্টি সহগ বা রঞ্জ-কট্টা পদ্ধতিতে ধাপের আকার সম্পর্কে একই কথা বলা যেতে পারে। "বেমানান" শব্দটির বিজ্ঞানের একটি সুনির্দিষ্ট অর্থ রয়েছে যা এখানে প্রয়োগ হয় না।
মিগুয়েল

0

আমি মনে করি কিছু সমস্যার জন্য আমরা গাণিতিক অনমনীয়তা এবং সরলতার জন্য কম যত্নশীল তবে এর ইউটিলিটির জন্য আরও বেশি, বর্তমান অবস্থা হ'ল নিউরাল নেটওয়ার্ক ইমেজ প্রসেসিংয়ে প্যাটার্ন স্বীকৃতির মতো নির্দিষ্ট কাজ সম্পাদন করার ক্ষেত্রে আরও ভাল।


0

এই প্রশ্নে অনেক আছে। একের পর এক যা লিখেছেন তা একবারে চলুন।

প্রশিক্ষণ ডেটা ফিট করে এমন সমাধানগুলি অসীম। আমাদের কাছে নির্দিষ্ট গাণিতিক সমীকরণ নেই যা কেবলমাত্র একক দ্বারা সন্তুষ্ট এবং আমরা বলতে পারি জেনারেলাইজেশনকে সেরা।

অসীম অনেকগুলি সমাধান রয়েছে তা এই বিষয়টি শেখার সমস্যা থেকে আসে যা অসুস্থ-পোজড সমস্যা হয়ে থাকে তাই একমাত্র এমনটি হতে পারে না যা সর্বোত্তম করে তোলে। এছাড়াও, কোনও নিখরচায় মধ্যাহ্নভোজ উপপাদ্য দ্বারা আমরা যে কোনও পদ্ধতি ব্যবহার করি তা গ্যারান্টি দিতে পারে না যে এটি সমস্ত শিক্ষার সমস্যাগুলির মধ্যে সেরা।

সহজভাবে বলতে গেলে আমরা জানি না কোনটি জেনারেল করে তোলে সেরা।

এই বক্তব্য সত্য নয়। ভ্যাপনিক ও চেরভোনেনকিসের অনুভূতিগত ঝুঁকি হ্রাসের উপর উপপাদাগুলি রয়েছে যা নমুনার সংখ্যা, শেখার পদ্ধতির ভিসি দিক এবং সাধারণীকরণ ত্রুটির সাথে সংযোগ স্থাপন করে। দ্রষ্টব্য, এটি কেবলমাত্র একটি প্রদত্ত ডেটাসেটের জন্য প্রযোজ্য। সুতরাং একটি ডেটাসেট এবং একটি শেখার পদ্ধতি দেওয়া হয়েছে যা আমরা সাধারণীকরণের সীমাটি জানি। মনে রাখবেন যে, বিভিন্ন ডেটাসেটের জন্য কোনও নিখরচায় মধ্যাহ্নভিত্তিক উপপাদ্যের কারণে একক সেরা শেখার পদ্ধতি নেই এবং হতে পারে না।

ওজন অনুকূলকরণ একটি উত্তল সমস্যা নয়, তাই আমরা কখনই জানি না যে আমরা কোনও বিশ্বব্যাপী বা স্থানীয় নূন্যতমের সাথে শেষ করব। তাহলে কেন কেবল নিউরাল নেটওয়ার্কগুলি ডাম্প না করে তার পরিবর্তে আরও ভাল এমএল মডেলটি অনুসন্ধান করুন?

এখানে কিছু জিনিস মনে রাখা উচিত যা আপনার প্রয়োজন। উত্তল-উত্তল সমস্যার অনুকূলকরণ উত্তল একের মতো সহজ নয়; ঐটা সত্য. যাইহোক, শিখন পদ্ধতির যে শ্রেণীর উত্তলগুলি সীমিত (লিনিয়ার রিগ্রেশন, এসভিএম) এবং বাস্তবে তারা বিভিন্ন সমস্যা নিয়ে নন-কনভেক্স (বুস্টিং, সিএনএন) এর শ্রেণির চেয়ে খারাপ সম্পাদন করে। সুতরাং গুরুত্বপূর্ণ অংশটি অনুশীলনে স্নায়ু জাল সবচেয়ে ভাল কাজ করে। যদিও বেশ কয়েকটি গুরুত্বপূর্ণ উপাদান রয়েছে যা নিউরাল জালকে ভালভাবে কাজ করে:

  1. স্টোকাস্টিক গ্রেডিয়েন্ট বংশদ্ভুত কারণে এগুলি খুব বড় ডেটাসেটে প্রয়োগ করা যেতে পারে।
  2. এসভিএমগুলির বিপরীতে, গভীর জালের সাথে অনুকরণ ডেটাসেটের উপর নির্ভর করে না। এটি পরীক্ষার সময় স্নায়বিক জালকে দক্ষ করে তোলে।
  3. নিউরাল নেটগুলির সাহায্যে কেবল আরও স্তর যুক্ত করে বা আরও বড় করে তাদের শেখার ক্ষমতা (পরামিতির সংখ্যা মনে করুন) সরাসরি নিয়ন্ত্রণ করা সম্ভব। এটি গুরুত্বপূর্ণ যেহেতু বিভিন্ন ডেটাসেটের জন্য আপনি বড় বা আরও ছোট মডেলগুলি চাইতে পারেন।

আমরা যা বুঝি এমন কিছু, এবং এমন কিছু যা গাণিতিক সমীকরণের সেটগুলির সাথে সামঞ্জস্যপূর্ণ? লিনিয়ার এবং এসভিএম এর গাণিতিক ত্রুটি নেই এবং গাণিতিক সমীকরণের এএ সেটগুলির সাথে সম্পূর্ণ সুসংগত। কেন কেবল একই লাইনে চিন্তা করবেন না (যদিও লিনিয়ার হওয়ার দরকার নেই) এবং লিনিয়ার এবং এসভিএম এবং নিউরাল নেটওয়ার্ক এবং গভীর শিক্ষার চেয়ে ভাল নতুন এমএল মডেল নিয়ে আসছেন?

যে জিনিসগুলি কাজ করে সেগুলি না বোঝার কারণে ডাম্পিং করা কোনও দুর্দান্ত গবেষণা নির্দেশ নয়। এগুলি বোঝার চেষ্টা করা অন্যদিকে, দুর্দান্ত গবেষণার দিকনির্দেশ। এছাড়াও, আমি দ্বিমত পোষণ করি যে নিউরাল নেটওয়ার্কগুলি গাণিতিক সমীকরণের সাথে সঙ্গতিপূর্ণ নয়। তারা বেশ সামঞ্জস্যপূর্ণ। আমরা কীভাবে সেগুলি অনুকূল করতে এবং অনুমান সম্পাদন করতে পারি তা আমরা জানি।


-2

পরীক্ষামূলক দৃষ্টিকোণ থেকে স্নায়বিক নেটওয়ার্কগুলি দেখার বিষয়ে কীভাবে? আমরা এগুলি তৈরি করেছি বলেই এর অর্থ এই নয় যে আমরা সেগুলি স্বজ্ঞাতভাবে বুঝতে বাধ্য। বা তারা কী করছে সে সম্পর্কে আরও ভাল ধারণা পেতে আমাদের তাদের সাথে খেলতে দেওয়া হয়নি।

তাদের সম্পর্কে আমার বেশ কয়েকটি চিন্তাভাবনা রয়েছে:

  • কাঠামো: এগুলি হায়ারারচি। এগুলি গাছের মতো যা উপার্জন করে। শিকড়গুলি ইনপুট এবং পাতাগুলি আউটপুট স্তর। আউটপুটগুলির সাথে স্তরটি যত কাছাকাছি হয়, তাদের সাথে এটি আরও প্রাসঙ্গিক হয়, এতে বিমূর্ততার বৃহত্তর স্তর রয়েছে (এটি পিক্সেলের চেয়ে চিত্র সম্পর্কে আরও বেশি)।
  • কার্যকারিতা: তারা ডেটা দিয়ে "খেল", মোডাস অপারেন্ডি হ'ল নিউরন (ওজন) এর সাথে সম্পর্কের সাথে পরীক্ষা করা অবধি জিনিস "ক্লিক" না করা (ত্রুটির মার্জিন গ্রহণযোগ্য হয়)।

এটি আমরা কীভাবে চিন্তা করি তার সাথে সামঞ্জস্যপূর্ণ। এটি বৈজ্ঞানিক পদ্ধতি কীভাবে পরিচালিত হয় তার সাথে সামঞ্জস্যপূর্ণ। সুতরাং নিউরাল নেটওয়ার্কগুলি ক্র্যাক করে আমরা জ্ঞানটি কী উপস্থাপন করে তার সাধারণ প্রশ্নটিও সমাধান করা হতে পারে।


-3

ভুলে যাবেন না, এমন অনেক গবেষণার ক্ষেত্র রয়েছে যা এলএম, জিএলএম, মাল্টিলেভেল মডেলিং ব্যবহার করে। ইদানীং বয়েশিয়ান কৌশল এবং হ্যামিলটোনীয় মন্টি কার্লো (স্টান সম্প্রদায় সত্যই এটির সর্বাগ্রে এগিয়ে রয়েছে) বয়স এসেছে এবং স্ট্যান দ্বারা সহজেই সমাধান করা বেশ কয়েকটি সমস্যা এবং সত্যিই এনএনএস বা গভীর জালের দরকার নেই। সামাজিক বিজ্ঞান গবেষণা, মাইক্রোকমোনমিক্স স্ট্যানকে দ্রুত গ্রহণের ক্ষেত্রে দুটি (বৃহত্তর) উদাহরণ।

স্ট্যান মডেলগুলি খুব "পঠনযোগ্য"। গুণাগুলির আসলে উত্তরোত্তর বন্টনমূলক ব্যাখ্যা থাকে এবং তাই ভবিষ্যদ্বাণীগুলিও ঘটে। প্রিয়াররা ডেটা তৈরির প্রক্রিয়ার অংশ এবং পারফরম্যান্ট হওয়ার জন্য গিজব্যাট হওয়ার দরকার নেই (গীবসের মতো)। স্ট্যানের মধ্যে থাকা মডেলটি বেশ আনন্দিত, এটি প্রকৃতপক্ষে এমসিসিএম প্যারামগুলি স্বয়ংক্রিয়ভাবে সুন্দর করে তোলে এবং যখন অনুসন্ধান সত্যিই দুর্দান্ত দৃশ্যায়নের সাথে আটকে থাকে তখন আপনাকে সতর্ক করে দেয়।

আপনি যদি এটি চেষ্টা না করে থাকেন তবে ইতিমধ্যে এখানে দুর্দান্ত স্ট্যান ডেমো দেখতে পাবেন )।

দিনের শেষে আমি মনে করি লোকেরা এই জিনিসগুলি নিয়ে এত বেশি কথা বলে না কারণ এই ক্ষেত্রে গবেষণা এবং সমস্যাগুলি এনএনএসের মতো "সেক্সি" / "শীতল" নয়।


-5

গাণিতিক ধারাবাহিকতা না থাকলে সাধারণত কী ঘটে (নিউরাল নেটওয়ার্কগুলির ক্ষেত্রে এটি অন্ততপক্ষে) ... যখন পরীক্ষার সেটটিতে এটি পছন্দসই ফলাফল দিচ্ছে না, তখন আপনার বস ফিরে আসবেন এবং বলবেন ... আরে আপনি কেন করবেন না ড্রপ আউট চেষ্টা করুন (কোন ওজন, কোন স্তর, আপনার মাথাব্যথা কতগুলি নির্ধারণের জন্য গাণিতিক উপায় নেই), তাই আপনি চেষ্টা করার পরে এবং আশা করি প্রান্তিক উন্নতি পেয়েছেন তবে কাঙ্ক্ষিত নয়, আপনার বস ফিরে আসবেন এবং বলবেন, কেন ওজন ক্ষয় চেষ্টা না (কি কারণ?)? এবং পরে, আপনি কেন কিছু স্তরগুলিতে আরএলইউ বা অন্য কোনও অ্যাক্টিভেশন চেষ্টা করে না, এবং এখনও না, কেন 'সর্বোচ্চ পুলিং' চেষ্টা করবেন না? তবুও নয়, কেন ব্যাচের সাধারণকরণের চেষ্টা করবেন না, এখনও নয়, বা ন্যূনতম কনভার্জেন্সের চেষ্টা করুন না, তবে কাঙ্ক্ষিত ফলাফল নয়, ওহে আপনি স্থানীয় ন্যূনতমতে রয়েছেন, বিভিন্ন শিক্ষার হারের শিডিয়ুল চেষ্টা করুন, শুধু নেটওয়ার্ক আর্কিটেকচার পরিবর্তন? এবং সর্বোপরি বিভিন্ন সংমিশ্রণে পুনরাবৃত্তি করুন! আপনি সফল না হওয়া পর্যন্ত এটিকে একটি লুপে রাখুন!

অন্যদিকে, আপনি যখন একটি সামঞ্জস্যপূর্ণ এসভিএম চেষ্টা করেন, রূপান্তর করার পরে, যদি ফলাফলটি ভাল না হয়, তবে ঠিক আছে, আমরা যে লিনিয়ার কার্নেলটি ব্যবহার করছি তা যথাযথ নয় কারণ ডেটা লিনিয়ার নাও হতে পারে, ভিন্ন আকারের কার্নেল ব্যবহার করুন, চেষ্টা করুন যদি আপনার কোনও হান্চ থাকে তবে ভিন্ন আকারের কার্নেল, যদি এখনও না থাকে তবে কেবল এটি ছেড়ে দিন, এটি এসভিএমের একটি সীমাবদ্ধতা।

আমি যা বলছি তা হ'ল, নিউরাল নেটওয়ার্কগুলি এতটা বেমানান হচ্ছে যে এটি ভুলও নয়! এটি কখনও তার পরাজয় স্বীকার করে না! প্রকৌশলী / ডিজাইনার বোঝাটি গ্রহণ করেন, যদি এটি পছন্দ মতো কাজ না করে।


3
এটি আপনার নিজের প্রশ্নের উত্তর আছে বলে মনে হয় না। আপনি কি মনে করেন যে আপনি এটি কোনও রেন্টের মতো কম শোনার জন্য এডিট করতে পেরেছিলেন এবং এটি কীভাবে এমএল মডেলের (যা আপনার মূল প্রশ্ন বলে মনে হচ্ছে) স্নায়বিক নেটওয়ার্ক এবং গভীর শিক্ষার কারণ হতে পারে তা ব্যাখ্যা করে?
সিলভারফিশ

1
তাঁর বক্তব্যটি হ'ল এসভিএমের সাহায্যে আমরা জানি যখন আমরা যেমন করতে পারি তেমনি করে করেছি, তবে এনএনএস দিয়ে আমরা জানতে পারি না। যুক্তিযুক্তভাবে, ডিএল বোকা বানানো যে স্বাচ্ছন্দ্য দেওয়া হয়েছে তেমনি ত্রুটির মতো মেট্রিকগুলি আমাদের জানায় না যে মডেলটি আসলে কীভাবে করছে।
ইয়ার্সে

1
@ ইয়েটার্স, হ্যাঁ, তবে সিলভারফিশের মন্তব্য ছিল যে এটি কেন ডিএল ফেলে দেবে না তার কোনও উত্তর নয়। এটি প্রশ্নের পুনঃস্থাপনের কাছাকাছি। আমি এটি প্রশ্নের সাথে মার্জ করার পরামর্শ দেব।
পি.বাইন্ড্রিজ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.