নিপীড়নের ক্ষেত্রে অতিরিক্ত চাপ দেওয়া থেকে বিরত থাকুন: নিয়ন্ত্রণের বিকল্প


19

রিগ্রেশন নিয়মিতকরণ (লিনিয়ার, লজিস্টিক ...) ওভার-ফিটিং হ্রাস করার সর্বাধিক জনপ্রিয় উপায়।

লক্ষ্যটি পূর্বাভাসের নির্ভুলতা হয় (ব্যাখ্যা না করে), নিয়মিতকরণের জন্য কি কোনও ভাল বিকল্প রয়েছে, বিশেষত বড় ডেটা-সেটগুলির জন্য উপযুক্ত (মাইল / বিলিয়ন পর্যবেক্ষণ এবং লক্ষ লক্ষ বৈশিষ্ট্য)?


3
"বড় ডেটাসেটগুলি" অর্থ প্রচুর পর্যবেক্ষণ, প্রচুর পরিমাণে ভেরিয়েবল বা উভয়ই হতে পারে এবং উত্তরটি পর্যবেক্ষণ এবং ভেরিয়েবলের সংখ্যার উপর নির্ভর করে depend
পেরে

নিয়ম নিয়ন্ত্রণ কেন ব্যবহার করবেন না? নিউরাল নেটওয়ার্কগুলির জন্য, ড্রপআউট রয়েছে
seanv507

4
নিয়মিতকরণের সুবিধা হ'ল এটি গণনাগতভাবে সস্তা। মডেল ডায়াগনস্টিকসের জন্য ক্রস বৈধকরণ পদ্ধতির সাথে মিলিত ব্যাগিং এবং বুস্টিং (ইত্যাদির) মতো এনসেম্বল পদ্ধতিগুলি একটি ভাল বিকল্প, তবে এটি আরও অনেক ব্যয়বহুল সমাধান হবে।
ডিজিও

1
এটি আগ্রহী হতে পারে: stats.stackexchange.com/a/161592/40604
ড্যান

1
ডিজিওর মন্তব্যে যোগ করার জন্য: ব্যাগিং / বুস্টিংয়ের তুলনায় নিয়মিতকরণ সস্তা তবে "নিয়মিতকরণ নয়" এর বিকল্পের তুলনায় ব্যয়বহুল (উদাহরণস্বরূপ বেন রেক্টের এই পোস্টটি কীভাবে গভীর শিখনকে কঠোর করে তোলে এই পোস্টটি দেখুন )। আপনার কাছে যদি প্রচুর পরিমাণে নমুনা থাকে তবে কোনও নিয়মিতকরণ খুব কম খরচে ভাল কাজ করতে পারে না। মডেলটি এখনও @ hxd1001 পয়েন্ট আউট হিসাবে ভাল করতে পারে )
বার্ক ইউ

উত্তর:


11

দুটি গুরুত্বপূর্ণ বিষয় যা আপনার প্রশ্নের সাথে সরাসরি সম্পর্কিত নয়:

  • প্রথমত, এমনকি লক্ষ্যটি ব্যাখ্যার পরিবর্তে যথার্থতা, অনেক ক্ষেত্রে নিয়মিতকরণ এখনও প্রয়োজনীয়, যেহেতু এটি নিশ্চিত করবে যে "উচ্চ নির্ভুলতা" বাস্তব পরীক্ষার / উত্পাদনের ডেটা সেটগুলিতে, মডেলিংয়ের জন্য ব্যবহৃত ডেটা নয়।

  • দ্বিতীয়ত, যদি বিলিয়ন সারি এবং মিলিয়ন কলাম থাকে তবে এটি কোনও নিয়মিতকরণের প্রয়োজন নেই। এটি কারণ ডেটা বিশাল, এবং অনেক গণনা মডেল "সীমাবদ্ধ শক্তি", অর্থাত্, এটি ফিট করা প্রায় অসম্ভব। এ কারণেই কিছু গভীর নিউরাল নেটওয়ার্কের কয়েক বিলিয়ন প্যারামিটার রয়েছে।


এখন, আপনার প্রশ্ন সম্পর্কে। বেন এবং অ্যান্ড্রে যেমন উল্লেখ করেছেন, নিয়ন্ত্রণের বিকল্প হিসাবে কিছু বিকল্প রয়েছে। আমি আরও উদাহরণ যুক্ত করতে চাই।

  • সহজ মডেল ব্যবহার করুন (উদাহরণস্বরূপ, নিউরাল নেটওয়ার্কে লুকানো ইউনিটের সংখ্যা হ্রাস করুন S

  • অপ্টিমাইজেশনের প্রথম দিকে থামুন। (উদাহরণস্বরূপ, নিউরাল নেটওয়ার্ক প্রশিক্ষণের যুগে যুগে হ্রাস, অপ্টিমাইজেশনে পুনরাবৃত্তির সংখ্যা হ্রাস করুন (সিজি, বিএফজিএস, ইত্যাদি)

  • অনেকগুলি মডেলের গড় (উদাহরণস্বরূপ, এলোমেলো বন ইত্যাদি)


অনেক ধন্যবাদ. দ্বিতীয় বিকল্প (তাড়াতাড়ি থামুন) হ'ল আমরা বর্তমানে এসজিডি দিয়ে চেষ্টা করছি। এটি বরং ভাল কাজ করে। আমরা শীঘ্রই এটি নিয়মিতকরণের সাথে তুলনা করতে চাই। এই পদ্ধতির উল্লেখ করে এমন কোনও নিবন্ধ সম্পর্কে আপনি কি সচেতন?
বেনোইট সানচেজ

1
গ্রেডিয়েন্ট বংশদ্ভুতের সাথে প্রথম দিকে বন্ধ হওয়া এবং নিয়মিতকরণের মধ্যে জ্যামিতিক সম্পর্কের ইঙ্গিত রয়েছে। উদাহরণস্বরূপ, এর প্রাথমিক ফর্মের রিজ রিগ্রেশন ক্ষতির ফাংশনটি হ্রাস করে এমন পরামিতিগুলির জন্য জিজ্ঞাসা করে যা একটি দীর্ঘবৃত্তের অভ্যন্তরে অবস্থিত একটি দীর্ঘবৃত্তের মধ্যে থাকে, এলিপসের আকারের সাথে নিয়মিতকরণের শক্তির একটি ফাংশন থাকে। রিজ পরামিতিগুলি আন-নিয়মিত সমাধানের চেয়ে পৃথক হলে উপবৃত্তের পৃষ্ঠের উপরে থাকে। আপনি যদি উত্স থেকে শুরু করে একটি চড়াই চালান এবং তারপরে তাড়াতাড়ি থামেন, আপনি এই উপবৃত্তের একটি সীমানায় থাকবেন ...
ম্যাথু ড্রুরি

যেহেতু আপনি গ্রেডিয়েন্টগুলি অনুসরণ করেছেন, আপনি প্রকৃত ন্যূনতম দিকে যাওয়ার পথটি অনুসরণ করেছেন, তাই আপনি প্রায় সময়ই রিজ সমাধানের কাছাকাছি চলে আসবেন। আপনি চিন্তার এই ট্রেনটি কতটা কঠোর করতে পারবেন তা আমি নিশ্চিত নই, তবে একটি সম্পর্ক থাকতে পারে।
ম্যাথু ড্রুরি

@BenoitSanchez এই কাগজ প্রাসঙ্গিক হতে পারে। লেখকরা একটি ভিন্ন সমস্যা মোকাবেলা করেছেন (ইগেনভেেক্টর গণনায় অতিমাত্রায় জড়িত), তবে ওভারফিটিংয়ের সাথে মোকাবিলা করার কৌশলটি একই (অর্থাত গণনা হ্রাস করে নিখুঁত নিয়ন্ত্রণ)। কৌশলটি হ'ল একটি সস্তার সমস্যা সমাধান করা যা একটি আনুমানিক সমাধান দেয় (যা - আমি মনে করি - অপ্টিমাইজেশানের প্রথম দিকে থামার মতোই)।
বার্ক উ।

@ বেনোইটসানচেজ আমি এটির প্রস্তাব দিই। লরেঞ্জোর বক্তৃতা ইউটিউবে পাওয়া যায়, তবে এই পৃষ্ঠায় কিছু কাগজপত্রের লিঙ্কও রয়েছে mit.edu/~9.520/fall17/Class/early_stopping.html
ডেভিড কোজাক

14

নিয়ন্ত্রণের দুটি বিকল্প:

  1. অনেক, অনেক পর্যবেক্ষণ আছে
  2. একটি সহজ মডেল ব্যবহার করুন

জিওফ হিন্টন (ব্যাক প্রপোজেশনের সহ-উদ্ভাবক) একবার ইঞ্জিনিয়ারদের একটি গল্প বলেছিলেন যা তাকে (প্রচন্ডভাবে প্যারাফ্রেসিং করে) বলেছিল, "জেফ, আমাদের গভীর জালে আমাদের ড্রপআউটের দরকার নেই কারণ আমাদের এত বেশি তথ্য আছে।" আর তার প্রতিক্রিয়া, ছিল, "ভাল, তাহলে আপনি, এমনকি গভীর জাল গড়ে তুলতে চাই না যতক্ষণ না আপনি করছেন overfitting, এবং তারপর ঝরে পড়া ব্যবহার করুন।" ভাল পরামর্শ একদিকে রাখুন, যথেষ্ট পরিমাণে ডেটা থাকা সত্ত্বেও আপনি গভীর জাল দিয়ে স্পষ্টতই নিয়মিতকরণ এড়াতে পারবেন।

একটি নির্দিষ্ট সংখ্যক পর্যবেক্ষণের সাহায্যে আপনি একটি সহজ মডেলও বেছে নিতে পারেন। কোনও সাধারণ লিনিয়ার রিগ্রেশনটিতে একটি বিরতি, একটি opeালু এবং ত্রুটির বৈকল্পিক অনুমান করার জন্য আপনার সম্ভবত নিয়মিতকরণের প্রয়োজন নেই।


3

ওভারফিটিং এড়াতে কিছু অতিরিক্ত সম্ভাবনা

  • মাত্রা হ্রাস

    মি<<মি

  • বৈশিষ্ট্য নির্বাচন (এছাড়াও মাত্রা হ্রাস)

    আপনি একটি নিম্ন মাত্রিক বৈশিষ্ট্য স্থান পেতে বৈশিষ্ট্য নির্বাচনের এক দফা (যেমন লাসো ব্যবহার করে) সঞ্চালন করতে পারেন। বৈশিষ্ট্যগুলির কিছু বড় তবে অজানা সাবসেট অপ্রাসঙ্গিক হলে লাসো ব্যবহার করে বৈশিষ্ট্য নির্বাচন করার মতো কিছু কার্যকর হতে পারে।

  • এলোমোথিমগুলি এলোমেলো বনের মতো অতিমাত্রায় মানিয়ে নিতে কম প্রবণতা ব্যবহার করুন। (সেটিংস, বৈশিষ্ট্যগুলির সংখ্যা ইত্যাদির উপর নির্ভর করে ... এটি সাধারণ ন্যূনতম স্কোয়ারের তুলনায় আরও বেশি গণনামূলক ব্যয়বহুল হতে পারে))

    অন্যান্য উত্তরগুলির মধ্যে কিছুতে বুগিং এবং ব্যাগিং কৌশল / অ্যালগরিদমগুলির সুবিধাও উল্লেখ করা হয়েছে।

  • বায়েশিয়ান পদ্ধতি

    গুণাগুলি ভেক্টরের উপর একটি অগ্রগতি যুক্ত হ্রাসকারী ওফিটিং। এটি নিয়মিতীকরণের সাথে ধারণার সাথে সম্পর্কিত: যেমন। রিজ রিগ্রেশন সর্বোচ্চ পোস্টেরিয়েরি অনুমানের একটি বিশেষ ক্ষেত্রে।


2

আপনি যদি কোনও সলভার সহ এমন কোনও মডেল ব্যবহার করেন, যেখানে আপনি সংখ্যার পুনরাবৃত্তি / মহাকাশ সংজ্ঞায়িত করতে পারেন, আপনি বৈধতা ত্রুটি ট্র্যাক করতে পারেন এবং তাড়াতাড়ি থামানো প্রয়োগ করতে পারেন: বৈধতা ত্রুটি বাড়তে শুরু করলে অ্যালগরিদম বন্ধ করুন।


1
এই প্রশ্নটি পরিষ্কারটি রিগ্রেশন (লিনিয়ার, লজিস্টিক) মডেল সম্পর্কে জিজ্ঞাসা করে।
ম্যাথু ড্রুরি

2
প্রযুক্তিগতভাবে লিনিয়ার এবং লজিস্টিক রিগ্রেশন বলতে খুব সাধারণ নিউরাল নেটওয়ার্ক।
আন্দ্রে লুকায়েনকো

2
আমি মনে করি না যে এটি আমার বিশ্বাসকে পরিবর্তন করে যে এটি জিজ্ঞাসিত প্রশ্নের উত্তর দেয় না। যদি আপনি এটি "যদি আপনি কিছুটা গ্রেডিয়েন্ট বংশোদ্ভূত উত্সের সাথে রিগ্রেশনটি ফিট করেন এবং তাড়াতাড়ি থামিয়ে প্রয়োগ করেন" বলে এটি পুনরায় কাজ করে তবে এটি আরও ভাল।
ম্যাথু ড্রুরি

এমনকি স্ক্লারনেনের বেশ কয়েকটি মডেল রয়েছে যা পরামিতিগুলিকে সংখ্যার পুনরাবৃত্তি সীমাবদ্ধ করে support এটি নির্ভুলতা ট্র্যাক করতে ব্যবহার করা যেতে পারে। তবে আমি মনে করি আপনি ঠিক বলেছেন যে শব্দটি ঠিক সঠিক নয়।
আন্দ্রে লুকায়েনকো

1

দুটি চিন্তা:

  1. বেন ওগোরেক প্রস্তাবিত "কৌশলটির একটি সহজ মডেল ব্যবহার করুন" আমি দ্বিতীয় ।

    আমি ছোট পূর্ণসংখ্যার সহগ সহ (যেমন -5 থেকে 5 এর মধ্যে পূর্ণসংখ্য সহগ সহ সর্বোচ্চ 5 ভেরিয়েবল) সহ বিচ্ছিন্ন রৈখিক শ্রেণিবিন্যাসের মডেলগুলিতে কাজ করি। মডেলগুলি যথার্থতা এবং ট্রিকিয়ার পারফরম্যান্স মেট্রিকগুলির (যেমন ক্যালিগ্রেশন) এর ক্ষেত্রে ভাল জেনারালাইজ করে।

    এন/

  2. আপনি যদি নিজের মডেলের অতিরিক্ত বাধা নির্দিষ্ট করতে পারেন (যেমন একঘেয়েমি বাধা, পার্শ্ব সম্পর্কিত তথ্য), তবে এটি অনুমানের স্থান হ্রাস করে সাধারণীকরণেও সহায়তা করতে পারে (উদাহরণস্বরূপ এই কাগজটি দেখুন )।

    এটি যত্ন সহকারে করা দরকার (যেমন আপনি সম্ভবত কোনও মডেল বাধা ছাড়াই আপনার মডেলকে বেসলাইনের সাথে তুলনা করতে চান এবং আপনার প্রশিক্ষণ প্রক্রিয়াটি এমনভাবে ডিজাইন করতে চান যাতে আপনি নিশ্চিত হন যে চেরি বাছাইয়ের সীমাবদ্ধতা নেই)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.