র্যান্ডম বন পদ্ধতি লিনিয়ার রেগ্রেশনগুলিতে প্রয়োগ করা যেতে পারে?


14

র্যান্ডম অরণ্যগুলি সিদ্ধান্ত গাছের একটি সংযুক্তি তৈরির মাধ্যমে কাজ করে যেখানে প্রতিটি গাছ মূল প্রশিক্ষণের ডেটার বুটস্ট্র্যাপ নমুনা (ইনপুট ভেরিয়েবল এবং পর্যবেক্ষণ উভয়ের নমুনা) ব্যবহার করে তৈরি করা হয়।

লিনিয়ার রিগ্রেশন এর জন্য কি একই জাতীয় প্রক্রিয়া প্রয়োগ করা যেতে পারে? প্রতিটি কে-রিগ্রেশনগুলির জন্য এলোমেলো বুটস্ট্র্যাপ নমুনা ব্যবহার করে কে লিনিয়ার রিগ্রেশন মডেল তৈরি করুন

মডেলের মতো "এলোমেলো রিগ্রেশন" তৈরি না করার কারণগুলি কী কী?

ধন্যবাদ। যদি কিছু থাকে তবে আমি কেবলমাত্র মূলত ভুল বোঝাবুঝি করি তবে দয়া করে আমাকে জানান।


বুটস্ট্র্যাপ যখন গাছগুলিকে একত্রিত করে, প্রতিটি গাছ যুক্ত করার সাথে সামগ্রিক রিগ্রেশন ফাংশন আরও বেশি জটিল হয়। অন্যদিকে, বুটস্ট্র্যাপ যখন ফর্মটির সমষ্টিগত রৈখিক কার্যগুলি বজায় রাখে a_0 + a_1 * x_1 + ... + a_d * x_d, ফলস্বরূপ গড় লিনিয়ার ফাংশন (বুটস্ট্র্যাপ একত্রিত করার পরে) এখনও আপনি একইরূপে রৈখিক কার্যকরী ফর্ম রাখেন (যেমন 'বেস লার্নার')।
আন্দ্রে হল্জনার

1
@ আন্ড্রে হোলজনার - আপনি যা সত্য বলছেন তা কিন্তু, কিন্তু, তবে ... তবে এই র্যান্ডম ফরেস্ট করা আসলে নিয়মিতকরণের একটি রূপ, একই ধরণের ক্লাসে ছড়িয়ে পড়ার মতো। আমি আপনাকে একটি গোপন কথা বলব, একটি রিগ্রেশন ট্রি আসলে একটি লিনিয়ার মডেল sp আমার বায়েশিয়ান টুপি লাগিয়ে, এলোমেলোভাবে নিয়মিত ফরেস্ট রেগুলারাইজার সম্ভবত বয়েসীয় প্রসঙ্গে ব্যবহৃত "স্পাইক এবং স্ল্যাব" প্রিয়ারগুলির সাথে মোটামুটিভাবে মিলবে।
সম্ভাব্যতা ব্লগ

@ প্রব্যাবিলিসিসলিক, আপনি কি ব্যাখ্যা করতে পারবেন?
সাইমন কুয়াং

আপনি গাছগুলিকে লিনিয়ার মডেল হিসাবে ভাবতে পারেন । জেড টি হ'ল একটি নকশা ম্যাট্রিক্স যা প্রতিটি পর্যবেক্ষণ ট্রি টি'র জন্য অন্তর্ভুক্ত টার্মিনাল নোড এবং θ t হ'ল টার্মিনাল নোড পূর্বাভাসের সংশ্লিষ্ট ভেক্টর। যে কোনও গাছকে এভাবে বর্ণনা করা যায় - একটি গাছ নির্বাচন করা স্থানের স্থিতিবদ্ধ মডেল নির্বাচনের সমানy=Ztθt+eZtটিθt যার আছে - 2 এন সম্ভব "টার্মিনাল নোড" cconfigurations আমি মনে করি (যেখানে এন প্রশিক্ষণ নমুনা আকার)। Zt2nn
সম্ভাব্যতা

উত্তর:


5

আমি উপস্থিত উত্তরগুলির সাথে আংশিকভাবে একমত নই কারণ পদ্ধতিটি এলোমেলোভাবে বন নির্ধারিত হয় যা তাদের স্বাধীন করার জন্য ভেরিয়েন্স (বুটস্ট্র্যাপযুক্ত নমুনাগুলিতে তৈরি কার্টগুলি + র্যান্ডম সাবস্পেস পদ্ধতি) তৈরি করে। আপনার যখন অर्थোগোনাল গাছ থাকে তারপরে তাদের পূর্বাভাসের গড় গড় বৃক্ষের পূর্বাভাসের চেয়ে ভাল হয়ে যায় (জেনসেনের বৈষম্যের কারণে)। যদিও এই চিকিত্সার সাপেক্ষে কার্টগুলির কাছে লক্ষণীয় পার্ক রয়েছে তবে এই পদ্ধতিটি অবশ্যই কোনও মডেলের ক্ষেত্রে প্রযোজ্য এবং লিনিয়ার মডেলগুলি ব্যতিক্রম নয়। এখানে একটি আর প্যাকেজ যা আপনি যা খুঁজছেন ঠিক তেমনই। এটি কীভাবে তাদের টিউন ও ব্যাখ্যা করতে হবে এবং এই বিষয়ে গ্রন্থপঞ্জি: র্যান্ডম জেনারেলাইজড লিনিয়ার মডেলগুলি সম্পর্কে একটি সুন্দর টিউটোরিয়াল উপস্থাপন করেছে ।


14

@ জিগিস্টারের প্রতিক্রিয়াটিকে মেশিন লার্নিং জার্গনের ক্ষেত্রে রাখার জন্য: বুটস্ট্র্যাপ সংগ্রহের কৌশলগুলির (যেমন র‌্যান্ডম অরণ্য) পিছনে ধারণাটি হ'ল "এলোমেলো" বা "অস্থিরতা" এর কিছু উপাদান সহ ডেটাতে অনেক কম-পক্ষপাত, উচ্চ-বৈকল্পিক মডেল ফিট করে। এলোমেলো বনের ক্ষেত্রে, বুটস্ট্র্যাপিংয়ের মাধ্যমে এবং গাছের প্রতিটি নোডকে বিভক্ত করার জন্য র্যান্ডম বৈশিষ্ট্যগুলির একটি সেট বাছাইয়ের মাধ্যমে অস্থিরতা যুক্ত করা হয়। এই গোলমাল, কিন্তু কম পক্ষপাতের জুড়ে গড়ে গাছগুলি যে কোনও পৃথক গাছের উচ্চতম পরিবর্তনকে হ্রাস করে।

যখন রিগ্রেশন / শ্রেণিবিন্যাস গাছগুলি "নিম্ন-পক্ষপাত, উচ্চ-বৈকল্পিক" মডেল, লিনিয়ার রিগ্রেশন মডেলগুলি সাধারণত বিপরীত হয় - "উচ্চ-পক্ষপাত, নিম্ন-বৈকল্পিক।" সুতরাং, লিনিয়ার মডেলগুলির সাথে প্রায়শই যে সমস্যার মুখোমুখি হয় তা হ'ল পক্ষপাত হ্রাস করে, বৈকল্পিকতা হ্রাস করে না। বুটস্ট্র্যাপ একত্রিত করার জন্য এটি সহজভাবে করা হয় না।

একটি অতিরিক্ত সমস্যা হ'ল বুটস্ট্র্যাপিং সাধারণত একটি রৈখিক মডেলগুলিতে পর্যাপ্ত "এলোমেলো" বা "অস্থিরতা" সরবরাহ করতে পারে না। আমি প্রত্যাশা করব যে বুটস্ট্র্যাপের নমুনাগুলির এলোমেলোতার জন্য একটি রিগ্রেশন ট্রি আরও সংবেদনশীল হবে, যেহেতু প্রতিটি পাত সাধারণত সাধারণত হাতে গোনা কয়েকটি তথ্য পয়েন্ট ধারণ করে। অতিরিক্তভাবে, প্রতিটি নোডে ভেরিয়েবলের এলোমেলো উপসেটে গাছকে বিভক্ত করে রিগ্রেশন গাছগুলি স্টোচাস্টিকালি বৃদ্ধি করা যেতে পারে। এটি কেন গুরুত্বপূর্ণ এই জন্য এই পূর্ববর্তী প্রশ্নটি দেখুন: এম এলোমেলো বৈশিষ্ট্যের ভিত্তিতে এলোমেলো বন কেন বিভক্ত হয়?

যা যা বলা হচ্ছে, আপনি অবশ্যই লিনিয়ার মডেলগুলিতে বুটস্ট্র্যাপিং ব্যবহার করতে পারেন [LINK] , এবং এটি নির্দিষ্ট প্রসঙ্গে খুব সহায়ক হতে পারে। যাইহোক, অনুপ্রেরণা বুটস্ট্র্যাপ সংগ্রহের কৌশলগুলির চেয়ে অনেক আলাদা।


লিঙ্ক এবং প্রতিক্রিয়া জন্য ধন্যবাদ। যদি এলোমেলো পদ্ধতিটি "নিম্ন পক্ষপাত, উচ্চ বৈকল্পিক" মডেলগুলির জন্য কার্যকর হয় তবে বিপরীত ধরণের মডেলগুলিকে "উচ্চ পক্ষপাত, নিম্ন বৈকল্পিক" নিয়ে কাজ করার জন্য কি কোনও পদ্ধতি আছে?
রিক

আপনার যদি কম পক্ষপাত, উচ্চ বৈকল্পিক মডেল থাকে তবে ব্যাগিংয়ের মতো পদ্ধতিগুলি পক্ষপাতিত্বের সামান্য বৃদ্ধিতে বৈকল্পিকতা হ্রাস করতে পারে। আপনার যদি উচ্চ পক্ষপাত, স্বল্প বৈকল্পিকতা থাকে তবে এমন একটি মডেল ব্যবহার করুন যা নিম্ন পক্ষপাত এবং উচ্চতর বৈসাদৃশ্য - যেমন বহুপদী রিগ্রেশন বা আরও সাধারণভাবে কার্নেল পদ্ধতি।
জো

10

গঠনের দিক রৈখিক মডেল সমান আবার একটি গঠনের দিক সমান রৈখিক মডেল, পরামিতি কেবল সঙ্গে গড় (ব্যবহারের বিভাজক আইন)। তবে আমি গণিত করিনি এবং আমি পুরোপুরি নিশ্চিত নই।

এবং এখানে কেন এটি সিদ্ধান্ত গাছের মতো লিনিয়ার মডেলগুলির সাথে "এলোমেলো" -টি করা যেমন আকর্ষণীয় নয়:

একটি বৃহত্তর নমুনা থেকে তৈরি একটি বৃহত সিদ্ধান্ত গাছ খুব উপাত্তকে সাব্যস্ত করতে পারে এবং এলোমেলো বন পদ্ধতি অনেকগুলি ছোট গাছের ভোটের উপর নির্ভর করে এই প্রভাব নিয়ে লড়াই করে।

অন্যদিকে লিনিয়ার রিগ্রেশন, এমন একটি মডেল যা অত্যধিক মানানসই প্রবণ নয় এবং এটি শুরুতে সম্পূর্ণ নমুনায় প্রশিক্ষণ দিয়ে আঘাত করে না। এবং আপনার অনেকগুলি রেজিস্ট্রার ভেরিয়েবল থাকলেও আপনি ওভারফিটিংয়ের বিরুদ্ধে লড়াই করার জন্য অন্যান্য কৌশলগুলি যেমন নিয়মিতকরণ প্রয়োগ করতে পারেন।


0

অনন্ত এগোয়, OLS ঔজ্জ্বল্যের প্রেক্ষাপটে করার রৈখিক মডেল এগোয় এর নেন অনুমান (সাধারণ লিস্ট স্কোয়ার) পুরো নমুনার উপর রৈখিক মডেল রানের আনুমানিক হিসাব। এটি প্রমাণ করার উপায়টি হ'ল বুটস্ট্র্যাপটি "ভান করে" যে জনসংখ্যা বন্টনকে অভিজ্ঞতা অভিজ্ঞতা হিসাবে একই। আপনি যদি এই অভিজ্ঞতাগত বিতরণ থেকে আরও বেশি সংখ্যক ডেটা সেট নমুনা করেন, অনুমিত হাইপারপ্লেনের গড় অর্ডারিন লেস্ট স্কোয়ারগুলির এ্যাসিম্পটিক বৈশিষ্ট্য দ্বারা "সত্য হাইপারপ্লেন" (যা পুরো ডেটাতে চালিত ওএলএস অনুমান) রূপান্তরিত করে।

এক্স1,এক্স2,,এক্সএন~বি(পি)
পি1-পি
θ=1{পি>0}
এক্সআমি=1θ=1θθ
বিআমিএকটিগুলি একটিআমিএন=পিR(আমিএন একটি টিগুলিটিRএকটিপি গুলিএকটিমিপি এক্স(1)==এক্স(এন)=0)>0,
শর্তসাপেক্ষে θ=1

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.