অনুপস্থিত মানগুলি পরিচালনা না করার তাত্ত্বিক কারণগুলি কী কী? গ্রেডিয়েন্ট বুস্টিং মেশিন, রিগ্রেশন ট্রিগুলি অনুপস্থিত মানগুলি পরিচালনা করে। র্যান্ডম ফরেস্ট কেন তা করে না?
অনুপস্থিত মানগুলি পরিচালনা না করার তাত্ত্বিক কারণগুলি কী কী? গ্রেডিয়েন্ট বুস্টিং মেশিন, রিগ্রেশন ট্রিগুলি অনুপস্থিত মানগুলি পরিচালনা করে। র্যান্ডম ফরেস্ট কেন তা করে না?
উত্তর:
গ্রেডিয়েন্ট বুস্টিং ট্রিগুলিতে কার্ট গাছ ব্যবহার করা হয় (একটি মানক সেটআপে, কারণ এটি এর লেখকরা প্রস্তাব করেছিলেন)। কার্ট গাছগুলি এলোমেলো বনগুলিতেও ব্যবহৃত হয়। @ ইউজার 7777 যা বলেছে তা সত্য, আরএফ গাছগুলি অনুপাতের ভিত্তিতে গড় গড় / মোড দ্বারা হয় গড়ের অনুপাতে, হয় গড়পড়তার ভিত্তিতে গড় / মোড দ্বারা। এই পদ্ধতিগুলি ব্রেইম্যান এবং ক্যাটলার প্রস্তাব করেছিলেন এবং আরএফের জন্য ব্যবহৃত হয়। এটি প্রশিক্ষণ সংস্থায় মূল্য অনুপস্থিত লেখকদের একটি উল্লেখ ।
তবে, অন্য কোনও সিদ্ধান্ত গাছের সাথে একটি জিবিএম বা আরএফ তৈরি করতে পারে। কার্টের সাধারণ প্রতিস্থাপনটি কুইনলান দ্বারা প্রস্তাবিত সি 4.5। C4.5 এ অনুপস্থিত মানগুলি ডেটা সেটে প্রতিস্থাপন করা হয় না। পরিবর্তে, অশুচি ফাংশন গণনা অদৃশ্য স্কোরকে অনুপস্থিত মানগুলির রেশন দিয়ে শাস্তি দিয়ে অনুপস্থিত মানগুলিকে বিবেচনা করে। পরীক্ষায় কোনও নোডে মূল্যায়ন সেট করে যা অনুপস্থিত মানের সাথে একটি পরীক্ষা করে থাকে, ভবিষ্যদ্বাণীটি প্রতিটি শিশু নোডের জন্য নির্মিত হয় এবং পরে (ওজন দ্বারা) একত্রিত হয়।
এখন, অনেক বাস্তবায়নে সিটি-এর পরিবর্তে সি 4.5 ব্যবহার করা হয়। মূল কারণটি ব্যয়বহুল গণনা এড়ানো (কার্টের আরও কঠোর পরিসংখ্যানগত পদ্ধতির রয়েছে, যার জন্য আরও গণনা প্রয়োজন), ফলাফলগুলি একই রকম বলে মনে হয়, ফলিত গাছগুলি প্রায়শই ছোট থাকে (যেহেতু কার্ট বাইনারি হয় এবং সি 4.5 হয় না)। আমি জানি যে ওয়েকা এই পদ্ধতির ব্যবহার করে। আমি অন্যান্য গ্রন্থাগারগুলি জানি না, তবে আমি আশা করি এটি একক পরিস্থিতি হবে না। যদি আপনার জিবিএম বাস্তবায়নের ক্ষেত্রে এটি হয় তবে এর চেয়ে উত্তর হবে।
"[আরএফ] জন্য অনুপস্থিত মানগুলি পরিচালনা না করার তাত্ত্বিক কারণগুলি কী? গ্রেডিয়েন্ট বুস্টিং মেশিন, রিগ্রেশন ট্রি নিখোঁজ মানগুলি পরিচালনা করে? কেন র্যান্ডম ফরেস্ট তা করে না?"
আরএফ হারিয়ে যাওয়া মানগুলি হ্যান্ডেল করে , কেবল একইভাবে নয় কার্ট এবং অন্যান্য অনুরূপ সিদ্ধান্ত গাছ অ্যালগোরিদমগুলি করে। ব্যবহারকারী 77777 নিখোঁজ ডেটা (মিডিয়ান ইমপুটেশন এবং / বা প্রক্সিমিটি ভিত্তিক পরিমাপ) হ্যান্ডেল করতে আরএফ দ্বারা ব্যবহৃত দুটি পদ্ধতির সঠিকভাবে বর্ণনা করেছে, যেখানে ফ্রাঙ্ক হ্যারেল সঠিকভাবে বর্ণনা করেছে যে কীভাবে হার্ট মানগুলি কার্টে পরিচালনা করা হয় (সারোগেট বিভাজন)। আরও তথ্যের জন্য, কার্টের জন্য নিখোঁজ ডেটা হ্যান্ডলিংয়ের লিঙ্কগুলি দেখুন (বা এটি FOSS কাজিন: RPART ) এবং আরএফ ।
Actual শ্বরান এট আল এর ২০০৮ সালের র্যান্ডম সার্ভাইভাল অরণ্যের শিরোনামের কাগজে আপনার প্রকৃত প্রশ্নের উত্তর পরিষ্কারভাবে আচ্ছাদিত । তারা সিএআরটি বা অনুরূপ একক সিদ্ধান্তের গাছের শ্রেণিবদ্ধের মতো কেন আরএফ অনুপস্থিত ডেটা হ্যান্ডেল করে না তার জন্য নিম্নলিখিত প্রশংসনীয় ব্যাখ্যা প্রদান করে:
"যদিও সারোগেট বিভাজন গাছগুলির পক্ষে ভাল কাজ করে, তবে বনাঞ্চলের পক্ষে পদ্ধতিটি যথাযথভাবে উপযোগী হতে পারে না Spe গতি একটি বিষয় sur একটি সারোগেট বিভাজন সন্ধান করা গণনাগতভাবে নিবিড় হয় এবং প্রচুর পরিমাণে গাছ বৃদ্ধি করার সময় অপরিবর্তনীয় হতে পারে, বিশেষত পুরোপুরি স্যাচুরেটেড গাছগুলির জন্য অরণ্যসমূহ।এছাড়া, বনভূমিতে সারোগেট বিভাজন এমনকি অর্থবোধক নাও হতে পারে। আরএফ কোনও নোড বিভক্ত করার সময় এলোমেলোভাবে পরিবর্তনশীল নির্বাচন করে এবং যেমন একটি নোডের মধ্যে ভেরিয়েবলগুলি সম্পর্কযুক্ত নাও হতে পারে এবং যুক্তিসঙ্গত সারোগেট বিভাজনও থাকতে পারে না এবং অন্য উদ্বেগটি হ'ল সারোগেট বিভক্তকরণ একটি ভেরিয়েবলের ব্যাখ্যা পরিবর্তন করে, যা [পরিবর্তনশীল গুরুত্ব] এর মতো পদক্ষেপগুলিকে প্রভাবিত করে।
এই কারণে, আরএফের জন্য আলাদা কৌশল প্রয়োজন is
এটি একপাশে, তবে আমার পক্ষে এটি তাদের জিজ্ঞাসাবাদ করে যারা দাবি করে যে আরএফ কার্টের মডেলগুলির একটি পোশাক ব্যবহার করে। আমি অনেক নিবন্ধে এই দাবি করা দেখেছি, কিন্তু আরএফ-তে কোনও প্রামাণ্য পাঠ্যের কাছে এমন বিবৃতি আমি কখনও দেখিনি। এক জন্য, একটি আরএফ গাছগুলি ছাঁটাই ছাড়াই জন্মে , যা কার্টের মডেলটি তৈরি করার সময় সাধারণত মানক পদ্ধতির হয় না। আর একটি কারণ হ'ল যা আপনার প্রশ্নে আপনি ইঙ্গিত করেছেন: কার্ট এবং সিদ্ধান্তের গাছের অন্যান্য অংশগুলি নিখোঁজ মানগুলি পরিচালনা করে, যদিও [মূল] আরএফ কমপক্ষে অভ্যন্তরীণভাবে কার্টের মতো করে না।
এই সতর্কতামূলক বিষয়গুলি মাথায় রেখে, আমি মনে করি আপনি বলতে পারেন যে আরএফ সিআরটি-র মত সিদ্ধান্ত গাছের একটি টুকরো ব্যবহার করে (অর্থাত্ সুরোগেট বিভক্তকরণের মাধ্যমে নিখোঁজ ডেটা হ্যান্ডেল করার ক্ষমতা ছাড়াই, তাদের সর্বাধিক পরিমাণে বেড়ে ওঠা গাছের গুচ্ছ) uses সম্ভবত এটি সেই নিয়মানুষ্টিক সিন্থেটিক পার্থক্যের মধ্যে একটি, তবে এটি আমি মনে করার মতো মনে করি।
সম্পাদনা : আমার পার্শ্ব নোটে, যা জিজ্ঞাসা করা প্রকৃত প্রশ্নের সাথে সম্পর্কিত নয়, আমি বলেছিলাম যে "আরএফ-তে কোনও প্রামাণ্য পাঠ্যের কাছে এ জাতীয় বক্তব্য আমি কখনও দেখিনি"। বেরিম্যান ডিআইডি নির্দিষ্ট করে উল্লেখ করেছে যে কার্টের সিদ্ধান্ত গাছগুলি মূল আরএফ অ্যালগরিদমে ব্যবহৃত হয়:
"এলোমেলো বৈশিষ্ট্যযুক্ত সহজ র্যান্ডম অরণ্যটি প্রতিটি নোডে, আলাদাভাবে ইনপুট ভেরিয়েবলগুলির একটি ছোট গ্রুপকে বিভক্ত করে বাছাই করে তৈরি করা হয় C কার্ট পদ্ধতিটি সর্বোচ্চ আকারে ব্যবহার করুন এবং ছাঁটাই করবেন না" " [আমার জোর]
উত্স: র্যান্ডম অরণ্যের পি .9 । ব্রেইম্যান (2001)
যাইহোক, আমি এখনও (আরও নির্ভুলভাবে) এই ধারণাটি নিয়ে দাঁড়িয়েছি যে এগুলি কার্টের মতো সিদ্ধান্ত নেওয়া গাছ রয়েছে যেগুলি তারা ছাঁটাই ছাড়াই জন্মে, যদিও একটি কার্ট সাধারণত কখনও এই কনফিগারেশনে চালিত হয় না কারণ এটি অবশ্যই আপনার ডেটা-ও-ফিট করবে ( সুতরাং প্রথম স্থানে ছাঁটাই করা)।
র্যান্ডম অরণ্য হারিয়ে যাওয়া ডেটা পরিচালনা করে এবং এটির জন্য দুটি স্বতন্ত্র উপায় রয়েছে:
1) অনুপস্থিত ডেটা অনুমিত না করে, তবে অনুমান সরবরাহ করে। 2) ডেটা ইমপুটিভ করা। প্রভাবিত ডেটা তখন অনুমানের জন্য ব্যবহৃত হয়।
উভয় পদ্ধতিই আমার আর-প্যাকেজ র্যান্ডমফোরস্টএসআরসিতে প্রয়োগ করা হয়েছে (উদয় কোগালুরের সাথে সহ-লিখিত)। প্রথমত, এটি মনে রাখা গুরুত্বপূর্ণ যে এলোমেলো বনগুলি এলোমেলো বৈশিষ্ট্য নির্বাচনকে নিয়োগ করে, একক গাছ দ্বারা ব্যবহৃত Cতিহ্যবাহী অনুপস্থিত ডেটা পদ্ধতিগুলি (কার্ট এবং এর মতো) প্রয়োগ হয় না। এই পয়েন্টটি Ishশ্বরান এট আল- তে তৈরি হয়েছিল । (২০০৮), "এলোমেলো বেঁচে থাকার বন", ফলিত পরিসংখ্যানগুলির অ্যানালস , ২ , ৩ এবং মন্তব্যকারীদের মধ্যে একটি দ্বারা সুন্দরভাবে বর্ণিত।
পদ্ধতি (1) হ'ল "ফ্লাই ইমপুটেশন" (ওটিএফআই) পদ্ধতি। নোডকে বিভক্ত করার আগে, কোনও ভেরিয়েবলের জন্য অনুপস্থিত ডেটাটি অ-অনুপস্থিত ইন-ব্যাগের ডেটা থেকে এলোমেলোভাবে মান আঁকিয়ে গণ্য করা হয়। এই দোষযুক্ত ডেটার উদ্দেশ্য হ'ল অনুপস্থিত ডেটা সহ নোডটি একটি ভেরিয়েবলের মধ্যে বিভক্ত হয়ে যাওয়ার ক্ষেত্রে কন্যা নোডগুলিতে মামলাগুলি অর্পণ করা সম্ভব করা। ইম্প্টেড ডেটা অবশ্য বিভক্ত-পরিসংখ্যান গণনা করতে ব্যবহৃত হয় যা কেবল অনুপস্থিত ডেটা ব্যবহার করে। নোড বিভক্ত হওয়ার পরে, অভিযুক্ত ডেটাগুলি অনুপস্থিতিতে পুনরায় সেট করা হয় এবং টার্মিনাল নোডগুলি না পৌঁছানো পর্যন্ত প্রক্রিয়াটি পুনরাবৃত্তি করা হয়। ওটিএফআই ব্যাগের বাইরে থাকা ডেটাগুলির অখণ্ডতা সংরক্ষণ করে এবং ফলস্বরূপ গুরুত্ব (ভিআইএমপি) এর মতো পারফরম্যান্স মানগুলি নিরপেক্ষ থাকে। ওটিএফআই অ্যালগরিদম Ishশ্বরান এট আল (২০০৮) এ বর্ণনা করা হয়েছিল এবং অবসরপ্রাপ্ত র্যান্ডমসুরাইভালফোরস্ট প্যাকেজে প্রয়োগ করা হয়েছিল,
এলোমেলোফোরস্টএসআরসিতে "অভিপ্রায়" ফাংশন ব্যবহার করে পদ্ধতি (2) প্রয়োগ করা হয়। অপ্রয়োজনীয়, এলোমেলোভাবে তৈরি করা এবং ডেটা দেবার জন্য বহুবিভাজনকারী বিভাজন পদ্ধতি উপলভ্য। উদাহরণস্বরূপ, মাল্টিভারিয়েট বিভাজন অত্যন্ত সফল মিসফোরেস্ট ইমপুটেশন পদ্ধতিটিকে সাধারণীকরণ করে ( স্টেখোভেন এবং বেলম্যান (২০১২), "মিসফরেস্ট mixed মিশ্রিত-টাইপ ডেটার জন্য নন-প্যারাম্যাট্রিক অনুপস্থিত মান", বায়োইনফরম্যাটিকস , ২৮ , ১ )। অনুপস্থিত ডেটা সহ ইমপুট ফাংশনটি কল করা একটি অভিযুক্ত ডেটা ফ্রেম ফিরিয়ে দেবে যা প্রাথমিক বন ফাংশন "rfsrc" ব্যবহার করে ফিট হতে পারে।
"অভিপ্রায়" ব্যবহার করে প্রয়োগ করা বিভিন্ন বন অনুপস্থিত ডেটা অ্যালগরিদমের বিস্তারিত তুলনা ফেই তাং "র্যান্ডম অরণ্য হারিয়ে যাওয়া ডেটা অ্যালগরিদম", 2017 এর সাথে একটি সাম্প্রতিক গবেষণাপত্রে বর্ণিত হয়েছিল । আমি অভিবাসন এবং ওটিএফআই সম্পর্কে আরও বিশদ জানতে র্যান্ডমফরেস্টএসআরসি থেকে "আরএফএসসিআর" এবং "অভিপ্রায়" এর সহায়তা ফাইলগুলির সাথে পরামর্শ করার পরামর্শ দিই।
রিকার্সিভ পার্টিশনটি অনুপস্থিত অনুমানকারীদের উপর ভিত্তি করে সার্গেট বিভাজনগুলি ব্যবহার করে যা পর্যবেক্ষণের জন্য অনুপস্থিত মান রাখার পূর্বাভাসকারীটির সাথে সম্পর্কযুক্ত। তাত্ত্বিকভাবে এলোমেলো বন কার্যকর করা সম্ভব হবে যা একই ধারণা ব্যবহার করে। কোনও র্যান্ডম ফরেস্ট সফটওয়্যার এমনটি করেছে কিনা আমি জানি না।
লিও ব্রেইম্যান এবং অ্যাডেল ক্যাটলার যিনি এটি আবিষ্কার করেছিলেন তার মতে র্যান্ডম ফরেস্টের অনুপস্থিত মানগুলি পরিচালনা করার জন্য দুটি পদ্ধতি রয়েছে ।
প্রথমটি দ্রুত এবং নোংরা: এটি কেবল অবিচ্ছিন্ন ভেরিয়েবলগুলির জন্য মাঝারি মানের বা শ্রেণীর দ্বারা সর্বাধিক সাধারণ অ-অনুপস্থিত মান পূরণ করে ।
দ্বিতীয় পদ্ধতিটি অনুপস্থিত মানগুলিতে পূরণ করে, তারপরে আরএফ চালায়, তারপরে অবিচ্ছিন্ন মানগুলি হারিয়ে যাওয়ার জন্য, আরএফ অনুপস্থিত মানগুলির সান্নিধ্য-ওজন গড়কে গণনা করে। তারপরে এই প্রক্রিয়াটি কয়েকবার পুনরাবৃত্তি হয়। তারপরে মডেলটিকে আরএফ-অভিযুক্ত ডেটা সেট ব্যবহার করে একটি চূড়ান্ত সময় প্রশিক্ষণ দেওয়া হয়।
মিডিয়ান মান ইত্যাদি ব্যবহার না করে আমি মিসরেঞ্জার প্যাকেজটি (বর্তমানে গিথুবের বিকাশে) বা আর প্যাকেজ মিসফোরেস্টের দিকে নজর দেওয়ার সুপারিশ করব। এই উভয় প্যাকেজই শৃঙ্খলিত সমীকরণের (এমআইএসএস) মাধ্যমে একাধিক অভিব্যক্তির অনুরূপ একটি পদ্ধতি ব্যবহার করে প্রথমে আপনার ডেটা গণনার জন্য এলোমেলো বন ব্যবহার করে। এটি আপনার যথাযথ বিশ্লেষণ মডেলের সাথে ঘনিষ্ঠভাবে মিলিত হওয়ায় এটি উপযুক্ত অনুদানের পদ্ধতি হবে। তারপরে নিখোঁজ পর্যবেক্ষণের কারণে স্বতন্ত্র সারি বাদ দেওয়ার বিষয়ে চিন্তা না করে আপনি আপনার সমস্ত ডেটা ব্যবহার করতে পারেন। তদতিরিক্ত, অভিযুক্ত মানগুলি কেবলমাত্র মিডিয়ান বা মোডগুলি নির্বাচন করার চেয়ে অনেক বেশি বাস্তবসম্মত হবে।
আপনি আপনার বিশ্লেষণের জন্য কেবল একটি ভরাট-ইন অভিযুক্ত ডেটা সেট ব্যবহার করতে পারেন, তবে অনুপস্থিত মানগুলির সাথে অনিশ্চয়তা যুক্ত করার সর্বোত্তম উপায় হ'ল এই অভিশংসনের পদ্ধতিগুলির একাধিক রান চালানো, এবং তারপরে ফলস্বরূপ প্রতিটি ডাটাবেসের উপর আপনার মডেলটি অনুমান করা (যেমন, একাধিক) অভিশংসন) এবং তারপরে রুবিনের বিধিগুলি ব্যবহার করে অনুমানগুলি একত্রিত করুন (আর প্যাকেজ মিতুলগুলি দেখুন)।
কার্টের জন্য, আপনি অনুপস্থিত-ইন-অ্যাট্রিবিউটগুলি (এমআইএ) পদ্ধতির প্রয়োগ করতে পারেন। এটি হল শ্রেণিবদ্ধ ভবিষ্যদ্বাণীকারীদের জন্য, আপনি একটি পৃথক বিভাগ হিসাবে নিখোঁজ কোড। সংখ্যার ভবিষ্যদ্বাণীকারীদের জন্য, আপনি মিসিং সহ প্রতিটি ভেরিয়েবলের জন্য দুটি নতুন ভেরিয়েবল তৈরি করেন: একটি যেখানে আপনি মিসিংগুলিকে -Inf হিসাবে কোড করেন এবং একটি যেখানে আপনি মিসিং কোডগুলি + ইনফ হিসাবে চিহ্নিত করেন। তারপরে আপনি নিজের ডেটাতে যথারীতি একটি এলোমেলো বন ফাংশন প্রয়োগ করেন।
এমআইএর সুবিধাগুলি: ১) গুণগতভাবে সস্তা, ২) একাধিক ডেটাসেট এবং এর মাধ্যমে মডেল পাওয়া যায় না, যেমন একাধিক অনুবর্তন করে (গণ্ডিত-অনুপস্থিত-ডেটা সাহিত্যে সাধারণত সম্মত হয় যে একটি অভিযুক্ত ডেটাসেট যথেষ্ট নয়), ৩) প্রয়োজন হয় না আপনি ডেটা গায়ে দেওয়ার জন্য একটি পরিসংখ্যান পদ্ধতি এবং / অথবা মডেল চয়ন করতে পারেন।
কার্যাবলী ctree()
এবং cforest()
প্যাকেজ থেকে partykit ক্ষণস্থায়ী দ্বারা মিয়া আবেদন করার জন্য অনুমতি দেয় ctree_control(MIA = TRUE)
তাদের থেকে control
আর্গুমেন্ট।
জেরোম ফ্রেডম্যানের রুলফিট প্রোগ্রামটি মিসিং মোকাবেলায় এমআইএ ব্যবহার করতে দেখা গেছে, https://statweb.stanford.edu/~jhf/r-rulefit/rulefit3/RuleFit_help.html#xmiss দেখুন ।
এমআইএ পদ্ধতির একটি বিবরণ টোয়ালা এট আল-তে পাওয়া যাবে। (2008):
টোওয়ালা, বেথ, জোন্স, এমসি, এবং হ্যান্ড, ডিজে (২০০৮)। সিদ্ধান্তের গাছগুলিতে হারিয়ে যাওয়া ডেটা মোকাবেলার জন্য ভাল পদ্ধতি। প্যাটার্ন স্বীকৃতি পত্র, 29 (7), 950-956।
party
আর প্যাকেজে পরিচালিত হয় । এখানে একটি ব্লগ নিবন্ধ: exegetic.biz/blog/2013/05/…