আর ব্যবহার করে সিদ্ধান্ত গাছ তৈরি করার সময় আপনার কি ডেটা স্বাভাবিক করতে হবে?


10

সুতরাং, আমাদের এই সপ্তাহে সেট করা ডেটাতে 14 টি বৈশিষ্ট্য রয়েছে এবং প্রতিটি কলামের খুব আলাদা মান রয়েছে। একটি কলামের মান 1 এর নীচে থাকে এবং অন্য কলামে এমন মান রয়েছে যা তিন থেকে চার পুরো অঙ্কে যায়।

আমরা গত সপ্তাহে নরমালাইজেশন শিখেছি এবং মনে হয় আপনার যখন খুব আলাদা মান হয় তখন ডেটা স্বাভাবিক করার কথা। সিদ্ধান্ত গাছের জন্য, ক্ষেত্রে কি একই রকম?

আমি এ সম্পর্কে নিশ্চিত নই তবে একই ডাটা সেট থেকে ফলস্বরূপ বৃক্ষটিকে কী স্বাভাবিক করবে? এটি করা উচিত বলে মনে হচ্ছে না তবে ...

উত্তর:


13

আপনার মুখোমুখি হওয়া বেশিরভাগ সাধারণ সিদ্ধান্তের গাছ কোনও একঘেয়ে রূপান্তর দ্বারা প্রভাবিত হয় না। সুতরাং, যতক্ষণ না আপনি অর্কেড সংরক্ষণ করেন, সিদ্ধান্ত গাছগুলি একই হয় (স্পষ্টত একই গাছের দ্বারা এখানে আমি একই সিদ্ধান্ত কাঠামো বুঝতে পারি, গাছের প্রতিটি নোডের প্রতিটি পরীক্ষার জন্য একই মান নয়))

এটি হওয়ার কারণ হ'ল স্বাভাবিক অশুচি কাজ কীভাবে কাজ করে। সর্বোত্তম বিভক্ততা সন্ধানের জন্য এটি প্রতিটি মাত্রার (বৈশিষ্ট্য) একটি বিভাজন বিন্দু অনুসন্ধান করে যা মূলত যদি একটি ধারা থাকে যা গ্রুপগুলি উদাহরণস্বরূপ মানগুলিকে লক্ষ্য করে যার বিভক্ত মানের তুলনায় পরীক্ষার মান কম থাকে এবং ডানদিকে সমানের চেয়ে বড় মানের হয়। এটি সংখ্যাসূচক বৈশিষ্ট্যের জন্য ঘটে (যা আমি মনে করি এটি আপনার ক্ষেত্রে কারণ কারণ আমি কীভাবে নামমাত্র বৈশিষ্ট্যকে সাধারণীকরণ করতে জানি না)। এখন আপনি লক্ষ করতে পারেন যে মানদণ্ড এর চেয়ে কম বা তার চেয়ে বেশি। যার অর্থ হ'ল বিভক্তিটি (এবং পুরো গাছ) সন্ধানের জন্য বৈশিষ্ট্যগুলি থেকে আসল তথ্যগুলি কেবলমাত্র মানগুলির ক্রম। যার অর্থ হ'ল যতক্ষণ আপনি নিজের বৈশিষ্ট্যগুলিকে এমনভাবে রূপান্তর করবেন যে আসল ক্রমটি সংরক্ষণ করা থাকবে ততক্ষণ আপনি একই গাছ পাবেন।

সমস্ত মডেল এই ধরণের রূপান্তর সম্পর্কে সংবেদনশীল নয়। উদাহরণস্বরূপ লিনিয়ার রিগ্রেশন মডেলগুলি একই ফলাফল দেয় যদি আপনি শূন্যের চেয়ে আলাদা কিছু দিয়ে কোনও গুণকে গুণিত করেন। আপনি বিভিন্ন রিগ্রেশন সহগ পাবেন, তবে পূর্বাভাসের মানটি একই হবে। আপনি যখন সেই রূপান্তরটির লগ নেন তখন এটি হয় না। যেমন লিনিয়ার রিগ্রেশন, উদাহরণস্বরূপ, স্বাভাবিককরণ অকেজো কারণ এটি একই ফলাফল প্রদান করবে।

তবে এটি কোনও দণ্ডিত লিনিয়ার রিগ্রেশন, যেমন রিজ রিগ্রেশন সম্পর্কিত নয়। দণ্ডিত লিনিয়ার রেগ্রেশনগুলিতে সহগের ক্ষেত্রে একটি সীমাবদ্ধতা প্রয়োগ করা হয়। ধারণাটি হ'ল বাধাটি সহগের একটি ফাংশনের যোগফলের জন্য প্রয়োগ করা হয়। এখন আপনি যদি কোনও গুণকে স্ফীত করেন তবে সহগটি ডিফ্লেটেড হবে, যার অর্থ শেষ পর্যন্ত সেই গুণকের জন্য শাস্তিটি কৃত্রিমভাবে সংশোধন করা হবে। এ জাতীয় পরিস্থিতিতে আপনি গুণাগুণকে স্বাভাবিক করেন যাতে প্রতিটি গুণনীয় 'মোটামুটি' বাধা হয়।

আশা করি এটা সাহায্য করবে

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.