র‌্যান্ডম অরণ্যে সুর করার বিষয়ে বাস্তব প্রশ্ন


65

আমার প্রশ্নগুলি র্যান্ডম বন সম্পর্কিত। এই সুন্দর শ্রেণিবদ্ধের ধারণাটি আমার কাছে স্পষ্ট, তবে এখনও ব্যবহারিক ব্যবহারের অনেক প্রশ্ন রয়েছে। দুর্ভাগ্যক্রমে, আমি আরএফ-এর কোনও ব্যবহারিক গাইড খুঁজে পেতে ব্যর্থ হয়েছি (আমি জেফ্রি হিন্টনের "অ্যাপ্র্যাক্টিকাল গাইড ফর ট্রেনিং রেসারেটেড বোল্টজম্যান মেশিন" এর মতো কিছু সন্ধান করেছি, তবে র্যান্ডম অরণ্যের জন্য!

অনুশীলনে কীভাবে একজন টিউন করতে পারেন?

এটা কি সত্য যে বড় সংখ্যক গাছ সবসময় ভাল? গাছের সংখ্যা বাড়ার জন্য কি যুক্তিসঙ্গত সীমা রয়েছে (অবশ্যই কমপ্লেক্সের ক্ষমতা ছাড়াই) এবং প্রদত্ত ডেটাসেটের জন্য এটি কীভাবে অনুমান করা যায়?

গাছগুলির গভীরতা সম্পর্কে কী? যুক্তিসঙ্গতটি কীভাবে চয়ন করবেন? এক বনে বিভিন্ন দৈর্ঘ্যের গাছ নিয়ে পরীক্ষা করার কোনও ধারণা আছে এবং এর জন্য গাইডেন্স কী?

আরএফ প্রশিক্ষণ দেওয়ার সময় দেখার মতো অন্যান্য কোনও পরামিতি রয়েছে কি? পৃথক গাছ তৈরির জন্য অ্যালগোস হতে পারে?

যখন তারা বলছেন যে আরএফ অত্যধিক মানানসই প্রতিরোধী, এটি কতটা সত্য?

আমি কোনও উত্তর এবং / অথবা গাইড বা নিবন্ধগুলির লিঙ্কগুলি প্রশংসা করব যা আমার অনুসন্ধানের সময় আমি মিস করেছি।


উত্তর:


43

আমি কোনও অনুমোদিত ব্যক্তিত্ব নই, সুতরাং এই সংক্ষিপ্ত অনুশীলনকারী নোটগুলি বিবেচনা করুন:

হ্রাসকর রিটার্নের সাথে আরও বেশি গাছ সবসময়ই ভাল is অনুরূপ পারফরম্যান্সের জন্য আরও বেশি গাছের প্রয়োজনের সাথে গভীর গাছগুলি প্রায়শই ভাল subject

উপরোক্ত দুটি পয়েন্টগুলি সরাসরি পক্ষপাত-বৈকল্পিক ব্যবসায়ের ফলাফল a গভীর গাছগুলি পক্ষপাত কমায়; আরও গাছগুলি বৈকল্পিকতা হ্রাস করে।

সর্বাধিক গুরুত্বপূর্ণ হাইপার-প্যারামিটার হ'ল প্রতিটি বিভাজনের জন্য কতগুলি বৈশিষ্ট্য পরীক্ষা করতে হয়। সেখানে যত বেশি অকেজো বৈশিষ্ট্য রয়েছে তত বেশি বৈশিষ্ট্য আপনার চেষ্টা করা উচিত। এটি সুর করা প্রয়োজন। আপনি যদি আপনার প্রশিক্ষণের ডেটাতে কেবল নিজের পারফরম্যান্সটি জানতে চান এবং কোনও দ্বিধা (~ পুনরাবৃত্তি ব্যবস্থা) না থাকে তবে আপনি ওওবি অনুমানের মাধ্যমে এটি সাজিয়ে নিতে পারেন। যদিও এটি সর্বাধিক গুরুত্বপূর্ণ পরামিতি, তবুও এটি সর্বোত্তমভাবে সাধারণত শ্রেণিবদ্ধকরণ / প্রতিরোধের জন্য মূল প্রস্তাবিত ডিফল্ট (স্কয়ার্ট (পি) বা (পি / 3) এর প্রায় কাছাকাছি থাকে।

মোটামুটি সাম্প্রতিক গবেষণা দেখায় যে ভাল পারফরম্যান্স পেতে আপনাকে কোনও বৈশিষ্ট্যের ভিতরে বিস্তৃত বিভাজন অনুসন্ধানগুলিও করতে হবে না। প্রতিটি নির্বাচিত বৈশিষ্ট্যের জন্য কয়েকটি কাটা পয়েন্ট চেষ্টা করুন এবং এগিয়ে যান। এটি প্রশিক্ষণকে আরও দ্রুত করে তোলে। (Rand চরম র্যান্ডম বন / গাছ)।


দু'একটি নোট: অনুশীলনে আমি সাধারণত গাছের অর্ধেক থেকে অন্য গাছের সাথে পূর্বাভাসের তুলনা করে কনভার্সেশনটি নিশ্চিত করি। যতটা না অতিরিক্ত মানা করা যায়, এটি আপনি সাধারণকরণের চেষ্টা করছেন এমন একটি ফাংশন। আপনি যদি কোনও প্রতিনিধি নমুনা সম্পর্কে প্রশিক্ষণ নিচ্ছেন তবে তারা খুব বেশি সাফল্য পাবে না, তবে এটি সত্যিই কীভাবে কাজ করে তা খুব কমই।
শেয়া পার্কস

আপনার 'গভীর গাছগুলি = আরও ভাল, সমস্ত ধ্রুবক' সত্য সময়ের সাথে পরিবর্তিত নির্ভরতা কাঠামোর সাথে অত্যন্ত কোলাহলপূর্ণ ডেটার জন্য সত্য, ট্রেনিং সেট এবং পরীক্ষার সেটগুলির মধ্যে পরিবর্তন না করার ক্ষেত্রে লিনিয়ার সম্পর্কগুলি সবচেয়ে শক্তিশালী?
জেস

আমি যদি অল্প অল্প অল্প সম্পর্ক শিখি তবে এমন পরিস্থিতি থাকলে অগভীর গাছগুলি আরও উন্নত হওয়ার সম্ভাবনা দেখতে পেতাম, তবে সত্য সত্যই আমি এটি প্রমাণ করার জন্য অভিজ্ঞতাবাদী প্রমাণ ব্যবহার করতে চাই (এবং এটিতে কাজ করার কোনও সময় নেই)। আপনি যদি বিশ্বাস করেন বা প্রমাণ রাখেন যে লিনিয়ার সম্পর্কগুলি সর্বাধিক স্থিতিস্থাপক, তবে আমি বৃক্ষভিত্তিক নয় এমন কিছু বিষয়ে দৃ strongly়তার সাথে বিবেচনা করব। স্তরগুলি এড়িয়ে যেতে পারে নিউরাল নেটওয়ার্কগুলি?
শেয়া পার্কস

ওয়েল বলুন যে আপনার কাছে 3 প্রাসঙ্গিক বৈশিষ্ট্য এবং 100 টি বৈশিষ্ট্য যা সাদা গোলমাল, এবং 50 টি ডাটাপয়েন্ট রয়েছে তার সাথে একটি ডেটাसेट রয়েছে। তবে আপনি জানেন না কোনটি শ্বেত শব্দ এবং কোনটি আগে সময়ের সাথে প্রাসঙ্গিক, আপনি কেবলমাত্র জানেন যে আপনার ডেটাটি এতটাই গোলমাল যে এটি কেস। স্পষ্টতই একটি বৃহত আকারের চূড়ান্তভাবে অগভীর গাছগুলি আরও mtryভাল, এটি দেখার জন্য কোনও প্রমাণ বা অভিজ্ঞতামূলক প্রমাণের প্রয়োজন নেই।
জেস

22
  • গাছ সংখ্যা : বৃহত্তর আরও ভাল: হ্যাঁ। কখন থামতে হবে তা মূল্যায়ন করার এবং জানার একটি উপায় হ'ল আপনার বন নির্মাণের সময় আপনার ত্রুটি হার (বা আপনি ব্যবহার করতে পারেন এমন কোনও মূল্যায়নের মানদণ্ড) এবং এটি কখন রূপান্তরিত হয় তা সনাক্ত করে। আপনি নিজেই শেখার সেটটিতে বা যদি উপলভ্য হয় তবে একটি স্বাধীন পরীক্ষার সেটটিতে এটি করতে পারেন। এছাড়াও, এটি লক্ষণীয় যে আপনার গাছগুলিতে পরীক্ষার নোডের সংখ্যাগুলি বস্তুর সংখ্যার উপরের সাথে আবদ্ধ, সুতরাং আপনার যদি প্রচুর পরিমাণে ভেরিয়েবল থাকে এবং এতগুলি প্রশিক্ষণ সামগ্রী না থাকে তবে বৃহত্তর বনটি বাড়াতে অত্যন্ত প্রস্তাবিত হবে আপনার বনায়নে একবারে সমস্ত বর্ণনাকারীর মূল্যায়নের সম্ভাবনা।

  • গাছের গভীরতা : আপনার গাছগুলি কত গভীর তা নিয়ন্ত্রণ করার বিভিন্ন উপায় রয়েছে (সর্বাধিক গভীরতা সীমাবদ্ধ করুন, নোডের সংখ্যা সীমাবদ্ধ করুন, বিভক্ত করার জন্য প্রয়োজনীয় বস্তুর সংখ্যা সীমাবদ্ধ করুন, বিভাজন যথেষ্ট পরিমাণে ফিট না করলে বিভাজন বন্ধ করুন, ... )। বেশিরভাগ সময়, যদি আপনি গোলমাল সংক্রান্ত ডেটা নিয়ে কাজ করে থাকেন তবে গাছগুলি কেটে দেওয়ার (গভীরতার সীমাবদ্ধকরণ) করার পরামর্শ দেওয়া হয়। পরিশেষে, আপনি সংক্ষিপ্ত গাছগুলির কার্যকারিতা গণনা করতে আপনার সম্পূর্ণ বিকাশযুক্ত গাছগুলি ব্যবহার করতে পারেন কারণ এটি সম্পূর্ণরূপে বিকাশযুক্তগুলির একটি "উপসেট"।

  • প্রতিটি নোডে কতগুলি বৈশিষ্ট্য পরীক্ষা করতে হবে : বিভিন্ন বিস্তৃত মান (প্রস্তাবিতগুলি সহ) দিয়ে আপনার অভিজ্ঞতাগুলি ক্রস-বৈধ করুন, আপনার একটি পারফরম্যান্স বক্ররেখা অর্জন করতে হবে এবং এই প্যারামিটারের সেরা মানটি কী তা সর্বাধিক নির্দেশ করে তা সনাক্ত করতে সক্ষম হবেন শীয়া পার্কস উত্তর।

  • শিয়া পার্কস অতিরিক্ত গাছের কথা উল্লেখ করেছেন, এখানে মূল পদ্ধতিটি বিশদ পদ্ধতিতে বর্ণিত রয়েছে: http://orbi.ulg.ac.be/bitstream/2268/9357/1/geurts-mlj-advance.pdf

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.