বিকল্প এবং লজিস্টিক রিগ্রেশন মধ্যে ব্যবহারিক এবং ব্যাখ্যা পার্থক্য কি?

আর-এ লজিস্টিক রিগ্রেশনের বিকল্প সম্পর্কে সাম্প্রতিক প্রশ্নে র্যান্ডমফোরেস্ট, জিবিএম, আরপার্ট, বায়সগ্ল্যাম এবং জেনারাইজড অ্যাডিটিভ মডেল সহ বিভিন্ন উত্তর পেয়েছে। এই পদ্ধতি এবং লজিস্টিক রিগ্রেশন মধ্যে ব্যবহারিক এবং ব্যাখ্যা পার্থক্য কি? লজিস্টিক রিগ্রেশন সম্পর্কিত তারা কী অনুমান করে (বা তৈরি করে না)? অনুমানের পরীক্ষার জন্য উপযুক্ত? প্রভৃতি

r hypothesis-testing logistic random-forest

— russellpierce
সূত্র

অস্বীকৃতি: প্রশ্নের পূর্ণ উত্তর হওয়া অবশ্যই দূরে!

আমি মনে করি যে এই জাতীয় সমস্ত পদ্ধতির মধ্যে পার্থক্য প্রতিষ্ঠার আগে কমপক্ষে দুটি স্তর বিবেচনা করতে হবে:

কিনা একটি একক মডেল লাগানো থাকে : বা না এই পণ্য সরবরাহ সংশ্লেষণ মত প্রতিবাদী পদ্ধতি সহায়তা করে বনাম আরএফ বা গ্রেডিয়েন্ট Boosting (অথবা আরো সাধারণভাবে আঁসাঁব্ল পদ্ধতি ), এবং এছাড়াও বনাম শ্রেণীবিন্যাস বা (সংশ্লিষ্ট মধ্যে asymptotic বা বুটস্ট্র্যাপ আস্থা অন্তর সঙ্গে) পরামিতি প্রাক্কলন ওপর গুরুত্বারোপ পূর্বাভাস নির্ভুলতা গণনা;
কিনা সব ভেরিয়েবল বলে মনে করা হয় বা না থাক: এই অর্থে, বৈশিষ্ট্য নির্বাচন ভিত্তিতে যে দণ্ডনীয়তা বা নিয়মিতকরণ "অনিয়মিত" ডেটা সেট (যেমন, বৃহৎ সঙ্গে মানিয়ে নিতে পারবেন এবং / অথবা ছোট ) এবং তথ্যও generalizability উন্নত। $p$ $n$

এখানে আমি মনে করি যে আরও কয়েকটি পয়েন্ট প্রশ্নের সাথে প্রাসঙ্গিক।

যদি আমরা বেশ কয়েকটি মডেল বিবেচনা করি - একই মডেলটি উপলব্ধ উপাত্তের বিভিন্ন উপবিধিতে (ব্যক্তি এবং / অথবা ভেরিয়েবলগুলি) লাগানো হয়, বা বিভিন্ন প্রতিযোগিতামূলক মডেল একই ডেটা সেটগুলিতে লাগানো হয় -, ক্রস-বৈধতা এড়াতে ব্যবহার করা যেতে পারে মডেল বা বৈশিষ্ট্য নির্বাচনকে অত্যধিক উপস্থাপন এবং সম্পাদন করুন, যদিও সিভি এই নির্দিষ্ট ক্ষেত্রে সীমাবদ্ধ নয় ( উদাহরণস্বরূপ এটি জিএএমএস বা দন্ডিত জিএলএমগুলির সাথে ব্যবহার করা যেতে পারে )। এছাড়াও, প্রচলিত ব্যাখ্যার বিষয়টি রয়েছে: আরও জটিল মডেলগুলি প্রায়শই আরও জটিল ব্যাখ্যা বোঝায় (আরও বেশি পরামিতি, আরও কঠোর অনুমান ইত্যাদি)।

গ্রেডিয়েন্ট boosting এবং RFs একটি একক সিদ্ধান্ত গাছ সীমাবদ্ধতা কাটিয়ে উঠতে, ধন্যবাদ Boosting যার প্রধান ধারণা অর্ডার আরো সঠিক এবং স্থিতিশীল সিদ্ধান্ত নিয়ম গড়ে তুলতে বিভিন্ন দুর্বল লার্নিং আলগোরিদিম আউটপুট একত্রিত করা হয়, এবং ব্যাগিং যেখানে আমরা "গড়" ফলাফলে পুনরায় মডেল করা ডেটা সেট। সামগ্রিকভাবে, তাদের প্রায়শই আরও "ধ্রুপদী" মডেলের তুলনায় কিছু ধরণের ব্ল্যাক বক্স হিসাবে দেখা হয় যেখানে মডেলটির স্পষ্ট স্পেসিফিকেশন সরবরাহ করা হয় (আমি তিন শ্রেণির মডেলগুলির সম্পর্কে বলতে পারি: প্যারামিটারিক , অর্ধ-প্যারামেট্রিক , নন-প্যারামেট্রিক ) তবে আমি মনে করি এই অন্যান্য থ্রেড দুটি সংস্কৃতির অধীনে আলোচনাটি অনুষ্ঠিত হয়েছে : পরিসংখ্যান বনাম মেশিন লার্নিং? আকর্ষণীয় দৃষ্টিভঙ্গি প্রদান।

বৈশিষ্ট্য নির্বাচন এবং কিছু এমএল কৌশল সম্পর্কে কয়েকটি কাগজপত্র এখানে দেওয়া হয়েছে:

সিয়েস, ওয়াই, ইনজা, আই এবং লার্যাগাগা, পি । বায়োইনফর্ম্যাটিক্সে বৈশিষ্ট্য নির্বাচন কৌশলগুলির একটি পর্যালোচনা , বায়োইনফরম্যাটিকস (2007) 23 (19): 2507-2517।
ডগের্টি, ইআর, হুয়া জে এবং সিমা, সি বৈশিষ্ট্য নির্বাচন পদ্ধতিগুলির পারফরম্যান্স , বর্তমান জিনোমিক্স (২০০৯) 10 ()): ৩–৫-৩74৪।
বুলেস্টেইক্স, এএল এবং স্ট্রোবিল, সি। সর্বোত্তম শ্রেণিবদ্ধ নির্বাচন এবং ত্রুটি হার অনুমানের ক্ষেত্রে নেতিবাচক পক্ষপাত: উচ্চ-মাত্রিক পূর্বাভাসের উপর একটি গবেষণামূলক গবেষণা , বিএমসি মেডিকেল রিসার্চ মেথডোলজি (2009) 9:85।
কারুয়ানা, আর এবং নিকুলেসকু-মিজিল, এ । তত্ত্বাবধানে শেখার অ্যালগরিদমগুলির একটি অভিজ্ঞতা অভিজ্ঞতা ir মেশিন লার্নিংয়ের উপর 23 তম আন্তর্জাতিক সম্মেলনের কার্যক্রম (2006)।
ফ্রেডম্যান, জে, হাসিটি, টি, এবং তিবশিরানী, আর। অ্যাডেটিভ লজিস্টিক রিগ্রেশন: উত্সাহ দেওয়ার একটি পরিসংখ্যানিক দৃষ্টিভঙ্গি , আন । পরিসংখ্যানবিৎ। (2000) 28 (2): 337-407। (আলোচনার সাথে)
ওলডেন, জেডি, লোলার, জেজে, এবং পফ, এনএল। অশ্রু ছাড়াই মেশিন শেখার পদ্ধতি: বাস্তুশাস্ত্রীদের জন্য প্রাইমার , কিউ রেভ বায়োল। (2008) 83 (2): 171-93।

এবং অবশ্যই হ্যাস্টি এবং সংঘর্ষের দ্বারা পরিসংখ্যানগত লার্নিংয়ের উপাদানগুলি চিত্রণ এবং রেফারেন্সে পূর্ণ। অ্যান্ড্রু মুর থেকে স্ট্যাটিস্টিকাল ডেটা মাইনিং টিউটোরিয়ালও পরীক্ষা করে দেখুন ।

— chl
সূত্র