লজিস্টিক রিগ্রেশন জন্য ডেটা বিভক্ত করার একটি উপায় হিসাবে ক্লাস্টারিং


11

আমি একটি লজিস্টিক রিগ্রেশন মডেল সহ কিছু বৈশিষ্ট্যের ভিত্তিতে শিক্ষার্থীদের সাফল্য বা ব্যর্থতার পূর্বাভাস দেওয়ার চেষ্টা করছি। মডেলটির কর্মক্ষমতা উন্নত করতে, আমি ইতিমধ্যে স্পষ্ট পার্থক্যের ভিত্তিতে শিক্ষার্থীদের বিভিন্ন গ্রুপে বিভক্ত করার এবং প্রতিটি গ্রুপের জন্য পৃথক মডেল তৈরি করার বিষয়ে চিন্তা করেছি। তবে আমি মনে করি পরীক্ষার মাধ্যমে এই গোষ্ঠীগুলি চিহ্নিত করা কঠিন হতে পারে, তাই আমি শিক্ষার্থীদের বৈশিষ্ট্যগুলিকে ক্লাস্টার করে বিভক্ত করার চিন্তাভাবনা করেছি। এই জাতীয় মডেল নির্মাণে এটি কি সাধারণ অভ্যাস? আপনি কি সুপারিশ করবেন যে আমি এটিকে সুস্পষ্ট গ্রুপে বিভক্ত করব (উদাহরণস্বরূপ, প্রথম মেয়াদী শিক্ষার্থী বনাম প্রত্যাবর্তনকারী শিক্ষার্থীরা) এবং তারপরে এই গোষ্ঠীগুলিতে ক্লাস্টারিং করব, বা শুরু থেকেই ক্লাস্টার করব?

স্পষ্ট করার চেষ্টা করার জন্য:

আমার অর্থ হ'ল আমি লজিস্টিক রিগ্রেশনকে গ্রুপে বিভক্ত করার জন্য আমার প্রশিক্ষণ সেটটি ভাঙ্গতে একটি ক্লাস্টারিং অ্যালগরিদম ব্যবহার করার বিষয়টি বিবেচনা করছি । আমি তখন সেই গ্রুপগুলির প্রত্যেকের জন্য পৃথক লজিস্টিক রিগ্রেশন করব। তারপরে কোনও শিক্ষার্থীর ফলাফলের পূর্বাভাস দেওয়ার জন্য লজিস্টিক রিগ্রেশন ব্যবহার করার সময়, তারা কোন গ্রুপে সবচেয়ে বেশি উপযুক্ত তার ভিত্তিতে কোন মডেলটি ব্যবহার করবেন তা আমি বেছে নেব।

একটি গোষ্ঠী শনাক্তকারীকে অন্তর্ভুক্ত করে আমি একই জিনিসটি করতে পারি, উদাহরণস্বরূপ, শিক্ষার্থী যদি ফিরে আসছেন তবে 1 এবং না হলে 0 টি।

এখন আপনি আমাকে প্রতিটি জনগোষ্ঠীর জন্য পৃথক লজিস্টিক রিগ্রেশন মডেল তৈরির পরিবর্তে প্রশিক্ষণের ডেটা সেট ক্লাস্টার করা এবং তাদের ক্লাস্টার লেবেলকে লজিস্টিক রিগ্রেশনের বৈশিষ্ট্য হিসাবে ব্যবহার করা সুবিধাজনক হতে পারে সে সম্পর্কে আমাকে ভাবতে বাধ্য করেছেন।

যারা নতুন শিক্ষার্থী বনাম নতুন শিক্ষার্থীদের প্রত্যাবর্তন করছেন তাদের জন্য একটি গ্রুপ শনাক্তকারী অন্তর্ভুক্ত করা যদি দরকারী হয় তবে এটিও গ্রুপগুলির তালিকাটি প্রসারিত করার জন্য কার্যকর হতে পারে? ক্লাস্টারিং এটিকে করার মতো প্রাকৃতিক উপায় বলে মনে হচ্ছে।

আমি আশা করি এটা পরিষ্কার ...


আমি মনে করি কীভাবে "ক্লাস্টারিং" এবং লজিস্টিক রিগ্রেশন মডেল একে অপরকে মিথস্ক্রিয়া বা প্রভাবিত করবে তা আমি বুঝতে পারি না। আপনি কি এই প্রসঙ্গে "ক্লাস্টারিং" এর মধ্যে পার্থক্যটি ব্যাখ্যা করতে পারেন এবং একটি গ্রুপ শনাক্তকারীকে রিগ্রেশনে ব্যাখ্যামূলক পরিবর্তনশীল হিসাবে অন্তর্ভুক্ত করতে পারেন?
whuber

উত্তর:


4

আমি বিশ্বাস করি যে যদি আপনার ক্লাস্টারগুলির মধ্যে আপনার নির্ভরশীল পরিবর্তনশীলের মধ্যে উল্লেখযোগ্য পার্থক্য থাকে তবে প্রথমে ক্লাস্টারিংয়ের পদ্ধতি অবশ্যই সহায়ক হবে। আপনার নির্বাচিত শেখার অ্যালগরিদম নির্বিশেষে।

এটি আমার মতামত যে একটি সম্পূর্ণ বেসে একটি শিখুন অ্যালগরিদম চালানো একীকরণের নিম্ন স্তরে অর্থবহ পার্থক্যগুলি আবৃত করতে পারে।

যে কেউ সিম্পসনের প্যারাডক্স শুনেছেন, এটি একটি গভীর সমস্যার একটি কঠিন পরিস্থিতি যেখানে আপনার বিভিন্ন গ্রুপে বিভিন্ন পারস্পরিক সম্পর্ক রয়েছে যা বৃহত্তর নমুনার শব্দ এবং আরও বড় গ্রুপের দুর্বল সম্পর্কের দ্বারা আবৃত।


আপনি ঠিক থাকতে পারেন, কিন্তু আমি আপনার যুক্তি অনুসরণ না। আপনি কী পরামর্শ দিচ্ছেন যে ওপি খুঁজে পাওয়া ক্লাস্টারগুলিতে পৃথক এলআর চালায়, কোভারিয়েটগুলি ছাড়াও ক্লাস্টার সূচক যুক্ত করুন, না কোভেরেটের পরিবর্তে ? এটা অবশ্যই সত্য যে পর্যবেক্ষক গবেষণায় কোভেরিয়েটসকে ডাব্লু / বাদ দেওয়া ভেরিয়েবলগুলি বিভ্রান্ত করা যেতে পারে, তবে আপনি কি বলছেন যে সিএ এমন তথ্য তৈরি করতে পারে যা চলিত চলকগুলির মধ্যে নেই? সিম্পসনের প্যারাডক্স হিসাবে, আপনার আগ্রহী হলে এটি এখানে সিভিতে আলোচনা করা হয়েছে
গুং - মনিকা পুনরায়

আমি প্রস্তাব দিচ্ছি যে নিরীক্ষণবিহীন বিশ্লেষণটি চতুর্থ (স্বতন্ত্র ভেরিয়েবল) এর একটি স্বেচ্ছাসেবী সেট সহ সমজাতীয় গ্রুপগুলি বের করে। এটি অনুসরণ করে আপনি নিজেই সিদ্ধান্ত নিতে পারেন আপনি যদি একই মডেলের বার্বের সাথে সেট করেন বা নতুন সেট বা আপনার মডেলিংয়ের পরবর্তী ধাপে এলআর দিয়ে একটি সংযুক্ত সেট নিয়ে অগ্রসর হন। উদ্দেশ্যটি হ'ল প্রতি ক্লাস্টার 1 টি এলআর তৈরি এবং টিউন করা (এই ক্লাস্টারের উল্লেখযোগ্য আলাদা ডিভি মান বা ফ্রিকোয়েন্সি রয়েছে)।
স্পষ্টতা

আমি লাইফ ইন্স্যুরেন্স পণ্য ক্রস বিক্রয় করার জন্য একটি টেক আপ মডেলের প্রসঙ্গে নিজেই এটি সম্পাদন করেছি এবং ২ য় ক্লাস্টার দ্বারা মিশ্রিত করা ক্লাস্টারের দুটিতে উন্নত পূর্বাভাস পেয়েছি।
স্পষ্টতা

আমি ভাবছি যদি মডেলটির কোনও স্প্লাইন টার্মের প্রয়োজন হয়। আপনি কিছু ডেটা, একটি বেসিক ফিট, সিএ এবং ফাইনাল (উন্নত) ফিট ডাব্লু / ক্লাস্টার ইনডিকেটরের সিমুলেশন অন্তর্ভুক্ত করতে পারেন? আমি এটি দেখতে আগ্রহী হব এবং কী চলছে তা বোঝার জন্য এটির সাথে কিছুটা খেলতে চাই।
গুং - মনিকা পুনরায়

হাই গুং, আমি পছন্দ করতাম কিন্তু সময় পাই না। আমি পরিবার, কাজ এবং আমার মডেলিং দক্ষতার উন্নতিতে প্রচুর পরিমাণে বিনিয়োগ করেছি just আমি এখনই মার্স মডেলিংয়ের সাথে কাজ শুরু করছি এবং বর্ণিত ক্লাস্টার + এলআর এনসেম্বলের মতো একই কাঙ্ক্ষিত ফলাফলটি পূরণ করবে কিনা তা নিশ্চিত নই।
Clancy

8

আপনার প্রস্তাবিত সাধারণ পদ্ধতির - বিভিন্ন বেস শ্রেণিবদ্ধকারীগুলিতে বিভিন্ন ডেটা পয়েন্ট নির্ধারণের জন্য সুপ্ত পার্টিশন ব্যবহার করে - শ্রেণিবিন্যাসের দিকে সু-গবেষণা পন্থা।

এই পদ্ধতিগুলি ব্যাপকভাবে ব্যবহার না করার কারণ সম্ভবত এগুলি তুলনামূলকভাবে জটিল এবং লজিস্টিক রিগ্রেশন বা এসভিএমগুলির চেয়ে দীর্ঘ সময় ধরে চলেছে। বেশিরভাগ ক্ষেত্রেই মনে হয় তারা আরও ভাল শ্রেণিবিন্যাসের পারফরম্যান্সের দিকে নিয়ে যেতে পারে।

এখানে কিছু উল্লেখ রয়েছে:

  • শাহবাবা, বি এবং নীল, আর। "ডিরিচলেট প্রক্রিয়া মিশ্রণ ব্যবহার করে ননলাইনার মডেল"

  • ঝু, জে এবং চেন, এন এবং জিং, ইপি "শ্রেণিবিন্যাস এবং মাল্টি-টাস্ক লার্নিংয়ের জন্য ইনফিনিট লেটেন্ট এসভিএম"

  • রাসমুসেন, সিই এবং ঘড়মণি, জেড। "গাউসিয়ান প্রক্রিয়া বিশেষজ্ঞদের অসীম মিশ্রণ"

  • মিডস, ই। ও ওসিন্দর, এস। "গাউসিয়ান প্রক্রিয়া বিশেষজ্ঞদের একটি বিকল্প অসীম মিশ্রণ"


1

আমি গোড়া থেকে স্বীকার করতে চাই যে আমি গুচ্ছ সম্পর্কে তুলনামূলকভাবে খুব কম জানি। তবে আপনি যে পদ্ধতিটি বর্ণনা করেছেন তার বিন্দুটি আমি দেখতে পাচ্ছি না। আপনি যদি মনে করেন, উদাহরণস্বরূপ, প্রথম মেয়াদে বনাম ফিরে আসা শিক্ষার্থীরা আলাদা হতে পারে তবে কেন সেই সূচকে কোনও কোভারিয়েট অন্তর্ভুক্ত করবেন না? একইভাবে আপনি যদি মনে করেন শিক্ষার্থীদের আরও একটি বৈশিষ্ট্য প্রাসঙ্গিক, আপনি এটিও অন্তর্ভুক্ত করতে পারেন। আপনি চিন্তিত হয় যে সম্পর্ক আপনার আগ্রহের প্রাথমিক predictor এবং সাফল্যের হার মধ্যে পৃথক হতে পারে, এছাড়াও আপনি ইত্যাদি ফেরার যে predictor এবং প্রথম মেয়াদে বনাম মধ্যে পারস্পরিক কথোপকথন, লজিস্টিক প্রত্যাবৃত্তি ভাল যেমন সহ মাধ্যমে এই প্রশ্নগুলোর মোকাবেলার সজ্জিত করা হয় অন্তর্ভুক্ত হতে পারে মডেল শর্তাবলী।

অন্যদিকে, যতক্ষণ না আপনি কেবল এই বৈশিষ্ট্যগুলিতে ক্লাস্টার করেন এবং প্রথমে এটি করেন (প্রতিক্রিয়াটির দিকে না তাকিয়ে), আমি কোনও সমস্যা দেখা দিচ্ছি না। আমি সন্দেহ করি যে এই পদ্ধতির অদক্ষতা হবে, প্রতিটি মডেলটির শক্তি কম থাকবে কারণ এটি কেবলমাত্র ডেটা একটি উপসেটে ফিট করে, তবে আমি মনে করি না এটি পরামিতিগুলিকে পক্ষপাতদুষ্ট করবে বা পরীক্ষাগুলিকে অকার্যকর করবে। সুতরাং আমি মনে করি আপনি যদি সত্যিই চান এটি চেষ্টা করতে পারেন।

হালনাগাদ:

আমার অনুমান যে সমস্ত ডেটা সহ একটি মডেল ফিট করা ভাল (অর্থাত্ সর্বাধিক দক্ষ)। আপনি আপনার প্রাথমিক আগ্রহের বাইরে কিছু অতিরিক্ত কোভারিয়েট (যেমন ফেরত বনাম না) এবং একটি গোষ্ঠী সূচকটি অন্তর্ভুক্ত করতে পারেন যা আপনি আগেই একটি ক্লাস্টার বিশ্লেষণ চালানোর মাধ্যমে আবিষ্কার করেছিলেন। যাইহোক, যদি covariates যে ক্লাস্টার বিশ্লেষণ ঢুকে এছাড়াও লজিস্টিক রিগ্রেশন মডেল জন্য উপলব্ধ করা হবে, আমি নিশ্চিত যদি আমি তা দেখতে পারেন মাত্র এল আর মডেল covariates সব সহ ওভার অর্জন করা হবে ছাড়াগুচ্ছ নির্দেশক। এর সাথে একটি সুবিধাও থাকতে পারে যা আমি পরিচিত নই, যেহেতু আমি ক্লাস্টার বিশ্লেষণে দক্ষ নই, তবে এটি কী হবে তা আমি জানি না। আমার কাছে মনে হয় সিএও অতিরিক্ত তথ্য উত্পন্ন করবে না যা ইতিমধ্যে কোভেরিয়েটগুলিতে ছিল না, এবং এইভাবে এলআর মডেলটিতে কিছু যুক্ত করবে না। আপনি এটি চেষ্টা করতে পারে; আমার ভুল হতেও পারে. তবে আমার অনুমান যে আপনি মাত্র কয়েক ডিগ্রি স্বাধীনতা পোড়াবেন।

একটি ভিন্ন পদ্ধতি হ'ল এটি নির্ভর কোভেরিয়েটের পরিবর্তে ক্লাস্টার সূচকটি এলআর মডেলে প্রবেশ করানো । আমি সন্দেহ করি এটি উপকারী হবে। সিএ নিখুঁত হবে না, অন্য যে কোনও বিশ্লেষণের তুলনায় এখন আর কোনও কিছু নেই, এবং তাই মূল কোভারিয়েটস থেকে উত্সাহিত ক্লাস্টার সূচকে স্থানান্তরিত হতে কিছু পরিমাণ তথ্য হ্রাস পেতে পারে । (আবার, আমি এটি জানি না, তবে আমি দৃ strongly়ভাবে সন্দেহ করি যে এটি সত্য।) আবারও, আপনি এটি উভয় উপায়ে চেষ্টা করতে পারেন এবং একাডেমিক অনুশীলন হিসাবে তুলনা করতে পারেন, যদিও কেবল প্রচুর স্টাফ চেষ্টা করা এবং ফলাফলটিকে সর্বোত্তম মনে হওয়া স্থির করে দেওয়া উচিত আপনি যদি আপনার ফলাফলগুলি গুরুত্ব সহকারে নিতে চান তবে

আমি কেবল ক্লাস্টার বিশ্লেষণে কার্প করতে চাই না। সাধারণভাবে তাদের অনেক সুবিধা থাকতে পারে এবং তাদের জন্য এখানে ভাল ব্যবহার হতে পারে। যাইহোক, আমি যেমন আপনার পরিস্থিতিটি বুঝতে পারি, আমার মনে হয় যে কেবলমাত্র আপনারা প্রাসঙ্গিক বলে মনে করেন সেগুলির সাথে একটি এলআর মডেল তৈরি করা হ'ল উপায়।


1

আপনি যদি লজিস্টিক রিগ্রেশনের সাথে আবদ্ধ না হন তবে আমি আপনাকে একটি এলোমেলো বন শ্রেণিবদ্ধ ব্যবহার করার পরামর্শ দিচ্ছি কারণ এটির মধ্যে এক ধরণের ক্লাস্টারিং অন্তর্নির্মিত রয়েছে। ধারণাটি হ'ল ক্লাস্টারে প্রক্সিমিটি ম্যাট্রিক্স ব্যবহার করা। নৈকট্য ম্যাট্রিক্স হ'ল ব্যাগ গাছের বাইরে ভগ্নাংশের জন্য N_Obs দ্বারা N_Obs যেখানে পর্যবেক্ষণ যেখানে একই টার্মিনাল নোডে। তারপরে আপনি এটিকে বৈশিষ্ট্য স্তরের ম্যাট্রিক্সের মাধ্যমে বৈশিষ্ট্য স্তরে একত্রিত করতে পারেন যেখানে উপাদানগুলি নৈকট্য ম্যাট্রিক্সের ভগ্নাংশের গড়। এরপরে একটি চৌম্বক পেরিয়ে গেলে আপনি সমস্ত স্তর একসাথে ক্লাস্টার করে দেখবেন এটি আপনার ভবিষ্যদ্বাণীকে উন্নত করে কিনা। সর্বোত্তম ক্লাস্টারিংয়ের সন্ধানের জন্য একটি ধাপ অনুসারে পুনরাবৃত্তি পদ্ধতি গ্রহণ করা ভাল তবে আপনি অন্য উপায়ে একটি চৌম্বকটি চয়ন করতে পারেন। যখন এই ক্লাস্টারিংটি হয়ে যায় আপনি ক্লাস্টার লেবেলগুলির সাহায্যে বৈশিষ্ট্যটি প্রতিস্থাপন করতে পারেন বা একটি নতুন বৈশিষ্ট্য হিসাবে ক্লাস্টার লেবেল যুক্ত করতে পারেন। আমি মনে করি এই মুহুর্তে আপনি সত্যিই চাইলে লজিস্টিক রিগ্রেশনটিতে ফিরে যেতে পারেন।


0

মাল্টি-সেগমেন্টেড মডেলগুলি তৈরি করার সময়, আমি মনে করি যে অন্তর্নিহিত বিতরণগুলিতে প্রকৃত পার্থক্যের সাথে কথা বলে এমন বিভাগগুলি তৈরি করা সবচেয়ে ভাল উপায়। প্রথম-মেয়াদী শিক্ষার্থী বনাম ফিরে আসা শিক্ষার্থীরা একটি দুর্দান্ত উদাহরণ, কারণ ভবিষ্যদ্বাণীকারী বিতরণগুলি সম্ভবত এই দুটি জনসংখ্যার জন্য খুব আলাদা হবে। আরও গুরুত্বপূর্ণ, এই পার্থক্যগুলির একটি স্বজ্ঞাত ব্যাখ্যা রয়েছে।


আমি একটি স্বজ্ঞাত ব্যাখ্যাটির মান পেয়েছি - এটি আপনাকে আপনার মডেলটি ব্যাখ্যা করতে সহায়তা করে। তবে কি এমন ভাবার কারণ নেই যে আপনি যদি তাদের উপলব্ধতার বৈশিষ্ট্যগুলির ভিত্তিতে লোকদের তাদের মিলের ভিত্তিতে গোষ্ঠীগুলিতে গোষ্ঠী করেন তবে একই ব্যাখ্যা না দিয়েও আপনি একইরকম উপকার পাবেন? আমি অনুমান করি যে ক্লাস্টারিংয়ের ব্যবহারের পিছনে ধারণাটি হ'ল যখন আমরা এমন গ্রুপগুলি সনাক্ত করতে পারি যা আমাদের প্রতিদিনের জীবনে আমরা বিভাগের সাথে সুস্পষ্টভাবে মিল রাখে না, মেশিনগুলি মানুষের চেয়ে ভাল ...
ডেভ

এবং, এছাড়াও, আপনি যদি অনুরূপ শিক্ষার্থীদের একটি সেটে কোনও রিগ্রেশন মডেলকে প্রশিক্ষণ দেন তবে সেই মডেলটি শিক্ষার্থীদের বিস্তৃত সেট ব্যবহার করে প্রশিক্ষিত একটি মডেলের চেয়ে সেই শিক্ষার্থীদের সাফল্যের পূর্বাভাসগুলিতে আরও নির্ভুল হবে।
ডেভ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.