প্রিক্লাস্টারিং কি আরও ভাল ভবিষ্যদ্বাণীমূলক মডেল তৈরি করতে সহায়তা করে?


9

মন্থন মডেলিংয়ের কাজের জন্য আমি বিবেচনা করছিলাম:

  1. ডেটা জন্য গণনা কে ক্লাস্টার
  2. প্রতিটি ক্লাস্টারের জন্য পৃথকভাবে কে মডেল তৈরি করুন।

এর পক্ষে যুক্তিটি হ'ল, প্রমাণ করার মতো কিছুই নেই যে গ্রাহকগণের জনসংখ্যা একজাতীয়, সুতরাং উপাত্ত তৈরির প্রক্রিয়া ভিন্ন "গোষ্ঠীগুলির" জন্য পৃথক হতে পারে বলে ধরে নেওয়া যুক্তিযুক্ত

আমার প্রশ্ন, এটি কি উপযুক্ত পদ্ধতি? এটি কি কোনও কিছু লঙ্ঘন করে, বা এটি কোনও কারণে খারাপ হিসাবে বিবেচিত হয়? যদি তাই হয় তবে কেন?

যদি তা না হয় তবে আপনি কি এই বিষয়টিতে কিছু সেরা অনুশীলনগুলি ভাগ করবেন? এবং ২ য় জিনিস - মডেল গাছের চেয়ে প্রাক্কলিতকরণ করা কি সাধারণত ভাল বা খারাপ (পাতায় মডেলগুলির সাথে উইটেন, ফ্র্যাঙ্ক - শ্রেণিবদ্ধকরণ / রিগ্রেশন ট্রি Int "সাধারণ" ক্লাস্টারিং এর চেয়ে যদি এর কোনও সুবিধা থাকে তবে আইডিকি)

উত্তর:


3

ক্লাস্টারওয়াস রিগ্রেশন নামে একটি পদ্ধতি রয়েছে যা একই ধরণের সমস্যা সমাধান করে (প্রথম ক্লাস্টার ডেটা এবং তারপরে ভবিষ্যদ্বাণীপূর্ণ মডেলগুলি তৈরি করে)। উদাহরণস্বরূপ এটি দেখুন।


1
আমি এখানে এটি সন্ধান করেছি: tandfonline.com/doi/abs/10.1080/00273170701836653 এবং বিমূর্তে নিম্নলিখিতটি পাওয়া গেছে: "n কিছু ক্ষেত্রে, প্রতিক্রিয়া ভেরিয়েবলের বেশিরভাগ প্রকরণটি বস্তুগুলি ক্লাস্টারিং দ্বারা ব্যাখ্যা করা হয়েছে, এতে সামান্য অতিরিক্ত সুবিধা দেওয়া হয়েছে by ক্লাস্টার রিগ্রেশন মডেলগুলির মধ্যে রয়েছে According তদনুসারে, ক্লাস্টারওয়াইজ রিগ্রেশন সহ অত্যধিক ফিটনেসের সম্ভাবনা রয়েছে "। সত্যিই প্রতিশ্রুতিবদ্ধ বলে মনে হচ্ছে না।
জিয়েল

ঠিক আছে, তবে তারা বলে না যে এটি সর্বদা ব্যর্থ হয়। আমি কখনই সেই পদ্ধতিটি ব্যবহার করি নি, আমি কেবল জানি এটি তত্ত্বাবধানে এবং নিরীক্ষণযোগ্য পদ্ধতির সংমিশ্রণ হতে পারে তবে খুব অল্প সংখ্যক কাগজপত্র রয়েছে যা এই পদ্ধতিটি ব্যবহার করে।
মিরোস্লাভ সাবো

এছাড়াও, বেশিরভাগ অ্যাপ্লিকেশন যা আমি পেয়েছি সেগুলি বিপণন এবং ফিনান্স সম্পর্কিত হয় তাই এটি বিশেষত এই জাতীয় ডেটার জন্য উপযুক্ত।
মিরোস্লাভ সাবো

1
এটি বিপণনের ক্ষেত্রে - মন্থন, ক্রস / উত্সাহীন ক্ষেত্রে খুব স্বজ্ঞাত বলে মনে হচ্ছে।
জিয়েল

2

দুটি পয়েন্ট যা মন্তব্য করতে খুব দীর্ঘ:

  • খাঁটি গুচ্ছগুলি (যেমন শুধুমাত্র এক শ্রেণীর কেসযুক্ত) সে প্রতি সমস্যা নেই: তথাকথিত এক-শ্রেণীর শ্রেণিবদ্ধ অন্য সকলের থেকে পৃথক প্রতিটি শ্রেণীর মডেল। তারা পুরোপুরি এটি মোকাবেলা করতে পারেন।

  • যাইহোক, যদি ডেটা ক্লাস্টারগুলি এমনভাবে ক্লাস হয় যাতে ক্লাসগুলি বেশ আলাদা হয়, যেমন ক্লাস্টারগুলি বরং খাঁটি হয়, এর অর্থ হ'ল একটি খুব শক্তিশালী কাঠামোর উপস্থিতি রয়েছে, এমন কাঠামো যা ক্লাস্টারের বিশ্লেষণটি শ্রেণীর লেবেলগুলির দিকনির্দেশনা ছাড়াই খুঁজে পেতে সক্ষম হয়। এর অর্থ হ'ল ক্লাস্টার বিশ্লেষণ দ্বারা ব্যবহৃত একই দূরত্বের পরিমাপের ভিত্তিতে নিকটতম প্রতিবেশী পদ্ধতিগুলির মতো নির্দিষ্ট ধরণের শ্রেণিবদ্ধ ডেটাগুলির জন্য উপযুক্ত।

  • অন্য সম্ভাবনা, পরিস্থিতি যেখানে ক্লাস্টারগুলি খাঁটি নয়, তবে ক্লাস্টার এবং শ্রেণিবদ্ধকরণ পদ্ধতির সংমিশ্রণ গাছের জন্য উপযুক্ত। গাছটি ক্লাস্টারিংয়ের অংশটি করবে (এবং খাঁটি নোডগুলি কোনও সমস্যা হিসাবে বিবেচনা করা হয় না)) এখানে একটি কৃত্রিম উদাহরণ, এক্সওর-সমস্যার 2 টি ক্লাস্টার সংস্করণ:
    এক্সওআর ক্লাস্টার

  • খাঁটি গুচ্ছ থাকার ঝুঁকি না চালিয়ে গুচ্ছ তথ্য অন্তর্ভুক্ত করার আরেকটি উপায় হ'ল ক্লাস্টারটিকে বৈশিষ্ট্য উত্পন্নকরণের পদক্ষেপ হিসাবে ব্যবহার করা: ক্লাস্টার বিশ্লেষণের ফলাফলটিকে ডেটা ম্যাট্রিক্সে নতুন পরিবর্তন হিসাবে যুক্ত করা।

  • আপনি জিজ্ঞাসা করেছেন এটি কোনও কারণে খারাপ কিনা: একটি ক্ষতি হ'ল এই অ্যাপোচটি অনেক ডিগ্রি স্বাধীনতার মডেলগুলিতে নিয়ে যায়। অতিরিক্ত পোশাক না খেয়ে আপনাকে বিশেষভাবে যত্নবান হতে হবে।

  • মডেল ভিত্তিক গাছগুলি দেখুন, যেমন এমবিকিউ-র উত্তর এখানে আমি মনে করি তারা এমন একটি ধারণা বাস্তবায়ন করেছে যা আপনার সন্ধানের খুব কাছাকাছি। এগুলি পাশাপাশি বন হিসাবে প্রয়োগ করা যেতে পারে: যেমন আর প্যাকেজ মবফোরেস্ট


1

আমি আজকাল একই ধরণের সমস্যার সাথে মোকাবিলা করছি। ক্লাসিফায়ার তৈরির জন্য আমার শত শত বৈশিষ্ট্য রয়েছে। বিভিন্ন মডেলের চেষ্টা করার পরে (উদা: এলোমেলো বন, গ্রেডিয়েন্ট বুস্ট, ইত্যাদি ...), আমি এখনও কম নির্ভুলতা / স্মরণ পেয়েছি। তাই আমি কিছু ক্লাস্টারিং করার চেষ্টা করছি তারপর বিভিন্ন গ্রুপে শ্রেণিবদ্ধ তৈরি করতে build আমার উদ্বেগটি হ'ল, যেমন অ্যানি-মুউস বলেছেন, ক্লাস্টারিংয়ের সমস্ত তথ্য ব্যবহার করা হলে আমি শ্রেণিবদ্ধের কাছ থেকে আরও কীভাবে তথ্য পেতে পারি? সুতরাং আমি এখন যা করতে চাই তা এখানে:

  1. ক্লাস্টারিং করার জন্য কিছু বৈশিষ্ট্য (কম পূর্বের জ্ঞান অনুসারে) ব্যবহার করুন।
  2. শ্রেণিবদ্ধদের প্রশিক্ষণ দেওয়ার জন্য অন্যান্য বৈশিষ্ট্য (আরও) ব্যবহার করুন।

আমি মনে করি এটি জটিলতা হ্রাস করতেও সহায়তা করতে পারে, আশা করি এটি সহায়তা করে।


1

ভবন গুচ্ছ এবং তারপর সংশ্লিষ্ট মডেলগুলি একেবারে সম্ভাব্য। প্যাথলজিক কেস মন্তব্যগুলিতে উল্লিখিত হয়েছে যেখানে ক্লাস্টারগুলি পুরোপুরি আলাদা করে দেয় ফলাফলের পরিবর্তনশীলগুলি শ্রেণিবদ্ধীদের জন্য অসুবিধা সৃষ্টি করতে পারে একটি তাত্ত্বিক সমস্যা, তবে আমার মনে হয় এটি অসম্ভব (বিশেষত একটি উচ্চ মাত্রিক ক্ষেত্রে)। তদুপরি, আপনি যদি এই ধরণের ক্লাস্টার তৈরি করতে পারেন, তবে আপনি কেবলমাত্র সেই ক্লাস্টারগুলি পূর্বাভাসের জন্য ব্যবহার করতে পারেন!

এছাড়াও, যদি প্রক্রিয়াটি শুরু হয় এন নমুনা, শ্রেণিবদ্ধীরা শুধুমাত্র ব্যবহার করতে পারেন এন/নমুনা। সুতরাং, আরও শক্তিশালী পন্থা হ'ল একক শ্রেণিবদ্ধকারী গড়ে তোলার ক্ষেত্রে ক্লাস্টারগুলি ব্যবহার করা হবে যা নিগ্রহের মিশ্রণ ব্যবহার করে ক্লাস্টারগুলিতে ভিন্নতা জড়িত করে। মডেল-ভিত্তিক ক্লাস্টারিংয়ে, কেউ ধরে নেয় যে একটি মিশ্রণ বিতরণ থেকে ডেটা উত্পন্ন হয়েছেওয়াইআমি~এন(μআমি,σআমি2) কোথায় আমি=1 সম্ভাবনা সহ π এবং আমি=2 সম্ভাবনা সহ 1-π এবং μ1 μ2 এবং σ12σ22। একটি মিশ্রণ রিগ্রেশন এমন একটি এক্সটেনশান যা সহ-বৈচিত্রগুলির উপর নির্ভরশীল হিসাবে ডেটা মডেল করতে দেয়;μআমি সঙ্গে প্রতিস্থাপন করা হয় βআমিএক্সআমি, যেখানে βআমিঅনুমান করতে হবে। যদিও এই উদাহরণটি অবিচ্ছিন্ন, গাউসিয়ান ক্ষেত্রে রয়েছে, ফ্রেমওয়ার্কটি অনেকগুলি ডেটা সমন্বিত করতে পারে (বহুজাতিক-লজিট শ্রেণিবদ্ধ ভেরিয়েবলের জন্য উপযুক্ত হবে)। Flexmix প্যাকেজ আর জন্য আরো বিস্তারিত বিবরণ প্রদান করে এবং অবশ্যই একটি অপেক্ষাকৃত সহজ এবং প্রসার্য উপায় এই পদ্ধতির বাস্তবায়ন করতে।

বিকল্পভাবে, একটি বৈষম্যমূলক সেটিংয়ে, ক্লাস্টার অ্যাসাইনমেন্টগুলি (শক্ত বা নরম) পছন্দের শ্রেণিবদ্ধকরণ অ্যালগরিদমকে প্রশিক্ষণের জন্য বৈশিষ্ট্য হিসাবে অন্তর্ভুক্ত করার চেষ্টা করা যেতে পারে (যেমন এনবি, এএনএন, এসভিএম, আরএফ, ইত্যাদি)


0

ঠিক আছে, যদি আপনার ক্লাস্টারগুলি সত্যিই ভাল হয় তবে আপনার শ্রেণিবদ্ধগুলি কৃপণ হবে। কারণ তাদের প্রশিক্ষণের ডেটাতে পর্যাপ্ত পরিমাণে ডাইভার্সন নেই।

বলুন আপনার ক্লাস্টারগুলি নির্ভুল অর্থাৎ খাঁটি। আপনি সেখানে কোনও শ্রেণিবদ্ধকে সঠিকভাবে প্রশিক্ষণও দিতে পারবেন না। শ্রেণিবদ্ধদের ইতিবাচক এবং নেতিবাচক উদাহরণগুলির প্রয়োজন!

একেবারে বিপরীত কাজটি করতে র্যান্ডম ফরেস্ট খুব সফল। তারা ডেটাগুলির এলোমেলো নমুনা নেয়, তার উপর কোনও শ্রেণিবদ্ধ প্রশিক্ষণ দেয় এবং তারপরে প্রশিক্ষিত সমস্ত শ্রেণিবদ্ধকারী ব্যবহার করে।

ক্লাস্টারিং ব্যবহার করে, এবং তারপরে প্রতিটি জোড়া ক্লাস্টারে কোনও শ্রেণিবদ্ধকে প্রশিক্ষণ দেওয়ার জন্য কী কাজ হতে পারে , অন্তত তারা যথেষ্ট দ্বিমত পোষণ করে (যদি কোনও শ্রেণি দুটি ক্লাস্টারে বিভক্ত হয়, তবে আপনি সেখানে কোনও শ্রেণিবদ্ধ প্রশিক্ষণ দিতে পারবেন না!)


ক্লাস্টারিংয়ের উদ্দেশ্যটি হল "খাঁটি" গুচ্ছগুলি খুঁজে পাওয়া নয়, যেগুলি আমার লক্ষ্য পরিবর্তনশীলকে বৈষম্যমূলক করে তুলতে দুর্দান্ত। ক্লাস্টারিংয়ের উদ্দেশ্য হ'ল "অন্যান্য" অঞ্চলে গ্রুপগুলি সমজাতীয়ভাবে সন্ধান করা। একটি উদাহরণ দেওয়ার জন্য: আমি মনে করি যে মন্থনে "গুণমান-কেবল" গ্রাহক এবং "ব্যয়-অনুকূলকরণ" গ্রাহক রয়েছে। আমি মনে করি না যে আমার অনুমান করা উচিত যে শ্রেণিবদ্ধের জন্য প্রাসঙ্গিক বৈশিষ্ট্যগুলি উভয় গ্রুপে সমান তাই আমি প্রতিটি দলের জন্য পৃথক মডেল তৈরি করতে চাই। অবশ্যই আমার স্পষ্ট "গুণমান" এবং "ব্যয়" গোষ্ঠী নেই, সুতরাং এই জাতীয় গোষ্ঠীগুলি ডেটা থেকে প্রথমে প্রাপ্ত করার জন্য ক্লাস্টার করার ধারণা।
Ziel

ডেটাতে যে কোনও ধরণের অতিরিক্ত ভারসাম্যহীনতা এবং পারস্পরিক সম্পর্ক ক্ষতি করতে পারে। দেখুন, কোনও শ্রেণিবদ্ধকারী "কেবলমাত্র গুণমান" এবং "ব্যয় অনুকূলকরণের" বিষয়টি নির্ধারণ করতে চাইতে পারেন। যদি তিনি কেবল একটি গোষ্ঠী পান তবে তিনি এই পার্থক্যটি ব্যবহার করতে পারবেন না।
কিউইট আছে - অ্যানি-মৌসে

1
তবে কেবলমাত্র যদি আপনি একটি দ্বি-স্তরের পদ্ধতির কাজ করেন, প্রথমে ক্লাস্টারগুলি দ্বারা শ্রেণিবদ্ধকরণ করুন, তারপরে ক্লাস্টারের শ্রেণিবদ্ধের মূল্যায়ন করুন। অন্যথায়, ধ্রুবক শ্রেণিবদ্ধকারী অকেজো। তারপরে আপনি ক্লাস্টারিংয়ের সমস্ত বোঝা রাখছেন।
কিট আছে - অ্যানি-মৌসে

1
ঠিক আছে, আমি ওপিকে বুঝতে পারি understood
এসবিএক্স

1
আপনি অবশ্যই এটি করতে পারেন, তবে সম্ভাবনাগুলি হ'ল আপনার ক্লাস্টারগুলি তেমন ভাল নয় এবং আপনি "ওভারল্যাপিং" শ্রেণিবদ্ধগুলির একটি যথাযথ নকশা করা ভাল। ঠিক যেমন র্যান্ডমফোরেস্টস করে।
কিউইট আছে - অ্যানি-মউস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.