নিরীক্ষণযোগ্য শেখার সমস্যাগুলিতে মাত্রা হ্রাস সম্পর্কে আমার কিছু ধারণা রয়েছে have জবাব দেওয়ার ক্ষেত্রে, আমি ধরে নিয়েছি যে আপনার আগ্রহ "হাই-টাচ," মানব সম্পৃক্ততা আর্ট ক্লাস্টার ব্যাখ্যায় একটি স্বয়ংক্রিয়, টার্নকি, ব্ল্যাক বক্স এবং "লো-টাচ" মেশিন লার্নিং পদ্ধতির বিপরীতে রয়েছে যেখানে ব্যাখ্যাটি ইচ্ছাকৃতভাবে ডি-জোর দেওয়া হয়েছে । যদি এটি পরে হয় তবে আপনি কেন প্রশ্ন জিজ্ঞাসা করবেন? এছাড়াও, নোট করুন যে কৌশলগত বি 2 সি বিপণন, বি 2 বি প্রযুক্তি প্রযুক্তি এবং শিক্ষানীতি (ক্লাস্টারিং স্টুডেন্ট এবং স্কুল) সহ বিগত কয়েক বছর ধরে বিস্তৃত ব্যবসায়ের পরিবেশ জুড়ে আমার ক্লাস্টার সলিউশনগুলির প্রচুর অভিজ্ঞতা ছিল।
প্রথমে যদিও, "আলাদা আলাদা ডেটাসেটকে গ্রুপবদ্ধ করা" সম্পর্কিত আপনার মন্তব্য সম্পর্কে আমার একটি প্রশ্ন আছে। আপনি কী বোঝাতে চেয়েছিলেন বা কীভাবে এটির পদ্ধতির উপর প্রভাব পড়তে পারে তা আমি জানি না এবং আশা করি আপনি আরও বিশদভাবে ব্যাখ্যা করতে পারেন।
আমি আপনার অনুমানের উপরে # 1 এ চ্যালেঞ্জ জানাতে চাই যে পিসিএ ভিত্তিক সমাধানগুলি "ব্যাখ্যা করা শক্ত"। এমনকি একটি পিসিএ চলমান হিসাবে ক্লাস্টারিং মধ্যে একটি প্রাথমিক পদক্ষেপ বেশিরভাগই সঙ্গে কি আছে কারণ স্বাস্থ্যবিধি যতটুকু অনেক ক্লাস্টারিং আলগোরিদিম যেমন ফলে সমাধানের বৈশিষ্ট্য অতিরেক সংবেদনশীল। পিসিএ এই অপ্রয়োজনীয়তাটিকে একটি পরিচালনাযোগ্য মুঠোয় উপাদানগুলির মধ্যে ভেঙে দেয়, যার ফলে আপনি বৈশিষ্ট্য নির্বাচনের ক্ষেত্রে যে চ্যালেঞ্জগুলি এবং অসুবিধাগুলি লক্ষ্য করেন তা হ্রাস করে। যদিও এটি সত্য যে কোনও পিসিএ থেকে উপাদানগুলির আউটপুট পৃথক বৈশিষ্ট্যগুলির গ্রানুলিটি এবং নির্দিষ্টতা ঝাপসা করে, আপনি যদি সম্পূর্ণরূপে নির্ভর করেন তবে এই সমস্যাফলাফল বিশ্লেষণে সেই উপাদানগুলির উপর। অন্য কথায়, আপনি ক্লাস্টারের ব্যাখ্যার জন্য কেবলমাত্র উপাদানগুলি ব্যবহার করে কোনওভাবেই লকড নন। শুধু তা-ই নয়, আপনাকে অযৌক্তিক উপাদানগুলির মাত্রা "কী" বোঝাতে হবে তাও যত্নের প্রয়োজন নেই। এগুলি কেবলমাত্র একটি মধ্যবর্তী এবং (শেষ পর্যন্ত) নিষ্পত্তিযোগ্য উপায় যা কার্যক্ষম সমাধানের সুবিধার্থে। তবে এই বিষয়টি তৈরির ক্ষেত্রে আমি অনেক অনুশীলনকারীদের থেকে পৃথক, যেহেতু দলগুলি "অর্থবহ" ফ্যাক্টর সমাধান তৈরি করতে পারে এবং কয়েক সপ্তাহ সাবধানে কাটাতে পারে। আমার কাছে এটি ক্লায়েন্টের সময় এবং অর্থের অকার্যকর অপচয়।
এই সময়ে সম্বোধন করার জন্য প্রযুক্তিগত বিবেচনার একটি নৌকা বোঝাই থাকবে। একটির জন্য, যদি আপনার পিসিএ অ্যালগরিদম স্কেল ইনভায়রান্ট না হয় (যেমন, ওএলএস বনাম এমএল হয়), তবে ফলস্বরূপ যে কোনও পিসিএ সমাধান বিকৃত হবে, উচ্চতর বৈকল্পিক বৈশিষ্ট্যগুলিতে আরও ভারী লোড হবে। এই ক্ষেত্রে আপনার বৈশিষ্ট্যগুলি এই প্রকরণটিকে আরও সমতল করার জন্য কিছু উপায়ে প্রিপ্রোসেস করা বা রূপান্তরিত করা দরকার। গড়ের মানককরণ, পরিসীমা বা আইকিউআর মানককরণ, আইপসিটিভ স্কেলিং এবং আরও অনেক কিছু সহ এখানে প্রচুর সম্ভাবনা রয়েছে। সেরা, সবচেয়ে ব্যাখ্যাযোগ্য সমাধান প্রদান করে এমন রূপান্তর উত্সাহিত করুন।
একটি ক্লাস্টার সমাধান উত্পন্ন হয়ে গেলে, সমাধানটি সরাসরি উপায়ে ব্যবহার না করা কোনও অতিরিক্ত বর্ণনামূলক তথ্য সহ উপাদানগুলি উপেক্ষা করে এবং মূল বৈশিষ্ট্যগুলি পিছনে ভাঁজ করে ব্যাখ্যাটি সর্বোত্তমভাবে অনুপ্রাণিত করা হয় (আমার অভিজ্ঞতাতে)। এই মুহুর্তে গুণগত অন্তর্দৃষ্টি সম্পর্কে কয়েকটি হিউরিস্টিক্স সেরা গাইড। এটি এমন স্প্রেডশিট তৈরি করার মতো সহজ হতে পারে যা প্রতিটি বৈশিষ্ট্যের (শিটের সারি) জন্য প্রতিটি ক্লাস্টারের (কলামগুলির জন্য) জন্য গড় বা মিডিয়ানদের উপর ভিত্তি করে আপনার ক্লাস্টারগুলিকে প্রোফাইল দেয় এবং পাশাপাশি আপনার মোট নমুনার জন্য গ্র্যান্ড গড় উপস্থাপন করে একটি অতিরিক্ত কলাম । তারপরে, প্রতিটি বৈশিষ্ট্যের জন্য ক্লাস্টার গড়কে গ্র্যান্ড গড় হিসাবে (এবং 100 দ্বারা গুণ করে) গড়ের সূচক দিয়ে একটি হিউরিস্টিক তৈরি করা হয় যা আইকিউ স্কোরের মতো হয় যেমন "100" প্রায় "স্বাভাবিক" আইকিউ বা গড় আচরণ, 120+ এর সূচকগুলি একটি ক্লাস্টারের আচরণ সম্পর্কে কোনও বৈশিষ্ট্যটির "সত্য" হওয়ার উচ্চ সম্ভাবনার ইঙ্গিত দেয় এবং 80 বা তার কমের সূচকগুলি কোনও ক্লাস্টারের "সত্য নয়" এমন বৈশিষ্ট্যগুলির সূচক। 120+ এবং 80 বা তার কমের এই সূচকগুলি সমাধানটি চালানোর ক্ষেত্রে প্রদত্ত বৈশিষ্ট্যের তাত্পর্য হিসাবে প্রক্সি টি-পরীক্ষার মতো। অবশ্যই, আপনি তাৎপর্যের গ্রুপ টেস্টগুলির মধ্যে দৌড়াতে পারেন এবং নমুনা আকারের উপর নির্ভর করে উত্তরগুলি পাবেন যা থাম্বগুলির এই দ্রুত এবং নোংরা নিয়মের চারপাশে পৃথক হয়।
ঠিক আছে ... এত কিছুর পরে, ধরুন আপনি এখনও পিসিএকে একটি ক্লাস্টারিং অ্যালগরিদমে সরাসরি ইনপুট হিসাবে ব্যবহার করার বিরোধিতা করছেন, কীভাবে বৈশিষ্ট্যগুলির একটি হ্রাসিত সেট নির্বাচন করতে হবে তা নিয়ে সমস্যা এখনও থেকেই যায়। পিসিএ এখানে এখনও দরকারী হতে পারে যেহেতু পিসিএগুলি নির্ভরশীল পরিবর্তনশীল ছাড়াই একটি রিগ্রেশন চালানোর মতো। প্রতিটি উপাদান উপরের লোডিং বৈশিষ্ট্যগুলি ক্লাস্টার অ্যালগরিদমের ইনপুটগুলিতে পরিণত হতে পারে।
বিপুল সংখ্যক বৈশিষ্ট্য এবং আপনার ডেটার তুলনামূলকভাবে ছোট নমুনার আকার সম্পর্কে আপনার বক্তব্য পর্যন্ত, বহু "সম্পূর্ণ তথ্য" মাল্টিভারিয়ট বিশ্লেষণে থাম্বের সাধারণ নিয়মটি প্রতি বৈশিষ্ট্যটিতে ন্যূনতম 10 টি পর্যবেক্ষণ। এই চ্যালেঞ্জটি ঘিরে কাজ করার জন্য কয়েকটি বিশেষ পদ্ধতি রয়েছে যার সাহায্যে লাভ করা যেতে পারে। উদাহরণস্বরূপ, আংশিক ন্যূনতম স্কোয়ারগুলি (পিএলএস) সর্বপ্রথম হারমান ওয়াল্ড 1990 সালে তাঁর কেমোমেট্রিক্স হিসাবে ক্ষেত্রগুলিতে ব্যবহারের জন্য থিওরিটিক্যাল এম্পিরিকিজমে গ্রন্থে তৈরি করেছিলেন যা এই সুনির্দিষ্ট সমস্যার মুখোমুখি হয়। এটি প্রকৃতিতে ফ্যাক্টর-অ্যানালিটিক তবে মাত্রা উত্পন্ন করতে বৃহত্তর এন প্রয়োজন হয় এমন ক্ষেত্রে খুব কম কঠোর। অন্যান্য সমাধানগুলির মধ্যে রয়েছে প্রচুর পরিমাণে তথ্যের সাথে ব্যবহৃত এলোমেলো বন-জাতীয়, "বিভাজন এবং বিজয়" machine এই পদ্ধতিগুলি এই পিডিএফ পর্যালোচনা করা হয়http://www.wisdom.weizmann.ac.il/~harel/papers/Divide%20and%20Conquer.pdf
তবে ধরুন আপনি সিদ্ধান্ত নিয়েছেন যে আপনি এখনও ফ্যাক্টর বিশ্লেষণের সাথে কিছুই করতে চান না এবং কোনও ধরণের তদারকি করা, "অনুক্রমিক" নির্বাচন প্রক্রিয়া চালিয়ে যাওয়ার জন্য নির্ধারিত। আমার দৃষ্টিতে, সবচেয়ে গুরুত্বপূর্ণ সমস্যাটি পোস্ট-হক পারফরম্যান্স মেট্রিক (ডান ইনডেক্স) সন্ধান করার বিষয়ে কম এবং একটি উপযুক্ত প্রক্সি - একটি নির্ভরশীল ভেরিয়েবল - এমনকি এই পদ্ধতিকে সম্ভব করার জন্য সনাক্তকরণ সম্পর্কে আরও কম। এই সিদ্ধান্তটি সম্পূর্ণরূপে আপনার রায় এবং এসএমই স্থিতির আপনার ফাংশন। এর জন্য কোনও "সেরা অনুশীলন," খুব কম সহজ উত্তর নেই এবং আপনি কীভাবে আপনার ডেটা বর্ণনা করেছেন তা কোনও ছোট চ্যালেঞ্জ নেই।
একবার এই সিদ্ধান্তটি নেওয়া হয়ে গেলে, এর পরে বেছে নিতে আক্ষরিকভাবে শত শত সম্ভাব্য পরিবর্তনশীল নির্বাচন সমাধান রয়েছে। পরিবর্তনশীল নির্বাচন একটি বিষয় ক্ষেত্র, যার উপর প্রতিটি পরিসংখ্যানবিদ এবং তাদের ভাই একটি কাগজ প্রকাশ করেছেন। আপনার পছন্দসই পদ্ধতিটি "অনুক্রমিক অগ্রগামী নির্বাচন" ভাল বলে মনে হচ্ছে।
এটি লক্ষণীয় যে তত্ত্বাবধানে থাকা শেখার মডেলগুলি অ্যালগোরিদমের অংশ হিসাবে একটি ক্লাস্টার দ্রবণে ভাঁজ থাকে exist এর উদাহরণগুলির মধ্যে সুপ্ত শ্রেণীর মডেল হিসাবে পরিচিত বৃহত এবং অত্যন্ত নমনীয় পদ্ধতির অন্তর্ভুক্ত। এলসি মডেলের সারমর্মটি হ'ল এগুলি দুটি পর্যায়: প্রথম পর্যায়ে একটি ডিভি সংজ্ঞায়িত করা হয় এবং একটি রিগ্রেশন মডেল নির্মিত হয়। দ্বিতীয় পর্যায়ে, কোনও একক সুপ্ত ভেক্টর - মডেল থেকে অবশিষ্ট আউটপুটে যে কোনও বৈপরীত্যকে সুপ্ত "শ্রেণিগুলিতে" বিভক্ত করা হয়। এই সিভি আলোচনায় এখানে এলসি মডেলিংয়ের একটি ওভারভিউ রয়েছে ... লেটেন্ট ক্লাস মাল্টিনোমিয়াল লগিট মডেল সন্দেহ
আশাকরি এটা সাহায্য করবে.