ক্লাস্টারিং সমস্যাগুলির জন্য বৈশিষ্ট্য নির্বাচন


9

আমি অকার্যকর অ্যালগরিদম (ক্লাস্টারিং) ব্যবহার করে বিভিন্ন ডেটাसेट একসাথে তৈরি করার চেষ্টা করছি। সমস্যাটি হ'ল আমার কাছে অনেকগুলি বৈশিষ্ট্য (500 ডলার) এবং অল্প পরিমাণে কেস (200-300) রয়েছে।

এখনও পর্যন্ত আমি কেবল শ্রেণিবদ্ধের সমস্যাগুলিই করতাম যার জন্য আমি সবসময় প্রশিক্ষণের সেট হিসাবে ডেটা লেবেল করে রেখেছিলাম। সেখানে আমি বৈশিষ্ট্যগুলির পূর্বনির্ধারণের জন্য কিছু মানদণ্ড (অর্থাত র‍্যান্ডমফ্রস্ট.অর্থ্পোরেন্স বা তথ্য সম্পর্কিত তথ্য) ব্যবহার করেছি এবং তারপরে প্রাসঙ্গিক বৈশিষ্ট্যগুলি অনুসন্ধান করতে আমি বিভিন্ন শিখার জন্য ক্রমিক অগ্রবর্তী নির্বাচন ব্যবহার করেছি।

এখন আমি দেখতে পাচ্ছি যে অব্যবহৃত শিক্ষার ক্ষেত্রে আমার পূর্বনির্ধারণের জন্য কোন মানদণ্ড নেই এবং আমি ক্রমবর্ধমান অগ্রগামী নির্বাচনটি ব্যবহার করতে পারি না (কমপক্ষে এমএলআর প্যাকেজে নয়)।

আমি ভাবছিলাম যে আমার ক্লাস্টারিং অ্যালগরিদমে ফিড করার জন্য কয়েকটি সংখ্যক বৈশিষ্ট্য খুঁজে পাওয়ার আগে যদি আমি একটি প্রধান উপাদান বিশ্লেষণ করতে পারি। বা আপনার অন্য কোনও ধারণা আছে?

ধন্যবাদ

সম্পাদনা:

ঠিক আছে, তাই অনলাইনে কিছু গবেষণা করার পরে আমি আমার প্রশ্নটি কিছুটা আপডেট করতে পারি: সবার আগে আমি কয়েকটি নিবন্ধ পড়েছি যা দুটি কারণে অ্যালগরিদম ক্লাস্টারিংয়ের আগে পিসিএ ব্যবহারকে নিরুৎসাহিত করে:

  • পিসিগুলি সমস্ত বৈশিষ্ট্যের ফাংশন তাই ফলাফলটি ইনিটাল ডেটা সেটের সাথে সম্পর্কিত করা শক্ত এবং সুতরাং এটি ব্যাখ্যা করা আরও কঠিন

  • তদুপরি, আপনার যদি সমস্যা হয় যে সত্য সত্যই আপনার বৈশিষ্ট্যগুলির একটি খুব সামান্য অংশটি ক্লাস্টারিং করতে সহায়তা করে, তবে বলা হয় না যে এই বৈশিষ্ট্যগুলি নমুনাগুলির মধ্যে সবচেয়ে বড় বৈচিত্রটিও বর্ণনা করছে (পিসিগুলি যা করে)

সুতরাং পিসিএ টেবিলের বাইরে ...

ক্লাস্টারিংয়ের জন্য সিক্যুয়াল ফরোয়ার্ড নির্বাচন করতে এখন আমি আমার প্রাথমিক ধারণাটিতে ফিরে এসেছি।

আপনি কোন পারফরম্যান্স পরিমাপের সুপারিশ করবেন? (আমি ডান-ইনডেক্সের কথা ভেবেছিলাম) কোন ক্লাস্টারিং অ্যালগরিদম একই আকারের কম-বেশি ক্লাস্টারগুলিতে নিয়ে যাবে? (হায়ারারিকিকাল ক্লাস্টারিংয়ের জন্য আমি সাধারণত একটি একক আউটলেটারের সাথে একটি ক্লাস্টার পাই এবং বাকী সমস্ত সহ -> সুতরাং আমার এমন কিছু প্রয়োজন হবে যা কোনওভাবে বিদেশীদের থেকে রক্ষা করবে)

আশা করি আপনি আমাকে সাহায্য করতে পারেন ...


র্যান্ডম অরণ্য নিরীক্ষণমূলক সমস্যায় প্রয়োগ করা যেতে পারে। এবং আমি মনে করি আপনি এখনও প্রক্রিয়াটিতে কিছু তথ্যমূলক বৈশিষ্ট্য নিষ্কাশন করতে পারেন।
আমানিতা কিকি

উত্তর:


11

নিরীক্ষণযোগ্য শেখার সমস্যাগুলিতে মাত্রা হ্রাস সম্পর্কে আমার কিছু ধারণা রয়েছে have জবাব দেওয়ার ক্ষেত্রে, আমি ধরে নিয়েছি যে আপনার আগ্রহ "হাই-টাচ," মানব সম্পৃক্ততা আর্ট ক্লাস্টার ব্যাখ্যায় একটি স্বয়ংক্রিয়, টার্নকি, ব্ল্যাক বক্স এবং "লো-টাচ" মেশিন লার্নিং পদ্ধতির বিপরীতে রয়েছে যেখানে ব্যাখ্যাটি ইচ্ছাকৃতভাবে ডি-জোর দেওয়া হয়েছে । যদি এটি পরে হয় তবে আপনি কেন প্রশ্ন জিজ্ঞাসা করবেন? এছাড়াও, নোট করুন যে কৌশলগত বি 2 সি বিপণন, বি 2 বি প্রযুক্তি প্রযুক্তি এবং শিক্ষানীতি (ক্লাস্টারিং স্টুডেন্ট এবং স্কুল) সহ বিগত কয়েক বছর ধরে বিস্তৃত ব্যবসায়ের পরিবেশ জুড়ে আমার ক্লাস্টার সলিউশনগুলির প্রচুর অভিজ্ঞতা ছিল।

প্রথমে যদিও, "আলাদা আলাদা ডেটাসেটকে গ্রুপবদ্ধ করা" সম্পর্কিত আপনার মন্তব্য সম্পর্কে আমার একটি প্রশ্ন আছে। আপনি কী বোঝাতে চেয়েছিলেন বা কীভাবে এটির পদ্ধতির উপর প্রভাব পড়তে পারে তা আমি জানি না এবং আশা করি আপনি আরও বিশদভাবে ব্যাখ্যা করতে পারেন।

আমি আপনার অনুমানের উপরে # 1 এ চ্যালেঞ্জ জানাতে চাই যে পিসিএ ভিত্তিক সমাধানগুলি "ব্যাখ্যা করা শক্ত"। এমনকি একটি পিসিএ চলমান হিসাবে ক্লাস্টারিং মধ্যে একটি প্রাথমিক পদক্ষেপ বেশিরভাগই সঙ্গে কি আছে কারণ স্বাস্থ্যবিধি যতটুকু অনেক ক্লাস্টারিং আলগোরিদিম যেমন ফলে সমাধানের বৈশিষ্ট্য অতিরেক সংবেদনশীল। পিসিএ এই অপ্রয়োজনীয়তাটিকে একটি পরিচালনাযোগ্য মুঠোয় উপাদানগুলির মধ্যে ভেঙে দেয়, যার ফলে আপনি বৈশিষ্ট্য নির্বাচনের ক্ষেত্রে যে চ্যালেঞ্জগুলি এবং অসুবিধাগুলি লক্ষ্য করেন তা হ্রাস করে। যদিও এটি সত্য যে কোনও পিসিএ থেকে উপাদানগুলির আউটপুট পৃথক বৈশিষ্ট্যগুলির গ্রানুলিটি এবং নির্দিষ্টতা ঝাপসা করে, আপনি যদি সম্পূর্ণরূপে নির্ভর করেন তবে এই সমস্যাফলাফল বিশ্লেষণে সেই উপাদানগুলির উপর। অন্য কথায়, আপনি ক্লাস্টারের ব্যাখ্যার জন্য কেবলমাত্র উপাদানগুলি ব্যবহার করে কোনওভাবেই লকড নন। শুধু তা-ই নয়, আপনাকে অযৌক্তিক উপাদানগুলির মাত্রা "কী" বোঝাতে হবে তাও যত্নের প্রয়োজন নেই। এগুলি কেবলমাত্র একটি মধ্যবর্তী এবং (শেষ পর্যন্ত) নিষ্পত্তিযোগ্য উপায় যা কার্যক্ষম সমাধানের সুবিধার্থে। তবে এই বিষয়টি তৈরির ক্ষেত্রে আমি অনেক অনুশীলনকারীদের থেকে পৃথক, যেহেতু দলগুলি "অর্থবহ" ফ্যাক্টর সমাধান তৈরি করতে পারে এবং কয়েক সপ্তাহ সাবধানে কাটাতে পারে। আমার কাছে এটি ক্লায়েন্টের সময় এবং অর্থের অকার্যকর অপচয়।

এই সময়ে সম্বোধন করার জন্য প্রযুক্তিগত বিবেচনার একটি নৌকা বোঝাই থাকবে। একটির জন্য, যদি আপনার পিসিএ অ্যালগরিদম স্কেল ইনভায়রান্ট না হয় (যেমন, ওএলএস বনাম এমএল হয়), তবে ফলস্বরূপ যে কোনও পিসিএ সমাধান বিকৃত হবে, উচ্চতর বৈকল্পিক বৈশিষ্ট্যগুলিতে আরও ভারী লোড হবে। এই ক্ষেত্রে আপনার বৈশিষ্ট্যগুলি এই প্রকরণটিকে আরও সমতল করার জন্য কিছু উপায়ে প্রিপ্রোসেস করা বা রূপান্তরিত করা দরকার। গড়ের মানককরণ, পরিসীমা বা আইকিউআর মানককরণ, আইপসিটিভ স্কেলিং এবং আরও অনেক কিছু সহ এখানে প্রচুর সম্ভাবনা রয়েছে। সেরা, সবচেয়ে ব্যাখ্যাযোগ্য সমাধান প্রদান করে এমন রূপান্তর উত্সাহিত করুন।

একটি ক্লাস্টার সমাধান উত্পন্ন হয়ে গেলে, সমাধানটি সরাসরি উপায়ে ব্যবহার না করা কোনও অতিরিক্ত বর্ণনামূলক তথ্য সহ উপাদানগুলি উপেক্ষা করে এবং মূল বৈশিষ্ট্যগুলি পিছনে ভাঁজ করে ব্যাখ্যাটি সর্বোত্তমভাবে অনুপ্রাণিত করা হয় (আমার অভিজ্ঞতাতে)। এই মুহুর্তে গুণগত অন্তর্দৃষ্টি সম্পর্কে কয়েকটি হিউরিস্টিক্স সেরা গাইড। এটি এমন স্প্রেডশিট তৈরি করার মতো সহজ হতে পারে যা প্রতিটি বৈশিষ্ট্যের (শিটের সারি) জন্য প্রতিটি ক্লাস্টারের (কলামগুলির জন্য) জন্য গড় বা মিডিয়ানদের উপর ভিত্তি করে আপনার ক্লাস্টারগুলিকে প্রোফাইল দেয় এবং পাশাপাশি আপনার মোট নমুনার জন্য গ্র্যান্ড গড় উপস্থাপন করে একটি অতিরিক্ত কলাম । তারপরে, প্রতিটি বৈশিষ্ট্যের জন্য ক্লাস্টার গড়কে গ্র্যান্ড গড় হিসাবে (এবং 100 দ্বারা গুণ করে) গড়ের সূচক দিয়ে একটি হিউরিস্টিক তৈরি করা হয় যা আইকিউ স্কোরের মতো হয় যেমন "100" প্রায় "স্বাভাবিক" আইকিউ বা গড় আচরণ, 120+ এর সূচকগুলি একটি ক্লাস্টারের আচরণ সম্পর্কে কোনও বৈশিষ্ট্যটির "সত্য" হওয়ার উচ্চ সম্ভাবনার ইঙ্গিত দেয় এবং 80 বা তার কমের সূচকগুলি কোনও ক্লাস্টারের "সত্য নয়" এমন বৈশিষ্ট্যগুলির সূচক। 120+ এবং 80 বা তার কমের এই সূচকগুলি সমাধানটি চালানোর ক্ষেত্রে প্রদত্ত বৈশিষ্ট্যের তাত্পর্য হিসাবে প্রক্সি টি-পরীক্ষার মতো। অবশ্যই, আপনি তাৎপর্যের গ্রুপ টেস্টগুলির মধ্যে দৌড়াতে পারেন এবং নমুনা আকারের উপর নির্ভর করে উত্তরগুলি পাবেন যা থাম্বগুলির এই দ্রুত এবং নোংরা নিয়মের চারপাশে পৃথক হয়।

ঠিক আছে ... এত কিছুর পরে, ধরুন আপনি এখনও পিসিএকে একটি ক্লাস্টারিং অ্যালগরিদমে সরাসরি ইনপুট হিসাবে ব্যবহার করার বিরোধিতা করছেন, কীভাবে বৈশিষ্ট্যগুলির একটি হ্রাসিত সেট নির্বাচন করতে হবে তা নিয়ে সমস্যা এখনও থেকেই যায়। পিসিএ এখানে এখনও দরকারী হতে পারে যেহেতু পিসিএগুলি নির্ভরশীল পরিবর্তনশীল ছাড়াই একটি রিগ্রেশন চালানোর মতো। প্রতিটি উপাদান উপরের লোডিং বৈশিষ্ট্যগুলি ক্লাস্টার অ্যালগরিদমের ইনপুটগুলিতে পরিণত হতে পারে।

বিপুল সংখ্যক বৈশিষ্ট্য এবং আপনার ডেটার তুলনামূলকভাবে ছোট নমুনার আকার সম্পর্কে আপনার বক্তব্য পর্যন্ত, বহু "সম্পূর্ণ তথ্য" মাল্টিভারিয়ট বিশ্লেষণে থাম্বের সাধারণ নিয়মটি প্রতি বৈশিষ্ট্যটিতে ন্যূনতম 10 টি পর্যবেক্ষণ। এই চ্যালেঞ্জটি ঘিরে কাজ করার জন্য কয়েকটি বিশেষ পদ্ধতি রয়েছে যার সাহায্যে লাভ করা যেতে পারে। উদাহরণস্বরূপ, আংশিক ন্যূনতম স্কোয়ারগুলি (পিএলএস) সর্বপ্রথম হারমান ওয়াল্ড 1990 সালে তাঁর কেমোমেট্রিক্স হিসাবে ক্ষেত্রগুলিতে ব্যবহারের জন্য থিওরিটিক্যাল এম্পিরিকিজমে গ্রন্থে তৈরি করেছিলেন যা এই সুনির্দিষ্ট সমস্যার মুখোমুখি হয়। এটি প্রকৃতিতে ফ্যাক্টর-অ্যানালিটিক তবে মাত্রা উত্পন্ন করতে বৃহত্তর এন প্রয়োজন হয় এমন ক্ষেত্রে খুব কম কঠোর। অন্যান্য সমাধানগুলির মধ্যে রয়েছে প্রচুর পরিমাণে তথ্যের সাথে ব্যবহৃত এলোমেলো বন-জাতীয়, "বিভাজন এবং বিজয়" machine এই পদ্ধতিগুলি এই পিডিএফ পর্যালোচনা করা হয়http://www.wisdom.weizmann.ac.il/~harel/papers/Divide%20and%20Conquer.pdf

তবে ধরুন আপনি সিদ্ধান্ত নিয়েছেন যে আপনি এখনও ফ্যাক্টর বিশ্লেষণের সাথে কিছুই করতে চান না এবং কোনও ধরণের তদারকি করা, "অনুক্রমিক" নির্বাচন প্রক্রিয়া চালিয়ে যাওয়ার জন্য নির্ধারিত। আমার দৃষ্টিতে, সবচেয়ে গুরুত্বপূর্ণ সমস্যাটি পোস্ট-হক পারফরম্যান্স মেট্রিক (ডান ইনডেক্স) সন্ধান করার বিষয়ে কম এবং একটি উপযুক্ত প্রক্সি - একটি নির্ভরশীল ভেরিয়েবল - এমনকি এই পদ্ধতিকে সম্ভব করার জন্য সনাক্তকরণ সম্পর্কে আরও কম। এই সিদ্ধান্তটি সম্পূর্ণরূপে আপনার রায় এবং এসএমই স্থিতির আপনার ফাংশন। এর জন্য কোনও "সেরা অনুশীলন," খুব কম সহজ উত্তর নেই এবং আপনি কীভাবে আপনার ডেটা বর্ণনা করেছেন তা কোনও ছোট চ্যালেঞ্জ নেই।

একবার এই সিদ্ধান্তটি নেওয়া হয়ে গেলে, এর পরে বেছে নিতে আক্ষরিকভাবে শত শত সম্ভাব্য পরিবর্তনশীল নির্বাচন সমাধান রয়েছে। পরিবর্তনশীল নির্বাচন একটি বিষয় ক্ষেত্র, যার উপর প্রতিটি পরিসংখ্যানবিদ এবং তাদের ভাই একটি কাগজ প্রকাশ করেছেন। আপনার পছন্দসই পদ্ধতিটি "অনুক্রমিক অগ্রগামী নির্বাচন" ভাল বলে মনে হচ্ছে।

এটি লক্ষণীয় যে তত্ত্বাবধানে থাকা শেখার মডেলগুলি অ্যালগোরিদমের অংশ হিসাবে একটি ক্লাস্টার দ্রবণে ভাঁজ থাকে exist এর উদাহরণগুলির মধ্যে সুপ্ত শ্রেণীর মডেল হিসাবে পরিচিত বৃহত এবং অত্যন্ত নমনীয় পদ্ধতির অন্তর্ভুক্ত। এলসি মডেলের সারমর্মটি হ'ল এগুলি দুটি পর্যায়: প্রথম পর্যায়ে একটি ডিভি সংজ্ঞায়িত করা হয় এবং একটি রিগ্রেশন মডেল নির্মিত হয়। দ্বিতীয় পর্যায়ে, কোনও একক সুপ্ত ভেক্টর - মডেল থেকে অবশিষ্ট আউটপুটে যে কোনও বৈপরীত্যকে সুপ্ত "শ্রেণিগুলিতে" বিভক্ত করা হয়। এই সিভি আলোচনায় এখানে এলসি মডেলিংয়ের একটি ওভারভিউ রয়েছে ... লেটেন্ট ক্লাস মাল্টিনোমিয়াল লগিট মডেল সন্দেহ

আশাকরি এটা সাহায্য করবে.


আমার প্রশ্নের এত বিস্তৃত উত্তর দেওয়ার জন্য সময় দেওয়ার জন্য আপনাকে ধন্যবাদ। প্রথমত এটি মজার বিষয় যে আপনি কেমোমেট্রিক্সের উল্লেখ করেছেন কারণ এটি ঠিক আমি কাজ করছি এমন ক্ষেত্র। আমি বিভিন্ন নমুনার পরিমাপে ক্লাস্টারগুলি সন্ধান করার চেষ্টা করছি এবং আমার বৈশিষ্ট্যগুলি একটি এনএমআর-স্পেকট্রামে সংকেত। আমি পিসিএকে এত তাড়াতাড়ি ফেলে দেওয়ার বিষয়ে কেন চিন্তা করলাম তার মূল কারণ, যেহেতু আমার বিশ্লেষণের লক্ষ্য হ'ল গুচ্ছগুলিকে মুষ্টিমেয় প্রকৃত বৈশিষ্ট্যগুলির (সংকেত) সাথে সম্পর্কিত করা। অনুক্রমিক নির্বাচন ব্যবহার করে আমি মৃত নয়, আমি এখনও অবধি ব্যবহার করেছি। আপনার দেওয়া লিঙ্কগুলিতে আমার নজর থাকবে।
জনডো

এটি কেমোমেট্রিক্স সম্পর্কে মজার। ওল্ডের বইটি কেবল সাধারণভাবেই খুব ভাল পঠিত। কোন ধরণের "বিষয়গুলি" নমুনাগুলির সমন্বয়ে গঠিত? এবং এনএমএস ইমেজিং কি?
মাইক হান্টার

নমুনাগুলি জলীয় উদ্ভিদের নির্যাস এবং 1 এইচ-এনএমআর স্পেকট্রা গ্রহণ করে। আমার কাজ খাঁটি শোষণমূলক is আমার মনে হয় যে কোনও ক্লাস্টার আমরা পরে বিভিন্ন জিনোটাইপগুলির সাথে বা উদ্ভিদের বিভিন্ন বৈশিষ্ট্য যেমন খরা-চাপ-প্রতিরোধ ইত্যাদির সাথে সম্পর্কিত করতে চাই, এটি বিপাকের সঠিক সেট খুঁজে পাওয়ার জন্য কোনও ভাল সূচনা পয়েন্ট পাওয়া সহজ নয় find / বৈশিষ্ট্যগুলি যা ক্লাস্টারগুলিকে ভাগ করতে সহায়তা করে, কারণ বিভিন্ন প্রশ্নের জন্য বিভিন্ন বৈশিষ্ট্য দ্বারা নির্মিত বিভিন্ন ক্লাস্টার থাকবে।
জনডো

অতএব, আমি ভেবেছিলাম ক্রমগত পদ্ধতিটি সর্বোত্তমভাবে কাজ করতে পারে: - ডেটা ক্লাস্টার করার জন্য বৈশিষ্ট্যগুলির একটি সেট সন্ধান করুন - তারপরে পুরো সেটটি থেকে সেই বৈশিষ্ট্যগুলি সরিয়ে আবার শুরু করুন এইভাবে আমি বেশ কয়েকটি ক্লাস্টারের সেট খুঁজে পেতে আশা করছি যা আমি পরে সম্পর্কিত করতে পারি বিভিন্ন প্রশ্ন
জনডো

1
কিছু বিবেচনা করার বিষয় হ'ল কোনও অনুসন্ধানমূলক কাজের সাথে পূর্ব নির্ধারিত বা সংজ্ঞায়িত গোষ্ঠীর সেটগুলির সাথে তুলনা করা হয় যা "নিশ্চিতকরণমূলক" ক্লাস্টার বিশ্লেষণও বলে। আমি এটিকে প্রস্তাব দিচ্ছি কারণ এটি আপনার মত মনে হচ্ছে এবং আপনার দলের কাছে ক্লাস্টার গঠনের বিষয়ে কিছু শক্তিশালী ইনগোইং অনুমান আছে যেমন উদ্ভিদের "খরার-চাপ-প্রতিরোধ" as আমি মনে করি আপনি আবিষ্কার করবেন যে অনুসন্ধান কাজটি উচ্চতর অন্তর্দৃষ্টি এবং ফলাফল সরবরাহ করবে। এক্সপ্লোরারি ক্লাস্টারিং আপনার ডেটাতে উপলব্ধ সম্পূর্ণ তথ্যের উপর নির্ভর করে যেখানে "নিশ্চিতকরণযোগ্য" কার্যনির্বাহী বিধিগুলি সাধারণত একটি আপেক্ষিক মুষ্টিমেয় বৈশিষ্ট্যগুলিকে মূলধন করে
মাইক হান্টার

1

আপনার যা দরকার তা হ'ল ক্লাস্টারিং মানের একটি মানদণ্ড। এই ধারণাটি এখানে: আপনি ট্রেন এবং পরীক্ষায় ডেটা বিভক্ত করেন, ট্রেনের অংশে ক্লাস্টার তৈরি করেন; পরীক্ষার সেটের প্রতিটি উপাদানকে (নিকটস্থ ক্লাস্টারের দ্বারা) ক্লাস্টার করতে এই ক্লাস্টারিংটি ব্যবহার করুন; পরীক্ষার সেটটিতে একটি পৃথক ক্লাস্টারিং তৈরি করুন; পূর্বাভাসিত ক্লাস্টারিংয়ের সাথে পরীক্ষায় ক্লাস্টারিংয়ের মিল খুঁজে পান। এই মিলটি ক্লাস্টারিং মানের মানদণ্ড। এখন, এই সাদৃশ্যটি কীভাবে পরিমাপ করা যায় তা নির্ভর করে আপনার। আপনি এটি পেয়ে গেলে, এই সাদৃশ্যটিকে সর্বাধিক করতে আপনি বৈশিষ্ট্যের উপসেটটি নির্বাচন করেন select

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.