কে-মিনস মিশ্রিত সংখ্যা এবং শ্রেণিবদ্ধ ডেটার জন্য ক্লাস্টারিং


133

আমার ডেটা সেটে বেশ কয়েকটি সংখ্যক অ্যাট্রিবিউট এবং একটি শ্রেণিবদ্ধ রয়েছে।

বলুন NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr,

যেখানে CategoricalAttrতিনটি সম্ভাব্য মান এক লাগে: CategoricalAttrValue1, CategoricalAttrValue2বা CategoricalAttrValue3

আমি অক্টাভে https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ এর জন্য ডিফল্ট কে-ই মানে ক্লাস্টারিং অ্যালগরিদম বাস্তবায়ন ব্যবহার করছি । এটি শুধুমাত্র সংখ্যার ডেটা নিয়ে কাজ করে।

সুতরাং আমার প্রশ্ন: CategoricalAttrবিভাগীয় বৈশিষ্ট্যটিকে তিনটি সংখ্যার (বাইনারি) ভেরিয়েবলগুলিতে ভাগ করা কি সঠিক IsCategoricalAttrValue1, IsCategoricalAttrValue2, IsCategoricalAttrValue3?


7
হ্যাঁ, এন-এনকোডিং-এর 1-এর ব্যবহারও কার্যকর।
শন

1
সম্ভবত এই পদ্ধতিটি কার্যকর হবে: zeszyty-naukowe.wwsi.edu.pl/zeszyty/zeszyt12/…

শ্রেণিবদ্ধ এবং সংখ্যাসূচক তথ্যগুলির 'টাইম সিরিজ' ক্লাস্টারিং মিশ্রণ সম্পর্কে আপনার কোনও ধারণা আছে?
লায়লা ইউসুফি

উত্তর:


122

স্ট্যান্ডার্ড কে-মানে অ্যালগোরিদম বিভিন্ন কারণে শ্রেণিবদ্ধ ডেটাতে সরাসরি প্রযোজ্য নয়। শ্রেণিবদ্ধ ডেটাগুলির জন্য নমুনার স্থানটি পৃথক, এবং এর কোনও প্রাকৃতিক উত্স নেই। এই জাতীয় জায়গায় ইউক্লিডিয়ান দূরত্বের কার্যটি সত্যই অর্থবহ নয়। যেহেতু কেউ এটি লিখেছেন, "সত্য যে কোনও সাপ চাকা বা পা রাখে না আমাদের চাকা এবং পাগুলির আপেক্ষিক মূল্য সম্পর্কে কিছু বলতে দেয় না।" (থেকে এখানে )

কে- মোডস নামে পরিচিত কে- মানেগুলির একটি প্রকরণ রয়েছে, এই কাগজে ueেক্সু হুয়াং প্রবর্তন করেছিলেন , যা শ্রেণিবদ্ধ তথ্যের জন্য উপযুক্ত। নোট করুন যে আপনি যে সমাধানগুলি পেয়েছেন তা প্রাথমিক অবস্থার সাথে সংবেদনশীল , উদাহরণস্বরূপ এখানে (পিডিএফ) আলোচনা করা হয়েছে

হুয়াংয়ের কাগজে (উপরে লিঙ্কযুক্ত) "কে-প্রোটোটাইপস" এর একটি বিভাগও রয়েছে যা বিভাগ এবং সংখ্যাসূচক বৈশিষ্ট্যগুলির মিশ্রণ সহ ডেটাতে প্রযোজ্য। এটি একটি দূরত্ব পরিমাপ ব্যবহার করে যা সংক্ষিপ্ত বৈশিষ্ট্যগুলির জন্য হামিং দূরত্ব এবং সংখ্যাসূচক বৈশিষ্ট্যের জন্য ইউক্লিডিয়ান দূরত্বকে মিশ্রিত করে।

"কে-মানে শ্রেণিবদ্ধ ডেটার মিশ্রণ" এর জন্য একটি গুগল অনুসন্ধানে কে-মানে-জাতীয় ক্লাস্টারিংয়ের জন্য শ্রেণিবদ্ধ এবং সংখ্যাসূচক তথ্যগুলির মিশ্রণের জন্য বিভিন্ন অ্যালগরিদমে আরও কয়েকটি সাম্প্রতিক কাগজপত্র সরিয়ে নিয়েছে। (আমি এখনও এগুলি পড়িনি, তাই তাদের গুণাগুণ সম্পর্কে আমি মন্তব্য করতে পারি না))


প্রকৃতপক্ষে, আপনি যা পরামর্শ দেন (বাইনারি মানগুলিতে শ্রেণিবদ্ধ বৈশিষ্ট্যগুলিকে রূপান্তরিত করে, এবং তারপরে কে-মানে করানো যেন এগুলি সংখ্যাসূচক মান ছিল) অন্য একটি পদ্ধতির যা আগে চেষ্টা করা হয়েছিল (কে-মোডগুলির পূর্বাভাস দেওয়া)। (রালামব্র্যান্ডিনি, এইচ। 1995 দেখুন See কে-মানে অ্যালগরিদমের একটি ধারণাগত সংস্করণ Pat প্যাটার্ন রিকগনিশন লেটারস, 16: 1147–1157।) তবে আমি বিশ্বাস করি যে উপরে বর্ণিত কারণগুলির জন্য কে-মোডের পদ্ধতির পক্ষে অগ্রাধিকার দেওয়া হয়েছে।


10
যদি আপনার স্কেল যদি আপনার সংখ্যাসূচক বৈশিষ্ট্যগুলি বাইনারিযুক্ত শ্রেণীবদ্ধ বৈশিষ্ট্যগুলির সাথে একই পরিসীমাতে থাকে তবে কোসাইন সাম্যটি উপরের হামিং পদ্ধতির সাথে খুব একই রকম ফলাফল পেতে পারে। আমার কাছে এটি প্রমাণ করার শক্তিশালী উপায় নেই যে এটি সব ক্ষেত্রেই কার্যকর হয় তাই যখন আমি বিড়াল এবং নাম্বার মিশ্রিত করি আমি সর্বদা একটি নমুনায় ক্লাস্টারিংকে আমি উল্লিখিত সহজ কোসাইন পদ্ধতি এবং হামিংয়ের সাথে আরও জটিল মিশ্রণটি পরীক্ষা করি। পার্থক্যটি যদি তুচ্ছ হয় তবে আমি সহজ পদ্ধতিটি পছন্দ করি।
cwharland

1
এটি একটি বুদ্ধিমান পদ্ধতির মত শোনাচ্ছে, @ কাওয়ারল্যান্ড। আরও বিবেচনা করে আমি আরও নোট করি যে হুয়াং রালামব্র্যান্ড্রির চেয়ে কে-মোডের পদ্ধতির জন্য একটি সুবিধা দেয় - যেটি আপনাকে আপনার শ্রেণিবদ্ধ ভেরিয়েবলের প্রতিটি মানের জন্য আলাদা বৈশিষ্ট্যটি প্রবর্তন করতে হবে না - এতে আসলে কিছু যায় আসে না the ওপির ক্ষেত্রে যেখানে তার কেবল তিনটি মান সহ একক শ্রেণিবদ্ধ পরিবর্তনশীল। সবচেয়ে সহজ পদ্ধতির সাথে কাজ করা ভাল।
টিম গুডম্যান

3
ভাল উত্তর. সম্ভাব্য সহায়ক: আমি পাইথনে হুয়াংয়ের কে-মোড এবং কে-প্রোটোটাইপগুলি (এবং কিছু প্রকরণ) প্রয়োগ করেছি
Def_Os

2
আমি শ্রেণিবদ্ধ বৈশিষ্ট্যগুলিকে সংখ্যাগত মানগুলিতে রূপান্তর করার পরামর্শ দিই না। আপনার দুটি শহরের নাম আছে তা কল্পনা করুন: এনওয়াই এবং এলএ। আপনি যদি এনওয়াই নম্বর 3 এবং এলএ নম্বর 8 প্রয়োগ করেন তবে দূরত্ব 5, তবে 5 এবং NY এবং এলএর মধ্যে পার্থক্যটি দেখার কিছুই নেই।
অ্যাডিশান্টোস

@ আপাস্যান্টোস হ্যাঁ, একক সংখ্যাসূচক বৈশিষ্ট্য সহ একাধিক বিভাগের প্রতিনিধিত্ব এবং ইউক্লিডিয়ান দূরত্ব ব্যবহার করে এটি সমস্যা। হামিং দূরত্ব ব্যবহার করা একটি পদ্ধতির; সেক্ষেত্রে পার্থক্যযুক্ত প্রতিটি বৈশিষ্ট্যের জন্য দূরত্ব 1 হয় (বিভাগগুলিতে নির্ধারিত সংখ্যাসমূহের মধ্যে পার্থক্যের চেয়ে)। প্রতিটি বিভাগকে নিজস্ব বৈশিষ্ট্য তৈরি করা অন্য পদ্ধতি (যেমন, "এটি এনওয়াই" এর জন্য 0 বা 1 এবং "এটি এলএ" এর জন্য 0 বা 1)।
টিম গুডম্যান

24

আমার মতে, ক্লাস্টারিংয়ে বিভাগীয় ডেটা নিয়ে কাজ করার সমাধান রয়েছে। শ্রেণীবদ্ধ তথ্যগুলির জন্য আর একটি নির্দিষ্ট দূরত্ব নিয়ে আসে। এই দূরত্বটিকে গাওয়ার ( http://www.rdocamentation.org/packages/StatMatch/versions/1.2.0/topics/gower.dist ) বলা হয় এবং এটি বেশ ভালভাবে কাজ করে।


2
আমি এই মিশ্রিত ডেটাসেটের জন্য ব্যবহার করছি - গওয়ার দূরত্বের ম্যাট্রিক্সের জন্য প্রয়োগ করা মেডোইডগুলির চারপাশে বিভাজন ( r-bloggers.com/clustering-mixed-data-types-in-r দেখুন )। সমস্যাটি হ'ল দূরত্বের ম্যাট্রিক্স গণনা করতে প্রচুর মেমরি প্রয়োজন হয়, ও (আনুমান 2) এর সমানুপাতিক, তাই 10 বা 20,000 রেকর্ডের চেয়ে বড় ডেটাসেটের জন্য আমি কে-মানে ক্লাস্টারিংয়ে ভেরিয়েন্টগুলি দেখছি যা কম স্মৃতি প্রয়োজন এবং হ্যান্ডেল করতে পারে মিশ্র তথ্য।
রবার্টএফ

@ রবার্টএফ এখানে একই। দুর্ভাগ্যক্রমে বেশিরভাগ সমস্যার ক্ষেত্রে সম্ভাব্য ডেটা আকার খুব কম।
পিগিগবক্স

20

(টিম গুডম্যানের দুর্দান্ত উত্তরের পাশাপাশি)

কে-মোডগুলির পছন্দটি অবশ্যই ব্যবহৃত ক্লাস্টারিং অ্যালগরিদমের স্থিতিশীলতার জন্য যাওয়ার উপায়।

  1. ক্লাস্টারিং অ্যালগরিদম যে কোনও দূরত্বের মেট্রিক / সাদৃশ্য স্কোর চয়ন করতে বিনামূল্যে। ইউক্লিডিয়ান সর্বাধিক জনপ্রিয়। তবে অন্য যে কোনও মেট্রিক ব্যবহার করা যেতে পারে যা প্রতিটি মাত্রা / বৈশিষ্ট্যে ডেটা বিতরণ অনুযায়ী স্কেল করে, উদাহরণস্বরূপ মহালানোবিস মেট্রিক। ব্যবহৃত দূরত্ব মেট্রিকের উপর ভিত্তি করে কেন্দ্র থেকে ডেটা পয়েন্টের দূরত্ব চিত্রণ

  2. মিশ্র (সংখ্যাসূচক এবং শ্রেণিবদ্ধ) সম্পর্কিত একটি ভাল কাগজ যা সহায়তা করতে পারে তা হ'ল: ইনকনকো: সংখ্যাসূচক এবং শ্রেণিবদ্ধ বস্তুগুলির ব্যাখ্যামূলক ক্লাস্টারিং

  3. কে-অর্থের বাইরে: যেহেতু প্লেইন ভ্যানিলা কে-অর্থ ইতিমধ্যে এই সমস্যার যথাযথ পদ্ধতির হিসাবে প্রত্যাখ্যান করা হয়েছে, তাই আমি মডেল ফিটিংয়ের সমস্যা হিসাবে ক্লাস্টারিংয়ের চিন্তাভাবনার বাইরে চলে যাব। তথ্য-তাত্ত্বিক মেট্রিকের মতো বিভিন্ন ব্যবস্থা: ডেটা বিতরণের দিকে প্যারামেট্রিক মডেলকে রূপান্তর করার চেষ্টা করার সময় কুলব্যাক-লেবলার ডাইভারজেন্স ভালভাবে কাজ করে। (অবশ্যই জিএমএমের মতো প্যারামেট্রিক ক্লাস্টারিং কৌশলগুলি কুমিয়ানদের চেয়ে ধীর গতির, তাই বিবেচনা করার মতো ত্রুটিগুলি রয়েছে)

  4. অস্পষ্ট কে-মোড ক্লাস্টারিং এটিকে আকর্ষণীয় বলে মনে হচ্ছে যেহেতু ক্লাসিকাল ডেটার মতো কিছু মোকাবেলায় ফাজি যুক্তি কৌশলটি তৈরি করা হয়েছিল। আরও তথ্যের জন্য অদ্ভুত সেন্ট্রয়েড ব্যবহার করে শ্রেণিবদ্ধ ডেটার ফাজি ক্লাস্টারিং দেখুন ।

এছাড়াও চেক আউট: রক : শ্রেণিবদ্ধ বৈশিষ্ট্যের জন্য একটি দৃust় ক্লাস্টারিং অ্যালগরিদম


17

এই প্রশ্নটি প্রতিনিধিত্ব সম্পর্কে সত্যই বলে মনে হচ্ছে, এবং ক্লাস্টারিংয়ের বিষয়ে তেমন কিছু নয়।

শ্রেণীবদ্ধ ডেটা মেশিন লার্নিংয়ের বেশিরভাগ অ্যালগরিদমের জন্য একটি সমস্যা। ধরুন, উদাহরণস্বরূপ, আপনার কাছে "রঙ" নামক কিছু শ্রেণিবদ্ধ ভেরিয়েবল রয়েছে যা লাল, নীল বা হলুদ মানকে গ্রহণ করতে পারে। যদি আমরা এইগুলিকে যথাক্রমে 1,2, এবং 3 হিসাবে যথাক্রমে এনকোড করি তবে আমাদের অ্যালগরিদম ভাববে যে লাল (1) হলুদ (3) এর চেয়ে নীল (2) এর কাছাকাছি রয়েছে। আমাদের এমন একটি উপস্থাপনা ব্যবহার করা দরকার যা কম্পিউটারকে বুঝতে দেয় যে এই জিনিসগুলি আসলে একই রকম।

একটি সহজ উপায় হ'ল যা একটি -উষ্ণ উপস্থাপনা বলা হয় তা ব্যবহার করা এবং আপনি যা ভাবেন ঠিক তা হ'ল এটি। "কালার" এর মতো একটি ভেরিয়েবল যা তিনটি মান গ্রহণ করতে পারে তার পরিবর্তে আমরা এটিকে তিনটি ভেরিয়েবলে পৃথক করি। এগুলি হবে "রঙ-লাল," "রঙ-নীল," এবং "রঙ-হলুদ", যা সকলেই কেবল 1 বা 0 এর মান নিতে পারে।

এটি স্থানটির মাত্রা বাড়িয়ে তোলে তবে এখন আপনি নিজের পছন্দ মতো কোনও ক্লাস্টারিং অ্যালগরিদম ব্যবহার করতে পারেন। কখনও কখনও এই প্রক্রিয়াটি করার পরে ডেটা জস্কোর করা বা সাদা করা কোনও অর্থবোধ করে না তবে আপনার ধারণাটি অবশ্যই যুক্তিসঙ্গত।


আমি আপনার উত্তরের সাথে একমত হট এনকোডিং খুব দরকারী।
প্রমিত

4

আপনি এক্সপেকশন ম্যাক্সিমাইজেশন ক্লাস্টারিং অ্যালগরিদমকেও চেষ্টা করে দেখতে পারেন। এটি শ্রেণিবদ্ধ ডেটাতে কাজ করতে পারে এবং একটি পরিসংখ্যানগত সম্ভাবনা দেয় যা ক্লাস্টার মান (বা মান) একটি ক্লাস্টারের সবচেয়ে বেশি সম্ভাবনা থাকে।


2
আপনি আরো নির্দিষ্ট হতে পারে? EM একটি অপ্টিমাইজেশন অ্যালগরিদমকে বোঝায় যা ক্লাস্টারিংয়ের জন্য ব্যবহার করা যেতে পারে। এটি করার অনেকগুলি উপায় রয়েছে এবং আপনি কী বোঝাতে চাইছেন তা স্পষ্ট নয়।
বায়ার

@ বায়ার, আমি মনে করি এখানে উল্লিখিত গুচ্ছগ্রামটি গাউসিয়ান মিশ্রণের মডেল। জিএমএম সাধারণত ইএম ব্যবহার করে।
goh

1
আমি মনে করি না যে সে এর অর্থ, কারণ জিএমএম শ্রেণিবদ্ধ ভেরিয়েবল গ্রহণ করে না।
বায়ার

3

এটি আপনার শ্রেণীবদ্ধ ভেরিয়েবলটি ব্যবহৃত হচ্ছে তার উপর নির্ভর করে। সাধারণ ভেরিয়েবলগুলির জন্য, খারাপ, গড় এবং ভালগুলির মতো বলুন, এটি কেবল একটি ভেরিয়েবল ব্যবহার করার জন্য বোধ করে এবং এর মান 0,1,2 থাকে এবং দূরত্বগুলি এখানে বোঝায় (অ্যাভারেজ খারাপ এবং ভালের কাছাকাছি)। তবে, যদি কোনও অর্ডার না থাকে, আপনার উপরোক্ত হিসাবে আদর্শভাবে একটি হট এনকোডিং ব্যবহার করা উচিত।


3

আপনার মিশ্র ডেটাটাইপযুক্ত ডেটাসেটে কে-মানে ক্লাস্টার ব্যবহার করা উচিত নয়। বরং, বেশ কয়েকটি ক্লাস্টারিং অ্যালগরিদম রয়েছে যা মিশ্রিত ডেটাটাইপগুলি যথাযথভাবে পরিচালনা করতে পারে। কিছু সম্ভাবনার মধ্যে নিম্নলিখিতটি অন্তর্ভুক্ত রয়েছে:

1) পার্টিশন ভিত্তিক অ্যালগোরিদম: কে-প্রোটোটাইপস, স্কুইজার
2) শ্রেণিবদ্ধ অ্যালগোরিদম: রক, অগ্রণী একক, গড় এবং সম্পূর্ণ লিঙ্কেজ
3) ঘনত্ব ভিত্তিক অ্যালগোরিদম: হাইরডেনসি, বহু, ক্লিকিউ
4) মডেল-ভিত্তিক অ্যালগোরিদমস: এসএমএম - মানচিত্রের সংগঠিত

আপনি যদি এই অ্যালগরিদমগুলি সম্পর্কে আরও জানতে চান তবে রুই জু রচিত 'জরিপ অব ক্লাস্টারিং অ্যালগরিদমস' পান্ডুলিপি ক্লাস্টার বিশ্লেষণের একটি বিস্তৃত ভূমিকা উপস্থাপন করে।


2

কে-মিনসের লক্ষ্য হ'ল-ক্লাস্টারের বৈচিত্রটি হ্রাস করা এবং এটি সেন্ট্রয়েডগুলিকে একটি ক্লাস্টারের গড় বিন্দু হিসাবে গণনা করে, সঠিকভাবে রূপান্তর করতে ইউক্লিডিয়ান দূরত্ব ব্যবহার করা প্রয়োজন । অতএব, আপনি যদি কে-মিনগুলি একেবারে ব্যবহার করতে চান তবে আপনাকে অবশ্যই নিশ্চিত করতে হবে যে এটির সাথে আপনার ডেটা ভালভাবে কাজ করে।

প্রতিনিধিত্ব

কে-মিনস এবং সাধারণভাবে ক্লাস্টারিং একই ক্লাস্টারের উদাহরণগুলি একে অপরের সাথে সমান হয় তা নিশ্চিত করে অর্থবোধক গোষ্ঠীতে ডেটা বিভক্ত করার চেষ্টা করে। অতএব, আপনার ডেটা উপস্থাপন করার জন্য আপনার একটি ভাল উপায় প্রয়োজন যাতে আপনি সহজেই একটি অর্থবহ সাদৃশ্য পরিমাপটি গণনা করতে পারেন।

বিভাগগুলি একে অপরের থেকে সামঞ্জস্যপূর্ণ যখন শ্রেণীবদ্ধ ভেরিয়েবলগুলিতে এক-হট এনকোডিং ব্যবহার করা ভাল ধারণা। উদাহরণস্বরূপ, আপনার যদি হালকা নীল, গা dark় নীল এবং হলুদ রঙের হয় তবে ওয়ান-হট এনকোডিং ব্যবহার করা আপনাকে সেরা ফল দিতে পারে না, কারণ গা dark় নীল এবং হালকা নীল সম্ভবত হলদে বর্ণের পরিবর্তে একে অপরের আরও "ঘনিষ্ঠ" হতে পারে।

শ্রেণীবদ্ধ মান "সামঞ্জস্যপূর্ণ" না হলে এবং অর্ডার দেওয়া যেতে পারে, আপনি বিভাগগুলিকে একটি সংখ্যাগত মানও দিতে পারেন। উদাহরণস্বরূপ, ছাগলছানা, কিশোর, প্রাপ্তবয়স্ক, সম্ভবত 0, 1 এবং 2 হিসাবে প্রতিনিধিত্ব করতে পারে কারণ এটি বোধগম্য হবে কারণ একটি কিশোর বয়স্কের চেয়ে শিশু হওয়ার চেয়ে "নিকটতম" হয়।

কে-Medoids

কে-মিন্সের আরও সাধারণ পদ্ধতি হল কে-মেডয়েড। কে-মেডয়েডস কে-মিংস হিসাবে একইভাবে কাজ করে, তবে মূল পার্থক্য হ'ল প্রতিটি ক্লাস্টারের জন্য সেন্ট্রয়েড এমন বিন্দু হিসাবে সংজ্ঞায়িত করা হয় যা দূরত্বের মধ্যে-ক্লাস্টারের যোগফলকে হ্রাস করে। এটি প্রয়োগ করার ফলে আপনি যে কোনও দূরত্ব পরিমাপ করতে চান তা ব্যবহার করতে পারবেন এবং অতএব, আপনি আপনার নিজস্ব কাস্টম পরিমাপ তৈরি করতে পারেন যা কোন বিভাগগুলি নিকটবর্তী বা না হওয়া উচিত তা বিবেচনায় নেবে।


1

যদি আমরা এমন একটি দৃশ্য বিবেচনা করি যেখানে শ্রেণিবদ্ধ ভেরিয়েবলটি 200+ বিভাগযুক্ত শ্রেণীবদ্ধ ভেরিয়েবলের মতো গরম এনকোড করা যায় না।

এই ক্ষেত্রে আপনি একটি প্যাকেজ ক্লাস্টমিক্সটাইপ ব্যবহার করতে পারেন

এটি মিশ্র ডেটা (সংখ্যাসূচক এবং শ্রেণীবদ্ধ) পরিচালনা করতে পারে, আপনাকে কেবল ডেটাতে খাওয়াতে হবে এটি স্বয়ংক্রিয়ভাবে শ্রেণিবদ্ধ এবং সংখ্যাসূচক ডেটা পৃথক করে।

যদি আপনি কিছু সংখ্যার মতো সমস্যাগুলি শ্রেণিবদ্ধের অধীনে দেখতে পান তবে আপনি সেই সম্পর্কিত ক্ষেত্রটিতে as.factor () / উপ-বিপরীত as.numeric () করতে পারেন এবং এটিকে একটি ফ্যাক্টারে রূপান্তর করতে পারেন এবং সেই নতুন ডেটাতে অ্যালগরিদমে ফিড করতে পারেন।

ল্যাম্বদা গণনা করুন, যাতে আপনি ক্লাস্টারিংয়ের সময় ইনপুট হিসাবে ফিড-ইন করতে পারেন।

এমনকি ক্লাস্টারের অনুকূল নম্বর খুঁজে পেতে আমরা একটি ডাব্লুএসএস (স্কোয়ারের যোগফলের মধ্যে), প্লট (কনুই চার্ট) পেতে পারি।

আশা করি এই উত্তরটি আপনাকে আরও অর্থপূর্ণ ফলাফল পেতে সহায়তা করবে।


1

উপরের অনেকগুলি ইঙ্গিত করেছে যে কে-মাধ্যমগুলি পরিবর্তনশীল এবং ধারাবাহিকভাবে পরিবর্তনশীলগুলিতে প্রয়োগ করা যেতে পারে, যা ভুল এবং ফলাফলগুলি এক চিমটি লবণের সাথে নেওয়া দরকার।

উপরে @ টিম দ্বারা উপরে উল্লিখিত হিসাবে, পয়েন্টগুলির মধ্যে ইউক্যালিডীয় দূরত্ব গণনা করা কোনও অর্থবোধ করে না যার কোন স্কেল বা অর্ডার নেই। আপনি যখন এক-হটকে শ্রেণীবদ্ধ ভেরিয়েবলগুলি এনকোড করেন তখন আপনি 0 এবং 1 এর একটি বিচ্ছিন্ন ম্যাট্রিক্স উত্পন্ন করেন। যেহেতু মানগুলির পরিসীমা স্থির থাকে এবং 0 এবং 1 এর মধ্যে এগুলি অবিচ্ছিন্ন ভেরিয়েবলগুলির মতো একইভাবে স্বাভাবিক করা প্রয়োজন। পয়েন্টগুলির মধ্যে দূরত্ব খুঁজে পেতে জেড-স্কোরগুলি ব্যবহৃত হয়। যা এখনও পুরোপুরি সঠিক নয়। আমি এটি একটি উদাহরণ দিয়ে ব্যাখ্যা করব। বিভাগগুলি শ্রেণিবদ্ধ ভেরিয়েবলের সাথে দুটি পয়েন্টের মধ্যে পারস্পরিক একচেটিয়া দূরত্ব হিসাবে দুটি উচ্চ মানের বা উচ্চতর উভয়ই গ্রহণ করে, হয় দুটি পয়েন্ট একই বিভাগের অন্তর্গত বা তারা নয়। এই চরম মানগুলির কারণে, অ্যালগরিদম ক্লাস্টার গঠনকে প্রভাবিত করার ক্ষেত্রে অবিচ্ছিন্ন ভেরিয়েবলগুলির উপর বেশি ওজন দেয়। কোন ভেরিয়েবল প্রভাবিত করছে তা দেখে এটি একটি সাধারণ চেক দ্বারা যাচাই করা যেতে পারে এবং আপনি অবাক হয়ে দেখবেন যে তাদের বেশিরভাগ শ্রেণিবদ্ধ হবে। (সর্বাধিক প্রভাবিতকারী ভেরিয়েবলগুলি খুঁজে পাওয়ার উপায়গুলি [1])

একটি উদাহরণ: একটি পৃথক পরিবর্তনশীল দেশ বিবেচনা করুন। এখন যেমন আমরা জানি যে বিভিন্ন দেশ থেকে পর্যবেক্ষণের মধ্যে দূরত্ব (ভিন্নতা) সমান হয় (একই মহাদেশ থেকে প্রতিবেশী দেশ বা দেশগুলির মতো অন্য কোনও মিলকে ধরে নিই না)। তবে এর বিপরীতে যদি আপনি একটি গরম এনকোড হওয়া মানগুলিকে স্বাভাবিক করার পরে পর্যবেক্ষণের মধ্যে দূরত্বগুলি গণনা করেন তবে তারা উচ্চ বা নিম্ন মানের নেওয়ার সত্যতা বরাবর এটি বেমানান হবে (যদিও পার্থক্যটি সামান্য)।

শেষ পর্যন্ত পাইথনের জন্য সর্বোত্তম বিকল্পটি হল কে-প্রোটোটাইপ যা উভয় শ্রেণিবদ্ধ এবং অবিচ্ছিন্ন ভেরিয়েবলগুলি পরিচালনা করতে পারে।

[1]: ক্লাস্টার গঠনে সর্বাধিক প্রভাবশালী ভেরিয়েবলগুলি সন্ধান করা: https://stackoverflow.com/a/53081779/8224401


0

মিশ্রণ মডেলগুলি অবিচ্ছিন্ন এবং শ্রেণিবদ্ধ ভেরিয়েবলগুলির সমন্বয়ে ডেটা সেট ক্লাস্টার করতে ব্যবহার করা যেতে পারে।

আপনি আর প্যাকেজ ভারসেলএলসিএম (সিআরএএন-তে উপলব্ধ) ব্যবহার করতে পারেন যা প্রতিটি ক্লাস্টারের মধ্যে গাউসীয় ডিস্ট্রিবিউশন এবং অরডিনাল / বাইনারি ভেরিয়েবলগুলির দ্বারা অবিচ্ছিন্ন পরিবর্তনশীল models আপনার ডেটা এমন ডেটা সঞ্চয় করতে যত্ন নিন।ফ্রেমে যেখানে অবিচ্ছিন্ন ভেরিয়েবলগুলি "সংখ্যাসূচক" এবং শ্রেণিবদ্ধ ভেরিয়েবলগুলি "ফ্যাক্টর" হয়।

একটি টিউটোরিয়াল এখানে পাওয়া যায়: http://varsellcm.r-forge.r-project.org/

তদতিরিক্ত, অনুপস্থিত মানগুলি হাতের মডেল দ্বারা পরিচালনা করা যায়।


0

আমি খুব একই সমস্যা জুড়ে এসে আমার মাথাটি কাজ করার চেষ্টা করেছি (কে-প্রোটোটাইপগুলির অস্তিত্ব না জেনে) আমি যে সমৃদ্ধ সাহিত্য পেয়েছি তা আমার কাছে একই দূরত্বের মেট্রিকের সাথে ভেরিয়েবলগুলি পরিমাপ না করার ধারণা থেকে উদ্ভূত হয়েছিল। আরও তথ্যের বিভিন্ন উত্স থাকতে পারে, যা বিভিন্ন কাঠামো বা তথ্য "ভিউ" ইঙ্গিত করতে পারে। এটি একটি প্রাকৃতিক সমস্যা, যখনই আপনি সামাজিক সম্পর্কের মুখোমুখি হন যেমন টুইটার / ওয়েবসাইট ইত্যাদি as

সম্ভাব্য সমাধানগুলির মধ্যে একটি হ'ল ভেরিয়েবলের প্রতিটি উপসেটকে (যেমন সংখ্যাসূচক এবং শ্রেণীবদ্ধ) আলাদাভাবে সম্বোধন করা। একটি দূরত্ব পরিমাপ সংখ্যার স্কেলে কী করে তা সহজেই বোধগম্য। শ্রেণীবদ্ধ তথ্য তার নিজের মতো করে সহজেই বোঝা যায়: বাইনারি পর্যবেক্ষণ ভেক্টরগুলি রাখার বিষয়ে বিবেচনা করুন: দুটি পর্যবেক্ষণ ভেক্টরের মধ্যে 0/1-তে সংক্রমণের সারণিতে এই দুটি পর্যবেক্ষণের মধ্যে সিমিলিটারিটি সম্পর্কে প্রচুর তথ্য রয়েছে। বাইনারি ভেক্টরগুলিতে বিভিন্ন কাস্টমাইজড সাদৃশ্য ব্যবস্থা নিয়ে সমৃদ্ধ সাহিত্য রয়েছে - সর্বাধিক সংক্রমণের টেবিল থেকে শুরু করে।

উভয় দূরত্ব / সাদৃশ্য ম্যাট্রিক্স দেওয়া, উভয়ই একই পর্যবেক্ষণগুলি বর্ণনা করে, যে কোনও একটিতে একটি বহু গ্রাফিক-গ্রাফ-ক্লাস্টারিংয়ের উপর একটি গ্রাফ বের করতে পারে বা একাধিক প্রান্তের সাথে একক গ্রাফ বের করতে পারে - প্রতিটি নোড (পর্যবেক্ষণ) যতগুলি প্রান্ত রয়েছে আর একটি নোড, যেমন তথ্য ম্যাট্রিকেস রয়েছে (মাল্টি এজ-ক্লাস্টারিং)। প্রতিটি প্রান্তকে একই অনুকরণ / দূরত্ব পরিমাপের ওজন নির্ধারিত করা হচ্ছে। এখানে শুরু করুন: গ্রাফ ক্লাস্টারিং অ্যালগোরিদম এবং তাদের কাগজপত্রগুলির গিথুব তালিকা। যেহেতু একক পর্যবেক্ষণে একাধিক তথ্য সেট উপলব্ধ রয়েছে, এগুলি অবশ্যই বর্ণালী বিশ্লেষণের বংশধর বা লিঙ্কযুক্ত ম্যাট্রিক্স ফ্যাক্টেরাইজেশন ব্যবহার করে আন্তঃযুক্ত করা উচিত। বর্ণযুক্ত বিশ্লেষণ একক গ্রাফের অত্যন্ত সংযুক্ত বা ভারী ওজনযুক্ত অংশগুলি সন্ধানের জন্য ডিফল্ট পদ্ধতি। আন্তঃবিবাহিত ডেটার বর্ণালী এম্বেডিং থাকা, সংখ্যাযুক্ত ডেটাতে যে কোনও ক্লাস্টারিং অ্যালগরিদম সহজেই কাজ করতে পারে। সাহিত্যের ডিফল্ট হ'ল সরলতার জন্য কম্মান, তবে এর চেয়ে অনেক বেশি উন্নত - এবং সীমাবদ্ধ অ্যালগোরিদমগুলি যেমন নেই তেমনি এই প্রসঙ্গে পরিবর্তিতভাবে ব্যবহার করা যেতে পারে।

আমি এই পদ্ধতির মধ্যে সৌন্দর্য এবং সাধারণতা পছন্দ করেছি, কারণ এটি কেবলমাত্র টাইপগুলি না করে একাধিক তথ্য সেটগুলিতে সহজেই প্রসারিত এবং প্রতিটি ডেটা সাবসেটের নির্দিষ্ট "পরিমাপ" এর প্রতি তার শ্রদ্ধা আরও বাড়িয়ে তোলে। এটি আপনাকে বিভিন্ন দূরত্ব এবং সাদৃশ্য মেট্রিক্সের সাথে মডেলটির সূক্ষ্ম সুরকরণ বা আপনার ভেরিয়েবলগুলি স্কেলিং থেকে বিরত রাখে না (আমি আমার বিশ্লেষণের প্রেক্ষিতে সংখ্যাসূচক ভেরিয়েবলগুলিকে অনুপাতের স্কেলগুলি স্কেলিং করতে দেখলাম)

একটি স্কেলিবিলিটি দৃষ্টিকোণ বিবেচনা করে, মূলত দুটি সমস্যা রয়েছে:

  1. ইগেন সমস্যা প্রায় অনুমান (যেখানে অ্যালগোরিদমের সমৃদ্ধ সাহিত্যও উপস্থিত রয়েছে)
  2. দূরত্বের ম্যাট্রিক্স অনুমান (একটি বিশুদ্ধ সংহত সমস্যা, যা খুব দ্রুত বেড়ে ওঠে - আমি এখনও এর চারপাশে একটি কার্যকর উপায় খুঁজে পাইনি)

এটি দিয়ে মজা করুন!


0

আপনি স্বয়ংক্রিয় বৈশিষ্ট্য ইঞ্জিনিয়ারিংটি দেখতে চাইতে পারেন: http://www.orges-leka.de/automatic_feature_engineering.html । পদ্ধতিটি বোরগাইন এম্বেডিংয়ের উপর ভিত্তি করে এবং মিশ্র শ্রেণিবদ্ধ এবং সংখ্যাসূচক ডেটা ফ্রেমগুলি থেকে বা দুটি ডাটা পয়েন্টের মধ্যে দূরত্বকে সমর্থন করে এমন কোনও ডেটা সেটের জন্য সংখ্যাগত বৈশিষ্ট্যগুলি ব্যবহার করতে ব্যবহার করা যেতে পারে। তথ্যটিকে কেবলমাত্র সংখ্যাগত বৈশিষ্ট্যগুলিতে রূপান্তরিত করে, কেউ সরাসরি তত্ক্ষণাত কে-মানে ক্লাস্টারিং ব্যবহার করতে পারে

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.