মিশ্রিত ডেটা ইউক্লিডিয়ান ভিত্তিক ক্লাস্টারিং অ্যালগরিদমের জন্য কেন সমস্যা?


21

বেশিরভাগ ধ্রুপদী ক্লাস্টারিং এবং মাত্রিকতা হ্রাস অ্যালগরিদম (হায়ারারিকিকাল ক্লাস্টারিং, মূল উপাদান বিশ্লেষণ, কে-মানে, স্ব-সংগঠিত মানচিত্র ...) বিশেষত সংখ্যাসূচক তথ্যগুলির জন্য ডিজাইন করা হয়েছে এবং তাদের ইনপুট ডেটা ইউক্যালিডিয়ান স্পেসে পয়েন্ট হিসাবে দেখা হয়।

এটি অবশ্যই একটি সমস্যা, যেমনটি অনেক বাস্তব-জগতের প্রশ্নগুলিতে ডেটা যুক্ত থাকে যা মিশ্রিত হয়: উদাহরণস্বরূপ যদি আমরা বাসগুলি অধ্যয়ন করি তবে উচ্চতা এবং দৈর্ঘ্য এবং মোটরের আকার সংখ্যা হবে তবে আমরা রঙে আগ্রহীও হতে পারি (শ্রেণিবদ্ধ পরিবর্তনশীল: নীল / লাল / সবুজ ...) এবং ক্ষমতা শ্রেণি (আদেশযুক্ত পরিবর্তনশীল: ছোট / মাঝারি / বৃহত্তর ক্ষমতা)। বিশেষত, আমরা একই সাথে এই বিভিন্ন ধরণের ভেরিয়েবলগুলি অধ্যয়ন করতে চাই।

ধ্রুপদী ক্লাস্টারিং অ্যালগোসকে মিশ্র ডেটাতে প্রসারিত করার জন্য অনেকগুলি পদ্ধতি রয়েছে, উদাহরণস্বরূপ, শ্রেণিবদ্ধ ক্লাস্টারিং বা বহু-মাত্রিক স্কেলিংয়ে প্লাগ আনতে গওয়ারের ভিন্নতা ব্যবহার করে বা ইনপুট হিসাবে দূরত্বের ম্যাট্রিক্স গ্রহণকারী অন্যান্য পদ্ধতিগুলি। বা উদাহরণস্বরূপ এই পদ্ধতিটি, মিশ্রিত ডেটাতে SOM এর একটি এক্সটেনশান।

আমার প্রশ্ন হ'ল কেন আমরা কেবল মিশ্রিত ভেরিয়েবলগুলিতে ইউক্যালিডিয়ান দূরত্ব ব্যবহার করতে পারি না? বা কেন এটি করা খারাপ? আমরা কেন কেবল শ্রেণিবদ্ধ ভেরিয়েবলগুলিকে ডামি-এনকোড করতে পারি না , সমস্ত ভেরিয়েবলগুলিকে সাধারণকরণ করতে পারি যাতে পর্যবেক্ষণগুলির মধ্যে দূরত্বের একই ওজন হয় এবং এই ম্যাট্রিকগুলিতে সাধারণ অ্যালগোস চালানো যায়?

এটি সত্যিই সহজ, এবং কখনও হয় নি, তাই আমি মনে করি এটি খুব ভুল, তবে কেউ আমাকে কেন বলতে পারেন? এবং / অথবা আমাকে কিছু রেফ দিতে হবে? ধন্যবাদ


5
ইউক্লিডিয়ান স্পেসে পয়েন্ট হিসাবে তাদের ডেটা উপস্থাপন করার জন্য আপনি আপনার ডেটা দিয়ে যা কিছু করতে পারেন তা করতে পারেন, তবে বৈশিষ্ট্যগুলির অর্থ চলে যেতে পারে। সমস্যা স্থানের স্তরে নয়, পরিমাপের স্কেল পর্যায়ে রয়েছে। সাধারণ স্কেলটি যথাযথভাবে মাপানো উচিত, ডামি কোডিং সাহায্য করবে না। দ্বৈত স্কেল অ্যাসিম্যাট্রিক ইন্দ্রিয় (বর্তমান বনাম অনুপস্থিত) ইউক্লিডিয়ান দূরত্বের চেয়ে স্বাভাবিকভাবে অন্যান্য দূরত্বের মেট্রিকের জন্য কল করে; প্লাস বিরক্তি সমস্যা (হ্যাঁ এবং না মধ্যে কোনও স্থায়ী উপায় বিদ্যমান থাকতে পারে)।
ttnphns

(অবিরত) ইউক্লিডিয়ান স্পেস প্রায় দুটি জিনিস: এটি অবিচ্ছিন্ন (সূক্ষ্ম দানযুক্ত) এবং এটি কোনও দিকনির্দেশের অনুমতি দেয়। সমস্ত ডেটা ধরণের তথ্যের প্রকৃতি থেকে উদ্ভূত অসামঞ্জস্যতা মিটানোর জন্য এ জাতীয় স্থানের প্রয়োজন হয় না বা শুভেচ্ছা হয় না।
ttnphns

হায়ারারিকিকাল ক্লাস্টারিং বিটিডব্লিউ, যে কোনও ধরণের মিলের সাথে কাজ করে। (ওয়ার্ডের মতো কিছু ক্ষেত্রে ব্যতীত) - বিশেষত আপনি উদাহরণস্বরূপ জ্যাকার্ড সহগ ব্যবহার করতে পারেন যা কিছু শ্রেণিবদ্ধ / বাইনারি মামলার জন্য অর্থবহ।
অ্যানি-মৌসে -রিনস্টেট মনিকা

উত্তর:


5

এটি কোনও কিছুর গণনা করতে সক্ষম হবেনা ।

অর্থপূর্ণ কিছু পরিমাপ করতে দূরত্বগুলি অনেক বেশি ব্যবহৃত হয় । শ্রেণিবদ্ধ ডেটা সহ এটি অনেক আগে ব্যর্থ হবে। এটি যদি কখনও একাধিক ভেরিয়েবলের সাথে কাজ করে তবে তা ...

জুতার আকার এবং শরীরের ভরগুলি যদি আপনার বৈশিষ্ট্যগুলি থাকে তবে ইউক্লিডিয়ান দূরত্বটি খুব বেশি বোঝায় না। এক্স, ওয়াই, জেড দূরত্বের সময় ভাল। তারপরে ইউক্লিডিয়ান দূরত্ব হ'ল পয়েন্টগুলির মধ্যে দৃষ্টির দূরত্বের রেখা।

এখন আপনি যদি ডামি-এনকোড ভেরিয়েবলগুলি করেন তবে এর অর্থ কী ?

এছাড়াও, যখন আপনার ডেটা পৃথক হয় তখন ইউক্লিডিয়ান দূরত্ব কোনও অর্থ দেয় না।

যদি কেবলমাত্র পূর্ণসংখ্যার x এবং y মান বিদ্যমান থাকে তবে ইউক্লিডিয়ান দূরত্ব এখনও অ-পূর্ণসংখ্যক দূরত্ব অর্জন করবে। তারা ডেটা ফিরে মানচিত্র না। একইভাবে, ডামি-এনকোডেড ভেরিয়েবলগুলির জন্য, দূরত্বটি ডামি ভেরিয়েবলগুলির একটি পরিমাণে ফিরে আসবে না ...

তারপর আপনি যেমন K-মানে ক্লাস্টারিং ব্যবহার করার পরিকল্পনা, তখন তা শুধু দূরত্বের সম্পর্কে নয়, কিন্তু কম্পিউটিং সম্পর্কে গড় । তবে ডামি-এনকোডেড ভেরিয়েবলগুলির কোনও যুক্তিসঙ্গত মানে নেই, আছে কি?

অবশেষে, মাত্রিকতার অভিশাপ রয়েছে । ইউক্রিডিয়ান দূরত্ব হ্রাস করতে পরিচিত যখন আপনি ভেরিয়েবলের সংখ্যা বৃদ্ধি করেন। ডামি-এনকোডযুক্ত ভেরিয়েবলগুলি যুক্ত করার অর্থ আপনি দূরত্বের বিপরীতে বেশ দ্রুত হারাবেন। সমস্ত কিছু অন্য কিছুর মতোই, কারণ একটি ডামি ভেরিয়েবল সমস্ত পার্থক্য আনতে পারে।


3

এই মেট্রিক ভিত্তিক ক্লাস্টারিংয়ের সমস্যার কেন্দ্রবিন্দু হ'ল ইন্টারপোলেশন ধারণা।

আপনি কেবল উদ্ধৃত করেছেন যে পদ্ধতিটি নিন এবং আসুন ওজন হিসাবে অবিচ্ছিন্ন পরিবর্তনশীল বিবেচনা করুন। আপনার কাছে 100 কেজি এবং আপনার ডেটাতে 10 কেজি রয়েছে। আপনি যখন নতুন 99 কেজি দেখেন, মেট্রিক আপনাকে 100 কেজি পর্যন্ত যেতে সক্ষম করে --- যদিও আপনি এটি কখনও দেখেননি। দুর্ভাগ্যক্রমে, পৃথক পৃথক ডেটার জন্য কোনও অন্তরোলনের বিদ্যমান নেই।

এই প্রশ্নের আর একটি যুক্তি হ'ল এটি করার কোনও প্রাকৃতিক উপায় নেই। আপনি আর তে 3 টি মান নির্ধারণ করতে এবং প্রতিটি জোড়ার মধ্যে তাদের সমান-দূরত্ব তৈরি করতে চান, এটি অসম্ভব হবে। যদি আপনি তাদের বিভিন্ন বিভাগে অর্পণ করেন এবং চলুন পিসিএ বলুন, তবে আপনি সেই তথ্যটি হারাবেন যা তারা বাস্তবে একই বিভাগে প্রতিফলিত করে।


1
ধন্যবাদ! আমি প্রবর্তন সমস্যাটি বুঝতে পারি, তবে অনেকগুলি অ্যাপ্লিকেশনগুলিতে এটি কোনও সমস্যা নয় (উদাহরণস্বরূপ যখন আমরা জানি যে বাসগুলি সবুজ, লাল বা নীল এবং আমাদের ডেটাসেটে অন্য কোনও রঙের উপস্থিতি নেই)। এবং আমি মনে করি ডামি ভেরিয়েবলগুলি মানক করার সহজ উপায় রয়েছে যাতে প্রতিটি শ্রেণিবদ্ধ ভেরিয়েবলের প্রতিটি সংখ্যার ভেরিয়েবলের অনুরূপ "ওজন" থাকে (যদি আগে সংখ্যার ভেরিয়েবলগুলি মানকও করা হত)। বা
ইচ্ছামতভাবে

0

অযৌক্তিক শ্রেণিবদ্ধ মানগুলির সাথে একটি সমস্যা হ'ল আপনি যদি ডামি এনকোড করেন তবে আপনি একটি ক্রমকে অর্ডার এবং এইভাবে ভেরিয়েবলগুলিতে একটি নতুন অর্থ জোর করে। উদাহরণস্বরূপ, যদি আপনি নীলকে 1 এবং কমলা 2 এবং সবুজ 3 হিসাবে এনকোড করেন তবে আপনি বোঝাচ্ছেন যে কমলা মান সহ একটি ডেটা প্যাটার্ন নীল মানের সাথে একের তুলনায় সবুজ মানের একটি প্যাটার্নের কাছাকাছি।

এটি পরিচালনা করার একটি উপায় হ'ল তাদের নতুন বৈশিষ্ট্য (কলাম) করা। প্রতিটি স্বতন্ত্র মানের জন্য আপনি একটি নতুন বাইনারি বৈশিষ্ট্য তৈরি করেন এবং এটিকে সত্য / মিথ্যাতে সেট করেন (অন্য কথায় বাইনারি মানগুলি এনকোড করে প্রতিটি বিটকে একটি কলাম করুন)। বৈশিষ্ট্যগুলির এই নতুন সেট থেকে প্রতিটি ডেটা প্যাটার্নের জন্য, কেবলমাত্র একটি বৈশিষ্ট্যের মান 1 এবং অন্যান্য সমস্ত 0 থাকবে But তবে এটি সাধারণত ট্রেনের অ্যালগরিদমকে সেন্ট্রয়েড মান 1 থেকে একাধিক বৈশিষ্ট্যের কাছে নির্ধারিত করতে থামায় না। এই অবশ্যই ডেটা ডোমেনটিতে অর্থবোধ করে না এমন কারণে সমস্যার কারণ হতে পারে।

আপনার "ক্ষমতার ক্লাস" নামক অর্ডারযুক্ত বিভাগগুলির ক্ষেত্রে একই সমস্যা নেই কারণ সেই ক্ষেত্রে সংখ্যাসূচক মানগুলি নির্ধারিত করে।

এবং অবশ্যই আপনি বিভিন্ন প্রকৃতি বা পরিমাপের ইউনিট বা মানগুলির বিভিন্ন পরিসরের বৈশিষ্ট্যগুলি ব্যবহার করেন তবে আপনার সর্বদা মানগুলি স্বাভাবিক করা উচিত।

/programming/19507928/growing-self-organizing-map-for-mixed-type-data/19511894#19511894

/programming/13687256/is-it-right-to-normalize-data-and-or-weight-vectors-in-a-som/13693409#13693409


শ্রেণীবদ্ধ ভেরিয়েবলের জন্য "ডামি এনকোডিং" বলতে আমি এটাই বুঝি, তবে ধন্যবাদ। এবং বিটিডব্লু আমি আদেশযুক্ত কারণগুলি ("ক্ষমতা শ্রেণি") সম্পর্কে আপনার বক্তব্যের সাথে একমত নই কারণ উদাহরণগুলির মধ্যে নির্বাচনের কোনও উপায় নেই। (1,2,3) বা (1,2,100), যা দূরত্ব ভিত্তিক অ্যালগরিদমের জন্য বিশাল পার্থক্য তৈরি করবে।
জুনো

0

উত্তরটি আসলে বেশ সহজ, ডামি ভেরিয়েবলের তথ্যটি আসলে কী তা আমাদের কেবল বুঝতে হবে। একটি ডামি ভেরিয়েবলের ধারণাটি ফ্যাক্টর স্তরের উপস্থিতি বা অনুপস্থিতি (একটি শ্রেণিবদ্ধ ভেরিয়েবলের পৃথক মান) বোঝায়। এর অর্থ বোঝানো হচ্ছে এমন কিছু আছে যা সেখানে নেই কিনা এর তথ্য সংরক্ষণ করে মাপনযোগ্য, অ-কোয়ান্টেফাইয়েবল কিছু represent এ কারণেই একটি ডামি ভেরিয়েবল বাইনারি অঙ্কগুলিতে প্রকাশিত হয়, যতগুলি শ্রেণীবদ্ধ ভেরিয়েবলের প্রতিনিধিত্ব করে (বা বিয়োগ 1) এর বিচ্ছিন্ন মানগুলি।

0/1 মান হিসাবে ফ্যাক্টর স্তরগুলির প্রতিনিধিত্ব করা কেবল বিশ্লেষণী সমীকরণে যেমন একটি রৈখিক মডেল হিসাবে বোঝায় (এটি যারা স্ট্যাটিস্টিকাল মডেলগুলির সহগগুলি ব্যাখ্যা করতে পারেন তাদের জন্য এটি একটি সহজ ধারণা)। একটি ডামি ভেরিয়েবলে, অন্তর্নিহিত শ্রেণীবদ্ধ ভেরিয়েবলের তথ্য বিটের ক্রমে সংরক্ষণ করা হয়। কোনও বৈশিষ্ট্য জায়গাতে ইনপুট নমুনা মানচিত্রের জন্য সেই বিটগুলি মাত্রা হিসাবে ব্যবহার করার সময় (কোনও মিল / দূরত্বের ম্যাট্রিক্সের ক্ষেত্রে), বিটের ক্রমের তথ্য সম্পূর্ণ হারিয়ে যায়।


1
ধন্যবাদ! প্রকৃতপক্ষে, আমার বক্তব্যটি হ'ল ডামি-এনকোডযুক্ত শ্রেণিবদ্ধ ভেরিয়েবলগুলি ইউক্লিডিয়ান দূরত্বের মধ্যে (একটি নির্দিষ্ট) ধারণা তৈরি করে: মানগুলি পৃথক হলে এটি স্কোয়ার দূরত্বের সাথে 2 যুক্ত করে, যদি এটি 0 যুক্ত করে না And বিভাগগুলির সংখ্যা বা তাদের সম্ভাবনাগুলি বিবেচনায় নেওয়ার উপায়গুলি।
যুব
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.