কেন ইনপুট সাধারণীকরণ এএনএন এবং কে-উপকরণের জন্য কার্যকর হতে পারে সে সম্পর্কে কিছু ধারণা, রেফারেন্স এবং প্লটগুলি:
কে-মানে :
কে-মানে ক্লাস্টারিং স্থানের সব দিকেই "আইসোট্রপিক" এবং অতএব আরও বা কম বৃত্তাকার (প্রসারিতের চেয়ে) ক্লাস্টার উত্পাদন করে। এই পরিস্থিতিতে বৈষম্যগুলি অসম ছেড়ে যাওয়া ভেরিয়েবলগুলিতে আরও কম ওজন রাখার সমান smaller
মতলব উদাহরণ:
X = [randn(100,2)+ones(100,2);...
randn(100,2)-ones(100,2)];
% Introduce denormalization
% X(:, 2) = X(:, 2) * 1000 + 500;
opts = statset('Display','final');
[idx,ctrs] = kmeans(X,2,...
'Distance','city',...
'Replicates',5,...
'Options',opts);
plot(X(idx==1,1),X(idx==1,2),'r.','MarkerSize',12)
hold on
plot(X(idx==2,1),X(idx==2,2),'b.','MarkerSize',12)
plot(ctrs(:,1),ctrs(:,2),'kx',...
'MarkerSize',12,'LineWidth',2)
plot(ctrs(:,1),ctrs(:,2),'ko',...
'MarkerSize',12,'LineWidth',2)
legend('Cluster 1','Cluster 2','Centroids',...
'Location','NW')
title('K-means with normalization')
(এফওয়াইআই) আমার ডেটাসেটটি ক্লাস্টারড বা আনস্লাস্টারড (উদাহরণস্বরূপ একটি একক ক্লাস্টার গঠন করে ) কীভাবে সনাক্ত করব?
বিতরণ ক্লাস্টারিং :
তুলনামূলক বিশ্লেষণ দেখায় যে বিতরণ ক্লাস্টারিংয়ের ফলাফলগুলি সাধারণীকরণ পদ্ধতির ধরণের উপর নির্ভর করে।
কৃত্রিম নিউরাল নেটওয়ার্ক (ইনপুট) :
যদি ইনপুট ভেরিয়েবলগুলি এমএলপির মতো রৈখিকভাবে একত্রিত হয়, তবে কমপক্ষে তত্ত্বের ক্ষেত্রে ইনপুটগুলিকে মানক করা খুব কমই প্রয়োজন। কারণটি হ'ল কোনও ইনপুট ভেক্টরকে পুনরুদ্ধার কার্যকরভাবে সংশ্লিষ্ট ওজন এবং বায়াসগুলি পরিবর্তন করে বাতিল করা যেতে পারে, আপনাকে আগের মতো ঠিক একই আউটপুটগুলি রেখে দেয়। যাইহোক, বিভিন্ন কৌশলগত কারণ রয়েছে যা ইনপুটগুলিকে মানীকৃত করা প্রশিক্ষণ দ্রুততর করতে পারে এবং স্থানীয় অপটিমে আটকে যাওয়ার সম্ভাবনা হ্রাস করতে পারে। এছাড়াও, ওজন ক্ষয় এবং বায়সিয়ান অনুমান মানকৃত ইনপুটগুলির সাথে আরও স্বাচ্ছন্দ্যে করা যেতে পারে।
কৃত্রিম নিউরাল নেটওয়ার্ক (ইনপুট / আউটপুট)
আপনার ডেটাতে এই জিনিসগুলির কোনও করা উচিত? উত্তরটি হল, এটা নির্ভরশীল।
ইনপুট বা টার্গেট ভেরিয়েবলগুলির মানককরণটি অপ্টিমাইজেশনের সমস্যার সংখ্যার অবস্থার উন্নতি করে ( ftp://ftp.sas.com/pub/neura/illcond/illcond.html দেখুন ) উন্নত করে এবং বিভিন্ন ডিফল্টকে নিশ্চিত করে প্রশিক্ষণ প্রক্রিয়াটিকে আরও ভাল করে তোলে
আরম্ভ এবং সমাপ্তির সাথে জড়িত মানগুলি উপযুক্ত। লক্ষ্য নির্ধারণের উদ্দেশ্যগুলিও উদ্দেশ্যমূলক কার্যকে প্রভাবিত করতে পারে।
মামলার মানকে সতর্কতার সাথে যোগাযোগ করা উচিত কারণ এটি তথ্য বাতিল করে দেয়। যদি সেই তথ্য অপ্রাসঙ্গিক হয় তবে মানকে মানিয়ে নেওয়া বেশ সহায়ক হতে পারে। যদি সেই তথ্যটি গুরুত্বপূর্ণ হয় তবে মানকে মান্য করা বিপর্যয়কর হতে পারে।
মজার বিষয় হল, পরিমাপের ইউনিটগুলি পরিবর্তন করা এমনকি একজনকে একটি খুব আলাদা ক্লাস্টারিং কাঠামো দেখাতে পারে: কাউফম্যান, লিওনার্ড এবং পিটার জে রুসিউউ .. "ডেটাগুলিতে গোষ্ঠী সন্ধান করা: গুচ্ছ বিশ্লেষণের একটি ভূমিকা"। (2005)।
কিছু অ্যাপ্লিকেশনগুলিতে, পরিমাপের ইউনিটগুলি পরিবর্তন করাও একজনকে একটি খুব আলাদা ক্লাস্টারিং কাঠামো দেখতে পারে। উদাহরণস্বরূপ, চারটি কাল্পনিক ব্যক্তির বয়স (বছরগুলিতে) এবং উচ্চতা (সেন্টিমিটারে) টেবিল 3 এ দেওয়া হয়েছে এবং চিত্র 3 তে প্লট করা হয়েছে এটি প্রদর্শিত হয় যে {এ, বি) এবং {সি, 0) দুটি ভাল বিচ্ছিন্ন গুচ্ছ । অন্যদিকে, যখন উচ্চতায় পায়ে প্রকাশ করা হয় তখন সারণি 4 এবং চিত্র 4 পাওয়া যায়, যেখানে সুস্পষ্ট ক্লাস্টারগুলি এখন {এ, সি} এবং {বি, ডি}} এই বিভাগটি প্রথম থেকে সম্পূর্ণ আলাদা কারণ প্রতিটি বিষয় অন্য সহকর্মী পেয়েছে। (চিত্র 4 যদি বয়স কয়েক দিনের মধ্যে পরিমাপ করা হত তবে আরও চ্যাপ্টা হত))
পরিমাপ ইউনিটগুলির পছন্দের উপর এই নির্ভরতা এড়াতে, কোনওটির কাছে ডেটা মানক করার বিকল্প রয়েছে। এটি মূল পরিমাপকে ইউনিটলেস ভেরিয়েবলগুলিতে রূপান্তর করে।
কাউফম্যান এট আল। কিছু আকর্ষণীয় বিবেচনার সাথে অবিরত (পৃষ্ঠা 11):
দার্শনিক দৃষ্টিকোণ থেকে, মানীকরণ আসলেই সমস্যার সমাধান করে না। প্রকৃতপক্ষে, পরিমাপের ইউনিটগুলির পছন্দগুলি ভেরিয়েবলগুলির আপেক্ষিক ওজনকে বাড়িয়ে তোলে। ছোট ইউনিটগুলিতে ভেরিয়েবল প্রকাশ করা হলে সেই ভেরিয়েবলের জন্য বৃহত্তর পরিসীমা বাড়ে, যার ফলে ফলাফলের কাঠামোর উপর একটি বড় প্রভাব পড়বে। অন্যদিকে, উদ্দেশ্যপ্রণালী অর্জনের প্রত্যাশায়, একটিকে সমস্ত ভেরিয়েবলকে সমান ওজন দেয়ার প্রয়াসকে মানক করে। এর মতো, এটি কোনও অনুশীলনকারী দ্বারা ব্যবহার করা যেতে পারে যার কোনও পূর্ব জ্ঞান নেই। তবে এটি ভালভাবে হতে পারে যে কোনও নির্দিষ্ট প্রয়োগের ক্ষেত্রে কিছু পরিবর্তনশীল অন্যদের চেয়ে অভ্যন্তরীণভাবে আরও বেশি গুরুত্বপূর্ণ এবং তারপরে ওজনের কার্যনির্বাহী বিষয় সম্পর্কিত জ্ঞানের উপর ভিত্তি করে হওয়া উচিত (দেখুন, উদাহরণস্বরূপ, আব্রাহামোভিজ, 1985)। অন্য দিকে, ক্লাস্টারিং কৌশলগুলি তৈরি করার চেষ্টা করা হয়েছে যা ভেরিয়েবলগুলির স্কেলের চেয়ে পৃথক (ফ্রেডম্যান এবং রুবিন, 1967)। হার্ডি এবং রাসনের প্রস্তাব (1982) ক্লাস্টারগুলির উত্তল হালগুলির মোট পরিমাণকে হ্রাস করে এমন একটি পার্টিশন অনুসন্ধান করা। নীতিগতভাবে এই জাতীয় পদ্ধতিটি ডেটাগুলির রৈখিক রূপান্তরগুলির সাথে সম্পর্কিত, তবে দুর্ভাগ্যক্রমে এর বাস্তবায়নের জন্য কোনও অ্যালগরিদম বিদ্যমান নেই (দুটি মাত্রায় সীমাবদ্ধ এমন একটি আনুমানিক ব্যতীত)। অতএব, বর্তমানে মানকতার দ্বিধাটি অপরিহার্য বলে মনে হয় এবং এই বইয়ে বর্ণিত প্রোগ্রামগুলি ব্যবহারকারীকে পছন্দ পর্যন্ত ছেড়ে দেয়। হার্ডি এবং রাসনের প্রস্তাব (1982) ক্লাস্টারগুলির উত্তল হালগুলির মোট পরিমাণকে হ্রাস করে এমন একটি পার্টিশন অনুসন্ধান করা। নীতিগতভাবে এই জাতীয় পদ্ধতিটি ডেটাগুলির রৈখিক রূপান্তরগুলির সাথে সম্পর্কিত, তবে দুর্ভাগ্যক্রমে এর বাস্তবায়নের জন্য কোনও অ্যালগরিদম বিদ্যমান নেই (দুটি মাত্রায় সীমাবদ্ধ এমন একটি আনুমানিক ব্যতীত)। সুতরাং, মানীকরণের দ্বিধা বর্তমানে অপ্রয়োজনীয় বলে মনে হয় এবং এই বইয়ে বর্ণিত প্রোগ্রামগুলি ব্যবহারকারীকে পছন্দ ছেড়ে দেয়। হার্ডি এবং রাসনের প্রস্তাব (1982) ক্লাস্টারগুলির উত্তল হালগুলির মোট পরিমাণকে হ্রাস করে এমন একটি পার্টিশন অনুসন্ধান করা। নীতিগতভাবে এই জাতীয় পদ্ধতিটি ডেটাগুলির রৈখিক রূপান্তরগুলির সাথে সম্পর্কিত, তবে দুর্ভাগ্যক্রমে এর বাস্তবায়নের জন্য কোনও অ্যালগরিদম বিদ্যমান নেই (দুটি মাত্রায় সীমাবদ্ধ এমন একটি আনুমানিক ব্যতীত)। সুতরাং, মানীকরণের দ্বিধা বর্তমানে অপ্রয়োজনীয় বলে মনে হয় এবং এই বইয়ে বর্ণিত প্রোগ্রামগুলি ব্যবহারকারীকে পছন্দ ছেড়ে দেয়।