কে-মাধ্যমগুলিতে কোনও অনুকূল কে নেই এমন কোনও মামলা রয়েছে?


11

এটি আমার মনের ভিতরে অন্তত কয়েক ঘন্টা ছিল। আমি কে-মানে অ্যালগরিদম (একটি কোসাইন সাদৃশ্য মেট্রিক সহ ) থেকে আউটপুটটির জন্য একটি অনুকূল কে অনুসন্ধান করার চেষ্টা করছিলাম তাই ক্লাস্টারের সংখ্যার ফাংশন হিসাবে বিকৃতিটি প্লট করে শেষ করেছি। আমার ডেটাসেটটি 600-মাত্রিক জায়গায় 800 টি নথির সংগ্রহ।

আমি যা বুঝি সেগুলি থেকে, এই বক্ররেখার হাঁটু বিন্দু বা কনুই পয়েন্টটি সন্ধান করার জন্য আমার ডেটা putোকাতে আমার কমপক্ষে কতটা ক্লাস্টার প্রয়োজন তা বলতে হবে। আমি গ্রাফটি নীচে রেখেছি। যে বিন্দুতে লাল উল্লম্ব রেখাটি অঙ্কিত হয়েছিল সেটি সেকেন্ড দ্বিতীয় ডেরিভেটিভ টেস্ট ব্যবহার করে প্রাপ্ত হয়েছিল । এত কিছুর পরে, আমি অনেক সহজ কিছুতে আটকে গিয়েছিলাম: এই গ্রাফটি আমাকে ডেটাসেট সম্পর্কে কী বলে?

এটি কি আমাকে বলবে যে এটি গুচ্ছবৃত্তি করার মতো নয় এবং আমার নথির কাঠামোর অভাব রয়েছে বা আমার খুব উচ্চ কে সেট করা দরকার? তবে একটি আশ্চর্যের বিষয় হ'ল কম কে দিয়েও আমি একই ধরণের দলিলগুলি একসাথে ক্লাস্টার করা দেখছি তাই আমি কেন এই বক্রতা পাচ্ছি তা নিশ্চিত নই। কোন চিন্তা?

এখানে চিত্র বর্ণনা লিখুন


2
আমি সত্যিই যা বুঝতে পারি না তা হল আপনি কীভাবে কে-মানে ক্লাস্টারিংকে প্রক্সিমিটি ম্যাট্রিক্স ইনপুট (এবং তা হ'ল কোসাইন!) দিয়ে নিয়োগ করতে সক্ষম হন। কে-মানে ক্লাস্টারিংয়ের কাঁচা ডেটা (অবজেক্ট এক্স ভেরিয়েবল) ইনপুট প্রয়োজন এবং অভ্যন্তরীণভাবে ইউক্যালিডিয়ান দূরত্বের উপর পরিচালিত হয়।
ttnphns

2
@ এনটিএনফএনস: আমি আশা করি আমি আপনার বক্তব্যটি বুঝতে পেরেছি তবে আমার জ্ঞানের সেরাটি হিসাবে, আমরা কে-মানে দিয়ে কোনও দূরত্বের মেট্রিক ব্যবহার করতে পারি তাই না? আমি পাইথনে এটি করছি তবে দেখে মনে হচ্ছে আর এর জন্য উপলব্ধ একটি লাইব্রেরি রয়েছে: cran.r-project.org/web/packages/skmeans/index.html ইনপুটটি নৈকট্য ম্যাট্রিক্স নয় বরং terms x documentএকক ভেক্টর সম্পাদনের পরে প্রাপ্ত হয়েছিল পচানি। যদি আমার ভুল হয় তবে দয়া করে আমাকে সংশোধন করুন।
কিংবদন্তি

গোলাকার কে-মানে ক্লাস্টারিং, কোসাইন পরিমাপের উপর ভিত্তি করে, আমার কাছে নতুন, আমাকে স্বীকার করতে হবে। আশা করি একদিন এ নিয়ে আরও পড়ব।
ttnphns

@ এনটিএনএফএনএস: ফিরে আসার জন্য আপনাকে ধন্যবাদ। কেবলমাত্র আমি নিশ্চিত করেছিলাম যে আমি আপেল এবং কমলা একসাথে ব্যবহার করছি না :)
কিংবদন্তি

অপরিবর্তিত কে-মানে কেবল -Norms এর জন্য বোধগম্য। কারণ এটি গণনা মানে ভেক্টরগুলি এবং এটি অন্যান্য দূরত্বের কার্যগুলির জন্য উপযুক্ত এমএল-অনুমান নয়। Lp
কিট আছে - অ্যানি-মৌসে

উত্তর:


12

বেশিরভাগ পরিস্থিতিতে, আমি ভেবেছি যে dsuch একটি প্লট মূলত এর অর্থ হ'ল ডেটাতে কোনও গুচ্ছ কাঠামো নেই। তবে খুব উচ্চ মাত্রায় ক্লাস্টারিং যেমন এটি ইউক্রিডিয়ান দূরত্বের মেট্রিকের মতো দূরত্ব মাত্রা বৃদ্ধি করার সাথে সাথে সমস্ত দূরত্ব একই রকম থাকে। এই বিষয়ে কিছু কাগজপত্রের রেফারেন্সের জন্য এই উইকিপিডিয়া পৃষ্ঠাটি দেখুন । সংক্ষেপে, এটি কেবল ডেটাসেটের উচ্চ-মাত্রিকতা হতে পারে যা সমস্যা।

এটি মূলত "মাত্রিকতার অভিশাপ", এই উইকিপিডিয়া পৃষ্ঠাটিও দেখুন ।

আগ্রহী হতে পারে এমন একটি কাগজ হ'ল সাঙ্গুইনেটি, জি। 30 নং 3, পৃষ্ঠা 535-540, মার্চ 2008 ( www ) যা কিছুটা এলডিএর অপ্রচলিত সংস্করণের মতো যা ক্লাস্টার কাঠামোর উপর জোর দেয় এমন একটি নিম্ন-মাত্রিক স্থান খুঁজে বের করে। সম্ভবত আপনি কে-মানে সম্পাদন করার আগে এটি বৈশিষ্ট্য নিষ্কাশন পদ্ধতি হিসাবে ব্যবহার করতে পারেন?


ওহো দুঃখিত. আমার উল্লেখ করা উচিত ছিল যে আমি কোসাইন মিল ব্যবহার করছি using
কিংবদন্তি

আমি মনে করি এটি সম্ভবত সম্ভাব্য যে মাত্রিকতার অভিশাপটি কোজিনের মিলের জন্যও প্রযোজ্য। এটি মূলত বলেছে যে মাত্রাগুলির সংখ্যা বাড়ার সাথে সাথে আপনার বিতরণ সংজ্ঞায়িত করার জন্য তাত্পর্যপূর্ণভাবে আরও নিদর্শনগুলির প্রয়োজন (সবচেয়ে খারাপ ক্ষেত্রে)। আপনি কার্যকরভাবে যা করছেন তা ক্লাস্টারিংয়ে উপ-জনগোষ্ঠীর প্রতিনিধিত্বকারী বিতরণগুলি সনাক্ত করা, সুতরাং উচ্চ মাত্রায় ক্লাস্টারিং অন্তর্নিহিতভাবে জটিল।
ডিকরান মার্শুপিয়াল

+1 লিঙ্কটির জন্য আপনাকে ধন্যবাদ। আমি এর মধ্য দিয়ে যাব এবং ফিরে আসব। মাত্রার সংখ্যা হ্রাস করার জন্য আমি কে-মানে প্রয়োগ করার আগে আমার আসল ম্যাট্রিক্সে এসভিডি প্রয়োগ করেছি।
কিংবদন্তি

3

আপনি কোসাইন মিলটি কীভাবে ব্যবহার করবেন? এটি কি গোলকের কে-মানে হিসাবে উল্লেখ করা হয়? আপনার ডেটা সেটটি বেশ ছোট, তাই আমি এটি একটি নেটওয়ার্ক হিসাবে ভিজ্যুয়ালাইজ করার চেষ্টা করব। এর জন্য একটি মিল ব্যবহার করা স্বাভাবিক (প্রকৃতপক্ষে কোসাইন মিল বা পিয়ারসন পারস্পরিক সম্পর্ক) ব্যবহার করুন, একটি কাট-অফ প্রয়োগ করুন (কেবল একটি নির্দিষ্ট মিলের উপরে সম্পর্ক বিবেচনা করুন), এবং ফলাফলটি একটি সাইট হিসাবে উদাহরণস্বরূপ সাইটোস্কেপ বা বায়োলেআউটকে দেখুন । এটি ডেটা সম্পর্কে অনুভূতি পেতে খুব সহায়ক হতে পারে। দ্বিতীয়ত, আমি আপনার ডেটা ম্যাট্রিক্সের জন্য একক মানগুলি, বা যথাযথ রূপান্তরিত এবং নরমালাইজড ম্যাট্রিক্সের ইগেনভ্যালুগুলি (কোনও আকারে প্রাপ্ত একটি নথি-নথি ম্যাট্রিক্স) গণনা করব। ক্লাস্টার কাঠামোটি (আবার) ইগেনভ্যালুগুলি বা একক মানগুলির ক্রমানুসারে তালিকার এক লাফ হিসাবে প্রদর্শিত হবে।


+1 পয়েন্টারগুলির জন্য আপনাকে ধন্যবাদ। আমি সাইটোস্কেপ সম্পর্কে সচেতন ছিলাম না। আমি চেষ্টা করব। এবং হ্যাঁ, দেখে মনে হচ্ছে যে কো-মাইন সমান্তরালের সাথে স্পেরিকাল কে-মানে হিসাবে পরিচিত। আমি এসভিডি প্রয়োগ করার পরে এবং মাত্রার সংখ্যা হ্রাস করার পরে এই কে-মানে প্রয়োগ করেছি। আমি মাত্রাগুলির সংখ্যা যেভাবে হ্রাস করেছি তা হ'ল ভেরিয়েন্স রুলটি ব্যবহার করা (একক মানগুলি বেছে নিন যা মূল ডেটাতে 95% প্রকরণে অবদান রাখে)।
কিংবদন্তি

যদি আপনি কিছু মনে করেন না, আপনি কী এমন টিউটোরিয়ালটিতে নির্দেশ করতে পারেন যা এটি কীভাবে করতে হয় (বা কমপক্ষে এটির মতো কিছু) explains আমি একবার ম্যাট্রিক্স উত্পন্ন করার পরে, আমি কি কেবল এটিকে রফতানি করব এবং তারপরে এটিকে সাইটোস্কেপে আমদানি করব এবং আপনি যা পরামর্শ দিয়েছেন তা সম্পাদন করব? আমি যে বিষয়ে কৌতূহলী তা হ'ল সাইটোস্কেপটিতে কোসাইন মিলের জন্য অন্তর্নির্মিত পদ্ধতি রয়েছে কি না আমাকে কিছু ডেটা ফর্ম্যাটকে পূর্ববর্তী করে এটিকে একটি ইনপুট হিসাবে দিতে হবে?
কিংবদন্তি

আমি যখন এই প্রোগ্রামগুলির সাথে কাজ করি, আমি বাহ্যত সমস্ত জুটিযুক্ত মিলগুলি গণনা করি, থ্রেশোল্ড দ্বারা ফিল্টার করি এবং <label1> <label2> <siversityity> বিন্যাসের সাথে একটি ফাইল তৈরি করি। হয় যে ইনপুট পড়তে সক্ষম হওয়া উচিত। বায়োআলআউটে এটি আমার কাছে মনে হয় একটি .txt প্রত্যয় থাকতে হবে; সাইটোস্কেপে 'টেবিল থেকে আমদানি' ব্যবহার করুন।
13:38

বুঝতে পারছিল না। আমি তা করব এবং শীঘ্রই ফিরে আসব। আবার আপনাকে ধন্যবাদ.
কিংবদন্তি

বোবা প্রশ্নের জন্য দুঃখিত তবে আমি আমার ডেটা <label1> <label2> <সাদৃশ্য> হিসাবে ফর্ম্যাট করেছি তবে কীভাবে এটি সঠিকভাবে আমদানি করতে হবে তা বুঝতে সক্ষম নই। আমি টেবিল থেকে ফাইল-> আমদানি-> নেটওয়ার্ক করেছি এবং আমার উত্স এবং লক্ষ্য কলামগুলি নির্বাচন করেছি। আমি ইন্টারঅ্যাকশনটি ডিফল্ট হিসাবে রেখেছি। তবে আমি প্রান্তের পাশাপাশি প্রান্তের ওজন কীভাবে আমদানি করব? আপনার কোন পরামর্শ আছে দয়া করে?
কিংবদন্তি

2

সাধারণত হ্যাঁ, কে-মানে খুব স্বতন্ত্র সমাধানে রূপান্তর করতে পারে যা অনুপযুক্ত হিসাবে বিবেচিত হতে পারে। এটি বিশেষত অনিয়মিত আকারযুক্ত ক্লাস্টারের ক্ষেত্রে ঘটে।

যে আরো স্বজ্ঞা আপনি হয়ত অন্য ঠাহর পদ্ধতির চেষ্টা করে দেখতে পারেন পাবেন: K-উপায়ে জন্য আপনি Graphgrams ব্যবহার (Weka graphgram প্যাকেজ দেখতে K-মাধ্যম দিয়ে বিভিন্ন রানে ঠাহর করা যেতে পারে - শ্রেষ্ঠ প্যাকেজ ম্যানেজার দ্বারা প্রাপ্ত বা এখানে । একটি উপস্থাপনা এবং উদাহরণ এছাড়াও হতে পারে এখানে পাওয়া গেছে


1

আমি যদি গ্রাফটি সঠিকভাবে বুঝতে পারি তবে এটি ক্লাস্টারগুলির সংখ্যার প্লট, এক্স-অক্ষের কে এবং y- অক্ষের ক্লাস্টারের দূরত্বের মধ্যে?

আপনার কে-মানে উদ্দেশ্যমূলক কার্যটি ডাব্লুসিএসএসকে হ্রাস করতে হবে, এই প্লটটি সর্বদা একঘেয়েমি হ্রাস হওয়া উচিত। আপনি আরও ক্লাস্টার যুক্ত করার সাথে সাথে, ক্লাস্টারের পয়েন্টগুলির মধ্যে দূরত্ব সর্বদা হ্রাস পাবে। এটি মডেল নির্বাচনের মৌলিক সমস্যা, তাই আপনাকে আরও কিছু পরিশীলিততা নিয়োগ করতে হবে।

সম্ভবত গ্যাপ পরিসংখ্যান চেষ্টা করুন: www-stat.stanford.edu/~tibs/ftp/gap.ps বা অন্য এটি পছন্দ করে।

তদতিরিক্ত, আপনি দেখতে পাবেন যে কে-মানে কাজের জন্য সঠিক সরঞ্জাম নয় tool আপনি কতগুলি গুচ্ছ খুঁজে পেতে আশা করছেন? ক্লাস্টারিংয়ের জন্য মাত্রা হ্রাসের জন্য বৈকল্পিক নিয়ম ব্যবহার করা উপযুক্ত নয়। প্রথম কে -1 পিসিগুলিতে প্রোজেক্ট করার সময় এই কাগজটি দেখুন উপযুক্ত প্রিপ্রোসেসিং ব্যবস্থা: http://people.csail.mit.edu/gjw/papers/jcss.ps

প্রথম দুটি প্রধান উপাদানগুলির মধ্যে প্রোজেকশন প্লট করে আপনি এটি সঠিক জিনিস কিনা তা দ্রুত দেখতে পারবেন। যদি কোনও স্পষ্ট বিভাজন থাকে তবে কে-মানেগুলি ঠিক হওয়া উচিত, যদি না হয় আপনাকে অন্য কোনও কিছুর দিকে তাকাতে হবে। সম্ভবত কে-সাবস্পেস বা অন্যান্য সাবস্পেস ক্লাস্টারিং পদ্ধতি। এই পদ্ধতিগুলি মনে রাখবেন ইউক্লিডিয়ান দূরত্বের জন্য প্রযোজ্য। আমি নিশ্চিত না কীভাবে এটি কোসাইনগুলির জন্য পরিবর্তিত হয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.