ক্লাস্টারিংয়ের জন্য ভিজ্যুয়ালাইজেশন সফ্টওয়্যার


14

আমি ক্লাস্টার করতে চাই ~ 22000 পয়েন্ট। অনেক ক্লাস্টারিং অ্যালগরিদম উচ্চ মানের প্রাথমিক অনুমানের সাথে আরও ভাল কাজ করে। এমন কোন সরঞ্জাম বিদ্যমান রয়েছে যা আমাকে ডেটাটির রুক্ষ আকারের ভাল ধারণা দিতে পারে?

আমি আমার নিজের দূরত্বের মেট্রিক চয়ন করতে সক্ষম হতে চাই না, সুতরাং এমন একটি প্রোগ্রাম যা আমি জোড় দূরত্বের একটি তালিকা খাইয়ে দিতে পারি ঠিক ঠিক। আমি ডিসপ্লেতে কোনও অঞ্চল বা ক্লাস্টার হাইলাইট করার মতো কিছু করতে এবং সেই অঞ্চলে কোন ডেটা পয়েন্ট রয়েছে তার একটি তালিকা পেতে সক্ষম হতে চাই।

ফ্রি সফটওয়্যারটি অগ্রাধিকারপ্রাপ্ত তবে আমার কাছে ইতিমধ্যে এসএএস এবং ম্যাটল্যাব রয়েছে।

উত্তর:


11

আর প্যাকেজ আরজিবিবি সহ জিজিবি (http://www.ggobi.org/) পুরোপুরি এই কাজের জন্য উপযুক্ত।

উদাহরণগুলির জন্য সম্পর্কিত উপস্থাপনাটি দেখুন: http://www.ggobi.org/book/2007-infovis/05-clustering.pdf


এই পরামর্শের জন্য ধন্যবাদ, শান। ggobi আশাব্যঞ্জক দেখাচ্ছে, আমি এখনই এটি ইনস্টল করছি এবং এটি দিয়ে চেষ্টা করব :)

1
অন্যান্য প্ল্যাটফর্মগুলিতে সূক্ষ্মভাবে কাজ করে তবে জিটিকে ওএসএক্সের সাথে দুর্দান্ত খেলছে না।

3
gtk ওএসএক্স এ ঠিক আছে।
হ্যাডলি

5

ক্লাস্টারিংয়ের ফলাফলগুলি উচ্চ মাত্রায় অন্বেষণ করা প্যাকেজগুলি ক্লাস্টারফ্লাই এবং জিসিএক্সপ্লোরার ব্যবহার করে আর করা যেতে পারে । আরও এখানে দেখুন


ধন্যবাদ, তবে গুগবিকে সরাসরি কল করার চেয়ে ক্লাস্টারফ্লাই ব্যবহার করার কোনও সুবিধা আছে কি? ওয়েবসাইটে কেবল ক্লাস্টারিংয়ের পদ্ধতি উল্লেখ করা হয়েছে, যা আকর্ষণীয়, তবে এখনও আমার প্রাথমিক লক্ষ্য নয় not gcexplorer এর তথ্য সম্পর্কিত ওয়েবসাইট কম রয়েছে, তবে দেখে মনে হচ্ছে এটি ইতিমধ্যে ক্লাস্টারে বিভক্ত হয়ে যাওয়ার পরে ডেটা ভিজ্যুয়ালাইজ করার জন্য। আমি এই পর্যায়ে পৌঁছানোর পরে তাদের একবার চেষ্টা করে দেখব তবে এখনই আমার যা প্রয়োজন তা নয়।

4

(মাস পরে,) কে-ক্লাস্টারগুলিকে চিত্রিত করার এবং বিভিন্ন কে-এর প্রভাব দেখার একটি দুর্দান্ত উপায় হ'ল ন্যূনতম স্প্যানিং ট্রি তৈরি করা এবং দীর্ঘতম প্রান্তটি দেখানো । উদাহরণ স্বরূপ,

alt text

এখানে 9 টি দীর্ঘতম কিনারা রয়েছে 855 899 942 954 1003 1005 1069 1134 1267.
9 টি ক্লাস্টারের জন্য, সায়ান 855 প্রান্তটি ভেঙে দিন; 8 এর জন্য, বেগুনি 899; ইত্যাদি।

একক লিঙ্কের কে-ক্লাস্টারিং অ্যালগরিদম ... হুবহু ক্রুশকলের অ্যালগরিদম ... এমএসটি সন্ধান করার এবং কে -1 সবচেয়ে ব্যয়বহুল প্রান্ত মোছার সমতুল্য।

- ওয়েইন, লোভী অ্যালগরিদম

22000 পয়েন্ট, 242M জোড়াযুক্ত দূরত্ব, ~ 1 গিগাবাইট (ফ্লোট 32) নিন: ফিট হতে পারে।

2 ডি তে একটি উচ্চ-মাত্রিক গাছ বা গ্রাফ দেখতে, বহুমাত্রিক স্কেলিং (ক্রুসাল থেকেও) এবং মাত্রা হ্রাস সম্পর্কিত বিশাল সাহিত্য দেখুন। তবে, ম্লান> 20 বলুন, বেশিরভাগ দূরত্ব মধ্যকের কাছাকাছি থাকবে, তাই আমি বিশ্বাস করি যে মাত্রা হ্রাস সেখানে কাজ করতে পারে না


2

আমার একটি প্রকল্পের সময় আমি কেএনটাইমের সাথে ভাল অভিজ্ঞতা পেয়েছি । এটি দ্রুত অনুসন্ধান মাইনিং এবং গ্রাফিংয়ের জন্য একটি দুর্দান্ত সমাধান। তার উপরে এটি আর এবং ওয়েকা মডিউলগুলি সীমাহীন ইন্টিগ্রেশন সরবরাহ করে।


দেখে মনে হচ্ছে একটি দরকারী প্রোগ্রাম, কিন্তু তাদের ওয়েবপৃষ্ঠা আমাকে বোঝানোর জন্য ভাল কাজ করে না এটি এই সঠিক সমস্যার সমাধান করবে। দেখে মনে হচ্ছে এটি খুব বিস্তৃত এবং অনেকগুলি বৈশিষ্ট্য যার জন্য আমি পাত্তা দিই না, সাধারণ জিনিসগুলি করা শক্ত করে তোলে। অন্যান্য পছন্দগুলি কার্যকর না হলে আমি এটিকে অন্য চেহারা দেব।

2

এছাড়াও কটাক্ষপাত আছে ELKI , একটি ওপেন সোর্স ডেটা মাইনিং সফটওয়্যার। উইকিমিডিয়া কমন্সে ELKI সহ উত্পাদিত চিত্র সহ একটি গ্যালারী রয়েছে , যার অনেকগুলি ক্লাস্টার বিশ্লেষণের সাথে সম্পর্কিত।


1

ক্লাস্টার 3.0 এ একবার দেখুন । আমি নিশ্চিত নই যে এটি আপনার যা করতে চান সবগুলি করবে কিনা তবে এটি বেশ ভাল নথিবদ্ধ এবং আপনাকে কয়েকটি দূরত্বের মেট্রিক থেকে চয়ন করতে দেয়। ভিজ্যুয়ালাইজেশন টুকরাটি জাভা ট্রিভিউ ( স্ক্রিনশট ) নামে একটি পৃথক প্রোগ্রামের মাধ্যমে ।


পরামর্শের জন্য ধন্যবাদ, তবে আমার নিজের দূরত্বের পরিমাপ বাছাই করার ক্ষমতাটি গুরুত্বপূর্ণ, সুতরাং এটি আমার পক্ষে কার্যকর হবে না। যদিও অন্য কারও কাছে এটি দরকারী মনে হতে পারে।

1

GGobi এর জন্য আকর্ষণীয় দেখায়। আপনার আরেকটি উপায় হ'ল আপনার সামঞ্জস্যতা / বিপরীত দূরত্বের ম্যাট্রিক্সকে নেটওয়ার্ক সংলগ্ন ম্যাট্রিক্স হিসাবে গণ্য করা এবং এটি একটি নেটওয়ার্ক বিশ্লেষণ রুটিনের মধ্যে খাওয়ানো (উদাহরণস্বরূপ, আরে জিগ্রাফ বা পাজেক হয়)। এই পদ্ধতির সাথে আমি বিভিন্ন কাটপয়েন্টগুলিতে নোডের দূরত্বগুলি বাইনারি টাইতে কাটতে চেষ্টা করব।


আমি এটি ভেবেছিলাম তবে সেখানে কোনও যুক্তিসঙ্গত কাট পয়েন্ট বলে মনে হচ্ছে না, এবং ডোমেন বিশেষজ্ঞরা সেটিকেও ন্যায়সঙ্গত করতে পারেন না।

আমি মনে করি এটি আপনার বর্ণিত উদ্দেশ্যটির জন্য মোটামুটি স্বেচ্ছাচারী হতে পারে - সত্যি কথা বলতে, আপনাকে এমনকি আসলে বাইনারি কাটতে হবে না, কেবল 1 টি স্কেলের কোনও টাইব মান লেবেলটি কিছু পরিচালনাযোগ্য সংখ্যায় পুনরায় পুনর্নির্মাণ করতে হবে, তারপরে ক্রমান্বয়ে সংযোগগুলি লুকান / দেখান বিভিন্ন স্তর (allyচ্ছিকভাবে কোনও দুল ও এতিমকে পথ ধরে লুকিয়ে / মুছে ফেলা) লিখিত হিসাবে আপনার অনুরোধের প্রত্যক্ষভাবে প্রতিক্রিয়া জানাচ্ছেন না, তবে কেন আরও সাধারণ পদ্ধতির অবলম্বন করবেন না এবং এমন একটি হাইব্রিড ক্লাস্টারিং পদ্ধতি ব্যবহার করবেন না যা প্রাথমিক ক্লাস্টারগুলি সনাক্ত করতে প্রাথমিক সেন্ট্রয়েড ব্যবহার করে না, তারপরে সেই ফলাফলটি থেকে সেন্ট্রয়েডগুলি আপনার নতুন বিশ্লেষণে খাওয়ান?
শেলবি

আমি অনুমান করছি যে আপনি কিছু ভাল ফলাফল না পাওয়া পর্যন্ত অনেকগুলি আলাদা কাটফাঁসের চেষ্টা করছেন? মানক একাধিক তুলনার কারণে আমি এড়াতে চাই। পুনরায়: আপনার দ্বিতীয় পরামর্শটি আমি অনুমান করি al অ্যালগরিদমের চেয়ে আমি নিজেকে আরও ভাল বিশ্বাস করি। আমি কম্পিউটার ব্যবহার করে বিপুল পরিমাণে ডেটা প্রক্রিয়া করার জন্য হাতে হাতে করা খুব ক্লান্তিকর, আমার চিন্তাভাবনাটি প্রতিস্থাপনের জন্য নয়।

1
আপনি হাইপোথিসিস পরীক্ষার ভাষাটি ব্যবহার করছেন তবে তবুও আপনি খুব তা অনুসন্ধানের বিষয়ে কথা বলছেন, আপনি যখন দেখবেন-একই সময়ে @ কাছে পৌঁছাবেন - তাই আপনার বিশ্লেষণের এই অংশটির জন্য আপনার লক্ষ্যটি আসলে কী তা পরিষ্কার নয়। আপনি যদি পরে অনুমান করছেন যে অনুমানগুলি (যেমন ক্লাস্টার সদস্যতার পূর্বাভাস দেওয়া বা পূর্বাভাসক হিসাবে ক্লাস্টের সদস্যপদ ব্যবহার করা) তবে আপনি সেখানে এমন পক্ষপাতিত্ব প্ররোচিত করবেন এমন জিনিসগুলি না করার জন্য বেছে নিতে পারেন। তবে "একাধিক তুলনা" সমস্যাগুলি আপনি যে অনুসন্ধানী সমস্যাটি বর্ণনা করছেন তাতে আসলেই ধরা পড়ে না। যেমন কাটঅফগুলি কেবল আপনাকে সেখানে কী আছে তা দেখতে সহায়তা করতে পারে - তবে আপনার বিশ্বাসটি এখনও ভুল জায়গায় স্থান পেতে পারে।
শেলবি

1

ওয়েকা ডেটা মাইনিংয়ের জন্য একটি ওপেন সোর্স প্রোগ্রাম (জাভাতে wirtten এবং এক্সটেনসিবল), কমলা ডেটা মাইনিং এবং মেশিন লার্নিংয়ের জন্য ওপেন সোর্স প্রোগ্রাম এবং গ্রন্থাগার (পাইথনে লিখিত)। তারা উভয়ই বহুমাত্রিক ডেটার সুবিধামত এবং দক্ষ ভিজ্যুয়াল অনুসন্ধানের অনুমতি দেয়


অরেঞ্জের বৈশিষ্ট্যগুলির পৃষ্ঠায় 'আন্ডার কনস্ট্রাকশন' বলা হয়েছে এবং তারা কী করছে আমি এর মতো স্ক্রিনশট তালিকাভুক্ত করে না। ওয়েকার কোনও বৈশিষ্ট্যের তালিকা নেই। তারা আমার যা চাই তা করতে সক্ষম হতে পারে তবে তারা যদি বৈশিষ্ট্যটি প্রচার না করে তবে আমি কীভাবে বলতে পারি। আমি অন্যান্য পছন্দ দ্বারা আরও বিশ্বাসী।

0

ডেটা মেল্ট ফ্রি সংখ্যাসূচক সফ্টওয়্যারটিতে জেমিনহ্যাপ নামে জাভা গ্রন্থাগার অন্তর্ভুক্ত রয়েছে। "ডেটা ক্লাস্টারিং" বিভাগের অধীনে ম্যানুয়ালটি দেখুন। এটি এক্সওয়াইয়ের বহুমাত্রিক ডেটা পয়েন্টগুলি ভিজ্যুয়ালাইজ করতে এবং বেশ কয়েকটি ডেটা ক্লাস্টারিং অ্যালগরিদমগুলি চালানোর জন্য একটি জিইউআই সরবরাহ করে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.