আর এ ক্লাস্টার বিগ ডেটা কি নমুনা প্রাসঙ্গিক?


13

আমি ডেটা সায়েন্সে নতুন এবং 200,000 সারি এবং আর-এ 50 টি কলাম সহ একটি ডেটা সেটটিতে ক্লাস্টারগুলি খুঁজে পেতে সমস্যা হচ্ছে

যেহেতু ডেটাতে উভয় সংখ্যাসূচক এবং নামমাত্র ভেরিয়েবল রয়েছে, তাই কে-ইনের মতো পদ্ধতিগুলি যা ইউক্লিডিয়ান দূরত্ব পরিমাপ ব্যবহার করে তা উপযুক্ত পছন্দ বলে মনে হয় না। সুতরাং আমি পিএএম, অ্যাগনেস এবং এইচক্লাস্টের দিকে ঘুরলাম যা দূরত্বের ম্যাট্রিক্সকে ইনপুট হিসাবে গ্রহণ করে।

ডেইজি পদ্ধতিটি মিশ্র টাইপের ডেটাতে কাজ করতে পারে তবে দূরত্বের ম্যাট্রিক্সটি খুব বড়: 200,000 গুণ 200,000 2 ^ 31-1 (আর 3.0.0 এর পূর্বে ভেক্টরের দৈর্ঘ্যের সীমা) থেকে অনেক বড়)

গতকাল প্রকাশিত নতুন আর 3.0.0 লম্বা ভেক্টরকে 2 ^ 31-1 এর চেয়ে বেশি দৈর্ঘ্যের ভ্যাক্টর সমর্থন করে। তবে 200,000 দ্বারা 200,000 দ্বারা ডাবল ম্যাট্রিক্সের জন্য 16 গিগাবাইটের চেয়ে বড় অবিচ্ছিন্ন র্যাম প্রয়োজন যা আমার মেশিনে সম্ভব নয়।

আমি সমান্তরাল কম্পিউটিং এবং বিগমেমরি প্যাকেজ সম্পর্কে পড়েছি এবং নিশ্চিত নই যে তারা সাহায্য করবে কিনা: যদি আমি ডেইজি ব্যবহার করি তবে এটি একটি বড় ম্যাট্রিক্স উত্পন্ন করবে যা কোনওভাবেই মেমরির সাথে খাপ খায় না।

স্যাম্পলিং সম্পর্কিত পোস্টটি সম্পর্কেও পড়েছিলাম: 'বড় ডেটা'র সময় নমুনাটি কি প্রাসঙ্গিক?

সুতরাং আমার ক্ষেত্রে, ডেটা সেটটিতে স্যাম্পলিং ব্যবহার করা, নমুনায় ক্লাস্টার এবং তারপরে পুরো ডেটা সেটের কাঠামোটি নির্ধারণ করা কি প্রাসঙ্গিক?

আপনি কি আমাকে কিছু পরামর্শ দিতে পারেন? ধন্যবাদ!

আমার মেশিন সম্পর্কে:

আর সংস্করণ 3.0.0 (2013-04-03)

প্ল্যাটফর্ম: x86_64-w64-mingw32 / x64 (64-বিট)

ওএস: উইন্ডোজ 7 64 বিট

র‌্যাম: 16.0 জিবি


আমি জানি শুধুমাত্র ক্লাস্টারিং পদ্ধতিটি যা বড় ডেটার জন্য (উদাহরণস্বরূপ লক্ষ লক্ষ কেস) এবং নামমাত্র ভেরিয়েবলগুলি গ্রহণ করতে পারে সেই সাথে এসপিএসএসে পাওয়া টুস্টেপ ক্লাস্টার।
ttnphns

উত্তর:


4

O(n3)O(n2)

পিএএম নিজেই একটি সম্পূর্ণ দূরত্বের ম্যাট্রিক্সের প্রয়োজন হবে না, তবে অ্যালগরিদমটি খারাপভাবে স্কেল করার জন্য পরিচিত, কারণ এরপরে সর্বাধিক কেন্দ্রীয় উপাদানগুলি খুঁজে পাওয়ার জন্য প্রতিটি ক্লাস্টারের মধ্যে সমস্ত ক্লাসারের দূরত্বগুলি পুনরায় গণনা করতে হবে (পুনরায়) needs আপনার কাছে প্রচুর সংখ্যক ক্লাস্টার থাকলে এটি অনেক কম, তবে তবুও বেশ ব্যয়বহুল!

O(nlogn)

তবে এই বেশিরভাগ অ্যালগোরিদমের জন্য আপনাকে প্রথমে আপনার দূরত্বের কার্যকারিতাটি ভালভাবে নিশ্চিত করা দরকার; তারপরে আপনার যথাযথ সূচকগুলি ব্যবহার করে প্রশ্নগুলি ত্বরান্বিত করার উপায়গুলি বিবেচনা করা উচিত।

এছাড়াও লক্ষ করুন যে অনেক ক্ষেত্রে - এবং এটি প্যামের পক্ষে ভালভাবে ধারণ করতে পারে - আপনি প্রথমে কোনও নমুনায় অ্যালগরিদম চালাতে পারেন , তারপরে কেবল এটি সম্পূর্ণ ডেটা সেটটিতে পরিমার্জন করুন। যদি আপনার নমুনা প্রতিনিধিত্বমূলক হয়, তবে কে-মেনস এবং পিএএম এর মতো অ্যালগরিদমগুলি আপনাকে সম্পূর্ণ ডেটা সেট হিসাবে একই ফলাফল দেয় give


ওপিকে এখানে সহায়তা করবে না, তবে "মধ্যবর্তী" নমুনা সংখ্যা রয়েছে এমন কেউ যদি উপস্থিত হয়: আর এর জন্য ফাস্টক্লাস্টারও রয়েছে (দেখুন math.stanford.edu/~muellner/fastcluster.html )।
এসবিএল

হাই অ্যানি-মউসে, আপনি কি আমাকে কিছু আলগোরিদিমগুলিতে নির্দেশ করতে পারেন যা সূচক কাঠামোর ত্বরণ ব্যবহার করে? অনেক ধন্যবাদ!

উদাহরণস্বরূপ, ডিবিএসসানকে এমন সূচিগুলি দিয়ে ভালভাবে ত্বরান্বিত করা যেতে পারে যা অ্যাপসিলন রেঞ্জের অনুসন্ধানগুলি সমর্থন করে। সম্ভবত শিফট ক্লাস্টারিংয়ের অর্থও। অপটিকস, যা এই উপায়ে ত্বরান্বিতও করা যেতে পারে, লিংকেজ ক্লাস্টারিংয়ের আরও উন্নত সংস্করণ হিসাবে দেখা যেতে পারে (আপনি এটি "শ্রেণিবিন্যাসের ঘনত্বের লিংকেজ ক্লাস্টারিং" বলতে পারেন)
কিট আছে - অ্যানি-মৌস

2

ক্লাস্টার প্যাকেজ থেকে আরএর জন্য ক্লারা ফাংশনটি ব্যবহার করে দেখুন It এটি আপনার ডেটা সাবমল করে প্যাম-এর মতো অ্যালগরিদম প্রয়োগ করে (নিশ্চিত করুন যে আপনি সাবমেরুপ মাপ সরবরাহ করেছেন যা আপনার ডেটাটির জন্য বোধগম্য কারণ ডিফল্টগুলি উদ্দেশ্যমূলকভাবে খুব ছোট)। এটি বিশেষত ভাল কাজ করে যদি আপনার ডেটাতে মিডিয়োডগুলি মোট উপাত্তের একটি ছোট নমুনা দ্বারা প্রতিনিধিত্ব করতে পারে (যেমন - ডেটাসেটে তুলনামূলকভাবে কম ক্লাস্টার রয়েছে)। এইভাবে আপনি একটি ছোট এলোমেলো নমুনা দিয়ে দক্ষতার সাথে ক্লাস্টার করতে পারেন এবং প্রাক্পম্পিউটেড ক্লাস্টারিং সলিউশনে পয়েন্ট যুক্ত করতে পারেন।

http://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Clustering/CLARA


হাই zzk, উত্তরের জন্য ধন্যবাদ। আমি আগে ক্লারার বিষয়ে পড়েছিলাম তবে মনে হয় এটি কেবল ইউক্লিডিয়ান এবং ম্যানহাটন মেট্রিক সরবরাহ করে। মূল সমস্যাটি হ'ল আমার ডেটাসেটে সংখ্যাসূচক এবং নামমাত্র উভয় ভেরিয়েবল রয়েছে। সুতরাং দূরত্ব পরিমাপের জন্য মেট্রিক দুটিই ব্যবহার করা উপযুক্ত নয়।

হ্যাঁ হ্যাঁ, এটি বর্তমানে আমার জন্যও একটি সীমাবদ্ধতা। আমি বিশ্বাস করি যে পদ্ধতিটি যেকোন স্বেচ্ছাসেবী দূরত্বে করা যেতে পারে, তবে উত্স কোডটি দেখে এখনও এটি পরিবর্তন করা যায় কিনা তা দেখার জন্য আমি বিরক্ত করিনি।
zzk

0

আপনি নিজের গুণগত ভেরিয়েবলের উপর একাধিক চিঠিপত্র বিশ্লেষণও প্রয়োগ করতে পারেন এবং সংখ্যাসূচক পরিবর্তনশীল রূপান্তর করতে পারেন।


2
এটি একটি ভাল ধারণা মত বলে মনে হচ্ছে, তবে এটি একটি সামান্য বিরল হতে পারে। এটি কী তা ব্যাখ্যা করার জন্য আপনি কি কিছুটা এটাকে প্রকাশ করতে পারেন এবং কেন এটি সহায়তা করবে?
গুং - মনিকা পুনরায়
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.