আর এর সাথে মিশ্রিত টাইপের ডেটা ক্লাস্টারিং


19

আমি ভাবছি যে মিশ্রিত ডেটা ভেরিয়েবলযুক্ত ডেটার একটি ক্লাস্টারিংয়ের মাধ্যমে আর সম্পাদন করা সম্ভব কিনা। অন্য কথায় আমার কাছে একটি ডেটা সেট রয়েছে যার মধ্যে সংখ্যাগত এবং শ্রেণীবদ্ধ ভেরিয়েবল উভয়ই থাকে এবং আমি এগুলি ক্লাস্টার করার সর্বোত্তম উপায়টি খুঁজে পেয়েছি। এসপিএসএসে আমি দুই ধাপের ক্লাস্টার ব্যবহার করব। আমি ভাবছি আর-তে কি আমি একই ধরণের কৌশল খুঁজে পেতে পারি কিনা। আমাকে পিএলসিএ প্যাকেজ সম্পর্কে বলা হয়েছিল, তবে আমি নিশ্চিত নই ...


1
নয় SPSS TwoStep বৃহৎ ডেটাসেট পরিচালনা করার জন্য পরিকল্পিত? (আমি এখানে সম্পর্কিত কোনও প্রশ্নের জবাব সরবরাহ করি ।) অন্যথায়, মূল উপাদানগুলির বিশ্লেষণের প্রতি আমার প্রতিক্রিয়া কি ধারাবাহিক এবং শ্রেণিবদ্ধ ভেরিয়েবলের মিশ্রণযুক্ত ডেটাসেটগুলিতে প্রয়োগ করা যেতে পারে? কোন সাহায্য হতে পারে?
সিএল

আর প্যাকেজ ক্লাস্টারের মধ্যে আছে ? ডেইজি যা মিশ্র ডেটার জন্য একটি ভিন্নতা মেট্রিক্স তৈরি করবে (গওয়ারের মিলের সহগ)। তারপরে আপনি ? অগ্নেস বা অন্যান্য ক্লাস্টারিং ফাংশন ব্যবহার করতে পারেন ।
rhonda

1
বাস্তবায়নের সাথে পদ্ধতিটিকে বিভ্রান্ত করবেন না। প্রথমে একটি ক্লাস্টারিং অ্যালগরিদম সন্ধান করুন যা বোধগম্য। তারপরে একটি আর প্যাকেজ সন্ধান করুন যা এটি প্রয়োগ করে।
শ্যাডটলকার

উত্সের মিল ব্যবহার করা যেতে পারে।
ttnphns

@ গুং সম্প্রতি জিজ্ঞাসা করা একটি খুব অনুরূপ প্রশ্ন বন্ধ করেছে। আমাকে বলা হয়েছিল যে আমার প্রশ্নটি বিষয়বস্তু থেকে মুক্ত ছিল কারণ এটি মূলত সফ্টওয়্যার সম্পর্কে। এটি সফ্টওয়্যার সম্পর্কে একইভাবে প্রদর্শিত হবে। আমি এখানে নিয়মগুলি কেন বেআইনীভাবে প্রয়োগ করা হচ্ছে তা জানতে আগ্রহী হব। মনে মনে, আমি মনে করি প্রশ্নটি তথ্যবহুল, তবে নিয়মগুলি নিয়ম হওয়া উচিত।
ওয়েইন এনজি

উত্তর:


8

এটি দেরিতে আসতে পারে তবে ক্লারার চেষ্টা করুন ( http://cran.r-project.org/web/packages/klaR/index.html )

install.packages("klar")

এটি নন-হায়ারারিকিকাল কে-মোডগুলি অ্যালগরিদম ব্যবহার করে, যা দূরত্বের ফাংশন হিসাবে সাধারণ মিলের উপর ভিত্তি করে, তাই x এবং y এর দুটি ডাটা পয়েন্টের একটি চলক মিটারের মধ্যে দূরত্ব byএক্সY

δ(এক্সমি,Yমি)={1এক্সমিYমি,0অন্যভাবে

প্যাকেজের সাথে একটি ত্রুটি রয়েছে, এটি হ'ল যদি দুটি ডাটা পয়েন্টের একটি ক্লাস্টার-সেন্টারের সমান দূরত্ব থাকে, আপনার ডেটা প্রথমটি একটি এলোমেলো পয়েন্টের বিপরীতে বেছে নেওয়া হয়, তবে আপনি কোডের বিটটি সহজেই সংশোধন করতে পারেন।

মিশ্র-পরিবর্তনশীল ক্লাস্টারিংয়ের জন্য উপযুক্ত হতে, আপনাকে সংখ্যাসূচক এবং অ-সংখ্যাীয় মোড এবং ভেরিয়েবলগুলি সনাক্ত করতে কোডে যেতে হবে এবং দূরত্ব ফাংশনটি সংশোধন করতে হবে।


7

: মিশ্র ধরনের ভেরিয়েবল হ্যান্ডলিং আরেকটি মর্মস্পর্শী পথ এলোমেলো বন থেকে proximy / সাদৃশ্য ম্যাট্রিক্স ব্যবহার করা http://cogns.northwestern.edu/cbmg/LiawAndWiener2002.pdf । এটি সমস্ত ভেরিয়েবলকে সমানভাবে চিকিত্সার একীভূত পদ্ধতিতে সহায়তা করে (তবুও, পরিবর্তনশীল নির্বাচন পক্ষপাত বিষয় সম্পর্কে সচেতন হন)। অন্যদিকে, মিশ্র প্রকারের ভেরিয়েবলের জন্য দূরত্ব নির্ধারণের কোনও স্বর্ণের সর্বজনীন উপায় নেই। এটি সমস্ত অ্যাপ্লিকেশন প্রসঙ্গে নির্ভর করে।


4

শ্রেণীবদ্ধ ভেরিয়েবল থেকে অবিচ্ছিন্ন মাত্রা তৈরি করতে আপনি একাধিক চিঠিপত্র বিশ্লেষণ ব্যবহার করতে পারেন এবং তারপরে দ্বিতীয় ধাপে সংখ্যাসূচক ভেরিয়েবলের সাথে এগুলি ব্যবহার করতে পারেন।


1
এমসিএতে আপনি সংখ্যাসূচক পরিবর্তনগুলি কীভাবে আচরণ করবেন? বিচক্ষণতা ব্যবহার করছেন?
chl

এমসিএর এক্সটেনশনগুলি রয়েছে যা অবিচ্ছিন্ন চলকগুলিকে অন্তর্ভুক্ত করতে পারে, উদাহরণস্বরূপ একজাতীয় বিশ্লেষণ হুমালগুলি দেখুন
কেজিটিল বি হালওয়ারসেন

3

ভাল, আপনি অবশ্যই পারেন। শ্রেণীবদ্ধ ভেরিয়েবলগুলি কৃত্রিমভাবে সংখ্যাযুক্ত করে। অথবা একটি দূরত্ব-ম্যাট্রিক্স ভিত্তিক ক্লাস্টারিং ব্যবহার করে (এফপিসি সম্ভবত এটি করতে পারে)। আপনার প্রথমে যে প্রশ্নের উত্তর দেওয়ার চেষ্টা করা উচিত তা হ'ল: আসলে কী তা বোঝা যায়?


3

এসজি=Σআমি=1এনWআমি,,গুলিআমি,,Σআমি=1এনWআমি,,
আমি

Wআমি,,

গুলিআমি,,

  • Wআমি,,

  • মাল্টিস্টেট অক্ষর (নামমাত্র বা অর্ডিনাল): সমতার জন্য 1, অন্য 0 টি (সাধারণ মিলের সহগের সমতুল্য)

  • গুলিআমি,,=1-|এক্সআমি,-এক্সআমি,|আরআমিআরআমিআমি

সম্পর্কে সুন্দর জিনিসএসজি হ'ল এটি কেবল সমস্ত ধরণের ডেটা পরিচালনা করতে পারে না, তবে হারিয়ে যাওয়া ডেটার প্রতিও দৃ is়। এটি ইতিবাচক আধা-নির্দিষ্ট মিলের ম্যাট্রিকগুলিও লাভ করে, অর্থাত্ ওটিইউগুলি ইউক্লিডিয়ান স্পেসের পয়েন্টগুলি দ্বারা প্রতিনিধিত্ব করে (কমপক্ষে খুব বেশি তথ্য না থাকলে)।

1-এসজি


আপনার উত্তরে "চরিত্র" (এবং "কার্ডিনাল চরিত্র") কী কী তা সংজ্ঞায়িত করতে পারেন? এর মাধ্যমে আপনি কী পরিবর্তনশীল / বৈশিষ্ট্য / বৈশিষ্ট্যটি বোঝাতে চান? তদতিরিক্ত, আমি যুক্ত করতে পারি যে উত্পাদনকারীকে নামমাত্র ("মাল্টিস্টেট") হিসাবে বিবেচনা না করেই সাধারন ভেরিয়েবলগুলির জন্য গণনা করা যায়, দেখুন
ttnphns

ক্যারাকটার, পরিবর্তনশীল, বৈশিষ্ট্য সমস্ত প্রতিশব্দ। কার্ডিনাল মানে বিরতি বা যৌক্তিক স্কেল।
এঞ্জেলবার্ট বক্সবাউম

এটি ক্লিয়ার করার জন্য আপনাকে ধন্যবাদ। আমি কেবল জিজ্ঞাসা করেছি কারণ পরিসংখ্যান বা মেশিন লার্নিংয়ে আপনার পরিভাষা আপাতদৃষ্টিতে খুব সাধারণ নয়: "চরিত্র" অস্বাভাবিক, এবং আপনি "কার্ডিনাল" ভেরিয়েবল টাইপটি সাধারণত "স্কেল" ভেরিয়েবল ওরফে "মেট্রিকাল" ভেরিয়েবল হিসাবে পরিচিত, এটি শ্রেণিবদ্ধের বিরোধিতা করে ।
ttnphns

1

শ্রেণীবদ্ধ ভেরিয়েবলের যদি সম্ভব মানগুলি খুব বেশি না হয় তবে আপনি সেই মানগুলির মধ্যে বাইনারি ভেরিয়েবলগুলি তৈরি করার কথা ভাবতে পারেন। আপনি এই বাইনারি ভেরিয়েবলগুলি সংখ্যার ভেরিয়েবল হিসাবে গণ্য করতে পারেন এবং আপনার ক্লাস্টারিং চালাতে পারেন। আমার প্রকল্পের জন্য আমি এটাই করেছি।


1

কে-প্রোটোটাইপস ক্লাস্টারিং এখানে আরও উপযুক্ত হতে পারে। এটি কে-মোড এবং কে-মানেগুলি সংযুক্ত করে এবং মিশ্র সংখ্যাসূচক / শ্রেণিবদ্ধ ডেটা ক্লাস্টার করতে সক্ষম। আর এর জন্য প্যাকেজটি 'ক্লাস্টমিক্সটাইপ' ব্যবহার করুন।

https://cran.r-project.org/web/packages/clustMixType/clustMixType.pdf


0

VarSelLCM প্যাকেজ অফার

মিসিং-টাইপ ডেটা সেট মডেল-ভিত্তিক ক্লাস্টারিংয়ের জন্য ভেরিয়েবল ভ্যালু সহ ভেরিয়েবল নির্বাচন

উপর Cran , এবং আরও বর্ণিত কাগজ

পূর্ববর্তী কয়েকটি পদ্ধতির সুবিধে হ'ল এটি ক্লাস্টারগুলির সংখ্যা বা অনুপস্থিত ডেটা হ্যান্ডলগুলি বেছে নেওয়ার ক্ষেত্রে কিছুটা সহায়তা দেয়। সরবরাহ করা দুর্দান্ত চকচকে অ্যাপ্লিকেশনটিকেও অস্বীকার করা হবে না।

এখানে চিত্র বর্ণনা লিখুন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.