মিশ্র অবিচ্ছিন্ন এবং বাইনারি ভেরিয়েবলের সাথে টি-এসএনই


10

আমি বর্তমানে টি-এসএনই ব্যবহার করে উচ্চ-মাত্রিক ডেটা ভিজ্যুয়ালাইজেশন তদন্ত করছি investigating আমার কাছে মিশ্রিত বাইনারি এবং অবিচ্ছিন্ন ভেরিয়েবলগুলির সাথে কিছু ডেটা রয়েছে এবং বাইনারি ডেটা খুব সহজেই ক্লাস্টার হিসাবে উপস্থিত হয়। অবশ্যই এটি পরিমিত (0 এবং 1 এর মধ্যে) ডেটার জন্য প্রত্যাশিত: ইউক্যালিডিয়ান দূরত্ব বাইনারি ভেরিয়েবলগুলির মধ্যে সর্বদা সর্বকালের / সর্বকনিষ্ঠ হবে। কীভাবে টি-এসএনই ব্যবহার করে মিশ্র বাইনারি / অবিচ্ছিন্ন ডেটাসেটগুলি ব্যবহার করা উচিত? আমাদের কি বাইনারি কলামগুলি বাদ দেওয়া উচিত? এটি কি অন্যরকম metricআমরা ব্যবহার করতে পারি?

উদাহরণ হিসাবে এই অজগর কোডটি বিবেচনা করুন:

x1 = np.random.rand(200)
x2 = np.random.rand(200)
x3 = np.r_[np.ones(100), np.zeros(100)]

X = np.c_[x1, x2, x3]

# plot of the original data
plt.scatter(x1, x2, c=x3)
# … format graph

সুতরাং আমার কাঁচা তথ্য হ'ল:

মূল তথ্য

যেখানে রঙটি তৃতীয় বৈশিষ্ট্যের (x3) এর মান - 3 ডি তে ডেটা পয়েন্ট দুটি প্লেনে (x3 = 0 বিমান এবং x3 = 1 বিমান) থাকে।

আমি তখন টি এসএনই সম্পাদন করি:

tsne = TSNE() # sci-kit learn implementation
X_transformed = StandardScaler().fit_transform(X)
tsne = TSNE(n_components=2, perplexity=5)
X_embedded = tsne.fit_transform(X_transformed)

ফলাফলের প্লট সহ:

tsne_data

এবং ডেটা অবশ্যই x3 দ্বারা ক্লাস্টার করা হয়েছে। আমার অন্ত্রের প্রবৃত্তিটি হ'ল বাইনারি বৈশিষ্ট্যগুলির জন্য দূরত্বের মেট্রিকটি সঠিকভাবে সংজ্ঞায়িত না হওয়ায় কোনও টি-এসএনই করার আগে আমাদের এগুলি ফেলে দেওয়া উচিত, যা লজ্জার বিষয় কারণ এই বৈশিষ্ট্যগুলি ক্লাস্টারগুলি উত্পন্ন করার জন্য দরকারী তথ্য থাকতে পারে।


1
দ্রষ্টব্য: আমি এখনও এই বিষয়ে এবং এই জায়গাতে ইউএমএপি প্রয়োগের বিষয়ে মন্তব্য শুনতে আগ্রহী।
এফসিএইচএম

অনুগ্রহের জন্য ধন্যবাদ, আবার আগ্রহী কিন্তু এটিকে ন্যায্য হতে সন্ধানে বেশি সময় ব্যয় করেনি। কিছু প্রাথমিক গবেষণা করার জন্য আমার আজ কিছুটা সময় থাকতে পারে এবং প্রযোজ্য হলে আপডেটগুলি যোগ করব।
এফসিএইচএম

2
অনুশীলনে আমি এই সমস্যার মুখোমুখি হয়েছি। আমি মনে করি এটি টিএসএনই-তে নির্দিষ্ট নয়, তবে দূরত্ব-ভিত্তিক আনসারভিজড লার্নিং অ্যালগরিদমকে (ক্লাস্টারিং সহ) সমানভাবে প্রভাবিত করবে। আমি আরও মনে করি যে উপযুক্ত সমাধানটি বাইনারি বৈশিষ্ট্যগুলি কী উপস্থাপন করে এবং কতটা বিশেষজ্ঞ সেগুলি কতটা গুরুত্বপূর্ণ তার উপর নির্ভর করে strongly সুতরাং আমি একটি উত্তর খুঁজছি যা বিভিন্ন সম্ভাব্য পরিস্থিতি নিয়ে আলোচনা করবে। আমি নিশ্চিত যে এখানে কোনও আকারের-ফিট-সব সমাধান নেই।
অ্যামিবা 24'19

উত্তর:


8

দাবি অস্বীকার: আমি কেবলমাত্র এই বিষয়ে স্পর্শকাতর জ্ঞান পেয়েছি, তবে যেহেতু অন্য কারও উত্তর নেই, আমি এটিকে চেষ্টা করব

দূরত্ব গুরুত্বপূর্ণ

দূরত্বগুলির উপর ভিত্তি করে যে কোনও মাত্রিক হ্রাস কৌশল (টিএসএনই, ইউএমএপি, এমডিএস, পিসিওএ এবং সম্ভবত অন্যরা) আপনি যে দূরত্বের মেট্রিক ব্যবহার করেন ঠিক ততটাই উত্তম। @ অ্যামিবা সঠিকভাবে উল্লেখ করেছেন যে, এক-আকারের-ফিটস-সব সমাধান হতে পারে না, আপনার কাছে একটি দূরত্বের মেট্রিক থাকতে হবে যা আপনাকে ডেটাতে গুরুত্বপূর্ণ বলে মনে করে, যেমন সারিগুলির মধ্যে আপনি সামান্য দূরত্ব এবং সারিগুলি দেখতে চাইবেন বিভিন্ন বিবেচনা করুন বড় দূরত্ব আছে।

আপনি কীভাবে একটি ভাল দূরত্বের মেট্রিক চয়ন করেন? প্রথমে আমাকে কিছুটা ডাইভারশন করতে দিন:

অর্ডিনেশন

আধুনিক মেশিন লার্নিংয়ের গৌরবময় দিনগুলির আগে, সম্প্রদায় বাস্তুবিদগণ (এবং সম্ভবত অন্যরাও) বহুমাত্রিক তথ্যের অনুসন্ধান বিশ্লেষণের জন্য দুর্দান্ত প্লট তৈরি করার চেষ্টা করেছেন। তারা প্রক্রিয়া অর্ডিনেশন বলে এবং এটি বাস্তুশাস্ত্রের সাহিত্যে অনুসন্ধান করার জন্য একটি দরকারী কীওয়ার্ড যা কমপক্ষে 70 এর দশকে ফিরে এসেছিল এবং আজও শক্তিশালী হচ্ছে।

গুরুত্বপূর্ণ বিষয়টি হ'ল বাস্তুবিদগণের কাছে খুব বিচিত্র ডেটাসেট রয়েছে এবং বাইনারি, পূর্ণসংখ্যা এবং আসল-মূল্যবান বৈশিষ্ট্যগুলির মিশ্রণগুলি (যেমন প্রজাতির উপস্থিতি / অনুপস্থিতি, পর্যবেক্ষণকৃত নমুনার সংখ্যা, পিএইচ, তাপমাত্রা) নিয়ে কাজ করেন। অর্ডিনেশনগুলি ভালভাবে কাজ করতে তারা দূরত্ব এবং রূপান্তরের বিষয়ে চিন্তা করে অনেক সময় ব্যয় করেছে। আমি ক্ষেত্রটি খুব ভালভাবে বুঝতে পারি না, তবে উদাহরণস্বরূপ লেজেন্ড্রে এবং ডি ক্যাসেরেস বিটার বিভিন্নতা হিসাবে সম্প্রদায়ের তথ্যের বৈচিত্র হিসাবে পর্যালোচনা: ভিন্নতাগ্রহীকরণ এবং বিভাজনগুলি সম্ভাব্য দূরত্বগুলির অপ্রতিরোধ্য সংখ্যা দেখায় যা আপনি খুঁজে বের করতে চাইতে পারেন।

বহুমাত্রিক স্কেলিং

অর্ডিনেশনের গো-টু টুলটি বহুমাত্রিক স্কেলিং (এমডিএস), বিশেষত নন-মেট্রিক বৈকল্পিক (এনএমডিএস) যা আপনাকে টি-এসএনই ছাড়াও চেষ্টা করতে উত্সাহিত করি try পাইথন ওয়ার্ল্ড সম্পর্কে আমি জানি না, তবে প্যাকেজটির metaMDSকার্যকারী আর বাস্তবায়ন veganআপনার জন্য প্রচুর কৌশল অবলম্বন করে (যেমন একাধিক রান চালানো যতক্ষণ না এটি দুটি মিল খুঁজে না পেয়েছে)।

এটি বিতর্কিত হয়েছে, মন্তব্যগুলি দেখুন: এমডিএস সম্পর্কে দুর্দান্ত অংশটি হ'ল এটি বৈশিষ্ট্যগুলি (কলাম) প্রজেক্ট করে, যাতে আপনি দেখতে পারেন কোন বৈশিষ্ট্যগুলি মাত্রা হ্রাসকে চালিত করে। এটি আপনাকে আপনার ডেটা ব্যাখ্যা করতে সহায়তা করে।

মনে রাখবেন যে টি-এসএনই সমালোচনা করা হয়েছে বোঝার অনুগ্রহ করার উপায় হিসাবে দেখুন যেমন এর ক্ষয়ক্ষতিগুলি সম্পর্কে অনুসন্ধান - আমি শুনেছি ইউএমএপ কিছু সমস্যা সমাধান করে, তবে ইউএমএপি নিয়ে আমার কোনও অভিজ্ঞতা নেই। বাস্তুবিদরা এনএমডিএসকে সংস্কৃতি এবং জড়তা বলে যে কারণ ব্যবহার করেন তার একটি অংশও আমি সন্দেহ করি না, সম্ভবত ইউএমএপি বা টি-এসএনই আসলে আরও ভাল। আমি সত্যই জানি না।

আপনার নিজস্ব দূরত্ব ঘূর্ণায়মান

আপনি যদি আপনার ডেটার কাঠামো বুঝতে পারেন তবে প্রস্তুত দূরত্ব এবং রূপান্তরগুলি আপনার পক্ষে সেরা নাও হতে পারে এবং আপনি একটি কাস্টম দূরত্বের মেট্রিক তৈরি করতে চাইতে পারেন। আপনার ডেটা কী উপস্থাপন করে তা আমি জানি না, তবে বাস্তব-মূল্যবান ভেরিয়েবলগুলির জন্য পৃথকভাবে দূরত্ব গণনা করা বুদ্ধিমান হতে পারে (উদাহরণস্বরূপ ইউক্লিডিয়ান দূরত্ব ব্যবহার করা যদি এটি বোধ হয়) এবং বাইনারি ভেরিয়েবলগুলির জন্য এবং সেগুলি যুক্ত করুন। বাইনারি ডেটার জন্য সাধারণ দূরত্বগুলি উদাহরণস্বরূপ জ্যাকার্ড দূরত্ব বা কোসিন দূরত্ব । জ্যাকার্ড এবং কোসিন উভয়ের মান রয়েছে বলেই আপনাকে দূরত্বগুলির জন্য কিছু গুণক সহগ সম্পর্কে চিন্তা করতে হবে[0,1] ইউক্লিডিয়ান দূরত্বের পরিমাণের বৈশিষ্ট্যগুলির সংখ্যা প্রতিফলিত করার সাথে সাথে বৈশিষ্ট্যগুলির সংখ্যা নির্বিশেষে।

সাবধানতা একটি শব্দ

যতক্ষণ আপনার মনে রাখা উচিত যেহেতু আপনার কাছে সুর দেওয়ার মতো অনেকগুলি কড়াকড়ি রয়েছে তাই আপনি যা দেখতে চেয়েছিলেন তা না দেখে আপনি সহজেই সুরের ফাঁদে পড়তে পারেন। অনুসন্ধান বিশ্লেষণে এটি সম্পূর্ণ এড়ানো কঠিন, তবে আপনার সতর্ক হওয়া উচিত।


1
+1 টি। এখানে অনেক ভাল পয়েন্ট এবং আমি পুরানো "অধ্যাদেশ" সাহিত্যের উল্লেখগুলি পছন্দ করি। একটি বিষয় যা আমার দৃষ্টি আকর্ষণ করেছে: "এমডিএস সম্পর্কে দুর্দান্ত অংশটি হ'ল এটি বৈশিষ্ট্যগুলি (কলামগুলি) প্রজেক্ট করে, যাতে আপনি দেখতে পারেন কোন বৈশিষ্ট্যগুলি মাত্রা হ্রাসকে চালিত করে" - আপনি কি সে সম্পর্কে নিশ্চিত? এটি সত্য নয়, যতদূর আমি বুঝতে পারি; কমপক্ষে এটি টি-এসএনইয়ের চেয়ে এমডিএসের পক্ষে বেশি সত্য নয়।
অ্যামিবা

@ মোয়েবা এখানেই আমার সীমিত জ্ঞান চলে আসে :-) আমি কেবল জানি যে metaMDSনমুনা এবং বৈশিষ্ট্য উভয়ই প্লট করার জন্য ডিফল্ট প্লট করার পদ্ধতিটি দেখুন (উদাহরণস্বরূপ এই চিত্রটি দেখুন: cran.r-project.org/web/packages/vegan/vignettes/ ইন্ট্রো-Vegan.pdf )
মার্টিন Modr Modk

আপনার উত্তর এবং অন্তর্দৃষ্টি জন্য ধন্যবাদ। আমি এখন ইউএমএপি-তে আরও বেশি মনোনিবেশ করছি এবং আমি মনে করি জ্যাকার্ড দূরত্বের মতো কিছু মিলের পরিমাপের সংজ্ঞা দিচ্ছি সম্ভবত মিশ্র পরিবর্তনশীল প্রকারের মোকাবেলার জন্য একটি ভাল উপায়। আমি এমডিএস ব্যবহার করি নি, তবে এটি সম্পর্কে সচেতন। এটি কার্যকর হলে আমাকে কিছুটা সময় ব্যয় করতে হবে।
এফসিএইচএম

1
@ মার্টিনমড্রাক আমি জানি veganনা সেখানে প্যাকেজটি কী করছে, তবে এমডিএস / এনএমডিএস একটি ননলাইনার এবং ননপ্যারমেট্রিক পদ্ধতি (ঠিক টি-এসএনই হিসাবে), এবং এমডিএসের মাত্রাগুলির সাথে মূল বৈশিষ্ট্যগুলি মেলাতে কোনও "অভ্যন্তরীণ" উপায় নেই। আমি কল্পনা করতে পারি যে তারা মূল বৈশিষ্ট্য এবং এমডিএস মাত্রার মধ্যে পারস্পরিক সম্পর্ককে গণনা করছে; যদি তা হয় তবে এটি টি-এসএনই সহ যে কোনও এম্বেডিংয়ের জন্য করা যেতে পারে। সঠিকভাবে কি করে তা জানতে আকর্ষণীয় হবে vegan
অ্যামিবা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.