কোনও অসামান্যতা পরিমাপের জন্য ওজন কীভাবে সন্ধান করতে হয়


9

আমি ক্লাস্টারিংয়ের জন্য যে আমার ভিন্নতা মাপতে ব্যবহার করতে পারি তার জন্য বিশদ ওজন শিখতে (অনুদান) শিখতে চাই।

আমার কাছে কয়েকটি উদাহরণ যা "একই" (একই ক্লাস্টারের মধ্যে হওয়া উচিত) এবং একই সাথে কয়েকটি জিনিস যা "অনুরূপ নয়" হওয়া উচিত নয়) একই ক্লাস্টারে থাকা)। প্রতিটি বস্তুর বিভিন্ন বৈশিষ্ট্য রয়েছে: আপনি যদি পছন্দ করেন তবে আমরা প্রতিটি বস্তুর বৈশিষ্ট্যগুলির একটি ডাইমেনশনাল ভেক্টর হিসাবে ভাবতে পারি , যেখানে প্রতিটি বৈশিষ্ট্য একটি অ-নেতিবাচক পূর্ণসংখ্যার হয়। বৈসাদৃশ্য পরিমাপের জন্য অনুকূল বৈশিষ্ট্য ওজনগুলি অনুমান করার জন্য কি অনুরূপ / বিচ্ছিন্ন বস্তুর উদাহরণ ব্যবহার করার কৌশল রয়েছে?(একটিআমি,আমি)(আমি,আমি)

এটির সাহায্যে যদি, আমার প্রয়োগে, সম্ভবত একটি ভারী এল 2 আদর্শ যা একটি ভিন্নতা পরিমাপ শেখার উপর ফোকাস করা যুক্তিসঙ্গত হবে:

(এক্স,Y)=Σα(এক্স[]-Y[])2

যেখানে ওজন জানা যায় না এবং শিখতে হবে। (বা, কিছু ধরণের ওয়েটেড কোসিনের মিলের পরিমাপটিও যুক্তিসঙ্গত হতে পারে)) , এই জাতীয় পরিমাপের জন্য ওজন জন্য কি কোনও ভাল অ্যালগরিদম রয়েছে ? বা আমার সাথে বিবেচনা করা উচিত এমন একটি মিল পরিমাপ / ভিন্নতা পরিমাপ শেখার জন্য অন্য কোনও পদ্ধতি আছে?αα

মাত্রার সংখ্যা দুর্ভাগ্যক্রমে খুব বড় (হাজার বা ততোধিক; এটি শব্দ-ব্যাগের বৈশিষ্ট্য থেকে উদ্ভূত) from তবে, আমার কাছে কয়েক হাজার উদাহরণ রয়েছে। আমার তখন কয়েক হাজার বস্তু রয়েছে যা আমি ক্লাস্টার করতে চাই, সুতরাং একটি ভাল ভিন্নতা মেট্রিক শেখার জন্য উদাহরণগুলি থেকে সাধারণকরণ করা গুরুত্বপূর্ণ।

আমি একত্রিত হয়েছি যে এটি আধা-তত্ত্বাবধানে থাকা ক্লাস্টারিংয়ের রুব্রিকের মধ্যে পড়ে এবং এটি মনে হয় এটি "মিল-অভিযোজক" শিরা হতে পারে তবে আমি এই উদ্দেশ্যে ব্যবহার করার জন্য অ্যালগরিদমের স্পষ্ট বিবরণ খুঁজে পাইনি।


খুব আকর্ষণীয় সমস্যা। যদি আমি আপনার সমস্যাটি ঠিকভাবে পাই তবে আপনাকে মূলত খালি ম্যাট্রিক্স দেওয়া হবে যার উপাদানগুলি জোড়াযুক্ত মিল বা ভিন্নতা এনকোডিং করে। কিছু উপাদান পূরণ করা হলেও বেশিরভাগ অনুপস্থিত। আমি প্রথমে সেই ম্যাট্রিক্সটি পূরণ করার চেষ্টা করব (উদাহরণস্বরূপ নিম্ন-স্তরের অনুমান ব্যবহার করে)।
ভ্লাদিস্লাভস ডভগ্লেলেকস

@ এক্সিয়ন, এটি একটি পদ্ধতির হবে তবে এটি বৈশিষ্ট্যগুলি উপেক্ষা করে। আমার হাইপোথিসিসটি হ'ল কিছু বৈশিষ্ট্যগুলি অত্যন্ত প্রাসঙ্গিক এবং কিছু বৈশিষ্ট্য প্রাসঙ্গিক নয় এবং প্রাসঙ্গিক বৈশিষ্ট্যের পার্থক্যটি দেখানো যুক্তিসঙ্গত ভিন্নতা মেট্রিক দেয় - তবে কীভাবে আমরা সেই মেট্রিকটি আবিষ্কার করব? আপনি যেমন কাঠামোটিকে উপেক্ষা করার পরামর্শ দিচ্ছেন ঠিক তেমনই ম্যাট্রিক্সটি সম্পূর্ণ করার চেষ্টা করছেন এবং সুতরাং আমাদের যে ডেটা রয়েছে তার পুরো সুবিধা গ্রহণ করবেন না।
DW

আপনার চূড়ান্ত লক্ষ্য কি? শুধু দূরত্বের মেট্রিক শিখাই নয়, তাই না? আপনি ডেটা পয়েন্টগুলি শ্রেণীবদ্ধ করতে চান, আপনি না?
ভ্লাদিস্লাভস ডভগ্লেলেকস

1
এমন কিছু জিনিস রয়েছে যা আমি মনে করি আপনি খুব স্পষ্ট করে ব্যাখ্যা করেছেন না। উদাহরণস্বরূপ জোড়ার পুরো সেটটি কি সম্পূর্ণ বাইনারি (1 = অনুরূপ; 0 = ভিন্নতা) তৈরি করে ম্যাট্রিক্স বা কিছু কোষের তথ্য অনুপস্থিত? ম্যাট্রিক্সটি কি "ননকন্ট্র্যাডিক্টরি" - অর্থাৎ উদাহরণটি ননওভারল্যাপিং ক্লাসগুলিতে বিভক্ত হয়ে যায়? এছাড়াও, নোট করুন যে কোনও শিক্ষণ পদ্ধতি আপনাকে মাপের ধরণের পরামর্শ দিতে (বা ব্যবহার করতে হবে) উদাহরণ দিতে পারে না (যেমন এটি এল 2 বা এল 1 আদর্শ হতে পারে) কারণ এ জাতীয় পছন্দ তাত্ত্বিক (এটি বৈশিষ্ট্যের ধরণের উপর নির্ভর করে, বৈশিষ্ট্যের ধারণাটি) স্থান, ক্লাস্টারিংয়ের পদ্ধতি আপনি তখন ব্যবহার করতে যাবেন)।
ttnphns

এই খুবই বিস্তৃত যুক্তিসঙ্গতভাবে উত্তর এখানে দেওয়া হবে। ওজন, নির্বাচন এবং দূরত্ব ফাংশন শেখার ক্ষেত্রে উভয়কেই উত্সর্গীকৃত প্রচুর পরিমাণে সাহিত্য রয়েছে। আমি মনে করি আমি এমনকি মিল বা শিখতে একটি সম্মেলন দেখেছি!
কিট আছে - অ্যানি-মৌসে

উত্তর:


6

মেশিন লার্নিংয়ের কিছু ক্ষেত্রে এটি একটি বড় সমস্যা। আমি যেমন চাই তার সাথে তেমন পরিচিত নই, তবে আমার মনে হয় এগুলি আপনার শুরু করা উচিত।

আপনার ডেটাটি এত উচ্চ-মাত্রিক (এবং সম্ভবত বিচ্ছিন্ন?) প্রদানের কারণে আপনার খুব অ-লাইনর কিছু প্রয়োজন নেই। হয়তো আশেপাশের উপাদান বিশ্লেষণ শুরু করার সেরা জায়গা? এটি একটি ওজনযুক্ত ধারণা সবচেয়ে নিকটতমএল2 আদর্শ, যেমন আপনি আপনার প্রশ্নের পরামর্শ দিয়েছেন।


হ্যাঁ, তথ্য বিরল। এটি অত্যন্ত সহায়ক বলে মনে হচ্ছে, আপনাকে ধন্যবাদ thank ম্যাট্রিক্স যেখানে প্রতিবেশী উপাদান বিশ্লেষণের বৈকল্পিক আছে?প্রশ্নঃ তির্যক (সমতুল্য) হিসাবে সীমাবদ্ধ একজনতির্যক)? (দেখে মনে হচ্ছে এটি আমার প্রশ্নে উল্লিখিত ভিন্নতা ব্যবস্থার শ্রেণির সাথে সামঞ্জস্য হতে পারে))
ডিডাব্লু

আপনি কেন এই সীমাবদ্ধতাটি অন্তর্ভুক্ত করতে পারেন তা আমি দেখতে পাচ্ছি না। যদিও আমি নিশ্চিত না যে ফলস্বরূপ মডেলের একটি নাম রয়েছে কিনা।
ডেভিড জে হ্যারিস

1

একটি রাখা একটিআমিআপনার মিলের পরিমাপের কোনও বৈশিষ্ট্যের ওজন সমান তাই আপনার দ্বারা নির্ধারিত ডেটা স্কেলিং1/Wআমি

অন্য কথায়, আপনি ডেটা প্রিপ্রোসেসিং এবং স্কেলিং সম্পর্কে জিজ্ঞাসা করছেন। এটি একটি প্রশ্নে ভাল উত্তর দেওয়া খুব বিস্তৃত। খোঁজা:

  • বৈশিষ্ট্য নির্বাচন
  • বৈশিষ্ট্য ওজন
  • নিয়মমাফিককরণ
  • মাত্রা হ্রাস
  • অন্যান্য অভিক্ষেপ কৌশল
  • অন্যান্য দূরত্ব ফাংশন
  • "র‌্যাঙ্ক করা শিখছি"

এটিতে নিবেদিত প্রচুর পরিমাণে সাহিত্য এবং সম্মেলনের ট্র্যাক রয়েছে। আপনাকে শুরু করার জন্য কয়েকটি পদ্ধতি:

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.