অ-নেতিবাচক ম্যাট্রিক্স ফ্যাক্টেরাইজেশনে সুপ্ত কারণগুলির একটি অনুকূল সংখ্যা কীভাবে চয়ন করবেন?


16

একটি ম্যাট্রিক্স Give দেওয়া , অ-নেতিবাচক ম্যাট্রিক্স ফ্যাক্টরাইজেশন (এনএমএফ) দুটি নন-নেগেটিভ ম্যাট্রিকেস এবং finds ( অর্থাৎ সমস্ত উপাদান সহ with ) এর ফলে পচন মেট্রিক্স উপস্থাপন করুন:Vm×nএইচ কে × এন0Wm×kHk×n0

VWH,

উদাহরণস্বরূপ যে অ-নেতিবাচক এবং পুনর্গঠন ত্রুটি হ্রাস করুন byHV - W H 2WH

VWH2.

সংখ্যা অনুমান করার জন্য সেখানে সাধারণ চর্চা হয় k NMF মধ্যে? উদাহরণস্বরূপ, ক্রস বৈধতা কীভাবে সেই উদ্দেশ্যে ব্যবহার করা যেতে পারে?


আমার কোনও উদ্ধৃতি নেই (এবং আসলে আমি গুগল পণ্ডিতের কাছে একটি দ্রুত অনুসন্ধান করেছি এবং কোনও সন্ধান করতে ব্যর্থ হয়েছি) তবে আমি বিশ্বাস করি যে ক্রস-বৈধকরণ সম্ভব হওয়া উচিত।
অ্যামিবা বলেছেন মনিকাকে

2
আপনি কীভাবে এনএমএফের জন্য ক্রস বৈধতা সম্পাদন করবেন সে সম্পর্কে আরও বিশদ বলতে পারেন? কে সংখ্যা বাড়ার সাথে সাথে ফ্রোনিয়াস নর্মের জন্য K মান সর্বদা হ্রাস পাবে।
স্টিভ সেলার

আপনি কী জন্য এনএমএফ করছেন? এটি কি নিম্ন মাত্রার স্থানে (নিরীক্ষণ করা) উপস্থাপন করা বা এটি প্রস্তাবনাগুলি (তদারকি করা) সরবরাহ করা। আপনার কত বড় ? আপনার বৈকল্পিকের নির্দিষ্ট শতাংশের ব্যাখ্যা দেওয়ার দরকার আছে? আপনি আপনার উদ্দেশ্য মেট্রিক সংজ্ঞায়িত করার পরে সিভি প্রয়োগ করতে পারেন। আমি আপনাকে অ্যাপ্লিকেশনটি ভাবতে এবং এমন একটি মেট্রিক সন্ধান করার জন্য উত্সাহিত করব যা বোঝা যায়। ভিVV
অজানা

উত্তর:


10

অ-নেতিবাচক ম্যাট্রিক্স ফ্যাক্টরীকরণে সুপ্ত কারণগুলির একটি সর্বোত্তম সংখ্যা চয়ন করতে, ক্রস-বৈধকরণ ব্যবহার করুন।

যেমনটি আপনি লিখেছেন, এনএমএফের লক্ষ্য হ'ল পুনর্গঠনের ত্রুটি হ্রাসকারী সমস্ত অ-নেতিবাচক উপাদানগুলির সাথে নিম্ন-মাত্রিক এবং । । কল্পনা করুন যে আমরা এর একটি উপাদান , যেমন , এবং একটি অনুপস্থিত ঘর দিয়ে ফলাফল ম্যাট্রিক্সের এনএমএফ সম্পাদন করি। এর অর্থ all এবং সমস্ত অনুপস্থিত কোষের পুনর্গঠন ত্রুটি হ্রাস করা:WHVWH2VVabWH

ijab(Vij[WH]ij)2.

একবার সম্পন্ন হলে, আমরা উপাদান বাদ পূর্বাভাস দিতে পারি কম্পিউটিং দ্বারা এবং ভবিষ্যদ্বাণী ত্রুটি নিরূপণএকসাথে একবারে সমস্ত উপাদান leaving রেখে এই পদ্ধতিটি পুনরাবৃত্তি করতে পারে এবং সমস্ত এবং পূর্বাভাস ত্রুটিগুলি যোগ করতে পারে । এর ফলে সামগ্রিক প্রেসের মান (বর্গাকার পূর্বাভাসের অবশিষ্টাংশের যোগফল) হবে যা উপর নির্ভর করবে । আশা করি ফাংশন সর্বনিম্ন একটি 'অনুকূল' হিসাবে ব্যবহার করা যেতে পারে ।Vab[WH]ab

eab=(Vab[WH]ab)2.
VababE(k)=abeabkE(k)k

দ্রষ্টব্য যে এটি গণনামূলকভাবে ব্যয়বহুল হতে পারে, কারণ প্রতিটি বাম আউট মানের জন্য এনএমএফকে পুনরাবৃত্তি করতে হবে, এবং এটি প্রোগ্রামে জটিলও হতে পারে (অনুপস্থিত মানগুলির সাথে এনএমএফ সম্পাদন করা কতটা সহজ তার উপর নির্ভর করে)। পিসিএ-তে কেউ এর সম্পূর্ণ সারি (যা গণনাগুলিকে প্রচুর পরিমাণে ত্বরান্বিত করে) ফেলে রেখে এই বিষয়টি জানতে পারে , আমার উত্তরটি দেখুন পিসিএর প্রধান উপাদানগুলির সংখ্যা নির্ধারণের জন্য ক্রস-বৈধতা কীভাবে সম্পাদন করবেন? , তবে এটি এখানে সম্ভব নয়।V

অবশ্যই ক্রস-বৈধকরণের সমস্ত সাধারণ নীতিগুলি এখানে প্রয়োগ হয়, সুতরাং একসাথে একসাথে অনেকগুলি কক্ষ ছেড়ে যেতে পারে এবং / অথবা সমস্ত কোষের লুপিংয়ের পরিবর্তে কেবল কয়েকটি এলোমেলো কোষের পদ্ধতিটি পুনরাবৃত্তি করে। উভয় পদ্ধতির প্রক্রিয়াটি ত্বরান্বিত করতে সহায়তা করতে পারে।

সম্পাদনা (মার্চ 2019): @ অ্যালেক্সওয়িলিয়ামস এর খুব সুন্দর চিত্রিত রচনাটি দেখুন : http://alexhwilliams.info/itsneuronalblog/2018/02/26/crossval । অ্যালেক্স অনুপস্থিত মান সহ এনএমএফ এর জন্য https://github.com/kimjingu/nonnegfac-python ব্যবহার করে।


4

আমার জানা মতে, দুটি ভাল মানদণ্ড রয়েছে: 1) কোপেনেটিক পারস্পরিক সম্পর্ক সহগ এবং 2) র‌্যাঙ্কের একটি সেটের জন্য এলোমেলো উপাত্তের সাথে স্কোয়ারের অবশিষ্ট অংশের তুলনা করা (সম্ভবত এর জন্য কোনও নাম আছে, তবে আমি মনে করি না)

  1. কোফেনেটিক পারস্পরিক সম্পর্ক সহগ: আপনি এনএমএফকে র‌্যাঙ্কের জন্য বেশ কয়েকবার পুনরাবৃত্তি করেন এবং ফলাফলগুলি কতটা সমান হয় তা গণনা করেন। অন্য কথায়, প্রাথমিক বীজ এলোমেলোভাবে দেওয়া, চিহ্নিত গোষ্ঠীগুলি কতটা স্থিতিশীল। কফেনিটিক সহগের ড্রপের আগে সর্বোচ্চ কে বেছে নিন Choose

  2. র্যান্ডমাইজড ডেটার বিরুদ্ধে আরএসএস কোনও মাত্রিকতা হ্রাস পদ্ধতির জন্য, আপনার মূল ডেটার (আরএসএস দ্বারা অনুমান করা) তুলনায় সর্বদা তথ্যের ক্ষতি হয়। এখন কে বাড়ানোর জন্য এনএমএফ করুন এবং আপনার মূল ডেটাसेट এবং একটি এলোমেলোভাবে ডেটাसेट উভয় দিয়ে আরএসএস গণনা করুন। কে এর কার্যকরীতে আরএসএসের তুলনা করার সময়, আরএসএস মূল ডেটাসেটে কে বাড়ানোর সাথে সাথে হ্রাস পায়, তবে এলোমেলোভাবে ডেটাসেটের ক্ষেত্রে এটি কম হয়। উভয় opালু তুলনা করে, একটি কে থাকবে যেখানে তারা ক্রস করবে। অন্য কথায়, গোলমালের মধ্যে থাকার আগে আপনি কতটা তথ্য হারাতে পারেন (= সর্বোচ্চ কে)।

আমি যথেষ্ট পরিষ্কার ছিল আশা করি।

সম্পাদনা: আমি সেই নিবন্ধগুলি পেয়েছি।

1.Jean অনু। ব্রুনেট, পাবলো তমায়ো, টড আর গোলব এবং জিল পি মেসিরভ। ম্যাট্রিক্স ফ্যাক্টেরাইজেশন ব্যবহার করে মেটাজেনস এবং মলিকুলার প্যাটার্ন আবিষ্কার। মার্কিন যুক্তরাষ্ট্রে জাতীয় বিজ্ঞান একাডেমির কার্যক্রমে, 101 (12): 4164-4169, 2004।

২.অতিলা ফ্রিগাইসি এবং ম্যাটিয়াস হোগলুন্ড। জটিল জিন এক্সপ্রেশন ডেটা বিশ্লেষণের জন্য অ-নেতিবাচক ম্যাট্রিক্স ফ্যাক্টেরাইজেশন: ক্লিনিকভাবে প্রাসঙ্গিক টিউমার সাব টাইপগুলির সনাক্তকরণ। ক্যান্সার তথ্য, 6: 275-292, 2008।


এটি পরিষ্কার নয় কেন কেন ছোট যখন র্যান্ডম ডেটা আরএসএস মূল ডেটার সাথে গণনা করা আরএসএসের চেয়ে কম হওয়া উচিত? বাকীগুলির জন্য আমি বুঝতে পারি যে এলোমেলো আরএসএসের মূল ডেটার চেয়ে ধীরে ধীরে হ্রাস হওয়া উচিত।
মালিক কোনé

1

এনএমএফ ফ্যাক্টেরাইজেশনে, প্যারামিটার ( বেশিরভাগ সাহিত্যে উল্লিখিত ) এর সান্নিধ্যের র‌্যাঙ্ক এবং । প্যারামিটারের পছন্দটি এর কলামগুলির সমন্বয়ে একটি অতিরিক্ত-সম্পূর্ণ ভিত্তিতে আপনার ডেটা এর উপস্থাপনা নির্ধারণ করে ; । ফলাফলগুলি হ'ল ম্যাট্রিকের এবং এর র‌্যাঙ্কের ওপরের সীমানা থাকে এবং হ'ল কম র‌্যাঙ্কের সমান ; এছাড়াও সর্বাধিক। সুতরাং পছন্দkrVk<min(m,n)VWwi , i=1,2,,kWHkWHVkk<min(m,n) একটি মাত্রিক হ্রাস হওয়া উচিত যেখানে উপরোক্ত ভিত্তিক ভেক্টরগুলি থেকে উত্পন্ন / স্প্যান করা যায়।V

এস থিওডোরিডিস এবং কে। কাউউট্রোবাবাসের এই বইয়ের 6 ষ্ঠ অধ্যায়ে আরও বিশদ পাওয়া যাবে ।

আপনার এর কম পরে মনোনীত থেকে সম্মান সঙ্গে খরচ ফাংশন এবং এইচ , এর অনুকূল পছন্দ ( প্রায়োগিক মনোনীত দিতে হবে বিভিন্ন বৈশিষ্ট্য উপ-স্পেস সঙ্গে কাজ করে) ভী * , একটি পড়তা ভী আপনার প্রারম্ভিক তথ্য ম্যাট্রিক্স প্রতিনিধি বৈশিষ্ট্য সঙ্গে, ভিWHkVVV

এই অর্থে যে, বিভিন্ন বৈশিষ্ট্য উপ-স্পেস নিয়ে কাজ করা থাকা কলামগুলির সংখ্যার ওয়াট , হয় NMF উপ-স্থান ভিত্তিতে ভেক্টর সংখ্যা। আর প্রায়োগিক বিভিন্ন মান সঙ্গে কাজ বিভিন্ন মাত্রা-হ্রাস বৈশিষ্ট্য শূণ্যস্থান সঙ্গে কাজ করার জন্য শামিল।kWk


4
তবে প্রশ্নটি ছিল কীভাবে অনুকূল বেছে নেবেন ! আপনি কি সম্পর্কে কোন অন্তর্দৃষ্টি প্রদান করতে পারেন? k
অ্যামিবা বলেছেন মনিকা

@amoeba আমি যদি প্রাথমিক প্রশ্ন ভুল ব্যাখ্যা করা, এটা হল "সেখানে আছেন সাধারণ চর্চা সংখ্যা অনুমান করার NMF মধ্যে?"। অনুকূল কে অনুভূতভাবে নির্বাচিত হয় । আমি আমার উত্তর প্রসারিত করেছি। kk
গিলস

2
এনএমএফ ফ্যাক্টেরাইজেশন সম্পর্কে আপনার ব্যাখ্যাটি মোটামুটি বোঝায়, তবে প্রাথমিক প্রশ্নটি বিশেষত কে অনুমান করার জন্য সাধারণ অভ্যাসগুলি সম্পর্কে ছিল। এখন আপনি লিখেছেন যে কেউ "বৈশিষ্ট্যযুক্ত" (ঠিক আছে) "বিভিন্ন বৈশিষ্ট্য উপ-স্পেসে কাজ করে" বেছে নিতে পারেন। আমি নিশ্চিত নই যে আমি "বিভিন্ন বৈশিষ্ট্য উপ-স্পেসের সাথে কাজ করা" এর অর্থ কী তা বুঝতে পেরেছি, আপনি কি এর উপর প্রসারিত করতে পারবেন? তাদের সাথে কীভাবে কাজ করা উচিত ?? কে কে বেছে নেওয়ার রেসিপি কী? এটি প্রশ্নটি সম্পর্কে যা হয় (অন্তত আমি এটি বুঝতে পেরেছিলাম)। আমার ডাউনটোটটি ফিরিয়ে আনতে খুশি হবে!
অ্যামিবা বলেছেন মোনিকা

2
আমি আপনার সম্পাদনার প্রশংসা করি, এবং এত মূর্খ হয়ে যাওয়ার জন্য দুঃখিত sorry তবে আসুন আমি বলি যে আমার কাছে আমার ডেটা রয়েছে এবং আমি [বৌদ্ধিকভাবে] 1 এবং 50 এর মধ্যে বিভিন্ন মান চেষ্টা করি I আমি যেটি সবচেয়ে ভাল কাজ করেছি সেটিকে কীভাবে বেছে নেব? এটিই আমি আসল প্রশ্নটি বুঝতে পারি এবং সে সম্পর্কে আপনার জবাবতে আমি কিছুই খুঁজে পাচ্ছি না। আমি এটি মিস করেছি কিনা দয়া করে আমাকে জানান বা আপনি যদি মনে করেন যে আসল প্রশ্নটি আলাদা ছিল। k
অ্যামিবা বলেছেন মোনিকা

1
k
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.