এমএলই এর অর্থ কি সর্বদা আমরা আমাদের ডেটাগুলির অন্তর্নিহিত পিডিএফ জানি এবং ইএম এর অর্থ আমরা কী না?


12

আমার কিছু সাধারণ ধারণাগত প্রশ্ন রয়েছে যা আমি এমএলই (সর্বাধিক সম্ভাবনার প্রাক্কলন) সম্পর্কিত এবং ইএম (প্রত্যাশা সর্বাধিকতা) এর সাথে কোনও যোগসূত্র আছে কিনা তা স্পষ্ট করতে চাই।

আমি এটি যেমন বুঝতে পেরেছি, যদি কেউ "আমরা এমএলই ব্যবহার করি" বলে থাকে তবে তার অর্থ কি স্বয়ংক্রিয়ভাবে তাদের ডেটার পিডিএফের একটি স্পষ্ট মডেল রয়েছে? আমার কাছে মনে হয় এর উত্তর হ্যাঁ। অন্য একটি উপায় রাখুন, যদি কোনও সময়ে কেউ "এমএলই" বলে, তারা কোন পিডিএফটি ধরেছে তা তাদের জিজ্ঞাসা করা উপযুক্ত। এটা কি সঠিক হবে?

শেষ অবধি, EM- এ, আমার বোধগম্যতা হল যে EM তে আমরা আসলে আমাদের ডেটার অন্তর্নিহিত পিডিএফটি জানি না - বা জানা দরকার need এটা আমার বোঝাপড়া।

ধন্যবাদ.


1
EM এর "এম" মানে সর্বাধিকীকরণের ... সম্ভাবনার। একটি সম্ভাবনা লিখতে আমাদের একটি পিডিএফ প্রয়োজন। EM কিছুটা অর্থে 'অপ্রয়োজনীয়'র উপস্থিতিতে এমএলইগুলি সন্ধান করার একটি উপায় (যা ই-পদক্ষেপে পূরণ করা হয়)। অর্থাৎ, ইএম ব্যবহার করতে আপনার একটি স্পষ্ট মডেল প্রয়োজন।
গ্লেন_বি -রিনস্টেট মনিকা

@ গ্লেন_বি ধন্যবাদ গ্লেব_ বি। সুতরাং, 1) এটি বলা কি সঠিক হবে, যে এমএম-তে, আমরা সর্বদা ডেটা পিডিএফটির কিছু মডেল ধরে নিয়েছি "? এর অর্থ কেউ যদি" ​​আমরা এমএলই / ইএম ব্যবহার করি "বলে, আমরা মোটামুটি জিজ্ঞাসা করতে পারি," কি? । PDF গুলি আপনি অনুমান করবে "এই একটি সঠিক মূল্যায়ন হতে করেনি 2) সর্বশেষে, ই.এম. শুভেচ্ছা, আমি বিশ্বাস করি unobservables আপনি উল্লেখ করা হয় মিশ্রণ, সঠিক অগ্রিম ধন্যবাদ অভাবপূরণ বিশেষ PDF এর সম্ভাব্যতা কি?।
Creatron

নোট-প্যারামেট্রিক সর্বাধিক সম্ভাবনা পদ্ধতি রয়েছে তা নোট করুন। কাপ্লান-মেয়ের দিকে তাকান।
soakley

ক্রিয়েট্রন - অন (1) মনে রাখবেন যে এমএমইগুলি গণনা করার জন্য ইএম একটি অ্যালগরিদম যা অন্যথায় মোকাবেলা করা কঠিন হবে। উভয় ক্ষেত্রেই, আমি কিছুটা সাধারণ প্রশ্ন জিজ্ঞাসা করব 'আপনার মডেলটি কী ছিল?', যেহেতু মডেলটি কোনও একক পিডিএফের চেয়ে জটিল হতে পারে possible (2) ইএম অ্যালগরিদম শুধুমাত্র মিশ্রণগুলিতে প্রয়োগ হয় না; এটি তার চেয়ে বেশি সাধারণ।
গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:


13

এমডিএই পদ্ধতিটি এমন ক্ষেত্রে প্রয়োগ করা যেতে পারে যেখানে কেউ পিডিএফের মূল কার্যকরী ফর্মটি জানেন (যেমন, এটি গাউসিয়ান, বা লগ-নরমাল, বা ক্ষতিকারক, বা যা কিছু) তবে অন্তর্নিহিত পরামিতিগুলি নয়; উদাহরণস্বরূপ, তারা পিডিএফ-এ এবং মানগুলি জানে না : বা অন্য যে কোনও ধরণের পিডিএফ তারা ধরে নিচ্ছে। এমএলই পদ্ধতির কাজ হ'ল যা প্রকৃতপক্ষে পর্যবেক্ষণ করা হয়েছিল নির্দিষ্ট তথ্য পরিমাপের অজানা প্যারামিটারগুলির জন্য সেরা (অর্থাত্ সবচেয়ে প্রশংসনীয়) মানগুলি । সুতরাং আপনার প্রথম প্রশ্নের উত্তর দিতে, হ্যাঁ, কাউকে কী জিজ্ঞাসা করার জন্য আপনি সর্বদা আপনার অধিকারের মধ্যে থাকেনσ f ( x | μ , σ)μσএক্স1,x এর2,x3,

f(x|μ,σ)=12πσ2exp[(xμ)22σ2]
x1,x2,x3,...তারা সর্বাধিক সম্ভাবনার প্রাক্কলনের জন্য ধরে নিচ্ছে পিডিএফের ফর্ম ; প্রকৃতপক্ষে, অনুমানিত প্যারামিটার মানগুলি যা তারা আপনাকে বলে সেগুলি ইতিমধ্যে সেই প্রসঙ্গে যোগাযোগ না করা অবধি অর্থবহ নয়।

ইএম অ্যালগরিদম যেমনটি আমি অতীতে প্রয়োগ করতে দেখেছি তা হ'ল এক ধরণের মেটা অ্যালগরিদম, যেখানে কিছু মেটাডাটা অনুপস্থিত এবং আপনারও এটি অনুমান করতে হবে। সুতরাং, উদাহরণস্বরূপ, সম্ভবত আমার কাছে একটি পিডিএফ রয়েছে যা বেশ কয়েকটি গৌসিয়ানদের মিশ্রণ, যেমন: অতিমাত্রায় বাদে প্রশস্ততা প্যারামিটার of যোগ করা, এটি অনেকটা আগের সমস্যার মতো দেখায়, তবে যদি আমি আপনাকে বলি যে আমরা এমনকি এর মানও জানি না (যেমন, গাউসিয়ান মিশ্রণের মোডের সংখ্যা) এবং আমরা ডেটা পরিমাপ থেকে অনুমান করতে চাইকেএন

f(x|A1,...,AN,μ1,...,μN,σ1,...σN)=k=1NAk2πσk2exp[(xμk)22σk2]
AkNx1,x2,x3,... বাড়ছে কি?

এই ক্ষেত্রে, আপনার একটি সমস্যা আছে, কারণ প্রতিটি সম্ভাব্য মান (এটি "মেটা" অংশ যা আমি উপরের দিকে ইঙ্গিত করছিলাম) সত্যিই কিছুটা ভিন্ন ভিন্ন মডেল উত্পন্ন করে। যদি , তবে আপনার তিনটি পরামিতি ( , , ) সহ একটি মডেল রয়েছে যখন , তবে আপনার ছয়টি পরামিতি ( সহ একটি মডেল রয়েছে , , , , , )। আপনি যে সেরা ফিট মানসমূহ ( , , ) এর জন্য পানএন = 1 1 μ 1 σ 1 এন = 2 12 2 μ 1 μ 2 σ 1 σ 21 μ 1 σNN=1A1μ1σ1N=2A1A2μ1μ2σ1σ2A1μ1 এন=1এন=2σ1N=1 মডেলের সরাসরি তুলনা করা যায় না যে আপনি মডেলের সেই একই পরামিতিগুলির জন্য প্রাপ্ত সেরা ফিট মানগুলির সাথে তুলনা করতে পারেন , কারণ তারা স্বাধীনতার বিভিন্ন সংখ্যক ডিগ্রি সহ বিভিন্ন মডেল ।N=2

EM অ্যালগরিদমের ভূমিকা হ'ল এই ধরণের তুলনা করার জন্য একটি পদ্ধতি সরবরাহ করা (সাধারণত একটি "জটিলতার জরিমানা চাপিয়ে " যা ছোট মানকে পছন্দ করে) যাতে আমরা জন্য সর্বোত্তম সামগ্রিক মানটি বেছে নিতে পারি ।এনNN

সুতরাং, আপনার আসল প্রশ্নের উত্তর দিতে, ইএম অ্যালগরিদমের পিডিএফ ফর্মটির একটি কম সুনির্দিষ্ট স্পেসিফিকেশন প্রয়োজন; কেউ বলতে পারেন যে এটি বিকল্প বিকল্পগুলির একটি পরিসর বিবেচনা করে (যেমন বিকল্পটি , , , ইত্যাদি) তবে এটি এখনও আপনাকে সেই বিকল্পগুলির মৌলিক গাণিতিক ফর্ম সম্পর্কে কিছু নির্দিষ্ট করতে হবে - আপনাকে এখনও কোনও কোনও অর্থে সম্ভাব্য পিডিএফগুলির একটি "পরিবার" নির্দিষ্ট করতে হবে, যদিও আপনি পরিবারের কোন "সদস্য" ডেটাতে সেরা ফিট করে তা আপনার জন্য অ্যালগরিদমকে সিদ্ধান্ত নিতে দিচ্ছেন।এন = 2 এন = 3N=1N=2N=3


আপনার চমৎকার উত্তর @ স্টাচিরের কয়েকটি ফলোআপ : (1): দ্বিতীয় সমীকরণ (সংক্ষেপে) - এটি কি আপনার মিশ্রণের পিডিএফ? (যার অর্থ ?) (2): এখানে উল্লিখিত EM অ্যালগরিদমের ক্ষেত্রে - কিছুটা বিভ্রান্ত - এটি এর শুরুতে ইএমকে একটি ইনপুট হিসাবে দেওয়া মান , বা এটি এমন কিছু যা EM থুথু ফেলবে will শেষ পর্যন্ত আউটপুট হিসাবে? Ak=1N
ক্রিয়েটরন

(3) আবার ইএম এর জন্য, যখন আপনি ইএম এর জন্য "সম্ভাব্য পিডিএফগুলির পরিবারকে নির্দিষ্ট করুন" বলছেন, এর অর্থ কি এই যে আমরা এটির সাথে কাজ করার জন্য "সম্ভাবনাগুলি" দেই, উদাহরণস্বরূপ, "এই ডেটা দুটি গাউসিয়ান এবং একটি পোয়েসন দ্বারা তৈরি ", বা" এই ডেটা 3 চি-স্কোয়ার্ড পিডিএফ এবং 1 গাউসিয়ান "ইত্যাদি দিয়ে তৈরি, ইত্যাদি? এটি বিভ্রান্তিকর কারণ এর অর্থ আমরা আমাদের নির্দিষ্ট করে থাকি, যা আমি এটি আপনার পোস্ট থেকে গ্রহণ করি যা ইএম আমাদেরকে দেয় ...N
ক্রিয়েট্রন

1) হ্যাঁ, এটি আমার মিশ্রণের পিডিএফ এবং হ্যাঁ, । 2) অনুশীলনে, আপনি সাধারণত বিবেচনার জন্য অ্যালগোরিদমের জন্য একটি ন্যূনতম / সর্বাধিক মান দেন এবং সর্বোত্তমটি জন্য এটি সমস্ত অনুমোদিত মানের মধ্য দিয়ে যায়। 3) বেশিরভাগ ক্ষেত্রে, আপনি যে বিভিন্ন সম্ভাবনার মধ্য দিয়ে বেছে নেওয়ার চেষ্টা করছেন তা হ'ল এর ভিন্ন ভিন্ন সম্ভাব্য মান ; উদাহরণস্বরূপ, " একটি ভাল ফিট দেয় তবে আরও ভাল"। আপনি যদি এমন বিকল্পগুলি বিবেচনা করতে চান যা নীতির ক্ষেত্রে এটি কার্যকরী ফর্মগুলির আরও একধরনের ভিন্নধর্মী সংগ্রহ অন্তর্ভুক্ত করে তবে বাস্তবে কার্যকর করার জন্য এটি আরও জটিল। এন এন এন = 4 এন = 5Ak=1NNN=4N=5
stachyra

আপনাকে স্ট্যাচ্যর ধন্যবাদ। শেষ প্রশ্ন, পিডিএফ আউট ডেটা মিশ্রণ (পিডিএফগুলির একটি ভারিত সমষ্টি দিয়ে তৈরি আপনার দ্বিতীয় সমীকরণে দেওয়া), আমাদের ডেটাগুলির সমস্ত নমুনার যৌথ পিডিএফের মতো নয়, যা তাদের পিডিএফের একটি পণ্য, সঠিক ? (ধরুন ডেটা নমুনাগুলি আইআইডি)।
ক্রিয়েট্রন

না, একেবারেই নয় - এগুলি দুটি সম্পূর্ণ আলাদা জিনিস। আপনি যে যৌথ পিডিএফটি বর্ণনা করছেন তা এমএলইতে ব্যবহৃত সম্ভাবনা ফাংশনের ফর্মের সাথে অনেক বেশি মিল। একটি পাঠ্যপুস্তক এখানে আপনার জন্য সহায়ক হতে পারে। এমএলই-এর জন্য, আমি ফিলিপ আর বেভিংটন এবং ডি। কিথ রবিনসনের "ডেটা হ্রাস এবং শারীরিক বিজ্ঞানের জন্য ত্রুটি বিশ্লেষণের" অধ্যায় 10 বা গ্লেন কাউয়ান দ্বারা "পরিসংখ্যানগত ডেটা বিশ্লেষণ" বিভাগের 6.1 বিভাগ পছন্দ করি। কোনও নির্দিষ্ট ধরণের ইএম বাস্তবায়ন কীভাবে করা যায় তার একটি নির্দিষ্ট উদাহরণের জন্য, আমি এই ব্যাখ্যাটি পছন্দ করি , বিভাগ 2 থেকে 5 এর মধ্যে
স্ট্যাচাইরা

2

এমএলই কমপক্ষে প্রান্তিক বিতরণ সম্পর্কে জ্ঞান প্রয়োজন requires এমএলই ব্যবহার করার সময় আমরা সাধারণত একটি আইআইডি অনুমান করে একটি যৌথ বন্টনের পরামিতিগুলি অনুমান করি, তারপরে আমরা প্রান্তিকের পণ্য হিসাবে যৌথ বন্টনকে ফ্যাক্টরিং করি। বিভিন্নতা রয়েছে, তবে বেশিরভাগ ক্ষেত্রে এটিই ধারণা। সুতরাং এমএলই একটি প্যারামেট্রিক পদ্ধতি।

ইএম অ্যালগরিদম হ'ল এমএলই অ্যালগরিদমের অংশ হিসাবে উপস্থিত সম্ভাবনা কার্যগুলি সর্বাধিক করার একটি পদ্ধতি। এটি প্রায়শই (সাধারণত?) সংখ্যাগত সমাধানগুলির জন্য ব্যবহৃত হয়।

যখনই আমরা এমএলই ব্যবহার করি তখন আমাদের কমপক্ষে প্রান্তিক বিতরণ এবং যৌথটি কীভাবে প্রান্তিকের সাথে সম্পর্কিত (স্বাধীনতা ইত্যাদি) সম্পর্কিত কিছু ধারণা প্রয়োজন। সুতরাং উভয় পদ্ধতি বিতরণের জ্ঞানের উপর নির্ভর করে।


ধন্যবাদ @ চারেলস যা বোঝায়। লোকেরা যখন "নন-প্যারামেট্রিক এমএলই" সম্পর্কে কথা বলে তখন এর অর্থ কী। এই শব্দগুচ্ছটি প্রথম নজরে বোঝায় না। এমএলই সবসময় বিতরণের একটি প্যারামিটার অনুমান করে , তাই না?
ক্রিয়েট্রন

তারা ELE (অভিজ্ঞতা অভিজ্ঞতা সম্ভাবনা) সম্পর্কে কথা বলছে be আমি কখনও এটি ব্যবহার করি নি; আমি প্রয়োজনে ব্যাখ্যা করার চেষ্টা করব। নাহলে আমি নিশ্চিত নই।
চার্লস পেলভিয়ানিয়ান
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.