মার্কভ মডেলটিতে পরামিতিগুলির সংখ্যা


12

আমি এইচএমএম মডেল নির্বাচনের জন্য বিআইসি ব্যবহার করতে চাই:

BIC = -2*logLike + num_of_params * log(num_of_data)

সুতরাং আমি কীভাবে এইচএমএম মডেলের পরামিতিগুলির সংখ্যা গণনা করব। একটি সাধারণ 2-রাষ্ট্রের এইচএমএম বিবেচনা করুন, যেখানে আমাদের নিম্নলিখিত তথ্য রয়েছে:

data = [1 2 1 1 2 2 2 1 2 3 3 2 3 2 1 2 2 3 4 5 5 3 3 2 6 6 5 6 4 3 4 4 4 4 4 4 3 3 2 2];
model = hmmFit(data, 2, 'discrete');
model.pi = 0.6661    0.3339;
model.A = 
    0.8849    0.1151
    0.1201    0.8799
model.emission.T = 
    0.2355    0.5232    0.2259    0.0052    0.0049    0.0053
    0.0053    0.0449    0.2204    0.4135    0.1582    0.1578
logLike = hmmLogprob(model,data);
logLike =  -55.8382

তাই আমি মনে করি:

Nparams = size(model.A,2)*(size(model.A,2)-1) + 
          size(model.pi,2)-1) + 
          size(model.emission.T,1)*(size(model.emission.T,2)-1)
Nparams = 13

সুতরাং শেষে আমাদের আছে:

BIC = -2*logLike + num_of_params*log(length(x))
BIC = 159.6319

আমি একটি সমাধান পেয়েছি যেখানে num_of_params(সরল মার্কভ মডেলের জন্য) সূত্রটি দেখতে পাওয়া যায় :

Nparams = Num_of_states*(Num_of_States-1) - Nbzeros_in_transition_matrix

তাহলে সঠিক সমাধান কী? আমি কি রূপান্তর বা নির্গমন ম্যাট্রিক্সে কিছু শূন্যতার সম্ভাবনা বিবেচনা করি?

==== 07.15.2011 থেকে আপডেট হয়েছে ====

আমি মনে করি আমি ডেটা মাত্রার প্রভাব সম্পর্কে কিছু স্পষ্টতা দিতে পারি ("গাউসিয়ান মিশ্রণ বিতরণ" উদাহরণ ব্যবহার করে)

এক্স একটি এন-বাই-ডি ম্যাট্রিক্স যেখানে (এন-সারি পর্যবেক্ষণের সাথে মিলিত হয়; ডি-কলামগুলি ভেরিয়েবলের সাথে মিলিত হয় (এনডিমেন্স)।

X=[3,17 3,43
   1,69 2,94
   3,92 5,04
   1,65 1,79
   1,59 3,92
   2,53 3,73
   2,26 3,60
   3,87 5,01
   3,71 4,83
   1,89 3,30 ];
[n d] = size(X); 
n = 10; d =2;

মডেলটিতে জিএমএমের জন্য নিম্নলিখিত সংখ্যক পরামিতি থাকবে:

nParam = (k_mixtures – 1) + (k_mixtures * NDimensions ) + k_mixtures * Ndimensions  %for daigonal covariance matrices
nParam = (k_mixtures – 1) + (k_mixtures * NDimensions ) + k_mixtures * NDimensions * (NDimensions+1)/2; %for full covariance matrices

আমরা যত এক্স আচরণ যদি 1-মাত্রিক তথ্য চেয়ে আমরা আছে num_of_data = (n*d), তাই জন্য 2-মাত্রিক ডাটা আছে num_of_data = n

দ্বি-মাত্রিক ডেটা: এনপ্রাম = 11; লগলাইক = -11.8197; বিআইসি = 1.689

1-মাত্রিক ডেটা: এনপ্রাম = 5; লগলাইক = -24.8753; বিআইসি = -34.7720

আমার এইচএমএম নিয়ে খুব কম অনুশীলন আছে have (5000, 6000 এবং আরও বেশি পরামিতি) সহ এইচএমএম থাকা কি স্বাভাবিক?


আপনার কী বিআইসি ব্যবহারের যৌক্তিকতা আছে? উপযুক্ত অনুমানের সাথে না থাকলে এটি মারাত্মক ভুল ফলাফল দিতে পারে।
সানকুলসু

@ সানকুলসু, ন্যায়সঙ্গত হওয়ার অর্থ কী? বিআইসি স্কোরিংয়ের উপর ভিত্তি করে কে-ক্লাস্টার (জিএমএম মডেল) নির্বাচনের কয়েকটি উদাহরণ পেয়েছি। সম্ভবত আমি বিভিন্ন ইনপুট ডেটার (মাত্রা) সহ দুটি মডেলের তুলনা করার জন্য ভুল উদাহরণ সরবরাহ করেছি।
সের্গেই

1
আমি বিআইসি ব্যবহার করার অর্থ কেবল তখনই ধরে নিয়েছিলাম যদি আসল মডেলটি সত্যিকারের মডেলটিতে থাকে তবে এটি ন্যায়সঙ্গত হয়। এটি আপনার ক্ষেত্রে ন্যায়সঙ্গত হতে পারে। আমি আপনার সাথে একমত যে লোকেরা এআইসির মতো বিআইসি ব্যবহার করে তবে উভয়ই খুব আলাদা জিনিস!
সানকুলসু

হাই, এটি একটি দেরী মন্তব্য এবং আশা করি আপনি এখনও সক্রিয় রয়েছেন, তবে কোনও মডেলটিতে পরামিতির সংখ্যা পাওয়ার সর্বোত্তম উপায় কী?
masfenix

উত্তর:


7

প্রশ্নটি হ'ল ট্রানজিশন ম্যাট্রিক্স এবং / অথবা নির্গমন ম্যাট্রিক্সে আপনার কিছু পরামিতি শুরু হওয়ার সাথে স্থির হয়েছে। আপনার গণনা (পরামিতি সংখ্যার) সঠিক দেখাচ্ছে look যদি আপনি কোনও কারণে 2 রাজ্য মডেলের পরিবর্তে 3 টি রাষ্ট্রীয় মডেল চান এবং সিদ্ধান্ত নিতে পারেন যে রাজ্য 1 থেকে 3 এবং 3 থেকে 1 এর স্থানান্তর অনুমোদিত নয় (0 সম্ভাবনা রয়েছে) তবে আপনাকে এটি গণনার ক্ষেত্রে বিবেচনায় নিতে হবে পরামিতি সংখ্যা।


আমি কি ডেটা মাত্রা অ্যাকাউন্টে নিতে হবে? size(data)2x100 হলে কী হবে
সের্গেই

@ সার্জি, আমি কেবল আমার উত্তরে প্যারামিটারের সংখ্যার গণনা দেখেছি। সম্পূর্ণতার জন্য আপনার বিবেচনা করা উচিত কীভাবে কীভাবে ডেটা সেট করা হয়েছে তার "আকার" গণনা করতে, যেমন আপনি বিআইসিতে আগ্রহী। সত্যি কথা বলতে কি, আমি কেবল স্বাধীন উপাত্তের জন্য বিআইসির বিকাশ দেখেছি, তবে আমার অনুমান যে ডেটাটির সঠিক "আকার" হ'ল ডেটা সিরিজের দৈর্ঘ্য। 2x100 আকারের দ্বারা আপনি কী বোঝাতে চাইছেন তা আমি নিশ্চিত নই। যদি আপনি এই বিষয়ে মন্তব্য করতে চান, আপনাকে কীভাবে ডেটা 2 বাই 100 ম্যাট্রিক্স হিসাবে এনকোড করা হয়েছে তার আরও সুনির্দিষ্ট বিবরণ দিতে হবে।
এনআরএইচ

উত্তরের জন্য ধন্যবাদ, আমি মনে করি আমি বিআইসিতে ডেটা মাত্রাটির প্রভাব বুঝতে পেরেছি, দয়া করে আমার আপডেটটি দেখুন
সের্গেই

আমাকে কি বাম-ডান (বাকিস) এইচএমএম মডেল (ত্রিভুজাকার ট্রানজিশন ম্যাট্রিক্স সহ) পরামিতিগুলির সংখ্যা হ্রাস করতে হবে? (5000, 6000 এবং আরও বেশি পরামিতি) সহ এইচএমএম থাকা কি স্বাভাবিক?
সের্গেই

4

আমরা যখন মডেল বাছাই বিআইসিতে ফ্রি প্যারামিটারগুলির সংখ্যা গণনা করছি, এর অর্থ এটি হ'ল স্থানান্তর এবং নির্গমন ম্যাট্রিক্সের শূন্যের সংখ্যা। উদাহরণস্বরূপ, যখন ট্রানজিশন ম্যাট্রিক্সের শূন্য থাকে - এর অর্থ একটি নির্দিষ্ট রাষ্ট্র পরের দিকে চলে যাওয়ার কোনও সম্ভাবনা নেই (ট্রানজিশন ম্যাট্রিক্স দ্বারা সংজ্ঞায়িত)। বিআইসি এইভাবেই এইচএমএমের জন্য রাজ্যগুলির সর্বোত্তম নির্বাচন করে। তবে কেবল অন্তর্নিহিত, রূপান্তর এবং নির্গমন ম্যাট্রিক্সের আকার ব্যবহার করে নিখরচায় প্যারামিটারের নম্বর পাওয়া বিভ্রান্তিকর

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.