বিভিন্ন দৈর্ঘ্যের সময় সিরিজের জন্য এসভিডি মাত্রিকতা হ্রাস


13

আমি মাত্রিকতা হ্রাস কৌশল হিসাবে একক মান মান পচন ব্যবহার করছি।

Nমাত্রার ভেক্টর দেওয়া D, ধারণাটি হ'ল অসম্পৃক্ত মাত্রাগুলির রূপান্তরিত স্থানের বৈশিষ্ট্যগুলিকে প্রতিনিধিত্ব করা, যা এই স্থানের ইগেনভেেক্টরগুলির ডেটাগুলির বেশিরভাগ তথ্যকে ক্রমবর্ধমান গুরুত্বের সাথে সংশ্লেষ করে।

এখন আমি টাইম সিরিজের ডেটাতে এই পদ্ধতিটি প্রয়োগ করার চেষ্টা করছি। সমস্যাটি হ'ল সমস্ত অনুক্রমের দৈর্ঘ্য একই হয় না, সুতরাং আমি সত্যিই num-by-dimম্যাট্রিক্স তৈরি করতে এবং এসভিডি প্রয়োগ করতে পারি না । আমার প্রথম চিন্তাটি ছিল num-by-maxDimম্যাট্রিক্স তৈরি করে এবং শূন্যস্থানগুলি শূন্যে পূরণ করে জিরো দিয়ে ম্যাট্রিক্স প্যাড করা , তবে আমি ঠিক নিশ্চিত না যে এটি সঠিক উপায় কিনা।

আমার প্রশ্ন হ'ল আপনি বিভিন্ন দৈর্ঘ্যের সময়সীমাতে মাত্রিকতা হ্রাসের এসভিডি পদ্ধতির কীভাবে? বিকল্পভাবে কি সাধারণত টাইম সিরিজের সাথে ইগেনস্পেস উপস্থাপনের অনুরূপ অন্যান্য পদ্ধতি রয়েছে?

ধারণাটি চিত্রিত করার জন্য নীচে ম্যাটল্যাব কোডের একটি অংশ দেওয়া হয়েছে:

X = randn(100,4);                       % data matrix of size N-by-dim

X0 = bsxfun(@minus, X, mean(X));        % standarize
[U S V] = svd(X0,0);                    % SVD
variances = diag(S).^2 / (size(X,1)-1); % variances along eigenvectors

KEEP = 2;                               % number of dimensions to keep
newX = U(:,1:KEEP)*S(1:KEEP,1:KEEP);    % reduced and transformed data

(আমি বেশিরভাগ ম্যাটল্যাবে কোডিং করছি তবে আমি আর / পাইথন / .. পড়ার পক্ষে যথেষ্ট আরামদায়ক)


ভাল প্রশ্ন! আমি মনে করি আপনি শিরোনামটি উন্নত করতে পারেন, কোথাও "ডেটা মিসিং" বা "বিভিন্ন দৈর্ঘ্যের টাইম সিরিজ" এর মতো কিছু থাকতে পারে।
রবিন গিরার্ড

1
আমি এটিকে "অনুপস্থিত ডেটা" বলব না, সম্ভবত "বিভিন্ন দৈর্ঘ্যের টাইম সিরিজের জন্য এসভিডি মাত্রিকতা হ্রাস"?
আম্রো

1
আপনার প্রস্তাবিত শিরোনামটি আমার পছন্দ হয়েছে!
রবিন জিরাার্ড

1
এটি কেন সিরিজটি বিভিন্ন দৈর্ঘ্যের হয় তা জানতে সহায়তা করবে । উদাহরণস্বরূপ, যদি তারা কোনও হাতের লেখার সময় পেন্সিলের ট্র্যাজেক্টরিটিকে প্রতিনিধিত্ব করে, একটি সংখ্যা লেখার সময় এক্স ডিসপ্লেসমেন্টটি বলুন, তবে আপনি সময় সিরিজটি প্রান্তিককরণ করতে চাইতে পারেন যাতে এটি একই দৈর্ঘ্যের হয়। আপনি কী ধরণের বৈচিত্র্য ধরে রাখতে আগ্রহী এবং আপনি কী নন তাও জানা গুরুত্বপূর্ণ।
vqv

উত্তর:


5

ম্যাট্রিক্স কমপ্লেশন নামে গবেষণার যুক্তিসঙ্গতভাবে নতুন ক্ষেত্র রয়েছে , এটি সম্ভবত আপনি যা চান তা করেন। ইমানুয়েল ক্যান্ডস এই বক্তৃতাটিতে একটি খুব সুন্দর ভূমিকা দেওয়া হয়েছে


ওয়েবসাইটের জন্য ভিডিও +1 বক্তৃতা, আমি জানতাম না, আপনি ভিডিও বক্তৃতা সম্পর্কে প্রশ্নে এটি উল্লেখ করেছেন?
রবিন গিরার্ড

আমি সম্প্রতি এই জিনিস সম্পর্কে পড়া হয়। আমি সত্যিই ক্যান্ডস এবং টাওয়ের সাম্প্রতিক কাগজটি arxiv.org/abs/0903.1476
বিষয়টিতে পছন্দ করি

2

শূন্যের সাথে পূরণ করা খারাপ। অতীতের পর্যবেক্ষণগুলি ব্যবহার করে পুনরায় মডেলিং দিয়ে পূরণ করার চেষ্টা করুন।


+1 প্রতিলিপি / পুনর্নির্মাণটি অবশ্যই শূন্য-প্যাডিংয়ের চেয়ে ভাল ... এখনও আমি অপেক্ষা করে দেখব এবং সেখানে অন্য কোনও ধারণা আছে কিনা :)
আম্রো

2

কেবল একটি চিন্তা: আপনার সমস্যার জন্য আপনার সম্পূর্ণ এসভিডি লাগবে না। এম = ইউএসভি * কে আপনার ডি দ্বারা এন ম্যাট্রিক্সের এসভিডি করা যাক ( অর্থাত্ সময় সিরিজ কলামগুলি হবে) মাত্রা হ্রাস অর্জনের জন্য আপনি ম্যাট্রিকগুলি ভি এবং এস ব্যবহার করবেন । আপনি এম * এম = ভি (এস * এস) ভি * এর তির্যক করে এগুলি সন্ধান করতে পারেন । তবে, আপনি কিছু মান হারিয়েছেন বলে আপনি এম * এম গণনা করতে পারবেন না । তবুও, আপনি এটি অনুমান করতে পারেন। এর এন্ট্রিগুলি এম এর কলামগুলির পণ্যগুলির যোগফল। কোনও এসএসপি গণনা করার সময়, অনুপস্থিত মানগুলির সাথে যুক্ত জোড়ান। অনুপস্থিত মানের জন্য অ্যাকাউন্টে প্রতিটি পণ্যের Rescale: যে যখনই কোন এসএসপি জড়িত Nk জোড়া এটি দ্বারা rescale N / (Nk)। এই পদ্ধতিটি এম * এম এর "যুক্তিসঙ্গত" অনুমানক এবং আপনি সেখান থেকে এগিয়ে যেতে পারেন। আপনি যদি ফ্যানসিয়ার পেতে চান তবে সম্ভবত একাধিক অভিশংসন কৌশল বা ম্যাট্রিক্স সমাপ্তি সহায়তা করবে।

(ট্রান্সপ্লোজড ডেটাসেটের পেয়ারওয়াই কোভরিয়েন্স ম্যাট্রিক্স গণনা করে এবং এটিতে পিসিএ বা ফ্যাক্টর বিশ্লেষণ প্রয়োগ করে এটি অনেকগুলি পরিসংখ্যান প্যাকেজগুলিতে বহন করা যেতে পারে))


MTM

এটি একটি ভাল পয়েন্ট, কিন্তু ফলাফল খুব খারাপ নাও হতে পারে। যেটি আশা করে যে হ'ল এম * এম এর প্রাক্কলন যথাযথ মানের নিকটবর্তী যে ইগেনভ্যালুগুলির আটকানো যুক্তিসঙ্গতভাবে ছোট। সুতরাং, বৃহত্তম ইগনালভ্যুগুলির সাথে সম্পর্কিত ইগেনস্পেসে প্রজেক্টের মাধ্যমে, আপনি সঠিক সমাধানটির জন্য কেবল সামান্য বিদ্রূপ অর্জন করেন, তবুও অনুসন্ধানের পরে মাত্রা হ্রাস অর্জন করতে পারেন। সম্ভবত সবচেয়ে বড় সমস্যাটি অ্যালগরিদমিক হতে পারে: যেহেতু আপনি আর সেমিডিফিনিটিনেস ধরে নিতে পারবেন না তাই আইজিনটিস্টেমটি খুঁজে পেতে আপনার আরও সাধারণ-উদ্দেশ্য অ্যালগরিদম ব্যবহার করতে হবে।
whuber

1

আপনি 'সংক্ষিপ্ত' সিরিজের জন্য অবিচ্ছিন্ন সময় সিরিজের মডেলগুলি অনুমান করতে পারেন এবং ভবিষ্যতে তাদের সমস্ত সিরিজ 'সারিবদ্ধ' করতে এক্সট্রপোলেট করে তুলতে পারেন।


এক্সট্রাপোলেশনে ভরা অংশটিতে মসৃণতা অন্তর্ভুক্ত হবে যা বিদ্যমান অংশে নেই। আপনাকে এলোমেলোভাবে যোগ করতে হবে ... অতএব পুনর্নির্মাণ (এবং এক্সট্রাপোলেশন পুনর্নির্মাণটি একটি ভাল ধারণা বলে মনে হচ্ছে)
রবিন গিরার্ড

মডেলটি এক্সট্রোপোলেটিংয়ের জন্য ত্রুটি শব্দটির নমুনা নেওয়া দরকার যা পছন্দসই এলোমেলো প্ররোচিত করবে।

আইএমও উভয় পরামর্শই বিদ্যমান মানগুলি (এআর / এআরএমএ মডেলগুলি সম্ভবত?) থেকে ভবিষ্যতের মান পূর্বাভাস দেওয়ার জন্য সিদ্ধ হয়। আমার ধারণা আমি এখনও এমন একটি সমাধানের প্রত্যাশায় রয়েছি যাতে নমুনা মানগুলিতে জড়িত না (এইভাবে ত্রুটি প্রবর্তনের সম্ভাবনা) .. এই জাতীয় মডেলগুলি অনুমান করার পাশাপাশি নিজেই মাত্রিক মাত্রা হ্রাসের একটি রূপ :)
আম্রো

1

আমি আপনার উদাহরণ কোডটি থেকে কিছুটা বিভ্রান্ত হয়েছি, যেমন মনে হয় আপনি গণনাটি থেকে Vভেরিয়েবলটি বাদ দিন newX। আপনি কি Xএকটি হ্রাস র‌্যাঙ্ক পণ্য হিসাবে মডেল খুঁজছেন , বা আপনি কমে কলাম কলামে আগ্রহী X? পরবর্তী ক্ষেত্রে, আমি মনে করি একটি ইএম-পিসিএ পদ্ধতির কাজ করবে। আপনি অনুপস্থিত মান সহ সম্ভাব্য পিসিএ শিরোনামের অধীনে মাতলাব কোডটি সন্ধান করতে পারেন ।

HTH,


আমি এক্সের একটি হ্রাস-র‌্যাঙ্কের আনুমানিক সংখ্যার চেষ্টা করছি না, পরিবর্তিত এক্স। ) ... আপনি কি EM-PCA পদ্ধতির উপর কিছুটা ব্যাখ্যা করতে পারেন?
আম্রো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.