বহুগুণ সেন্সর করা তথ্যের জন্য কোভারিয়েন্স ম্যাট্রিক্সের নিরপেক্ষ অনুমান


22

পরিবেশগত নমুনাগুলির রাসায়নিক বিশ্লেষণগুলি প্রায়শই রিপোর্টিং সীমা বা বিভিন্ন সনাক্তকরণ / পরিমাণ সীমাতে নীচে সেন্সর করা হয়। পরবর্তীগুলি ভিন্ন হতে পারে, সাধারণত অন্যান্য ভেরিয়েবলের মানগুলির অনুপাতে। উদাহরণস্বরূপ, একটি যৌগের উচ্চ ঘনত্ব সহ একটি নমুনা বিশ্লেষণের জন্য পাতলা করা প্রয়োজন হতে পারে, ফলস্বরূপ সেই নমুনায় একই সময়ে বিশ্লেষণ করা অন্যান্য সমস্ত যৌগগুলির সেন্সরিং সীমাতে আনুপাতিক মুদ্রাস্ফীতি ঘটে। অন্য উদাহরণ হিসাবে, কখনও কখনও যৌগের উপস্থিতি পরীক্ষার প্রতিক্রিয়াটিকে অন্য যৌগগুলিতে পরিবর্তন করতে পারে (একটি "ম্যাট্রিক্স হস্তক্ষেপ"); যখন এটি পরীক্ষাগার দ্বারা সনাক্ত করা হয়, ততক্ষণে এটির রিপোর্টিং সীমাটি স্ফীত করে দেবে।

আমি এই জাতীয় ডেটাসেটগুলির জন্য পুরো বৈকল্পিক-কোভারিয়েন্স ম্যাট্রিক্সটি অনুমান করার জন্য একটি ব্যবহারিক উপায় চাইছি, বিশেষত যখন অনেকগুলি যৌগিক 50% এর বেশি সেন্সরিংয়ের অভিজ্ঞতা হয়, যা প্রায়শই ঘটে। একটি প্রচলিত বিতরণকারী মডেল হ'ল (সত্য) ঘনত্বের লোগারিদমগুলি বহুবিধ বিতরণ করা হয় এবং এটি বাস্তবে যথাযথভাবে খাপ খায় বলে মনে হয়, সুতরাং এই পরিস্থিতির সমাধানটি কার্যকর হবে।

("ব্যবহারিক" দ্বারা আমি এমন একটি পদ্ধতি বুঝি যা আর, পাইথন, এসএএস ইত্যাদির মতো কমপক্ষে একটি সাধারণভাবে উপলব্ধ সফ্টওয়্যার পরিবেশে নির্ভরযোগ্যভাবে কোড করা যায়, যা একাধিক অনুমানের মধ্যে ঘটে যাওয়া পুনরাবৃত্ত পুনরাবৃত্তিকে সমর্থন করার জন্য দ্রুত পর্যাপ্ত সম্পাদন করে, এবং যা যুক্তিযুক্তভাবে স্থিতিশীল [সে কারণেই আমি কোনও BUGS বাস্তবায়ন অন্বেষণ করতে নারাজ, যদিও সাধারণত বেইশিয়ান সমাধানগুলি স্বাগত are]

এই বিষয়ে আপনার চিন্তার জন্য অগ্রিম অনেক ধন্যবাদ।


ঠিক তাই আমি সেন্সরিংয়ের সমস্যাটি সঠিকভাবে বুঝতে পেরেছি: আপনি যখন কোনও নমুনাটি পাতলা করেন তখন কোনও যৌগের ঘনত্ব এত কম হয় যে পরীক্ষার উপকরণটি তার উপস্থিতি সনাক্ত করতে ব্যর্থ হতে পারে। এটি কি সেন্সরিং সমস্যার সঠিক পুনরায় বাক্সকরণ?

হ্যাঁ, এটি সঠিক: ডি এর একটি ফ্যাক্টর দ্বারা মিশ্রন ডি এর একটি উপাদান দ্বারা সমস্ত সনাক্তকরণের সীমাও বাড়িয়ে তোলে। (ম্যাট্রিক্স হস্তক্ষেপ ইস্যুটি পরিমাণ হিসাবে প্রমাণ করা আরও কঠিন এবং সাধারণ পরিস্থিতি অত্যন্ত জটিল this এটি সহজ করার জন্য, প্রচলিত মডেল হ'ল একটি নমুনায় পরীক্ষার একটি স্যুট একটি ভেক্টর দেয় (x [1], ..., x [কে ]) যেখানে x [i] হয় আসল সংখ্যা বা বাস্তবের অন্তর, সাধারণত -ইফিনিটিতে বাম প্রান্তপয়েন্ট সহ; একটি বিরতি এমন একটি সেট চিহ্নিত করে যেখানে সত্যিকারের মানটি মিথ্যা বলে মনে করা হয়))
হোবার

কেন সনাক্তকরণের সীমাটি উপরে উঠবে? নমুনাগুলি পরীক্ষা করার পরিবর্তে তারা কি পরীক্ষার উপকরণের কোনও বৈশিষ্ট্য নয়?

উদাহরণস্বরূপ, ধরুন কোনও যন্ত্রের সনাক্তকরণের সীমা লিটারের প্রতি 1 মাইক্রোগ্রাম (ug / L)। একটি নমুনা 10: 1 টি মিশ্রিত করা হয়েছে (দুর্দান্ত নির্ভুলতার সাথে, সুতরাং আমরা এখানে ত্রুটি সম্পর্কে চিন্তা করি না) এবং উপকরণটি "<1" পড়ে; পাতলা নমুনার জন্য এটি হ'ল পরীক্ষাগারটি অনুমান করে যে নমুনায় ঘনত্ব 10 * 1 = 10 ug / L এর চেয়ে কম এবং এটিকে রিপোর্ট করে; এটি "<10" হিসাবে।
whuber

1
@ আমেবা আমি দেখতে পাচ্ছি যে প্রশ্নগুলিতে আমার এই বিষয়গুলি ব্যাখ্যা করা উচিত ছিল। উত্তরগুলি হ'ল: পিসিএ; মাত্রিকতা 3 থেকে কয়েক শত পর্যন্ত পরিবর্তিত হবে; নমুনার আকারগুলি সর্বদা মাত্রা ছাড়িয়ে যায় তবে সেন্সরিং হারগুলি খুব বেশি হতে পারে (50% পর্যন্ত হ্যান্ডেল করতে সক্ষম হওয়া প্রয়োজন এবং 95% অবধি আকাঙ্ক্ষিত)।
whuber

উত্তর:


3

আমি ম্যাট্রিক্স হস্তক্ষেপ ইস্যুটিকে পুরোপুরি অভ্যন্তরীণ করে তুলিনি তবে এখানে একটি উপায় রয়েছে। দিন:

Y হ'ল এমন ভেক্টর যা অননুমোদিত নমুনায় সমস্ত লক্ষ্য মিশ্রণের ঘনত্বকে উপস্থাপন করে।

Zমিশ্রিত নমুনায় সংশ্লিষ্ট ভেক্টর হবেন ।

dd হতাশার ফ্যাক্টর হ'ল, নমুনাটি dilused হয় : 1।d

আমাদের মডেলটি হ'ল:

YN(μ,Σ)

Z=Yd+ϵ

যেখানে হ্রাস ত্রুটির কারণে ত্রুটি উপস্থাপন করে।ϵN(0,σ2 I)

অতএব, এটি অনুসরণ করে যে:

ZN(μd,Σ+σ2 I)

দ্বারা এর উপরের বিতরণটি চিহ্নিত করুন ।জেড ( )ZfZ(.)

পর্যবেক্ষণের ঘনত্ব হতে দিন এবং instrument পরীক্ষার যন্ত্রের প্রান্তিকের প্রতিনিধিত্ব করুন যার নীচে এটি কোনও যৌগ সনাক্ত করতে পারে না। তারপরে, আমাদের কাছে থাকা যৌগের জন্য:τ আই টি এইচOτith

Oi=ZiI(Zi>τ)+0I(Ziτ)

সাধারণতার ক্ষতি ছাড়াই প্রথম মিশ্রণগুলি এমন হতে দিন যে তারা দোরের নিচে। তারপরে সম্ভাবনা ফাংশনটি এইভাবে লেখা যেতে পারে:k

L(O1,...Ok,Ok+1,...On|)=[i=1i=kPr(Ziτ)][i=k+1i=nf(Oi|)]

কোথায়

(হেআমি|-)=আমিজেড(হেআমি|-)আমি(হেআমি>τ)

অনুমানটি তখন সর্বাধিক সম্ভাবনা বা বায়সীয় ধারণা ব্যবহার করার বিষয় using উপরেরটি কতটা ট্র্যাকটেবল তা আমি নিশ্চিত নই তবে আমি আশা করি এটি আপনাকে কিছু ধারণা দেয়।


এই চিন্তাভাবনার জন্য আপনাকে অনেক ধন্যবাদ। প্রকৃতপক্ষে, এটি একাধিক সেন্সরিংয়ের জন্য একটি মানক এবং ভাল-নথিভুক্ত পদ্ধতি approach একটি অসুবিধা তার অক্ষমতার মধ্যে রয়েছে: এই সংহতগুলি গণনা করা কুখ্যাতভাবে কঠিন। এখানেও মডেলিংয়ের সমস্যা লুকিয়ে আছে: ডি এর মানটি সাধারণত আমার ওয়ানের প্রথম অনুচ্ছেদে ইঙ্গিত করে ধনাত্মকভাবে ওয়াইয়ের সাথে সম্পর্কিত হয় ।
হোবার

2

আরও একটি গণনামূলক দক্ষ বিকল্প হ'ল "দ্বৈত গাউসিয়ান" নামে পরিচিত এমন একটি মডেল ব্যবহার করে মুহূর্তের সাথে মিলিয়ে কোভেরিয়েন্স ম্যাট্রিক্স ফিট করা, যা সত্যিই কেবল গাউসিয়ান কপুলার মডেল।

ম্যাক এট আল ২০১০-এর সাম্প্রতিক একটি গবেষণাপত্রে এই মডেলটি ফিট করার জন্য একটি বদ্ধ ফর্ম প্রক্রিয়া বর্ণনা করা হয়েছে যা কেবলমাত্র (সেন্সরযুক্ত) অভিজ্ঞতাবাদী কোভেরিয়েন্স ম্যাট্রিক্স এবং কিছু দ্বিবিড়ীয় স্বাভাবিক সম্ভাবনার গণনা জড়িত। একই গ্রুপ (এমপিআই তিউবেঞ্জেনের বেথেজ ল্যাব) হাইব্রিড ডিসক্রিট / অবিচ্ছিন্ন গাউসীয় মডেলগুলিও বর্ণনা করেছে যা সম্ভবত আপনি এখানে চান (যেমন, গাউসিয়ান আরভিগুলি পুরোপুরি "ডাইকোটমাইজড" নয় - কেবল প্রান্তিকের নীচে যারা)।

সমালোচনামূলকভাবে, এটি কোনও এমএল অনুমানকারী নয় এবং আমি ভয় করি যে এর পক্ষপাতিত্বের বৈশিষ্ট্যগুলি কী তা আমি জানি না।


@ জেপি আপনাকে ধন্যবাদ: আমি এটি খতিয়ে দেখব। (এটা কিছু সময় লাগতে পারে ...)
whuber

1

আপনার নমুনায় কতটি যৌগ রয়েছে? (বা, কোভেরিয়েন্স ম্যাট্রিক্স প্রশ্নে কত বড়?) প্রশ্ন।

হাইপার-আয়তক্ষেত্রগুলির তুলনায় বহুবিধ সাধারণ ঘনত্বের সংহতগুলির গণনা করার জন্য অ্যালান জেনজের বিভিন্ন ভাষায় (আর, মাতলাব, ফোর্টরান; এখানে দেখুন ) কিছু খুব সুন্দর কোড রয়েছে (যেমন, সম্ভাবনাটি মূল্যায়নের জন্য আপনার যে ধরণের ইন্টিগ্রালগুলি দরকার তা উল্লেখ করেছেন, user28)।

আমি প্রায় 10-12 মাত্রা পর্যন্ত ইন্টিগ্রালের জন্য এই ফাংশনগুলি ("ADAPT" এবং "কিউএসআইএমভিএন") ব্যবহার করেছি এবং সেই পৃষ্ঠাতে বেশ কয়েকটি ফাংশন 100 টি মাত্রা পর্যন্ত সমস্যাগুলির জন্য ইন্টিগ্রালগুলি (এবং সম্পর্কিত ডেরিভেটিভসগুলির আপনাকে প্রয়োজন হতে পারে) বিজ্ঞাপন দেয় I আপনার উদ্দেশ্যগুলির জন্য এটি পর্যাপ্ত মাত্রা কিনা তা আপনি জানেন না, তবে যদি এটি হয় তবে সম্ভবত আপনি গ্রেডিয়েন্ট অ্যাসেন্ট দ্বারা সর্বাধিক সম্ভাবনার প্রাক্কলন সন্ধান করতে পারবেন।


ওহ, দুঃখিত — আমি এখানে নতুন এবং এটি কতক্ষণ আগে পোস্ট করা হয়েছে তা খেয়াল করেনি much সম্ভবত খুব বেশি দেরী হতে পারে!
jpillow

@ জেপি এটি একটি চলমান গুরুত্বপূর্ণ সমস্যা, সুতরাং প্রশ্নোত্তরের মধ্যে অতিবাহিত সময় খুব একটা ফলস্বরূপ। উত্তর দেওয়ার জন্য আপনাকে ধন্যবাদ!
হোবল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.