অসম্পূর্ণ / নিখোঁজ ডেটা পরিচালনা করার কৌশলগুলি iques


12

আমার প্রশ্নটি ক্লাসিফায়ার / মডেল প্রশিক্ষণ / ফিটিংয়ের সময় অসম্পূর্ণ ডেটা নিয়ে কাজ করার কৌশলগুলিতে পরিচালিত ।

উদাহরণস্বরূপ, একটি ডেটাসেটে ডাব্লু / কয়েক শ সারি, প্রতিটি সারিতে শেষ আইটেম হিসাবে পাঁচটি মাত্রা এবং একটি শ্রেণির লেবেল বলা উচিত, বেশিরভাগ ডেটা পয়েন্টগুলি এর মতো দেখাবে:

[0.74, 0.39, 0.14, 0.33, 0.34, 0]

কিছু কিছু এর মতো দেখতে পারে:

[0.21, 0.68,?, 0.82, 0.58, 1]

সুতরাং এটি এই ধরণের ডেটা পয়েন্ট যা এই প্রশ্নের কেন্দ্রবিন্দু।

এই প্রশ্ন জিজ্ঞাসা করার জন্য আমার প্রাথমিক কারণটি আমার সামনে সরাসরি একটি সমস্যা ছিল; তবে, আমার প্রশ্ন পোস্ট করার আগে, আমি ভেবেছিলাম এটি আরও কার্যকর হতে পারে যদি আমি এটিকে পুনরায় বানানো করি যাতে উত্তরগুলি সম্প্রদায়ের বৃহত্তর অংশে কার্যকর হয়।

একটি সাধারণ তাত্ত্বিক হিসাবে, আসুন প্রক্রিয়া প্রবাহ চলাকালীন কখন তারা নিযুক্ত করা হয় তার উপর ভিত্তি করে এই ডেটা হ্যান্ডলিং কৌশলগুলিকে ভাগ করে নিন - শ্রেণিবদ্ধে ইনপুট দেওয়ার আগে বা সময়কালে (অর্থাত্ কৌশলটি শ্রেণিবদ্ধের অভ্যন্তরে থাকে)।

দ্বিতীয়টির জন্য আমি যে সর্বোত্তম উদাহরণটি ভাবতে পারি তা হ'ল সিদ্ধান্ত গাছগুলিতে ব্যবহৃত চালাক 'ত্রি-মুখী ব্রাঞ্চিং' কৌশল।

সন্দেহ নেই, পূর্বের বিভাগটি আরও বড়। যে কৌশলগুলি সম্পর্কে আমি অবগত রয়েছি সেগুলি নীচের একটি দলের মধ্যে পড়ে।

সম্প্রতি "অনুপস্থিত ডেটা হ্যান্ডলিং" সম্পর্কে আমার ব্যক্তিগত নোটগুলি পর্যালোচনা করার সময় আমি লক্ষ্য করেছি যে আমার কাছে কৌশলগুলির একটি চিত্তাকর্ষক তালিকা ছিল। আমি কেবলমাত্র মানসিক শান্তির জন্য এই নোটগুলি বজায় রাখি এবং যদি কোনও জুনিয়র সহকর্মী আমাকে কীভাবে নিখোঁজ হওয়া ডেটাগুলি মোকাবেলা করতে চায় সে সম্পর্কে জিজ্ঞাসা করেন। প্রকৃত অনুশীলনে, আমি শেষের ব্যতীত আসলে এগুলির কোনও ব্যবহার করি না।

  1. অনুমান : কৌশলগুলির একটি সংকলনের জন্য একটি বিস্তৃত রুব্রিক যা সাধারণ ডিনমিনেটর (আমার বিশ্বাস) হ'ল অনুপস্থিত তথ্যটি একই ডেটা সেট দ্বারা সরবরাহ করা হয় - অনুমান / পূর্বাভাসের পরিবর্তে প্রতিস্থাপন।

  2. পুনর্গঠন : অটো-এসোসিয়েটিভ নেটওয়ার্ক ব্যবহার করে অনুপস্থিত ডাটা পয়েন্টগুলি অনুমান করুন (কেবলমাত্র একটি নিউরাল নেটওয়ার্ক যাতে ইনপুট এবং আউটপুট স্তরগুলির আকারগুলি সমান - অন্য কথায়, আউটপুটটির ইনপুটটির একই মাত্রা থাকে); এখানে ধারণাটি হ'ল এই নেটওয়ার্কটিকে সম্পূর্ণ ডেটাতে প্রশিক্ষণ দেওয়া, তারপরে এটি অসম্পূর্ণ নিদর্শনগুলি খাওয়ানো এবং আউটপুট নোডগুলি থেকে হারিয়ে যাওয়া মানগুলি পড়া।

  3. বুটস্ট্র্যাপিং : (পরিসংখ্যান বিশ্লেষণে এটি অন্য কোথাও ব্যবহারের ভিত্তিতে আমার কোনও সংক্ষিপ্তসার ভাবার দরকার নেই)।

  4. অস্বীকৃতি : আপনার প্রশিক্ষণ সেট থেকে নিখোঁজ / দুর্নীতিগ্রস্থ উপাদানগুলির সাথে ডেটা পয়েন্টগুলি নিঃশব্দে সরান এবং ভান করে যে সেগুলি কখনও নেই।


2
"হ্রাস-মডেল" পদ্ধতিরও রয়েছে যেখানে আপনি পরীক্ষার সময় অনুভূত মূল্যবোধের প্রতিটি প্যাটার্নের জন্য শ্রেণিবদ্ধ প্রশিক্ষণ দেন। IE, আমি যেখানে গুণাবলীর অনুপস্থিত তা এক্স এর জন্য ভবিষ্যদ্বাণী করতে, প্রশিক্ষণের ডেটা এবং ট্রেনের সমস্ত দৃষ্টিকোণ থেকে আমি বৈশিষ্ট্যটি সরিয়ে ফেলব। jmlr.csail.mit.edu/papers/v8/saar-tsechansky07a.html
ইয়ারোস্লাভ

আমি বিশ্বাস করি আপনার অনুদানের সংজ্ঞাটি আধুনিক প্রসঙ্গে ভুল। অভিব্যক্তি এখন ডেটা সেট থেকে অন্যান্য ভেরিয়েবলের উপর ভিত্তি করে হারিয়ে যাওয়া ডেটা মডেলিংয়ের সাথে জড়িত। বর্তমানে অনুগ্রহপ্রাপ্ত ইমপুটেশন পদ্ধতিটি হ'ল মাল্টিপল ইম্পুটেশন, যা প্রতিটি অনুপস্থিত মানের (মডেলের উপর ভিত্তি করে) জন্য একাধিক বিকল্প উত্পন্ন করে, প্রতিটি বিকল্প সমাপ্ত ডেটা সেট প্রক্রিয়া করে এবং তারপরে ফলাফলগুলির মধ্যে পরিবর্তনশীলতার প্রতিফলনকারী উত্তরগুলিকে একত্রিত করে। ("পুরানো দিনগুলিতে" লোকেরা অনুরূপ রেকর্ড, বা গড় ইত্যাদির চেয়ে মূল্য পরিবর্তনের মতো জিনিসগুলি করেছিল তবে এখন নয়))
ওয়েন

@ ওয়াইনে আপনি কি এই modernকৌশলগুলি বর্ণনা করে কিছু কাগজে আমাকে ইঙ্গিত করার জন্য এত দয়াবান হবেন ? ধন্যবাদ
এনজো

আরএস প্যাকেজে জেএসএসে একটি দুর্দান্ত সূচনাপত্র রয়েছেmice : jstatsoft.org/article/view/v045i03 । (আপনি আর ব্যবহার না করা সত্ত্বেও আপনার পরিচিতিটি দরকারী খুঁজে পাওয়া উচিত) এবং আর প্যাকেজের প্যাকেজের Ameliaসাথে অন্তর্ভুক্ত একটি দুর্দান্ত ভিগনেট রয়েছে। এই দুটি প্যাকেজ তাদের বিবরণে পৃথক, তবে উভয়ই একাধিক অনুচ্ছেদ ব্যবহার করে।
ওয়েন

উত্তর:


3

আমি অন্য প্রশ্নের এই উত্তরটি দিয়েছি , তবে এটি এখানেও প্রয়োগ হতে পারে।

" ম্যাট্রিক্স কমপ্লিটেশন নামে গবেষণার যুক্তিসঙ্গতভাবে নতুন একটি ক্ষেত্র রয়েছে , এটি সম্ভবত আপনি যা চান তা করেন। এমানুয়েল ক্যান্ডেসের এই বক্তৃতায় একটি দুর্দান্ত সুন্দর পরিচয় দেওয়া হয়েছে "

মূলত, যদি আপনার ডেটাসেটের নিম্ন র‌্যাঙ্ক থাকে (বা প্রায় কম র‌্যাঙ্ক) তবে আপনার 100 টি সারি রয়েছে তবে প্রকৃত ম্যাট্রিক্সের কিছুটা ছোট র‌্যাঙ্ক রয়েছে, 10 (বা শুধুমাত্র 10 টি একক মান আছে) বলুন, তবে আপনি অনুপস্থিতি পূরণের জন্য ম্যাট্রিক্স সম্পূর্ণতা ব্যবহার করতে পারেন ডেটা।


2

আমি এখানে একটু অপ্রচলিত হতে পারে, কিন্তু হেক কি। অনুগ্রহ করে নোট করুন: শ্রেণিবিন্যাসের জন্য চিন্তাভাবনার এই লাইনটি আমার নিজস্ব দর্শনের থেকেই এসেছে, এটি হ'ল আমি যখন এটি ব্যবহার করি তখন আমার উদ্দেশ্যটি বিশুদ্ধ ভবিষ্যদ্বাণী সম্পর্কিত - ব্যাখ্যা নয়, ধারণাগত একাত্মতা ইত্যাদি co সুতরাং, আমি এখানে যা বলছি তা কীভাবে বিপরীত হয় I একটি রিগ্রেশন মডেল নির্মাণের পদ্ধতি।

নিখোঁজ ডেটা হ্যান্ডেল করার ক্ষমতাটিতে বিভিন্ন শ্রেণিবদ্ধকরণের পদ্ধতির পরিবর্তিত হয় এবং কিছু অন্যান্য কারণের উপর নির্ভর করে আমি কেবল # 5 চেষ্টা করতে পারি: এমন একটি শ্রেণিবদ্ধ ব্যবহার করুন যা এই এনএগুলিকে শ্বাসরোধ করবে না। এই রুটে যাওয়ার সিদ্ধান্তের অংশের মধ্যে ভবিষ্যতের ডেটাতে আপনি কীভাবে মডেলটি প্রয়োগ করবেন তাতে এনএর সমান অনুপাতের সম্ভাবনা কতটা সম্ভব তা নিয়ে ভাবনাও অন্তর্ভুক্ত থাকতে পারে। যদি নির্দিষ্ট ভেরিয়েবলের জন্য এনএগুলি কোর্সের জন্য সমান হতে চলেছে, তবে কেবল তাদের সাথে রোল করাটা বোধগম্য হবে (অর্থাত্, ভবিষ্যদ্বাণীপূর্ণ মডেলটি তৈরি করবেন না যা আপনার কাছে যা আছে তার চেয়ে বেশি তথ্যমূলক ডেটা ধরে রাখবে, অথবা আপনি ' এটি কীভাবে ভবিষ্যদ্বাণীপূর্ণ হবে তা সম্পর্কে নিজেকে মজা করব। আসলে, যদি আমি নিশ্চিত নই যে এনএগুলি এলোমেলোভাবে অনুপস্থিত রয়েছে, তবে আমি একটি নতুন ভেরিয়েবল (বা এটি একটি নতুন স্তর যদি পুনরুদ্ধার করতে চাই)

যদি আমার কাছে এমন কোনও শ্রেণিবদ্ধ ব্যবহার করার উপযুক্ত কারণ থাকে যা হারিয়ে যাওয়া ডেটা খুব ভালভাবে নেয় না, তবে আমার দৃষ্টিভঙ্গিটি # 1 (একাধিক অনুপ্রবেশ) হবে, এমন একটি শ্রেণিবদ্ধ মডেল সন্ধান করতে চাইবে যা দোষযুক্ত ডেটা সেটগুলিতে একইভাবে ভাল আচরণ করে।

^ সহ: আপনার ভবিষ্যদ্বাণীকারীদের মধ্যে আপনার কতটা নিখোঁজতা রয়েছে, পদ্ধতিগত নিদর্শন রয়েছে কিনা (যদি তা থাকে তবে এটি আপনার বিশ্লেষণের নিদর্শনগুলির মধ্যে নিবিড় নজর দেওয়া এবং চিন্তা করা মূল্যবান হবে) এবং সামগ্রিকভাবে আপনাকে কতটা ডেটা কাজ করতে হবে ।


1

যদি আপনার কাছে ডেটা তৈরির প্রক্রিয়া সম্পর্কে যুক্তিসঙ্গত হান্চ থাকে যা প্রশ্নে থাকা ডেটার জন্য দায়ী তবে আপনি অনুপস্থিত ডেটাটি অনুমান করার জন্য বেইসিয়ান আইডিয়া ব্যবহার করতে পারেন। বায়সিয়ান পদ্ধতির অধীনে আপনি সহজেই অনুমান করবেন যে অনুপস্থিত তথ্যগুলিও এলোমেলো পরিবর্তনশীল এবং পর্যবেক্ষণ করা ডেটাতে শর্তসাপেক্ষে অনুপস্থিত তথ্যগুলির জন্য পশ্চাতটি তৈরি করে। উত্তরোত্তর অর্থগুলি তখন অনুপস্থিত তথ্যের বিকল্প হিসাবে ব্যবহৃত হবে।

বায়সিয়ান মডেলগুলির ব্যবহারটি শব্দটির বিস্তৃত অর্থে অভিশাপ হিসাবে যোগ্য হতে পারে তবে আমি এটি উল্লেখ করার কথা ভেবেছিলাম কারণ এটি আপনার তালিকায় উপস্থিত হয়নি।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.