প্রসঙ্গ: আমি এমন একটি সিস্টেম বিকাশ করছি যা টাইপস হতে পারে এমন অনর্থক ডেটা ফিল্টার করার জন্য ক্লিনিকাল ডেটা বিশ্লেষণ করে।
আমি এ পর্যন্ত কি করেছি:
প্রশংসনীয়তা প্রমাণের জন্য, আমার এ পর্যন্ত প্রচেষ্টাটি ছিল ডেটা স্বাভাবিক করার এবং তারপরে সেট ডি (= প্রশিক্ষণের সেট) এর ज्ञিত ডেটা পয়েন্টগুলির দূরত্বের ভিত্তিতে পয়েন্ট পি এর জন্য একটি প্লাজিলিটি মান গণনা করা:
সেই পরিমাণের সাথে, আমি তারপরে একটি প্রান্তিক নির্বাচন করতে পারি যা কলুষিত ডেটা থেকে কল্পনাযোগ্য ডেটা পৃথক করে। আমি পাইথন / নপি ব্যবহার করছি।
আমার সমস্যাগুলি:
- এই অ্যালগরিদম স্বাধীন মাত্রা সনাক্ত করতে পারে না। আদর্শভাবে, আমি রেকর্ড সম্পর্কে আমার জানা সমস্ত কিছু অ্যালগরিদমের মধ্যে রাখতে পারি এবং এটি নিজেই এটি জানতে দিতে পারি যে এক্স এক্স রেকর্ডের প্রশংসাপত্রকে প্রভাবিত করে না।
- অ্যালগরিদম সত্যই বুলেট বা পছন্দসই ইনপুটগুলির মতো বিচ্ছিন্ন মানগুলির জন্য কাজ করে না। এগুলি অবিচ্ছিন্ন মানগুলিতে ম্যাপ করা যেতে পারে, তবে এটি পাল্টা-স্বজ্ঞাত যে 1 টি নির্বাচন করতে 3 নির্বাচন করার চেয়ে নির্বাচন 2 এর কাছাকাছি নির্বাচন করুন।
প্রশ্ন:
এই কাজের জন্য আমার কী ধরণের অ্যালগরিদমগুলি সন্ধান করা উচিত? নিকটতম প্রতিবেশী ভিত্তিক, ক্লাস্টারিং ভিত্তিক এবং পরিসংখ্যানিক পদ্ধতির সহ অনেকগুলি বিকল্প রয়েছে বলে মনে হচ্ছে। এছাড়াও, আমার কাছে জটিলতাগুলি সনাক্ত করার সাথে সম্পর্কিত কাগজপত্রগুলি খুঁজে পেতে সমস্যা হয়।
কোন পরামর্শ অত্যন্ত প্রশংসা করা হয়।
[সম্পাদনা] উদাহরণ:
ধরুন ডেটাটিতে একজন ব্যক্তির উচ্চতা, একজন ব্যক্তির ওজন এবং টাইমস্ট্যাম্প রয়েছে - সুতরাং এটি 3D- ডেটা। ওজন এবং উচ্চতা পারস্পরিক সম্পর্কযুক্ত তবে টাইমস্ট্যাম্প সম্পূর্ণ স্বাধীন। আমি যদি কেবল ইউক্যালিডিয়ান দূরত্ব বিবেচনা করি, তবে আমার বেশিরভাগ ক্রস বৈধতা ডেটা ফিট করার জন্য আমাকে একটি ছোট থ্রোসোল্ড বেছে নিতে হবে। আদর্শভাবে, অ্যালগরিদম কেবল টাইমস্ট্যাম্পের মাত্রা উপেক্ষা করবে, কারণ কোনও রেকর্ড কলুষিতযোগ্য কিনা তা নির্ধারণ করা অপ্রাসঙ্গিক, কারণ টাইমস্ট্যাম্পটি কোনওভাবেই অন্যান্য মাত্রাগুলির সাথে সম্পর্কিত নয়। যেকোন টাইমস্ট্যাম্প প্রশংসনীয়।
অন্যদিকে, টাইমস্ট্যাম্প যে বিষয়ে গুরুত্বপূর্ণ সে ক্ষেত্রে কেউ উদাহরণ তৈরি করতে পারে। উদাহরণস্বরূপ এটি হতে পারে যে মান X এর বৈশিষ্ট্য X এর জন্য নির্ধারিত হয় যখন একটি নির্দিষ্ট তারিখের আগে পরিমাপ করা হয় তবে নির্দিষ্ট তারিখের পরে নয়।