হাই-ডাইমেনশনাল ডেটা: দরকারী কৌশলগুলি কী কী তা জানুন?


14

মাত্রিকতার বিভিন্ন অভিশাপের কারণে , প্রচলিত ভবিষ্যদ্বাণীমূলক প্রযুক্তির অনেকের যথার্থতা এবং গতি উচ্চ মাত্রিক ডেটাতে অবনমিত হয়। উচ্চ-মাত্রিক ডেটা কার্যকরভাবে মোকাবেলা করতে সহায়তা করে এমন কিছু দরকারী কৌশল / কৌশল / হিউরিস্টিক্স কী কী? উদাহরণ স্বরূপ,

  • নির্দিষ্ট পরিসংখ্যান / মডেলিং পদ্ধতিগুলি উচ্চ-মাত্রিক ডেটাসেটগুলিতে ভাল সম্পাদন করে?
  • আমরা কিছু নির্দিষ্ট (যা দূরত্বের বিকল্প ধারণাগুলি সংজ্ঞায়িত করে) বা কার্নেলগুলি (যে বিন্দুগত পণ্যের বিকল্প ধারণাকে সংজ্ঞায়িত করে ) ব্যবহার করে উচ্চ-মাত্রিক ডেটাতে আমাদের ভবিষ্যদ্বাণীমূলক মডেলগুলির কার্যকারিতা উন্নত করতে পারি ?
  • উচ্চ মাত্রিক ডেটার জন্য মাত্রিকতা হ্রাসের সবচেয়ে দরকারী কৌশলগুলি কী কী?

উত্তর:


10

এটা অনেক বেশি বিস্তৃত প্রশ্ন, যা আমি মনে করি এটা আবরণ অসম্ভব অগ্রপশ্চাৎ একটি একক উত্তরে। অতএব, আমি মনে করি প্রাসঙ্গিক উত্তর এবং / অথবা সংস্থানগুলিতে কিছু পয়েন্টার সরবরাহ করা আরও বেশি উপকারী হবে। এটি আমার নিম্নলিখিত তথ্য এবং চিন্তাভাবনা সরবরাহ করে ঠিক কি করব।

সবার আগে, আমার মাইক্রোসফ্ট রিসার্চ থেকে বার্গেস (২০০৯) দ্বারা মাত্রিকতা হ্রাস সম্পর্কে দুর্দান্ত এবং বিস্তৃত টিউটোরিয়ালটি উল্লেখ করা উচিত । তিনি মনোগ্রাফ জুড়ে ঘন ঘন ডেটার উচ্চ-মাত্রিক দিকগুলি স্পর্শ করেন । মাত্রা হ্রাস হিসাবে মাত্রিকতা হ্রাসকে উল্লেখ করে এই কাজ, সমস্যার মধ্যে একটি তাত্ত্বিক ভূমিকা উপস্থাপন করে, প্রমিতিকর পদ্ধতি এবং বহুবিধ মডেলিং পদ্ধতির সমন্বয়ে মাত্রিকতা হ্রাস পদ্ধতির একটি করশাসনের পরামর্শ দেয় , পাশাপাশি প্রতিটি বিভাগে একাধিক পদ্ধতির ওভারভিউ সরবরাহ করে ।

পর্যালোচনা করা " প্রজেটিভ অনুসরণ" পদ্ধতিগুলির মধ্যে স্বতন্ত্র উপাদান বিশ্লেষণ (আইসিএ) , প্রধান উপাদান বিশ্লেষণ (পিসিএ) এবং এর বিভিন্নতা যেমন কর্নেল পিসিএ এবং সম্ভাব্য পিসিএ , ক্যানোনিকাল পারস্পরিক সম্পর্ক বিশ্লেষণ (সিসিএ) এবং এর কার্নেল সিসিএ প্রকরণ, লিনিয়ার বৈষম্যমূলক বিশ্লেষণ (এলডিএ) অন্তর্ভুক্ত রয়েছে ) , কার্নেলের মাত্রা হ্রাস (কেডিআর) এবং আরও কিছু। নানাবিধ পদ্ধতি পর্যালোচনা করা অন্তর্ভুক্ত বহুমাত্রিক স্কেলিং (MDS) এবং তার ল্যান্ডমার্ক MDS প্রকরণ, Isomap , স্থানীয়ভাবে রৈখিক এম্বেডএবং গ্রাফিকাল পদ্ধতিগুলি যেমন ল্যাপ্লেসিয়ান ইগেনম্যাপস এবং বর্ণালী ক্লাস্টারিংঅনলাইনে (উপরের লিঙ্কটি), অথবা অফলাইনে (রেফারেন্সগুলি) যদি আপনার জন্য মূল প্রকাশনাটি অ্যাক্সেসযোগ্য হয় তবে আমি এখানে সর্বাধিক পর্যালোচিত পদ্ধতির তালিকা দিচ্ছি ।

"বিস্তৃত" শব্দটির জন্য একটি সতর্কতা রয়েছে যা আমি উপরে বর্ণিত কাজের জন্য প্রয়োগ করেছি। যদিও এটি প্রকৃতপক্ষে বিস্তৃত, তবু এটি আপেক্ষিক, কারণ মাত্রিকতা হ্রাসের কয়েকটি পদ্ধতির মনোগ্রাফগুলিতে, বিশেষত, অযৌক্তিক (সুপ্ত) ভেরিয়েবলগুলির উপর দৃষ্টি নিবদ্ধ করা হয়েছে না । তাদের মধ্যে কিছু উল্লেখ করা হয়েছে, যদিও, অন্য উত্সের রেফারেন্স সহ - মাত্রিকতা হ্রাস সম্পর্কিত একটি বই।

এখন, আমি আমার প্রাসঙ্গিক বা সম্পর্কিত উত্তরগুলি উল্লেখ করে সংক্ষেপে প্রশ্নের কয়েকটি সংক্ষিপ্ত দিকটি সংক্ষিপ্ত করব। বিষয়ে নিকটতম প্রতিবেশীদের (এন এন) টাইপ পন্থা উচ্চ মাত্রিক তথ্য, দয়া করে আমার উত্তরগুলি দেখতে এখানে (আমি বিশেষ করে আমার তালিকায় কাগজ # 4 চেক করতে সুপারিশ)। মাত্রিকতার অভিশাপের প্রভাবগুলির মধ্যে একটি হ'ল উচ্চ-মাত্রিক ডেটা প্রায়শই বিচ্ছিন্ন হয় । এই সত্য বিবেচনা করে আমি বিশ্বাস করি যে আমার প্রাসঙ্গিক উত্তর এখানে এবং এখানে উপর রিগ্রেশন এবং পিসিএ জন্য বিক্ষিপ্ত এবং উচ্চ-মাত্রিক তথ্য সহায়ক হতে পারে।

তথ্যসূত্র

বার্জেস, সিজেসি (2010)। মাত্রা হ্রাস: একটি গাইড ট্যুর। ফাউন্ডেশন এবং ট্রেন্ডস Found মেশিন লার্নিংয়ে, 2 (4), 275-365। ডোই: 10.1561 / 2200000002


0

আলেকসান্দার একটি খুব বিস্তৃত উত্তর দিয়েছে তবে কয়েকটি রয়েছে যেগুলি খুব ব্যাপকভাবে মামলা করেছে:

মাত্রিকতা হ্রাসের জন্য, পিসিএ ব্যবহৃত হয় T তবে এটি কেবলমাত্র একটি রৈখিক রূপান্তর করে এবং অ-রৈখিক মাত্রিকতা হ্রাস করার জন্য, ম্যানিফোল্ড শিখাই আপনি যা খুঁজছেন তা।

উচ্চ মাত্রায় একটি নিম্ন মাত্রিক ডেটা প্রজেক্ট কর্নেল ব্যবহার করে করা যেতে পারে। আপনি সাধারণত এটি করেন, যখন আপনার শ্রেণিবদ্ধকারী বর্তমান মাত্রায় পৃথকীকরণের রৈখিক সমতল খুঁজে পেতে অক্ষম হন তবে উচ্চতর মাত্রায় শ্রেণি পৃথক করে এমন একটি লিনিয়ার হাইপারপ্লেন খুঁজে পেতে সক্ষম হবেন। কার্নেলগুলি এসভিএম এর ক্ষেত্রে ব্যাপকভাবে ব্যবহৃত হয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.