উইনসোরাইজিং বনাম ট্রিমিং ডেটা সম্পর্কিত তুলনামূলক গুণাবলী কী?


31

ডেটা উইনসরাইজ করার অর্থ প্রতিটি প্রান্ত থেকে নির্দিষ্ট পারসেন্টাইল মান সহ একটি ডেটা সেটের চূড়ান্ত মানগুলি প্রতিস্থাপন করা হয়, যখন ট্রিমিং বা ট্রান্সকাটিংয়ের সাথে সেই চূড়ান্ত মানগুলি সরানো থাকে ।

আমি সর্বদা গড় বা মানক বিচ্যুতি হিসাবে পরিসংখ্যান গণনা করার সময় বহিরাগতদের প্রভাবকে হ্রাস করার জন্য একটি কার্যকর বিকল্প হিসাবে আলোচিত দুটি পদ্ধতিই দেখি, তবে কেন আমি একজনকে অন্যের থেকে বেছে নিতে পারি তা দেখিনি ।

উইনসরাইজিং বা ট্রিমিং ব্যবহারের কি কোনও আপেক্ষিক সুবিধা বা অসুবিধা আছে? এমন কিছু পরিস্থিতি রয়েছে যেখানে একটি পদ্ধতি পছন্দনীয় হবে? অনুশীলনের ক্ষেত্রে একটি বেশি ব্যবহৃত হয় বা এগুলি মূলত বিনিময়যোগ্য?


2
এখানে পরিভাষা বিভ্রান্তিকর। ছাঁটাই মানে চূড়ান্ত মানগুলি উপেক্ষা করা, প্রতিটি লেজের মধ্যে কিছু ভগ্নাংশ। এটি পুচ্ছগুলিতে মানগুলি মুছে ফেলা বা বাদ দেওয়ার অর্থ দেয় না, কমপক্ষে নয় কারণ আপনার সম্ভবত অন্যান্য বিশ্লেষণে এগুলি অন্তর্ভুক্ত থাকতে পারে। কাটা শব্দটি অন্যান্য অর্থের জন্য সবচেয়ে ভাল সংরক্ষিত। যেমন এন.ইউইকিপিডিয়া.আর.উইকি / ট্রান্সকিশন_জেস্টিটিস্টিকস) দেখুন
নিক কক্স

উত্তর:


11

আমি সবেমাত্র হোঁচট খেয়েছি এমন ছাঁটাই সম্পর্কিত একটি পৃথক, তবে সম্পর্কিত প্রশ্নের মধ্যে, একটি জবাব কেন উইনসরাইজিং বা ট্রিমিং ব্যবহার করতে পারে সে সম্পর্কে নিম্নলিখিত উত্তরের অন্তর্দৃষ্টি রয়েছে:

আপনি ছাঁটাই বিতরণ গ্রহণ করলে, আপনি স্পষ্টভাবে বলে: আমি বিদেশী / বিতরণ এর লেজগুলিতে আগ্রহী না। আপনি যদি বিশ্বাস করেন যে "আউটলিয়ার্স" প্রকৃতপক্ষে বিদেশী (যেমন তারা বিতরণের অন্তর্ভুক্ত নয় তবে "অন্য ধরণের") তবে ট্রিমিং করা do যদি আপনি ভাবেন যে তারা বিতরণের অন্তর্ভুক্ত তবে আপনি কম স্কিউড বিতরণ করতে চান তবে আপনি উইনসরাইজিংয়ের কথা ভাবতে পারেন।

আমি আরও কৌতূহলযুক্ত যদি আরও নির্দিষ্ট সংজ্ঞা দেওয়া হয় তবে উপরের যুক্তি যুক্তিযুক্ত মনে হয়।


4

একটি ভাল প্রশ্ন যা সব ক্ষেত্রেই প্রায়শই সম্মুখীন হয়! উভয় ক্ষেত্রে আপনি প্রযুক্তিগতভাবে সেগুলি ডেটা সেট থেকে সরিয়ে দিচ্ছেন।

আমি জানি যে ট্র্যাঙ্কেশনের কোনও ফর্ম ব্যবহারের জন্য গ্রাফিকভাবে কোনও প্রবণতা সন্ধান করার চেষ্টা করার সময় এটি প্রচলিত অনুশীলন: প্লট করার উদ্দেশ্যে সম্পূর্ণ ডেটা সেট ব্যবহার করুন, তবে তারপরে ব্যাখ্যার জন্য চূড়ান্ত মানগুলি বাদ দিন।

'উইনসরাইজিং' এর সমস্যাটি হ'ল যে অংশগুলি আপনি যুক্ত করেন তা স্বয়ংসম্পূর্ণ হয়, এটি সেগুলি ডেটা সেট থেকে উদ্ভূত এবং তাই কেবল এটি সমর্থন করে। প্রশিক্ষণ এবং পরীক্ষার ডেটা সেট কীভাবে ব্যবহার করবেন তা সিদ্ধান্ত নেওয়ার সময় আপনি যদি মেশিন-লার্নিংয়ের ক্রস-বৈধতা / শ্রেণিবিন্যাসের কাজের দিকে নজর দেন তবে সিমলার সমস্যা রয়েছে।

আমি কোনও অবস্থাতেই কোনও মানসম্মত পদ্ধতির মুখোমুখি হইনি - এটি সর্বদা ডেটা নির্দিষ্ট। আপনার ডেটা (আউটলিয়ার্স) কোন পার্সেন্টাইলের ফলে প্রদত্ত শতাংশের অস্থিরতা / সেন্টারের শতাংশ তৈরি করছে তা খুঁজে বের করার চেষ্টা করতে পারেন। বিচ্যুতি এবং সেই অস্থিরতা হ্রাস করার ক্ষেত্রে যতটা সম্ভব ডেটা বজায় রাখার মধ্যে একটি ভারসাম্য খুঁজে নিন।


6
উপরের আমার মতামত হিসাবে, "এগুলি ডেটা সেট থেকে সরানো" এখানে খুব শক্ত। ছাঁটাই বা উইনসরাইজিং এর অর্থ কেবল একটি নির্দিষ্ট গণনার জন্য এটি যা করে তা উপেক্ষা করা বা প্রতিস্থাপন করা। আপনি ডেটাসেট থেকে লেজের মানগুলি সরিয়ে নিতে বাধ্য নন , যেমন আপনি পচা ফল ফেলে দিচ্ছেন। উদাহরণস্বরূপ, সম্ভাব্য আউটলিয়ারদের মুখোমুখি হয়ে আপনি ডেটা আসার সাথে সাথে বিশ্লেষণ করতে এবং ট্রিমিংয়ের উপর ভিত্তি করে একটি বিশ্লেষণ করতে পারেন এবং দেখুন কী পার্থক্য রয়েছে তা।
নিক কক্স

-1

এটি একটি ভাল প্রশ্ন এবং আমি একটির মুখোমুখি হয়েছি। আপনার কাছে একটি বড় ডেটাসেট বা আরও সঠিকভাবে একটি বিস্তৃত ডেটাসেট রয়েছে যেখানে ডেটা মানগুলির সংখ্যালঘু বিস্তৃত আকারে পরিবর্তিত হয় (তবে তবুও এটি দেখানো প্রয়োজন), এবং ডেটাসেটের সিংহভাগটি একটি সংকীর্ণ ব্যান্ডের মধ্যে থাকে, যেমন যদি ডেটা প্ল্যাটফর্ম করা হয়, যেখানে বেশিরভাগ ডেটা মিথ্যা থাকে এবং বিশদকরণকে সাধারণকরণ বা মানককরণ যথেষ্ট পরিমাণে পার্থক্য দেখায় না (কমপক্ষে দৃশ্যত), বা এর পরিবর্তে কাঁচা ডেটা প্রয়োজন হয়, তারপরে কাটা বা উইনসরাইজিং চরম ডেটা মানগুলি আরও ভাল ডেটা ভিজ্যুয়ালাইজেশনে সহায়তা করে।


এটি একটি ভাল প্রশ্ন, তবে আপনি এটির উত্তর দেন না। আপনি কেবল বলেছেন যে ছাঁটাই বা উইনসরাইজিং দৃশ্যকে সহায়তা করতে পারে help
নিক কক্স

-2

O(nlogn)O(n)(1,2,3,4,4)(2+2+3+4+4)/5(2+3+4)/3(2+3+4+4)/4


1
O(nlogn)O(n)

আপনি সঠিক. আমি আমার মূল পোস্টটি ভুল লিখেছি। কখনও কখনও টাইপিং আঙ্গুল এবং মস্তিষ্ক সিঙ্ক হয় না। আমি বলতে চাইছিলাম একটি সত্য কাটা মানেকে সঠিকভাবে গণনা করতে, আপনাকে সমস্ত ডেটা উপাদানকে বাছাই করতে হবে। আমি বিশ্বাস করি এটি এখনও সত্য। আমি উত্তর দ্বারা আপডেট করেছি।
লকাতা

2
এর থেকে বোঝা যাচ্ছে যে উইনসরাইজিংয়ের অর্থ প্রতিটি লেজের মধ্যে উইনসরাইজিং 25%। আপনি উইনসরাইজ করতে পারবেন যতটুকু যথাযথ বলে মনে হচ্ছে।
নিক কক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.