ডেটা তৈরির ধারণাটির শূন্য-গড় রয়েছে


12

আমি প্রায়শই লোককে সমস্ত উপাদান থেকে মধ্যবর্তীতা সরিয়ে শূন্য-গড়ের একটি ডেটাসেটের একটি মাত্রা / বৈশিষ্ট্য তৈরি করতে দেখি। তবে আমি কখনই বুঝতে পারি নি কেন এমন করব? প্রাকপ্রসেসিং পদক্ষেপ হিসাবে এটি করার প্রভাব কী? এটি শ্রেণিবিন্যাসের পারফরম্যান্সকে উন্নত করে? এটি ডেটাসেট সম্পর্কে কিছু উত্তর দিতে সাহায্য করে? ডেটা বোঝার জন্য ভিজ্যুয়ালাইজেশন করার সময় এটি কী সহায়তা করে?


9
এই পদ্ধতিকে কেন্দ্রিক বলা হয় । এর একটি অ্যাপ্লিকেশন হ'ল রিগ্রেশন মডেলটির ইন্টারসেপটিকে "প্রেডিক্টেড ওয়াই যখন এক্স গড় হয়" রূপান্তরিত করা হয়, যাতে ইন্টারসেপ্টটিকে কিছুটা ব্যাখ্যাযোগ্য করে তোলা হয়।
পেঙ্গুইন_কেট

একটি কেন্দ্রিক বৈশিষ্ট্য / ডেটাসেটটিও ভালভাবে কন্ডিশনড থাকতে পারে । একটি চাক্ষুষ ব্যাখ্যার জন্য এখানে দেখুন । ইনপুটকে সাধারণকরণের ক্রিয়াকলাপ গ্রেডিয়েন্ট বংশোদ্ভূতিকে অনেক সহজ করে তোলে।
টিউন করা হয়েছে

উত্তর:


12

কিছু ক্ষেত্রে যেখানে "তার অর্থের উপর ডেটা কেন্দ্র করে" (এরপরে কেবল "ডি-অর্থ") কার্যকর হয়:

1) কোনও বিতরণ অন্য বিতরণের মতো "একই" কিনা এর ভিজ্যুয়াল সনাক্তকরণ, কেবল এটিই আসল লাইনে স্থানান্তরিত হয়েছে। উভয় বিতরণ শূন্য-মধ্যম করা, এই চাক্ষুষ পরিদর্শনকে আরও সহজ করে তোলে। কখনও কখনও, যদি গড় মানটি অনেকের দ্বারা পৃথক হয় তবে সেগুলি একই চার্টে দেখা অবৈধ। দুটি সাধারণ কথা চিন্তা করুন, একটি এবং একটি । আকার ঘনত্ব গ্রাফ এর অভিন্ন, শুধুমাত্র তাদের আসল লাইন পৃথক অবস্থান আছে। এখন কল্পনা করুন যে আপনি তাদের ঘনত্ব ফাংশনগুলির গ্রাফ রেখেছেন, তবে আপনি তাদের বৈচিত্র জানেন না। ডি-মাইন্ড সেগুলি একটি অন্য গ্রাফের উপরে এক গ্রাফকে সুপারমোজ করবে।এন ( 100 , 4 )এন(10,4)এন(100,4)

২) উচ্চতর মুহুর্তের গণনাগুলি সরল করুন: যদিও কোনও এলোমেলো ভেরিয়েবলের সাথে ধ্রুবক যুক্ত করা তার ভিন্নতা, বা অন্য র্যান্ডম ভেরিয়েবলের সাথে এর সমবায় পরিবর্তন করে না, তবুও আপনার যদি শূন্য নয়, এবং আপনাকে অবশ্যই বিশদ গণনা লিখতে হবে, আপনি আছে সব পদ লিখতে হয় এবং এটি দেখায় যে তারা বের বাতিল করুন। যদি ভেরিয়েবলগুলি ডি-মেনড হয় তবে আপনি প্রচুর অকেজো গণনা সংরক্ষণ করুন।

3) এলোমেলো পরিবর্তনগুলি তাদের গড়কে কেন্দ্র করে কেন্দ্রীয় সীমাবদ্ধ তত্ত্বের বিষয়বস্তু

৪) "গড় মান" থেকে বিচ্যুতি অনেক ক্ষেত্রেই আগ্রহের বিষয়টি এবং এলোমেলো ভেরিয়েবলের আসল মানগুলির পরিবর্তে সেগুলি "গড়ের উপরে বা নীচে" হতে থাকে। "অনুবাদ করা" (দৃষ্টিভঙ্গি এবং / অথবা গণনামূলকভাবে) নীচের বিচ্যুতি নেতিবাচক মান হিসাবে এবং গড়ের উপরে বিচ্যুতিটিকে ইতিবাচক মান হিসাবে বার্তাটি আরও পরিষ্কার এবং শক্তিশালী করে তোলে।

আরও গভীর-আলোচনার জন্য, আরও দেখুন

একাধিক রিগ্রেশন পরিচালনা করার সময়, আপনি কখন আপনার পূর্বাভাসক ভেরিয়েবলগুলি কেন্দ্র করবেন এবং আপনার সেগুলি কখন মানদণ্ডী করা উচিত?

একাধিক প্রতিরোধে ডেটা কেন্দ্র করে

আপনি যদি সিভিতে "কেন্দ্রিক ডেটা" অনুসন্ধান করেন, আপনি অন্যান্য আকর্ষণীয় পোস্টগুলিও পাবেন।


@ ওপ: আমি মনে করি এই উত্তরটি গ্রহণ করা উচিত।
rottweiler

4

এছাড়াও, ব্যবহারিক কারণে, ডেটা কেন্দ্র করা সুবিধাজনক, উদাহরণস্বরূপ, যখন নিউরাল নেটওয়ার্কগুলি প্রশিক্ষণ দেওয়া হয়।

ধারণাটি হ'ল একটি নিউরাল নেটওয়ার্ক প্রশিক্ষণের জন্য কিছু গ্রেডিয়েন্ট ভিত্তিক পদ্ধতির সাহায্যে নন-কনভেক্স অপটিমাইজেশন সমস্যা সমাধান করা দরকার। গ্রেডিয়েন্টগুলি ব্যাকপ্রসারণের মাধ্যমে গণনা করা হয়। এখন, এই গ্রেডিয়েন্টগুলি ইনপুটগুলির উপর নির্ভর করে এবং ডেটা কেন্দ্র করে গ্রেডিয়েন্টগুলির সম্ভাব্য পক্ষপাত দূর করে।

কংক্রিটের সাথে, একটি শূন্য -হীন গড়টি বৃহত ইগেনুয়ালুতে প্রতিফলিত হয় যার অর্থ গ্রেডিয়েন্টগুলি অন্যদিকে তুলনায় একদিকে বড় হতে থাকে (পক্ষপাত) এইভাবে সংহতকরণ প্রক্রিয়াটি ধীর করে দেয় এবং অবশেষে আরও খারাপ সমাধানের দিকে নিয়ে যায়।


1

আলেকোস যা বলেছিলেন, যা খুব ভাল, তা যুক্ত করার জন্য, বয়েশিয়ান পরিসংখ্যান বা নিয়মিতকরণ ব্যবহার করার সময় আপনার ডেটা শূন্যের কেন্দ্রীভূত করা অত্যন্ত গুরুত্বপূর্ণ, কারণ অন্যথায় ডেটা ইন্টারসেপ্টের সাথে সম্পর্কযুক্ত হতে পারে, যা নিয়মিত করে তোলে যা আপনি সাধারণত যা চান তা করেন না।

ডেটা শূন্য গড় করা কোভেরিয়েন্স ম্যাট্রিক্সের অনেকগুলি ত্রিভুজ পদকে হ্রাস করতে পারে, সুতরাং এটি উপাত্তকে আরও সহজে ব্যাখ্যাযোগ্য করে তোলে এবং সহগগুলি আরও সরাসরি অর্থবহ করে তোলে, যেহেতু প্রতিটি সহগটি সেই ফ্যাক্টারে আরও প্রাথমিকভাবে প্রয়োগ করে এবং এর সাথে সম্পর্কের মধ্য দিয়ে কম অভিনয় করে অন্যান্য কারণের.

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.