মেশিন লার্নিংয়ের কাজে ডেটা পরিবর্তন করা উচিত কেন


30

মেশিন লার্নিংয়ের কার্যগুলিতে ডেটা বদলানো এবং এটি স্বাভাবিক করা সাধারণ। সাধারণকরণের উদ্দেশ্যটি পরিষ্কার (বৈশিষ্ট্যের মানগুলির একই পরিসীমা থাকার জন্য)। তবে, অনেক লড়াই করার পরেও আমি ডেটা বদল করার কোনও মূল্যবান কারণ খুঁজে পাইনি।

আমাদের যখন ডেটা বদলানো দরকার তখন আমি এখানে এই পোস্টটি পড়ে আলোচনা করেছি, তবে কেন ডেটা বদলানো উচিত তা স্পষ্ট নয়। তদুপরি, আমি প্রায়শই অ্যাডাম বা এসজিডি এর মতো অ্যালগরিদমে দেখেছি যেখানে আমাদের ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত প্রয়োজন (ডেটাটি মিনি-ব্যাচগুলিতে পৃথক করা উচিত এবং ব্যাচের আকার নির্দিষ্ট করতে হবে)। প্রতিটি পর্বের জন্য আলাদা আলাদা ডেটা থাকার জন্য প্রতিটি যুগের ডেটা বদলানো এই পোস্ট অনুসারে গুরুত্বপূর্ণ vital সুতরাং, সম্ভবত ডেটা বদলানো হয়েছে এবং আরও গুরুত্বপূর্ণভাবে পরিবর্তিত হয়েছে।

কেন আমরা এই কাজ করি?


1
প্রথম লিঙ্কের উত্তর আপনাকে কেন সহায়তা করে নি ঠিক তা জানানো কার্যকর হতে পারে। অন্যথায়, আমরা ইতিমধ্যে সামান্য উন্নতি করে বলেছি সামগ্রীতে পুনরাবৃত্তি করার ঝুঁকি নিচ্ছি।
ই_নেট

আমি যেমন বলেছি আমি জানতে চাই কেন কখন নয়, আপনি কেন জানেন? সত্যিই কি সেখানে ব্যাখ্যা করা হয়েছে? আমি এর জন্য কোনও কাগজ এখনও দেখিনি
মিডিয়া

1
পাঠ্যক্রমের পড়াশুনা [পিডিএফ] পড়ার উদাহরণ উদাহরণের প্রভাব সম্পর্কে আরও তথ্যের জন্য ।
এমরে

1
আমি এটি ক্রসভিলেটেডে পোস্ট করেছি এবং আমি মনে করি এটি প্রাসঙ্গিক। stats.stackexchange.com/a/311318/89653
জোশ

@ আমর আসলে এই কাগজটি বদলানো বিরুদ্ধে, ধন্যবাদ, আমি এই ধরণের শেখার বিষয়ে শুনিনি।
মিডিয়া

উত্তর:


18

উপর ভিত্তি করে আমরা যখন একটা প্রশ্ন DataScience পোস্ট একটি প্রশ্ন CrossValidated পোস্ট অনুরূপ কী করা উচিত? , ক্রসভ্যালিডেটেড ( https://stats.stackexchange.com/a/311318/89653 ) এ জিজ্ঞাসা করা একই প্রশ্নের আমার উত্তরটি পুনরায় পোস্ট করছি ।

দ্রষ্টব্য: এই উত্তরে আমি প্রশিক্ষণের ক্ষতি হ্রাস করার বিষয়টি উল্লেখ করি এবং বৈধতা হ্রাসের মতো স্টপিং মানদণ্ডের বিষয়ে আমি আলোচনা করি না। থামার মানদণ্ডের পছন্দটি নীচে বর্ণিত প্রক্রিয়া / ধারণাগুলিকে প্রভাবিত করে না।

নিউরাল নেটওয়ার্কের প্রশিক্ষণের প্রক্রিয়া হ'ল লস ফাংশনের ন্যূনতম মান , যেখানে নিউরন এবং মধ্যে ম্যাট্রিক্স (বা বেশ কয়েকটি ম্যাট্রিক) প্রতিনিধিত্ব করে ট্রেনিং ডেটাসেটকে উপস্থাপন করে। আমি একটি সাবস্ক্রিপ্ট ব্যবহার ইঙ্গিত রয়েছে যা আমাদের কম শুধুমাত্র ওজন বেশি ঘটে (যে, আমরা কি খুঁজছি যেমন যে কমিয়ে আনা হয়) যখন সংশোধন করা হয়েছে।ডাব্লুএক্সএক্স ডাব্লুডাব্লুএক্স এক্সX(W)WXXWWX

এখন, আমরা যদি ধরে নেই যে আমরা আছে উপাদান (যে আছে নেটওয়ার্কের মধ্যে ওজন), একটি মধ্যে একটি পৃষ্ঠ হয় -dimensional স্থান। একটি ভিজ্যুয়াল অ্যানালগ দেওয়ার জন্য, কল্পনা করুন যে আমাদের কেবল দুটি নিউরন ওজন রয়েছে ( )। তারপর একটি সহজ জ্যামিতিক ব্যাখ্যা আছে: এটা একটি 3-মাত্রিক স্থান একটি পৃষ্ঠ হয়। এটি এই সত্য থেকেই উদ্ভূত হয় যে ওয়েটের যে কোনও দেওয়া ম্যাট্রিকের জন্য , ক্ষতির ক্রিয়াটি মূল্যায়ন করা যেতে পারে এবং সেই মানটি পৃষ্ঠের উচ্চতাতে পরিণত হয়।ডব্লু পি পি + 1 পি = 2 ডাব্লু এক্সPWPP+1P=2WX

তবে অবিচ্ছিন্নতার সমস্যা রয়েছে; আমি বর্ণিত পৃষ্ঠটির অনেকগুলি স্থানীয় মিনিমা থাকবে, এবং অতএব গ্রেডিয়েন্ট বংশদ্ভুত অ্যালগরিদমগুলি সেই মিনিমাতে "আটকে" যাওয়ার পক্ষে সংবেদনশীল তবে গভীর / নিম্ন / আরও ভাল সমাধান কাছাকাছি থাকতে পারে। সমস্ত ট্রেনিং পুনরাবৃত্তির উপরে যদি অপরিবর্তিত থাকে তবে এটি সম্ভবত ঘটবে , কারণ প্রদত্ত জন্য পৃষ্ঠটি স্থির করা হয়েছে ; এর বিভিন্ন বৈশিষ্ট্যগুলি বিভিন্ন মিনিমা সহ স্থিতিশীল।এক্সXX

এর সমাধান হ'ল মিনি ব্যাচের প্রশিক্ষণটি বদলে যাওয়া with একটি প্রদত্ত পুনরাবৃত্তির সময় শুধুমাত্র তাদের একটি উপসেট উপর সারি ও প্রশিক্ষণ অদলবদল করার মাধ্যমে, সাথে পরিবর্তনগুলি প্রত্যেক পুনরাবৃত্তির, এবং এটা আসলে খুবই সম্ভব যে প্রশিক্ষণ পুনরাবৃত্তিও ও সময়কাল সমগ্র ক্রম উপর কোন দুই পুনরাবৃত্তিও সঠিক একই সম্পাদনা করা যেতে হবে । এর প্রভাবটি হ'ল সমাধানকারী স্থানীয় ন্যূনতম থেকে খুব সহজেই "বাউন্স" করতে পারেন। কল্পনা করুন যে সমাধানকারী পুনরাবৃত্তির এ স্থানীয় সর্বনিম্ন আটকে প্রশিক্ষণ মিনি- ব্যাচ সঙ্গে । এই স্থানীয় ওজনের একটি নির্দিষ্ট মূল্যে মূল্যায়ন করে; আমরা এটিকেএক্স আমি এক্স আমি এক্স আমি ( ওয়াট আমি ) এক্স আমি + + 1 এক্স আমি + + 1 ( ওয়াট আমি ) এক্স আমি ( ওয়াট আমি ) এক্স আমি + + 1এক্স আমি এক্স ওয়াট ওয়াটXXiXiXi(Wi)। পরবর্তী পুনরাবৃত্তিতে আমাদের ক্ষতির পৃষ্ঠের আকৃতিটি আসলে পরিবর্তিত হয় কারণ আমরা using ব্যবহার করছি , অর্থাৎ, from থেকে খুব আলাদা মান গ্রহণ করতে পারে এবং এটি সম্ভব যে এটি কোনও স্থানীয় সাথে মিলে না! আমরা এখন একটি গ্রেডিয়েন্ট আপডেট গণনা করতে পারি এবং প্রশিক্ষণ দিয়ে চালিয়ে যেতে পারি। স্পষ্ট হবে: আকৃতি হবে - সাধারণভাবে - যা থেকে আলাদা হতে। মনে রাখবেন যে, এখানে আমি ক্ষয় ফাংশন উল্লেখ করছি একটি প্রশিক্ষণ সেটে মূল্যায়ন ; এটি সমস্ত সম্ভাব্য মানের তুলনায় সংজ্ঞায়িত একটি সম্পূর্ণ পৃষ্ঠ surfaceXi+1Xi+1(Wi)Xi(Wi)Xi+1XiXW, নির্দিষ্ট মানের জন্য সেই ক্ষতির মূল্যায়ন (যা কেবলমাত্র একটি স্কেলার) । এছাড়াও নোট করুন যে যদি মিনি ব্যাচগুলি পরিবর্তন না করে ব্যবহার করা হয় তবে লোকসানের উপরিভাগের "বিবিধকরণ" এর একটি ডিগ্রি এখনও রয়েছে, তবে সলভার দ্বারা দেখা একটি সীমাবদ্ধ (এবং তুলনামূলকভাবে ছোট) সংখ্যার অনন্য ত্রুটি থাকবে (বিশেষত, এটি দেখতে পাবে) মিনি-ব্যাচগুলির একই সঠিক সেট - এবং সেইজন্য লোকসানের পৃষ্ঠগুলি - প্রতিটি যুগের সময়)।W

একটি জিনিস আমি ইচ্ছাকৃতভাবে মিনি-ব্যাচের আকারগুলির আলোচনাটি এড়িয়ে গিয়েছিলাম, কারণ এটি সম্পর্কে মিলিয়ন মতামত রয়েছে এবং এর উল্লেখযোগ্য ব্যবহারিক প্রভাব রয়েছে (বৃহত্তর ব্যাচগুলির সাথে বৃহত্তর সমান্তরালতা অর্জন করা যেতে পারে)। তবে আমি বিশ্বাস করি যে নিম্নলিখিতগুলি উল্লেখযোগ্য। যেহেতু প্রতিটি সারির মান গণনা করে মূল্যায়ন করা হয় (এবং বা গড় গ্রহণ; অর্থাত্ একটি যাত্রী অপারেটর) প্রদত্ত ওজনের ম্যাট্রিকেস সেট জন্য এর সারিগুলির বিন্যাস কার্যকর হয় না যখন পূর্ণ- ব্যবহার করার সময় ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত (এটি, যখন প্রতিটি ব্যাচ পুরো , এবং পুনরাবৃত্তি এবং যুগগুলি একই জিনিস হয়)। এক্স ডাব্লু এক্স এক্সXWX X


+1 টি। এই উত্তরটি উচ্চতর সংখ্যার বেশি সংখ্যার উত্তরগুলির তুলনায় প্রযুক্তিগতভাবে আরও ভালভাবে ব্যাখ্যা করা হয়েছে।
গোকুল এনসি

29

শাফলিং ডেটা বৈকল্পিকতা হ্রাস করার এবং মডেলগুলি সাধারণ অবস্থায় থাকবে এবং কম পরিমাণে বেশি ফিট করে তা নিশ্চিত করার উদ্দেশ্যে কাজ করে।

আপনার ডেটাটি শ্রেণি / লক্ষ্য অনুসারে বাছাই করা হলে আপনি যেখানে আপনার ডেটা বদল করতে চান তার স্পষ্ট কেস। এখানে, আপনার প্রশিক্ষণ / পরীক্ষা / বৈধতা সেটগুলি ডেটার সামগ্রিক বিতরণের প্রতিনিধি কিনা তা নিশ্চিত করার জন্য আপনি এলোমেলো করতে চাইবেন।

ব্যাচ গ্রেডিয়েন্ট বংশোদ্ভূত জন্য, একই যুক্তি প্রয়োগ করা হয়। ব্যাচ গ্রেডিয়েন্ট বংশোদ্ভূত হওয়ার পিছনে ধারণাটি হ'ল একক ব্যাচে গ্রেডিয়েন্ট গণনা করার মাধ্যমে আপনি সাধারণত "সত্য" গ্রেডিয়েন্টের মোটামুটি ভাল অনুমান পাবেন। এইভাবে, আপনি প্রতিবার সম্পূর্ণ ডেটাসেটের উপরে "সত্য" গ্রেডিয়েন্ট গণনা না করে গণনার সময় সাশ্রয় করেন।

আপনি প্রতিটি যুগের পরে আপনার ডেটা পরিবর্তন করতে চান কারণ আপনার সর্বদা ডেটাসেটের প্রতিনিধিত্বকারী নয় এমন ব্যাচগুলি তৈরি করার ঝুঁকি থাকবে এবং তাই আপনার গ্রেডিয়েন্টের অনুমান বন্ধ থাকবে be প্রতিটি যুগের পরে আপনার ডেটা বদলানো নিশ্চিত করে যে আপনি খুব বেশি খারাপ ব্যাচের সাথে "আটকে" থাকবেন না।

নিয়মিত স্টোচাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত, যখন প্রতিটি ব্যাচের আকার 1 থাকে, আপনি এখনও আপনার শেখার সাধারণ রাখতে প্রতিটি পর্বের পরে আপনার ডেটা পরিবর্তন করতে চান। প্রকৃতপক্ষে, যদি ডেটা পয়েন্ট 17 সর্বদা ডেটা পয়েন্ট 16 এর পরে ব্যবহার করা হয়, তবে তার নিজস্ব গ্রেডিয়েন্টটি মডেলটিতে যা কিছু আপডেট করে ডেটা পয়েন্ট 16 করছে তা পক্ষপাতদুষ্ট হবে। আপনার ডেটা পরিবর্তন করে আপনি নিশ্চিত করেছেন যে প্রতিটি ডেটা পয়েন্ট তাদের সামনে একই পয়েন্ট দ্বারা পক্ষপাতদুষ্ট না হয়ে মডেলটিতে একটি "স্বতন্ত্র" পরিবর্তন তৈরি করে।


1
আমি যেমন ব্যাখ্যা করেছি, আপনার প্রশিক্ষণ / পরীক্ষার সেটগুলি প্রতিনিধি হবে কিনা তা নিশ্চিত করার জন্য আপনি আপনার ডেটা বদলে ফেলুন। রিগ্রেশনে, আপনি বদলানো ব্যবহার করেন কারণ আপনি নিশ্চিত করতে চান যে আপনি কেবলমাত্র ছোট মানগুলিতে প্রশিক্ষণ নিচ্ছেন না। বদলানো বেশিরভাগই একটি সুরক্ষাকারী, সবচেয়ে খারাপ ক্ষেত্রে, এটি দরকারী নয়, তবে আপনি এটি করে কিছু হারাবেন না। স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত অংশের জন্য, আপনি আবার নিশ্চিত করতে চান যে আপনি যে পরিমাণে ডেটাটি খাওয়ালেন সেই কারণে মডেলটি সেভাবে নয়, তাই এড়াতে নিশ্চিত হওয়ার জন্য, আপনি এলোমেলো করে দিন
ভ্যালেন্টিন ক্যালোমে

2
আমার মনে হয় বদলে যাওয়া বৈকল্পিকতা হ্রাস করে এবং পক্ষপাত বাড়ার সম্ভাবনা রয়েছে (অর্থাত্, এটি ডেটাটিকে উপকারী করার প্রবণতা হ্রাস করে)। কল্পনা করুন যে আমরা পূর্ণ-ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত করছিলাম, যেমন যুগ এবং পুনরাবৃত্তি একই জিনিস। তারপরে একটি বিশ্বব্যাপী ন্যূনতম উপস্থিত রয়েছে (এটি আমরা প্রয়োজনীয়ভাবে এটি সন্ধান করতে পারি না) যা আমাদের সমাধানকারী সনাক্ত করার চেষ্টা করছে। আমরা যদি এমএসই ক্ষতির ব্যবহার করে থাকি তবে প্রতিবার এই সমাধানে পৌঁছাতে পারলে আমরা পক্ষপাত হ্রাস করব। তবে যেহেতু এই আন্তর্জাতিক সর্বনিম্ন ন্যূনতম ন্যূনতমটি বিভিন্ন প্রশিক্ষণের সেটগুলির জন্য পৃথক স্থানে পাওয়া যাবে বলে এই সমাধানটির উচ্চতর বৈচিত্র রয়েছে to
জোশ

2
বদলে যাওয়া দ্বারা, আমরা পুরো প্রশিক্ষণের সেট (উচ্চতর পক্ষপাত) এর জন্য বিশ্বব্যাপী ন্যূনতম ন্যূনতম একটি সমাধানে রূপান্তরিত হওয়ার সম্ভাবনা কম, তবে আরও ভাল সমাধানের (কম বৈকল্পিক) সমাধান পাওয়ার সম্ভাবনা বেশি।
জোশ

7

ধরুন ডেটা একটি নির্দিষ্ট ক্রমে সাজানো হয়েছে। উদাহরণস্বরূপ একটি ডেটা সেট যা তাদের ক্লাসের ভিত্তিতে বাছাই করা হয়। সুতরাং, যদি আপনি এই বিষয়টিকে বিবেচনা না করে প্রশিক্ষণ, বৈধতা এবং পরীক্ষার জন্য ডেটা নির্বাচন করেন তবে আপনি প্রতিটি ক্লাসকে বিভিন্ন কাজের জন্য নির্বাচন করবেন এবং এটি প্রক্রিয়াটি ব্যর্থ হবে।

সুতরাং, এই ধরণের সমস্যা প্রতিরোধ করতে, একটি সহজ সমাধান প্রশিক্ষণ, বৈধতা এবং পরীক্ষার ডেটা বিভিন্ন সেট পেতে ডেটা বদলানো হয় get

মিনি-ব্যাচ সম্পর্কে, এই পোস্টের উত্তরগুলি আপনার প্রশ্নের সমাধান হতে পারে।


1
@ মিডিয়া প্রদত্ত লিঙ্কটির সর্বাধিক সম্পর্কিত উত্তরটি হ'ল: "মিনি-ব্যাচগুলি বদলানো গ্রেডিয়েন্টগুলিকে আরও পরিবর্তনশীল করে তোলে, যা রূপান্তরকে সহায়তা করতে পারে কারণ এটি একটি ভাল দিকের আঘাতের সম্ভাবনা বাড়িয়ে তোলে"
ওএমজি

আসলে আমি এসজিডির কাগজে এটি দেখেছি কিন্তু কাগজের লেখকরা দাবি করেছেন যে এটি রূপান্তর কারণ হ'ল বদল নয়। আমি লিঙ্কটি দেখেছি এবং আমি এটি কিছুটা সন্দেহ করি। আরও স্পষ্টতার জন্য এই আশ্চর্যজনক কাগজ দেখুন। লেখকরা সেখানে বিষয়টি উল্লেখ করেছেন, তবে আপনি দেখতে পাবেন যে এলোমেলো হওয়ার কোনও সঠিক কারণ নেই
মিডিয়া

1

আমাদের কেবল মিনিব্যাচ / এসজিডি-তে পরিবর্তন করতে হবে, ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত হওয়ার দরকার নেই।

যদি ডেটা বদল না করা হয় তবে ডেটা বাছাই করা যেতে পারে বা অনুরূপ ডেটা পয়েন্ট একে অপরের পাশে থাকবে, যা ধীরে ধীরে রূপান্তরিত করে:

  • অনুরূপ নমুনা অনুরূপ পৃষ্ঠতল উত্পাদন করবে (1 নমুনার জন্য ক্ষতির জন্য 1 পৃষ্ঠ) -> গ্রেডিয়েন্ট অনুরূপ দিক নির্দেশ করবে তবে এই দিকটি ন্যূনতম দিকে বিন্দুতে নির্দেশ করে-> এটি নূন্যতম থেকে খুব দূরে গ্রেডিয়েন্টকে চালিত করতে পারে
  • "সেরা দিকনির্দেশ": সমস্ত সারফেসের সমস্ত গ্রেডিয়েন্টের গড় (ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত) যা সরাসরি ন্যূনতম দিকে নির্দেশ করে
  • "মিনিব্যাচের দিকনির্দেশ": বিভিন্ন দিকনির্দেশের গড়টি সর্বনিম্নের নিকটবর্তী হবে, যদিও এগুলির মধ্যে ন্যূনতম দিকে নির্দেশ করে
  • "১-নমুনার দিকনির্দেশ": মিনিব্যাচের তুলনায় নূন্যতমের তুলনায় আরও বেশি পয়েন্ট

আমি এখানে লিনিয়ার রিগ্রেশন এর জন্য L-2 ক্ষতি ফাংশনের প্লট আঁকছিy=2x


1

কারণ প্রতিটি সারি জন্য একটি মান কম্পিউটিং দ্বারা মূল্যায়ন করা হয় ওজন ম্যাট্রিক্সের একটি প্রদত্ত সেট; (অর্থাত্, একটি বিনিময় অপারেটর এবং summing বা গ্রহণ গড়) , এর সারি ব্যবস্থা যখন সহ পূর্ণ ব্যবহার কোনো প্রভাব নেই ব্যাচ গ্রেডিয়েন্ট বংশোদ্ভূতXWX

@ জোশের উত্তরটি পরিপূরক করে, আমি এটি যুক্ত করতে চাই, একই কারণে, ব্যাচিংয়ের আগে বদলে নেওয়া দরকার। অন্যথায়, আপনি একই সীমাবদ্ধ পৃষ্ঠতল পাচ্ছেন।


আপনাকে ধন্যবাদ এবং আমাদের সম্প্রদায়কে স্বাগতম।
মিডিয়া

1

মডেলের সর্বোত্তম নির্ভুলতার জন্য, এটি সর্বদা সুপারিশ করা হয় যে প্রশিক্ষণের ডেটাতে সমস্ত স্বাদের ডেটা থাকা উচিত।

প্রশিক্ষণের ডেটা বদলানো আমাদের এই লক্ষ্য অর্জনে সহায়তা করে।


1

প্রদত্ত পুনরাবৃত্তির সময় সারিগুলিকে পরিবর্তিত করে কেবল সেগুলির কেবল একটি উপসেটে প্রশিক্ষণ দিয়ে every প্রতিটি পুনরাবৃত্তির সাথে পরিবর্তন হয় এবং এটি সম্ভবত যথেষ্ট সম্ভব যে প্রশিক্ষণের পুনরাবৃত্তির পুরো ক্রমগুলির উপর কোনও দুটি পুনরাবৃত্তি যথাযথভাবে সম্পাদিত হবে না 𝑋

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.