আমি পুরো শিল্পের পক্ষে স্পষ্টতই কথা বলতে পারি না, তবে আমি শিল্পে কাজ করি এবং কাগলকে নিয়ে প্রতিযোগিতা করেছি তাই আমি আমার পিওভিটি ভাগ করব।
প্রথমত, আপনার সন্দেহ হওয়া ঠিক যে কেগল হ'ল লোকেরা শিল্পে কী করছে exactly এটি একটি গেম এবং প্রচুর পাগল বিধিনিষেধের সাথে গেমসম্যানশিপের সাপেক্ষে। উদাহরণস্বরূপ, বর্তমানে চলমান সান্টেন্ডার প্রতিযোগিতায়:
- বৈশিষ্ট্যটির নামগুলি তাদের অর্থটি লুকানোর জন্য কৃত্রিমভাবে হ্যাশ করা হয়েছিল
- "প্রশিক্ষণ" সেটটি কৃত্রিমভাবে কলামগুলির চেয়ে কম সারিগুলির মধ্যে সীমাবদ্ধ ছিল বিশেষত যাতে বৈশিষ্ট্য নির্বাচন, দৃust়তা এবং নিয়মিতকরণ কৌশল সাফল্যের জন্য অপরিহার্য।
- তথাকথিত "পরীক্ষা" সেটটির প্রশিক্ষণের সেটের তুলনায় একটি আলাদা আলাদা বিতরণ রয়েছে এবং দুটিই একই জনসংখ্যার থেকে এলোমেলো নমুনা নয় ।
কেউ যদি আমাকে কাজের সময় এই জাতীয় ডেটা সেট দেয় তবে আমি তত্ক্ষণাত তাদের সাথে ফিচার ইঞ্জিনিয়ারিংয়ের সাথে কাজ করার প্রস্তাব দেব যাতে আমরা আরও দরকারী যে বৈশিষ্ট্যগুলি পেতে পারি। আমি পরামর্শ দিচ্ছি যে সম্ভাব্য মিথস্ক্রিয়া শর্তাদি, প্রান্তিকতা, শ্রেণিবদ্ধ ভেরিয়েবল কোডিং কৌশল ইত্যাদির বিষয়ে সিদ্ধান্ত নেওয়ার জন্য আমরা ডোমেন জ্ঞানকে ব্যবহার করি that এইভাবে সমস্যাটির কাছে পৌঁছানো স্পষ্টতই কোনও ডাটাবেস ইঞ্জিনিয়ারের দ্বারা উত্পাদিত একটি এক্সস্টোস্ট ফাইল থেকে অর্থ বের করার চেষ্টা করার চেয়ে বেশি উত্পাদনশীল হবে no এমএল প্রশিক্ষণ।
তদতিরিক্ত, যদি আপনি শিখেন তবে বলুন যে কোনও নির্দিষ্ট সংখ্যক কলামটি একেবারে সংখ্যা নয় বরং একটি জিপ কোড, ভাল, আপনি যেতে পারেন এবং তৃতীয় পক্ষের ডেটা উত্স যেমন মার্কিন সেন্সাস থেকে আপনার ডেটা বৃদ্ধির জন্য ডেটা পেতে পারেন। অথবা আপনার যদি কোনও তারিখ থাকে, তবে আপনি সেই দিনের জন্য এসঅ্যান্ডপি 500 বন্ধের দাম অন্তর্ভুক্ত করবেন। এই ধরনের বাহ্যিক বৃদ্ধির কৌশলগুলির জন্য নির্দিষ্ট ডেটা সেট এবং উল্লেখযোগ্য ডোমেন জ্ঞানের বিশদ জ্ঞান প্রয়োজন তবে সাধারণত খাঁটি অ্যালগরিদমিক উন্নতির চেয়ে অনেক বড় পরিশোধ হয়।
সুতরাং, শিল্প এবং কাগল এর মধ্যে প্রথম বড় পার্থক্য হ'ল শিল্পে বৈশিষ্ট্যগুলি (ইনপুট ডেটার অর্থে) আলোচনার জন্য।
পার্থক্যগুলির একটি দ্বিতীয় শ্রেণি হল পারফরম্যান্স। প্রায়শই, মডেলগুলি দুটি উপায়ে যেকোন একটিতে উত্পাদনের জন্য মোতায়েন করা হবে: 1) মডেলের পূর্বাভাসগুলি প্রতিটি সারিটির জন্য খুব বড় ডেটাবেস টেবিলের প্রাক-গণনা করা হবে, বা 2) কোনও অ্যাপ্লিকেশন বা ওয়েবসাইট মডেলটিকে একক সারির ডেটা পাস করবে এবং একটি ভবিষ্যদ্বাণী রিয়েল-টাইমে ফিরে প্রয়োজন। উভয় ব্যবহারের ক্ষেত্রে ভাল পারফরম্যান্স প্রয়োজন। এই কারণে, আপনি প্রায়শই এমন মডেলগুলি দেখতে পাবেন না যা কে-নিকট-নিকটবর্তী বা অতিরিক্ত র্যান্ডম ফরেস্টের মতো বিপুল পরিমাণ মেমরির পূর্বাভাস দিতে বা ব্যবহার করতে ধীর হতে পারে। একটি লজিস্টিক রিগ্রেশন বা নিউরাল নেটওয়ার্ক, বিপরীতে, কয়েকটি ম্যাট্রিক্সের গুণ দ্বারা রেকর্ডগুলির একটি ব্যাচ স্কোর করতে পারে এবং ম্যাট্রিক্সের গুণটি সঠিক লাইব্রেরিতে উচ্চতর অনুকূলিতকরণ করা যেতে পারে ।যদিও আমি আরও +0.001 এউসি পেতে পারতাম যদি আমি অন্য একটি প্যারামিমেট্রিক মডেলটিকে স্ট্যাক করে রাখি তবে ভবিষ্যদ্বাণী থ্রুপুট এবং বিলম্বিতা খুব বেশি হ্রাস পাবে বলে আমি করব না।
এর একটি নির্ভরযোগ্যতার মাত্রাও রয়েছে - চারটি অত্যাধুনিক তৃতীয় পক্ষের লাইব্রেরি স্ট্যাক করে লাইটজিবিএম , এক্সজিবিস্ট , ক্যাটবুস্ট , এবং টেনসরফ্লো ( অবশ্যই জিপিইউতে ) আপনাকে এমএসই-তে হ্রাস পেতে পারে যে কাগল প্রতিযোগিতা জিতেছে, তবে কিছু ভুল হয়ে গেলে ইনস্টল করা, মোতায়েন করা এবং ডিবাগ করা চারটি ভিন্ন গ্রন্থাগার। আপনি যদি ল্যাপটপে কাজ করে থাকা সমস্ত জিনিস পেতে পারেন তবে এটি দুর্দান্ত, তবে এটি ডাব্লু কনটেইনারটিতে এটিডাব্লুএসে চালিত হওয়া সম্পূর্ণ আলাদা গল্প। বেশিরভাগ সংস্থাগুলি এই ধরণের মোতায়েনের সমস্যাগুলি মোকাবেলায় একটি ছোট ডিভস টিমের সামনে আসতে চায় না।
এটি বলেছিল যে নিজের মধ্যে স্ট্যাকিং অগত্যা একটি বিশাল চুক্তি নয়। প্রকৃতপক্ষে, বেশ কয়েকটি ভিন্ন মডেলকে স্ট্যাক করা যা সবাই সমানভাবে সম্পাদন করে তবে খুব আলাদা সিদ্ধান্তের সীমানা থাকে এটিইউতে একটি ছোট ঝাঁক এবং দৃust়তার মধ্যে একটি বড় গাঁদা পাওয়ার দুর্দান্ত উপায়। কেবলমাত্র বহু ভিন্ন রান্নাঘরকে আপনার ভিন্ন ভিন্ন জাঁকজমকের মধ্যে ফেলে দিতে যাবেন না যে আপনার স্থাপনার সমস্যা হতে শুরু করে।