শিল্প বনাম কাগল চ্যালেঞ্জ। অভিনব মডেলিংয়ের চেয়ে আরও বেশি পর্যবেক্ষণ সংগ্রহ করা এবং আরও ভেরিয়েবলের অ্যাক্সেস পাওয়া কি আরও গুরুত্বপূর্ণ?


56

আমি আশা করি শিরোনামটি স্বতঃস্ফূর্ত। কেগল-এ, বেশিরভাগ বিজয়ীরা মাঝে মাঝে শত শত বেস মডেলগুলির সাথে স্ট্যাকিং ব্যবহার করেন, এমএসইর কয়েকটি অতিরিক্ত% নিখুঁত করে নিন, যথার্থতা ... সাধারণভাবে, আপনার অভিজ্ঞতা হিসাবে, স্ট্যাকিং বনাম কেবল আরও ডেটা এবং আরও বৈশিষ্ট্য সংগ্রহ করার মতো অভিনব মডেলিং কতটা গুরুত্বপূর্ণ? তথ্য জন্য?


4
এটি আপনি কোনও কার্যকর সাধারণীকরণযোগ্য প্রবাহ চান যা দ্রুত পুনরায় প্রশিক্ষণ দেওয়া যায় (বা নতুন ডেটাসেট বা নতুন বৈশিষ্ট্যগুলিতে পুনরায় সাজানো যেতে পারে) তার উপর নির্ভর করে, বা কেবল সেই নির্দিষ্ট কাগল প্রতিযোগিতাটি (সেই নির্দিষ্ট স্ট্যাটিক ডেটাসেটে, ফুটো শোষণের সাথে, 'যাদু বৈশিষ্ট্যগুলি' এবং সব)। প্রাক্তনদের জন্য, একটি অ্যালগরিদম যা অনেক কম প্রশিক্ষণের সময় এবং ছোট ডেটাসেটের সাথে একই বলপার্কের যথার্থতা পায় 'আরও ভাল'। কল্পনা করুন যদি কাগল কখনও অতিরিক্ত গননা / মেমরির প্রয়োজনীয়তা বা প্রশিক্ষণের সময়কে শাস্তি দেওয়া শুরু করেন, বা জমা স্কোরের অংশ হিসাবে এটি স্ট্যাক্টর করেন (আমি পরামর্শ দিই যে তাদের ইতিমধ্যে হওয়া উচিত)।
স্মি

2
রাসমাস রোথের দ্বারা "বাস্তব-বিশ্বের সমস্যার গভীর শিক্ষার প্রয়োগ" থেকে নেওয়া : "[…] বাস্তব-বিশ্বের পরিস্থিতিতে, আপনার নতুন অ্যালগরিদম অন্য পদ্ধতির তুলনায় পারফরম্যান্সে অতিরিক্ত 1% কমিয়ে দিয়েছে তা দেখানো কম নয় Instead পরিবর্তে এটি একটি শক্তিশালী সিস্টেম তৈরির বিষয়ে যা প্রয়োজনীয় নির্ভুলতার সাথে প্রয়োজনীয় কাজটি সমাধান করে। "
বিটংগ 1313

উত্তর:


77

×

আমি ধারাবাহিকভাবে খুঁজে পেয়েছি যে একক সবচেয়ে গুরুত্বপূর্ণ বিষয়টি হল আপনার ডেটা বোঝা । আপনি যদি ইস্টার বা প্রচারের মতো বড় ড্রাইভারগুলি বুঝতে না পারেন তবে আপনি ধ্বংস হয়ে যাবেন। প্রায়শই যথেষ্ট, সঠিক প্রশ্ন জিজ্ঞাসা করার জন্য এবং অজানা অজানা থেকে জানা অজানাগুলি নির্দিষ্ট করার জন্য এটি নির্দিষ্ট ব্যবসায়কে ভালভাবে বোঝা যায়

একবার আপনি আপনার ডেটা বুঝতে পারলে আপনার পরিষ্কার ডেটা পেতে কাজ করা উচিত । আমি বেশিরভাগ জুনিয়র এবং ইন্টার্নের তদারকি করেছি এবং একটি জিনিস যা তারা তাদের সমস্ত পরিসংখ্যান এবং ডেটা সায়েন্স ক্লাসে অনুভব করতে পারেনি তা ছিল আপনার কাছে থাকা ডেটাতে কতটা নিছক বোকা থাকতে পারে। তারপরে আপনাকে হয় উত্সটিতে ফিরে যেতে হবে এবং ভাল ডেটা উপস্থাপন করার জন্য এটি পাওয়ার চেষ্টা করতে হবে, বা এটি পরিষ্কার করার চেষ্টা করতে হবে, বা কেবল কিছু জিনিস ফেলে দিতে হবে। আরও ভাল ডেটা পাওয়ার জন্য একটি চলমান সিস্টেম পরিবর্তন করা আশ্চর্যজনকভাবে কঠিন হতে পারে।

আপনি একবার আপনার ডেটা বুঝতে পারলে এবং আসলে কিছুটা পরিষ্কার-পরিচ্ছন্ন ডেটা হয়ে গেলে আপনি এটি নিয়ে মাতানো শুরু করতে পারেন। দুর্ভাগ্যক্রমে, এই সময়ের মধ্যে, আমি প্রায়শই নিজেকে সময় এবং সংস্থান থেকে খুঁজে পেয়েছি।

আমি ব্যক্তিগতভাবে মডেল সংমিশ্রণের ("স্ট্যাকিং") এর একটি বড় অনুরাগী, কমপক্ষে একটি বিমূর্ত অর্থে , অভিনব বৈশিষ্ট্য ইঞ্জিনিয়ারিংয়ের চেয়ে কম, যা প্রায়শই অঞ্চলগুলিতে লাইনটি অতিক্রম করে - এবং এমনকি যদি আপনার ফ্যানসিয়ার মডেলটি গড়পড়তা থেকে কিছুটা আরও ভাল অভিনয় করে, একটি প্রায়শই দেখতে পান যে সত্যিই খারাপ ভবিষ্যদ্বাণীগুলি আরও জটিল মডেলের সাথে খারাপ হয়ে যায়। এটি আমার ব্যবসায়ের লাইনটিতে একটি ডিলব্রেকার। একটি মাত্র সত্যই খারাপ পূর্বাভাস পুরো সিস্টেমের আস্থা পুরোপুরি সম্পূর্ণভাবে ধ্বংস করে দিতে পারে, তাই আমার অগ্রাধিকারের তালিকায় দৃust়তা অত্যন্ত বেশি। আপনার মাইলেজ পরিবর্তিত হতে পারে.

আমার অভিজ্ঞতায় হ্যাঁ, মডেল সংমিশ্রণ নির্ভুলতার উন্নতি করতে পারে। তবে, প্রথম দুটি পদক্ষেপের মাধ্যমে সত্যই বড় লাভগুলি হয়: আপনার ডেটা বোঝা এবং এটি পরিষ্কার করা (বা প্রথম স্থানে পরিষ্কার ডেটা পাওয়া)।


4
@ বেন্ডেল, ওয়াইএমএমভি মানে আপনার মাইলেজ মেশিনের পরিবর্তন হতে পারে । এর আগে এই বাক্যটির জবানবন্দী বিভিন্ন পরিস্থিতিতে কম-বেশি সত্য হতে পারে বা নাও হতে পারে।
Orphevs

2
106

2
ক্লাসরুমের অভিজ্ঞতা কখনও মনে করবেন না। এমন প্রচুর শিল্প চিকিত্সক রয়েছেন যারা মূলত শব্দের স্বীকৃতির মতো শব্দের অনুপাত প্রসঙ্গে উচ্চ সংকেত নিয়ে অভিজ্ঞ হন এবং God'sশ্বরের দোহাতে নিয়োগের মতো শোরগোলের সামাজিক প্রক্রিয়াগুলিতে একই পদ্ধতি প্রয়োগ করার চেষ্টা করেন।
ব্রাশ ভারসাম্য

2
@ অরফেভস অন্য কথায়, এই বিবৃতিটি আমার পরিস্থিতির চেয়ে বেশি মানিয়ে নিতে পারে এবং ভাল করে দেওয়া হয় না। : পি
জেএডি

2
(+1) তাজা গ্রেড সহ ডেটা পরিষ্কারের ইস্যু সম্পর্কিত, এটিও লক্ষণীয় যে আমার আনুষ্ঠানিক শিক্ষার সময় ডেটা পরিষ্কার করা খারাপ জিনিস তা ভেবে বাইরে আসা সহজ হয়েছিল । এটি হ'ল, ডেটা সাফাই টাইপ আই ত্রুটির হারগুলিকে দৃ strongly়ভাবে প্রভাবিত করতে পারে (বিশেষত যদি পরিষ্কারের প্রক্রিয়াটিতে পক্ষপাত হয়) এবং তাই আমাদের তথ্য পরিষ্কারের বিপদ সম্পর্কে শেখানো হয়েছিল। এই পাঠগুলি ভুল ছিল না, তবে আমি মনে করি না যে আমার আনুষ্ঠানিক শিক্ষায় ডেটা পরিষ্কারের সুবিধার উপর জোর দেওয়া হয়েছিল, বিশেষত ভবিষ্যদ্বাণীমূলক মডেলিংয়ের ক্ষেত্রে।
ক্লিফ এবি

42

আমি পুরো শিল্পের পক্ষে স্পষ্টতই কথা বলতে পারি না, তবে আমি শিল্পে কাজ করি এবং কাগলকে নিয়ে প্রতিযোগিতা করেছি তাই আমি আমার পিওভিটি ভাগ করব।

প্রথমত, আপনার সন্দেহ হওয়া ঠিক যে কেগল হ'ল লোকেরা শিল্পে কী করছে exactly এটি একটি গেম এবং প্রচুর পাগল বিধিনিষেধের সাথে গেমসম্যানশিপের সাপেক্ষে। উদাহরণস্বরূপ, বর্তমানে চলমান সান্টেন্ডার প্রতিযোগিতায়:

  1. বৈশিষ্ট্যটির নামগুলি তাদের অর্থটি লুকানোর জন্য কৃত্রিমভাবে হ্যাশ করা হয়েছিল
  2. "প্রশিক্ষণ" সেটটি কৃত্রিমভাবে কলামগুলির চেয়ে কম সারিগুলির মধ্যে সীমাবদ্ধ ছিল বিশেষত যাতে বৈশিষ্ট্য নির্বাচন, দৃust়তা এবং নিয়মিতকরণ কৌশল সাফল্যের জন্য অপরিহার্য।
  3. তথাকথিত "পরীক্ষা" সেটটির প্রশিক্ষণের সেটের তুলনায় একটি আলাদা আলাদা বিতরণ রয়েছে এবং দুটিই একই জনসংখ্যার থেকে এলোমেলো নমুনা নয়

কেউ যদি আমাকে কাজের সময় এই জাতীয় ডেটা সেট দেয় তবে আমি তত্ক্ষণাত তাদের সাথে ফিচার ইঞ্জিনিয়ারিংয়ের সাথে কাজ করার প্রস্তাব দেব যাতে আমরা আরও দরকারী যে বৈশিষ্ট্যগুলি পেতে পারি। আমি পরামর্শ দিচ্ছি যে সম্ভাব্য মিথস্ক্রিয়া শর্তাদি, প্রান্তিকতা, শ্রেণিবদ্ধ ভেরিয়েবল কোডিং কৌশল ইত্যাদির বিষয়ে সিদ্ধান্ত নেওয়ার জন্য আমরা ডোমেন জ্ঞানকে ব্যবহার করি that এইভাবে সমস্যাটির কাছে পৌঁছানো স্পষ্টতই কোনও ডাটাবেস ইঞ্জিনিয়ারের দ্বারা উত্পাদিত একটি এক্সস্টোস্ট ফাইল থেকে অর্থ বের করার চেষ্টা করার চেয়ে বেশি উত্পাদনশীল হবে no এমএল প্রশিক্ষণ।

তদতিরিক্ত, যদি আপনি শিখেন তবে বলুন যে কোনও নির্দিষ্ট সংখ্যক কলামটি একেবারে সংখ্যা নয় বরং একটি জিপ কোড, ভাল, আপনি যেতে পারেন এবং তৃতীয় পক্ষের ডেটা উত্স যেমন মার্কিন সেন্সাস থেকে আপনার ডেটা বৃদ্ধির জন্য ডেটা পেতে পারেন। অথবা আপনার যদি কোনও তারিখ থাকে, তবে আপনি সেই দিনের জন্য এসঅ্যান্ডপি 500 বন্ধের দাম অন্তর্ভুক্ত করবেন। এই ধরনের বাহ্যিক বৃদ্ধির কৌশলগুলির জন্য নির্দিষ্ট ডেটা সেট এবং উল্লেখযোগ্য ডোমেন জ্ঞানের বিশদ জ্ঞান প্রয়োজন তবে সাধারণত খাঁটি অ্যালগরিদমিক উন্নতির চেয়ে অনেক বড় পরিশোধ হয়।

সুতরাং, শিল্প এবং কাগল এর মধ্যে প্রথম বড় পার্থক্য হ'ল শিল্পে বৈশিষ্ট্যগুলি (ইনপুট ডেটার অর্থে) আলোচনার জন্য।

পার্থক্যগুলির একটি দ্বিতীয় শ্রেণি হল পারফরম্যান্স। প্রায়শই, মডেলগুলি দুটি উপায়ে যেকোন একটিতে উত্পাদনের জন্য মোতায়েন করা হবে: 1) মডেলের পূর্বাভাসগুলি প্রতিটি সারিটির জন্য খুব বড় ডেটাবেস টেবিলের প্রাক-গণনা করা হবে, বা 2) কোনও অ্যাপ্লিকেশন বা ওয়েবসাইট মডেলটিকে একক সারির ডেটা পাস করবে এবং একটি ভবিষ্যদ্বাণী রিয়েল-টাইমে ফিরে প্রয়োজন। উভয় ব্যবহারের ক্ষেত্রে ভাল পারফরম্যান্স প্রয়োজন। এই কারণে, আপনি প্রায়শই এমন মডেলগুলি দেখতে পাবেন না যা কে-নিকট-নিকটবর্তী বা অতিরিক্ত র্যান্ডম ফরেস্টের মতো বিপুল পরিমাণ মেমরির পূর্বাভাস দিতে বা ব্যবহার করতে ধীর হতে পারে। একটি লজিস্টিক রিগ্রেশন বা নিউরাল নেটওয়ার্ক, বিপরীতে, কয়েকটি ম্যাট্রিক্সের গুণ দ্বারা রেকর্ডগুলির একটি ব্যাচ স্কোর করতে পারে এবং ম্যাট্রিক্সের গুণটি সঠিক লাইব্রেরিতে উচ্চতর অনুকূলিতকরণ করা যেতে পারে যদিও আমি আরও +0.001 এউসি পেতে পারতাম যদি আমি অন্য একটি প্যারামিমেট্রিক মডেলটিকে স্ট্যাক করে রাখি তবে ভবিষ্যদ্বাণী থ্রুপুট এবং বিলম্বিতা খুব বেশি হ্রাস পাবে বলে আমি করব না।

এর একটি নির্ভরযোগ্যতার মাত্রাও রয়েছে - চারটি অত্যাধুনিক তৃতীয় পক্ষের লাইব্রেরি স্ট্যাক করে লাইটজিবিএম , এক্সজিবিস্ট , ক্যাটবুস্ট , এবং টেনসরফ্লো ( অবশ্যই জিপিইউতে ) আপনাকে এমএসই-তে হ্রাস পেতে পারে যে কাগল প্রতিযোগিতা জিতেছে, তবে কিছু ভুল হয়ে গেলে ইনস্টল করা, মোতায়েন করা এবং ডিবাগ করা চারটি ভিন্ন গ্রন্থাগার। আপনি যদি ল্যাপটপে কাজ করে থাকা সমস্ত জিনিস পেতে পারেন তবে এটি দুর্দান্ত, তবে এটি ডাব্লু কনটেইনারটিতে এটিডাব্লুএসে চালিত হওয়া সম্পূর্ণ আলাদা গল্প। বেশিরভাগ সংস্থাগুলি এই ধরণের মোতায়েনের সমস্যাগুলি মোকাবেলায় একটি ছোট ডিভস টিমের সামনে আসতে চায় না।

এটি বলেছিল যে নিজের মধ্যে স্ট্যাকিং অগত্যা একটি বিশাল চুক্তি নয়। প্রকৃতপক্ষে, বেশ কয়েকটি ভিন্ন মডেলকে স্ট্যাক করা যা সবাই সমানভাবে সম্পাদন করে তবে খুব আলাদা সিদ্ধান্তের সীমানা থাকে এটিইউতে একটি ছোট ঝাঁক এবং দৃust়তার মধ্যে একটি বড় গাঁদা পাওয়ার দুর্দান্ত উপায়। কেবলমাত্র বহু ভিন্ন রান্নাঘরকে আপনার ভিন্ন ভিন্ন জাঁকজমকের মধ্যে ফেলে দিতে যাবেন না যে আপনার স্থাপনার সমস্যা হতে শুরু করে।


মাইনর নোট, আমার মনে হয় আপনার বুলেট পয়েন্ট # 2 বাক্যটির শেষে হারিয়েছে?
এমব্রিগ

20

আমার অভিজ্ঞতা থেকে, আরও তথ্য এবং আরও বৈশিষ্ট্যগুলি ফ্যানসিস্টের চেয়ে বেশি গুরুত্বপূর্ণ, সর্বাধিক সজ্জিত, সর্বাধিক সুরযুক্ত, মডেল যার সাথে আসতে পারে।

যে অনলাইন বিজ্ঞাপন প্রতিযোগিতা হয়েছিল তা দেখুন। বিজয়ী মডেলগুলি এত জটিল ছিল যে তারা প্রশিক্ষণের জন্য পুরো এক সপ্তাহ সময় নিয়ে শেষ হয়েছিল (শিল্প মানের তুলনায় খুব ছোট একটি ডেটাসেটে)) তার ওপরে, স্ট্যাকড মডেলটিতে ভবিষ্যদ্বাণী একটি সাধারণ রৈখিক মডেলের চেয়ে দীর্ঘ is একই বিষয়ে, মনে রাখবেন যে নেটফ্লিক্স ইঞ্জিনিয়ারিং ব্যয়ের কারণে এর 1M $ অ্যালগরিদমটি কখনও ব্যবহার করেনি

আমি বলব যে অনলাইন ডেটা বিজ্ঞান প্রতিযোগিতাগুলি কোনও সংস্থার পক্ষে "সর্বাধিক নির্ভুলতা (বা কোনও পারফরম্যান্স মেট্রিক) কী তা অর্জন করা যায়" তা জেনে রাখার একটি ভাল উপায় যা "তারা সংগ্রহ করা ডেটা ব্যবহার করে (কিছু সময়)"। মনে রাখবেন যে এটি আসলে একটি কঠিন সমস্যা যা সমাধান করা হচ্ছে! তবে, শিল্পে, ক্ষেত্রের জ্ঞান, হার্ডওয়্যার এবং ব্যবসায়ের সীমাবদ্ধতাগুলি সাধারণত "অভিনব মডেলিং" ব্যবহারকে নিরুৎসাহিত করে।


2
সত্য, এটি এমনও হতে পারে যে ডেটা সংগ্রহের প্রক্রিয়া সর্বদা বিবর্তিত হয়। যার অর্থ হ'ল বর্তমানে ব্যবহৃত অ্যালগরিদমগুলি পুরানো হবে (ইঞ্জিনিয়ারিং ব্যয় বা প্রশিক্ষণের সময় শীর্ষে যেমন আপনি উল্লেখ করেছেন)। সুতরাং, সহজ, দ্রুত এবং আরও নমনীয় অ্যালগরিদমের প্রয়োজন হবে।
টম

4
শুনেছি এই পোস্টের মূল পয়েন্টগুলির একটির সংক্ষিপ্তসার হিসাবে "ভাল পরিবর্তনশীল নির্বাচন সর্বদা ভাল মডেল নির্বাচনের ট্রাম্প করবে '
অ্যাগ্রিনেস্কি

14

স্ট্যাকিং উল্লেখযোগ্যভাবে জটিলতা বৃদ্ধি করে এবং ব্যাখ্যাযোগ্যতা হ্রাস করে। এটি ন্যায়সঙ্গত করতে লাভগুলি সাধারণত তুলনামূলকভাবে ছোট হয়। সুতরাং যখন সমাবেশটি সম্ভবত ব্যাপকভাবে ব্যবহৃত হয় (যেমন এক্সজিবিস্ট), আমি মনে করি স্ট্যাকিং শিল্পে তুলনামূলকভাবে বিরল।


1
ভাল যুক্তি. আমার অ্যাপ্লিকেশনগুলিতে ব্যাখ্যারযোগ্যতা অত্যন্ত গুরুত্বপূর্ণ (স্টোর ম্যানেজাররা কেন পূর্বাভাসটি তা হ'ল তা বুঝতে চান ), তাই হার্ড-টু-ডায়রিটিস্ট মডেলগুলির একটি সমস্যা আছে।
এস। কোলাসা - মনিকা

ব্যক্তিগত অন্তর্দৃষ্টি স্টিফান জন্য ধন্যবাদ। আমি যখন বিবেচনা করেছি যে মডেল জটিলতা বাড়ার সাথে সাথে ব্যাখ্যাটি ভোগা বা অদৃশ্য হয়ে যায়, তবুও আমি সেই সময়ের সীমাবদ্ধতার কথা ভাবি নি যা অবশ্যই কোনও সংস্থায় বেশি চাপ দিচ্ছে। অভিনব মডেলিংয়ের সম্ভবত সবচেয়ে খারাপ অনুপাত (যথাযথতা অর্জিত) / (সময় ব্যয় করা) রয়েছে।
টম

8

আমার অভিজ্ঞতায় ভাল ডেটা এবং বৈশিষ্ট্য সংগ্রহ করা আরও বেশি গুরুত্বপূর্ণ।

আমরা যে ক্লায়েন্টদের সাথে কাজ করেছি তাদের মধ্যে সাধারণত প্রচুর ডেটা থাকে এবং এগুলির সবগুলিই সহজেই রফতানি করা যায় বা সহজে কাজ করা যায় এমন ফর্ম্যাটে থাকে না। প্রথম ব্যাচের ডেটা সাধারণত খুব কার্যকর হয় না; মডেলটিকে আরও কার্যকর করার জন্য আমাদের কী ডেটা প্রয়োজন তা চিত্রিত করার জন্য ক্লায়েন্টের সাথে কাজ করা আমাদের কাজ। এটি একটি খুব পুনরাবৃত্ত প্রক্রিয়া।

এখানে প্রচুর পরীক্ষা-নিরীক্ষা চলছে এবং আমাদের এমন মডেলগুলির প্রয়োজন যা:

  1. দ্রুত প্রশিক্ষণ
  2. দ্রুত ভবিষ্যদ্বাণী করা (এছাড়াও প্রায়শই ব্যবসায়ের প্রয়োজনীয়তা হয়)
  3. সহজ ব্যাখ্যা

পয়েন্ট 3) বিশেষভাবে গুরুত্বপূর্ণ, কারণ যে মডেলগুলি ব্যাখ্যা করা সহজ তাদের ক্লায়েন্টের সাথে যোগাযোগ করা আরও সহজ এবং আমরা কোনও ভুল করেছি কিনা তা ধরা সহজ।


7

এখানে এমন কিছু রয়েছে যা কাগল-তে খুব বেশি আসে না the

  • আপনার মডেলটিতে আরও ভেরিয়েবল রয়েছে এবং
  • এই ভেরিয়েবল এবং আউটপুট মধ্যে সম্পর্ক আরও জটিল,

সেই মডেলের জীবদ্দশায় আপনি যত বেশি ঝুঁকির মুখোমুখি হবেন। সময়টি সাধারণত কাগল প্রতিযোগিতায় হিমায়িত হয়, বা ভবিষ্যতের একটি সংক্ষিপ্ত সময় উইন্ডো রয়েছে যেখানে পরীক্ষার সেট মানগুলি আসে industry শিল্পে, মডেলটি বছরের পর বছর চলতে পারে। এবং এটি সম্পূর্ণরূপে গ্রহণ করতে পারে যা আপনার সম্পূর্ণ মডেলটিকে জাহান্নামে যাওয়ার জন্য একটি পরিবর্তনশীলের জন্য যেতে পারে, যদিও তা নির্দ্বিধায় নির্মিত হয়েছিল। আমি এটি পেয়েছি, কেউ এমন প্রতিযোগিতা দেখতে চায় না যেখানে প্রতিযোগীরা সাবধানতার সাথে ঝুঁকির বিরুদ্ধে মডেল জটিলতার ভারসাম্য বজায় রাখে, তবে সেখানে একটি কাজের বাইরে, আপনার দায়িত্বে থাকা কোনও মডেলটির সাথে যদি কিছু ভুল হয়ে যায় তবে আপনার ব্যবসা এবং জীবনযাত্রার মান ক্ষতিগ্রস্থ হবে। এমনকি চরম স্মার্ট লোকেরাও অনাক্রম্য নয়। উদাহরণস্বরূপ, গুগল ফ্লু ট্রেন্ডসের পূর্বাভাস ব্যর্থতা নিন । পৃথিবী বদলেছে, এবং তারা এটি আসতে দেখেনি।

ওপি-র প্রশ্নের, " সাধারণভাবে, আপনার অভিজ্ঞতা অনুসারে, স্ট্যাকিং বনাম কেবলমাত্র ডেটার জন্য আরও ডেটা এবং আরও বেশি বৈশিষ্ট্য সংগ্রহ করার মতো অভিনব মডেলিং কতটা গুরুত্বপূর্ণ? " আচ্ছা, আমি আনুষ্ঠানিকভাবে বুড়ো, তবে আমার উত্তরটি হ'ল যদি না আপনার কাছে একটি থাকে প্রকৃতপক্ষে শক্তিশালী মডেলিং পরিকাঠামো, স্বল্পতম ভেরিয়েবলের সেট সহ সোজা মডেল থাকা ভাল, যেখানে ইনপুট থেকে আউটপুট সম্পর্ক তুলনামূলকভাবে সোজা। যদি কোনও ভেরিয়েবল সবেমাত্র আপনার ক্ষতি মেট্রিককে উন্নত করে তবে এটিকে ছেড়ে দিন। মনে রাখবেন এটি একটি কাজ। ক্যাগল প্রতিযোগিতাগুলিতে কাজের বাইরে আপনার কিকগুলি পান যেখানে "বড় হন বা বাড়ীতে যান" প্ররোচনা রয়েছে।

একটি ব্যতিক্রম হ'ল যদি ব্যবসায়ের পরিস্থিতিটি একটি নির্দিষ্ট স্তরের মডেল পারফরম্যান্সের দাবি করে, উদাহরণস্বরূপ যদি আপনার সংস্থার কিছু সুবিধা অর্জনের জন্য প্রতিযোগীতার পারফরম্যান্সের সাথে মেলে ধরতে বা পরাজিত করা প্রয়োজন (সম্ভবত বিপণনে)। তবে যখন মডেল পারফরম্যান্স এবং ব্যবসায়িক লাভের মধ্যে লিনিয়ার সম্পর্ক রয়েছে তখন জটিলতা বৃদ্ধি সাধারণত আর্থিক লাভকে ন্যায়সঙ্গত করে না (দেখুন " ইঞ্জিনিয়ারিং ব্যয়ের কারণে নেটফ্লিক্স কখনও তার $ 1 মিলিয়ন অ্যালগরিদম ব্যবহার করে না " - অনুরোধের জন্য @ আরউসার 4512 এর কাছে ক্ষমাপ্রার্থী) নিবন্ধ)। কোনও কাগল প্রতিযোগিতায়, কাছাকাছি সমাধানগুলি পাস করার সাথে সাথে সেই অতিরিক্ত লাভ আপনাকে কয়েকশ স্থান স্থানান্তর করতে পারে move


3

একটি সংক্ষিপ্ত উত্তর যা গ্যারি কাসপারভের বই ডিপ থিংকিংয়ের বইটি থেকে আমার পছন্দ

একটি চতুর প্রক্রিয়া উচ্চতর জ্ঞান এবং উচ্চতর প্রযুক্তি বীট

আমি মূলত সময়-সিরিজের আর্থিক তথ্য এবং ডেটা সংগ্রহ করা, এটি পরিষ্কার করা, এটি প্রক্রিয়াজাতকরণ এবং তারপরে সমস্যা মালিকদের সাথে আসলে কী করতে চান তা নির্ধারণের জন্য কাজ করে, তারপরে চেষ্টা করার জন্য বৈশিষ্ট্য এবং মডেলগুলি তৈরি করার জন্য কাজ করি সমস্যা এবং অবশেষে পরের বারের জন্য উন্নতি করার প্রক্রিয়াটি পূর্ববর্তী সময়ে পরীক্ষা করতে।

এই সম্পূর্ণ প্রক্রিয়াটি তার অংশগুলির যোগফলের চেয়ে বড়। আমি লিনিয়ার / লজিস্টিক রিগ্রেশন সহ 'গ্রহণযোগ্য' জেনারালাইজেশন পারফরম্যান্স পেতে এবং বৈশিষ্ট্য উত্পন্ন করতে ডোমেন বিশেষজ্ঞদের সাথে কথা বলার উপায় রাখি, আমার কাছে থাকা ডেটাতে আমার মডেলকে বেশি ফিট করার চেয়ে সময় কাটানোর চেয়ে ভাল সময়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.