দুটি সংস্কৃতি: পরিসংখ্যান বনাম মেশিন লার্নিং?


420

গত বছর আমি "স্ট্যাটিস্টিক্স বনাম মেশিন লার্নিং, ফাইট!" শিরোনামে ব্রেন্ডন ও'কনর থেকে একটি ব্লগ পোস্ট পড়েছিলাম ! যে দুটি ক্ষেত্রের মধ্যে কিছু পার্থক্য আলোচনা। এন্ড্রু গেলম্যান এর পক্ষে অনুকূল প্রতিক্রিয়া জানিয়েছিলেন :

সাইমন ব্লুমবার্গ:

আর এর ভাগ্য প্যাকেজ থেকে: উস্কানিমূলকভাবে প্যারাফ্রেজ করতে, 'মেশিন লার্নিং হ'ল পরিসংখ্যানকে কোনও মডেল এবং অনুমানের যাচাই বাছাই' ' - ব্রায়ান ডি রিপলি (মেশিন লার্নিং এবং পরিসংখ্যানের মধ্যে পার্থক্য সম্পর্কে) ইউআর! 2004, ভিয়েনা (মে 2004) :-) মরসুমের শুভেচ্ছা!

অ্যান্ড্রু গেলম্যান:

সেক্ষেত্রে সম্ভবত আমাদের প্রায়শই মডেল এবং অনুমানগুলি পরীক্ষা করা থেকে মুক্তি পাওয়া উচিত। তারপরে সম্ভবত আমরা এমন কিছু সমস্যার সমাধান করতে সক্ষম হব যা মেশিন লার্নিং লোকেদের সমাধান করতে পারে তবে আমরা পারি না!

এছাড়া ছিল : "দুই সংস্কৃতির পরিসংখ্যানগত মডেলিং" কাগজ 2001 সালে লিও Breiman দ্বারা যা যুক্তি দেখান যে স্ট্যাটিসটিসিয়ান ডেটা মডেলিং খুব খুব বেশী নির্ভর, এবং যে মেশিন লার্নিং কৌশল পরিবর্তে ওপর নির্ভর করার মাধ্যমে উন্নতি তৈরি করছেন ভবিষ্যদ্বাণীপূর্ণ সঠিকতা মডেলের।

এই সমালোচনার জবাবে কি গত দশকে পরিসংখ্যানের ক্ষেত্র পরিবর্তন হয়েছে? না দুই সংস্কৃতির এখনও বিদ্যমান বা পরিসংখ্যানে স্নায়ুর নেটওয়ার্ক ও সমর্থন ভেক্টর মেশিন হিসাবে মেশিন লার্নিং কৌশল গ্রহণ করার জন্য উত্থিত হয়েছে?


21
ধন্যবাদ @ আরবিন; সিডব্লিউ তৈরি যদিও আমি এটিকে পুরোপুরি "তর্কাত্মক" হিসাবে দেখছি না; দুটি ক্ষেত্র রয়েছে যা একে অপরকে অবহিত করেছে (এটি একটি সত্য) এবং প্রশ্ন হল তারা গত দশকে একসাথে কতটা বিকশিত হয়েছে।
শেন 14 ই

16
তৃতীয় সংস্কৃতি যুক্ত করুন: ডেটা মাইনিং । যন্ত্রশিক্ষক এবং ডেটা মাইনাররা বেশ আলাদা ভাষায় কথা বলে। সাধারণত, মেশিন শিখারীরা ডেটা মাইনিংয়ের ক্ষেত্রে কী আলাদা তা বুঝতে পারে না। তাদের কাছে এটি নিখরচায় শেখা; তারা ডেটা ম্যানেজমেন্টের দিকগুলি উপেক্ষা করে এবং মেশিন লার্নিংয়ে বাজওয়ার্ড ডেটা মাইনিং প্রয়োগ করে , বিভ্রান্তি আরও বাড়িয়ে তোলে।
অ্যানি-মৌসে


2
ওয়াসেরম্যানের ব্লগে একটি আকর্ষণীয় আলোচনা ।

2
আমার কাছে মনে হচ্ছে আসলে এমএল এবং পরিসংখ্যানের মধ্যে লিঙ্কটি যথেষ্ট জোর দেওয়া হচ্ছে না। অনেক সিএস শিক্ষার্থীরা তাদের ফাউন্ডেশনাল দিনগুলিতে পরিসংখ্যান সম্পর্কে কিছু শেখার বিষয়টি উপেক্ষা করে কারণ তারা এমএল কার্যগুলি সম্পাদন করার ক্ষেত্রে ভিত্তিক কোনও পরিসংখ্যানের গুরুতর গুরুত্ব বুঝতে পারে না। হয়তো বিশ্বজুড়ে অনেকগুলি সিএস বিভাগও কাজ করতে ধীর হবে। এটি অত্যন্ত ব্যয়বহুল ভুল হিসাবে প্রমাণিত হবে এবং আমি অবশ্যই আশা করি সিএসে পরিসংখ্যান জ্ঞানের গুরুত্ব সম্পর্কে আরও সচেতনতা রয়েছে। মূলত এমএল = প্রচুর সংখ্যায় পরিসংখ্যান।
xji

উত্তর:


195

আমি মনে করি আপনার প্রথম প্রশ্নের উত্তর কেবলমাত্র স্বীকারোক্তিতে রয়েছে। বিগত 10 বছরের পরিসংখ্যান বিজ্ঞান, জাসা, পরিসংখ্যান সম্পর্কিত যেকোন ইস্যু নিন এবং আপনি এই অঞ্চলটি এখন কম সক্রিয় থাকলেও আপনি উত্সাহ, এসভিএম এবং নিউরাল নেটওয়ার্কগুলিতে নথিপত্র পাবেন find পরিসংখ্যানবিদরা ভ্যালিয়েন্ট এবং ভ্যাপনিকের কাজটি বরাদ্দ করেছেন, কিন্তু অন্যদিকে কম্পিউটার বিজ্ঞানীরা ডোনহো এবং তালগ্র্যান্ডের কাজটি শোষিত করেছেন। আমি মনে করি না আর সুযোগ এবং পদ্ধতির মধ্যে আরও অনেক পার্থক্য রয়েছে। আমি কখনই ব্রেইমানের এই যুক্তিটি কিনিনি যে সিএস লোকেরা যে কোনও কাজই ক্ষয়ক্ষতি হ্রাস করতে আগ্রহী ছিল। এই দৃষ্টিভঙ্গি নিউরাল নেটওয়ার্ক সম্মেলন এবং তাঁর পরামর্শমূলক কাজে তাঁর অংশগ্রহণ দ্বারা প্রচুরভাবে প্রভাবিত হয়েছিল; তবে পিএসি, এসভিএম, বুস্টিংয়ের সমস্ত শক্ত ভিত্তি রয়েছে। এবং আজ, 2001 এর বিপরীতে পরিসংখ্যান সীমাবদ্ধ-নমুনা বৈশিষ্ট্যের সাথে আরও বেশি উদ্বিগ্ন,

তবে আমি মনে করি যে এখনও তিনটি গুরুত্বপূর্ণ পার্থক্য রয়েছে যা শীঘ্রই সরে যাচ্ছে না।

  1. মেথডোলজিকাল স্ট্যাটিস্টিক্সের কাগজপত্রগুলি এখনও অপ্রতিরোধ্যভাবে আনুষ্ঠানিক এবং অনুশাসনীয়, যদিও মেশিন লার্নিং গবেষকরা নতুন প্রমাণগুলির সাথে আরও সহনশীল যদিও তারা কোনও প্রমাণ যুক্ত না হয়েও আসে;
  2. এমএল সম্প্রদায় সম্মেলন এবং সম্পর্কিত কার্যক্রমে প্রাথমিকভাবে নতুন ফলাফল এবং প্রকাশনাগুলি ভাগ করে, যেখানে পরিসংখ্যানবিদরা জার্নাল কাগজপত্র ব্যবহার করেন। এটি পরিসংখ্যান এবং তারকা গবেষকদের সনাক্তকরণে অগ্রগতি কমিয়ে দেয়। জন ল্যাংফোর্ডের কিছুক্ষণ আগে থেকেই এই বিষয়ে একটি দুর্দান্ত পোস্ট রয়েছে;
  3. পরিসংখ্যানগুলি এখনও এমএল-তে সামান্য উদ্বেগের ক্ষেত্রগুলিকে (এখনকার জন্য), যেমন জরিপ নকশা, নমুনা, শিল্প পরিসংখ্যান ইত্যাদি covers

20
দুর্দান্ত পোস্ট! উল্লেখ্য, পরিসংখ্যানগুলিতে ভ্যাপনিকের পিএইচডি ছিল। আমি নিশ্চিত নই যে অনেক কম্পিউটার বিজ্ঞানী আছেন যাঁরা ট্যালাগ্রাড নামটি জানেন এবং আমি নিশ্চিত যে তাদের মধ্যে 0.01% স্মৃতিতে তালাগ্র্যান্ডের একটি ফলাফলের বর্ণনা দিতে পারে :) আপনি কি পারেন? আমি ভ্যালেন্টের কাজ জানি না :)
রবিন জিরাার্ড

একাডেমিক গবেষণা এবং অ্যাপ্লিকেশনগুলির ক্ষেত্রে আমি বিভিন্ন উত্তর দেখতে পাচ্ছি answers আমি মনে করি আপনি পূর্বের প্রসঙ্গে উত্তর দিয়েছেন। অ্যাপ্লিকেশনগুলিতে আমি মনে করি ক্ষেত্রগুলি যেভাবে প্রসারিত হচ্ছে তার মধ্যে সবচেয়ে বড় পার্থক্য। তথ্য বিজ্ঞান চ্যানেলের মাধ্যমে এমএল আক্ষরিকভাবে কোড করতে পারে এমন প্রত্যেককে গ্রহণ করে। পরিসংখ্যানগুলিতে কর্ম বাহিনীতে প্রবেশের জন্য আপনার এখনও স্ট্যাটাস বা কাছের ক্ষেত্রগুলিতে একটি আনুষ্ঠানিক ডিগ্রি প্রয়োজন।
আকসকল

1
জরিপের নমুনা ও শিল্প পরিসংখ্যান উভয়ই বহু-বিলিয়ন ডলারের ক্ষেত্র (আমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশনের জরিপ গবেষণা পদ্ধতি বিভাগ বায়োমেট্রিক্স এবং পরামর্শের পরে তৃতীয় বৃহত্তম এবং পরবর্তীকালে প্রচুর পরিমাণে শিল্প পরিসংখ্যানবিদও রয়েছে quality মানের উপর একটি পৃথক বিভাগ রয়েছে quality , এবং সেখানে এখনও একটি পৃথক সিক্স-সিগমা স্টাফ এবং অন্যান্য মান নিয়ন্ত্রণের পদ্ধতি রয়েছে, সেগুলি সম্পূর্ণ পরিসংখ্যানগুলিতে নয়)। ১৯60০-এর দশকে এই অঞ্চলগুলিতে কাজ করতে আসা বেবী বুমারদের বর্তমান কর্মশক্তি অবসর গ্রহণ করায় উভয়েরই পরিসংখ্যানবিদদের সংকট রয়েছে।
স্টাসকে

4
কিছু লোক সম্মেলনে রেড কার্পেটে পোজ দেওয়ার মাধ্যমে তাদের চাকরি পাওয়ার ক্ষেত্রে, অন্য ব্যক্তিরা বাস্তব বিশ্বে পদ্ধতি প্রয়োগ করে তাদের খুঁজে পান find পরবর্তী লোকেরা কোনও ধরণের তারকাকে চিহ্নিত করতে তেমন আগ্রহী নয় ; তারা বরং সেই পদ্ধতিগুলি কার্যকরভাবে চিহ্নিত করতে পারে, যদিও অনেকগুলি উপলক্ষে একটি নির্দিষ্ট ক্ষেত্রে কয়েক বছর পরে আপনাকে বারবার একই নামগুলিতে নিয়ে যাওয়া হয়।
স্টাসকে

কেন এমএল-এর জন্য স্যাম্পলিং উদ্বেগের বিষয় হবে না? এমএল-তে সঠিক লেবেলযুক্ত প্রশিক্ষণের ডেটা থাকার সমস্যার সাথে কি একই রকম নয়?
জিরিট

169

সম্প্রদায়ের মধ্যে আমি দেখতে পাচ্ছি সবচেয়ে বড় পার্থক্য হ'ল পরিসংখ্যান অনুমিতিকে জোর দেয়, অন্যদিকে মেশিন লার্নিং পূর্বাভাসকে জোর দেয়। আপনি যখন পরিসংখ্যান করেন, আপনি যে প্রক্রিয়াটি দ্বারা ডেটা তৈরি করেছিলেন তা প্রক্রিয়াটি অনুমান করতে চান আপনি যখন মেশিন লার্নিং করেন, আপনি কীভাবে ভবিষ্যদ্বাণীতে ডেটাটি কিছু ভেরিয়েবলের মতো দেখাবে তা আপনি কীভাবে ভবিষ্যদ্বাণী করতে পারেন তা জানতে চান

অবশ্যই দুটি ওভারল্যাপ। ডেটা কীভাবে উত্পন্ন হয়েছিল তা জেনে রাখা ভাল ভবিষ্যদ্বাণীকারী কী হবে সে সম্পর্কে আপনাকে কিছু ইঙ্গিত দেবে। তবে, পার্থক্যের একটি উদাহরণ হ'ল মেশিন লার্নিং শৈশবকাল থেকেই p >> n সমস্যা (প্রশিক্ষণের নমুনার চেয়ে আরও বেশি বৈশিষ্ট্য / পরিবর্তনশীল) মোকাবেলা করেছে, যেখানে পরিসংখ্যান কেবল এই সমস্যাটি সম্পর্কে গুরুতর হতে শুরু করেছে। কেন? কারণ আপনি যখন << এন তখনও ভাল পূর্বাভাস দিতে পারেন তবে ভেরিয়েবলগুলি কী গুরুত্বপূর্ণ এবং কেন তা সম্পর্কে আপনি খুব ভাল ধারণা তৈরি করতে পারবেন না।


13
এটিকে (অতিমাত্রায়) উত্পাদক এবং বৈষম্যমূলক মডেলগুলির মধ্যে পার্থক্যের মতো কিছু হিসাবে সরলীকৃত করা যেতে পারে?
ওয়েন

5
"একজনকে [শ্রেণিবিন্যাস] সমস্যাটি সরাসরি সমাধান করা উচিত এবং মধ্যবর্তী পদক্ষেপ হিসাবে এর বেশি সাধারণ সমস্যা কখনও সমাধান করা উচিত নয়" "- ভ্যাপনিক
ওয়েন

3
@ এমবিকিউ: আমার বোঝানোর অর্থ এই ছিল না যে কোনও অনুমান করা যায় না, কেবল এটিই মূল লক্ষ্য নয় এবং এটি এমএলএ সাধারণত পি >> এন, এটি আরও শক্ত করে তোলে।
dsimcha

2
আমি এই দৃ .়তার সাথে দৃ strongly়ভাবে একমত নই। এটি ভুল দেখাচ্ছে। পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলির মতো জিনিসগুলি প্রক্রিয়াগুলিও অনুমান করার চেষ্টা করে এবং এমনকি নতুন ক্রমগুলি তৈরি করে এবং জেনারেট করে।
গুহামান

2
তাহলে রোবোটিকসের কী হবে? সম্ভাব্য রোবোটিক্স মূলত অনুক্রমের দিকে মনোনিবেশ করা এবং অ্যাপ্লিকেশনগুলিতে বেশ প্রভাবশালী। তবে এখনও পরিসংখ্যানের চেয়ে আলাদা "স্বাদ" (এবং মেশিন / লার্নিংয়ের তুলনায় আরও প্রকৌশল; যেমন রিয়েল-টাইম বিশ্লেষণ / নিয়ন্ত্রণ)
জিওম্যাট 22 ই

134

বায়েশিয়ান: "হ্যালো, মেশিন লার্নার!"

ঘনঘন বিশেষজ্ঞ: "হ্যালো, মেশিন লার্নার!"

মেশিন লার্নিং: "আমি শুনেছি আপনি ছেলেরা স্টাফে ভাল আছেন some কিছু তথ্য এখানে।"

এফ: "হ্যাঁ, আসুন একটি মডেল লিখি এবং তারপরে এমএলই গণনা করি।"

বি: "আরে, এফ, আপনি গতকাল আমাকে যা বলেছিলেন তা নয়! আমার কিছু অপরিবর্তিত তথ্য ছিল এবং আমি তারতম্যটি অনুমান করতে চেয়েছিলাম, এবং আমি এমএলই গণনা করেছি Then তখন আপনি আমার উপর ঝাঁপিয়ে পড়েছিলেন এবং আমাকে বলেছিলেন পরিবর্তে দিয়ে ভাগএনn1n করতে দ্বারা । "

এফ: "হ্যাঁ হ্যাঁ, আমাকে স্মরণ করিয়ে দেওয়ার জন্য ধন্যবাদ। আমি প্রায়শই মনে করি যে আমি সবকিছুর জন্য এমএলই ব্যবহার করার কথা, তবে আমি নিরপেক্ষ অনুমানক ইত্যাদিতে আগ্রহী ।"

এমএল: "হ্যাঁ, এই সম্পর্কে কী দর্শন দেওয়া হচ্ছে? এটি কি আমাকে সহায়তা করবে?"

এফ: "ঠিক আছে, একটি অনুমানকারী একটি কালো বাক্স, আপনি ডেটা রাখেন এবং এটি আপনাকে কিছু নম্বর দেয় We আমরা ঘন ঘন বিশেষজ্ঞরা বাক্সটি কীভাবে তৈরি করা হয়েছিল, কী কী নীতিগুলি এটির নকশা তৈরিতে ব্যবহৃত হয়েছিল সে সম্পর্কে কোনও যত্ন নেই For উদাহরণস্বরূপ, আমি কীভাবে বিধিটি অর্জন করতে হয় তা জানেন না । "÷(n1)

এমএল: "তো, তুমি কিসের যত্ন নেবে?"

চ: "মূল্যায়ন।"

এমএল: "আমি এর শব্দ পছন্দ করি।"

এফ: "একটি কালো বাক্স একটি কালো বাক্স some যদি কেউ দাবি করে যে কোনও নির্দিষ্ট অনুমানকারী থিতার জন্য একটি নিরপেক্ষ অনুমানক , তবে আমরা পরিবর্তিতভাবে অনেকগুলি মান চেষ্টা করি , কিছু অনুমিত মডেলের উপর ভিত্তি করে প্রতিটি থেকে অনেকগুলি নমুনা তৈরি করি, তাদের মাধ্যমে চাপ দিন through অনুমানকারী, এবং গড় আনুমানিক খুঁজে পান যদি আমরা প্রমাণ করতে পারি যে প্রত্যাশিত অনুমানটি সমস্ত মানের জন্য সত্য মানের সমান হয়, তবে আমরা বলি এটি নিরপেক্ষ। "θ θθθθ

এমএল: "দুর্দান্ত লাগছে! মনে হচ্ছে ঘন ঘনবাদীরা বাস্তববাদী মানুষ। আপনি প্রতিটি ব্ল্যাক বক্সকে এর ফলাফল দ্বারা বিচার করেন E মূল্যায়ন কী।"

এফ: "প্রকৃতপক্ষে! আমি বুঝতে পেরেছি আপনি ছেলেরাও একইরকম পন্থা গ্রহণ করেন Cross ক্রস-বৈধতা বা অন্য কিছু? তবে এটি আমার কাছে অগোছালো মনে হচ্ছে।"

এমএল: "অগোছালো?"

এফ: "সত্যিকারের ডেটাতে আপনার অনুমানের পরীক্ষার ধারণাটি আমার পক্ষে বিপজ্জনক বলে মনে হয় you

এমএল: "কি আমি ভেবেছিলাম আপনি বলেন আপনি কিছু ফলাফল প্রমাণ চাই আপনার মূল্নির্ধারক সবসময় নিরপেক্ষ হবে যে সবার জন্য? ।"θ

এফ: "হ্যাঁ। আপনার পদ্ধতিটি যদি আপনার মূল্যায়নে যে কোনও ডেটাसेट (ট্রেন এবং পরীক্ষার ডেটা সহ ডেটাসেট) ব্যবহার করে থাকে, আমি প্রমাণ করতে পারি যে সর্বদা আমার কাজ করবে।"

এমএল: "সমস্ত ডেটাসেটের জন্য?"

এফ: "না"

এমএল: "সুতরাং আমার পদ্ধতিটি একটি ডেটাসেটে ক্রস-বৈধ হয়েছে You আপনি কোনও সত্যিকারের ডাটাবেসে আপনার পরীক্ষা করেননি?"

এফ: "ঠিক আছে।"

এমএল: "এটি আমাকে তখন নেতৃত্ব দেয়! আমার পদ্ধতিটি আপনার চেয়ে আরও ভাল It

এফ: "এম্ম, হ্যাঁ, আমি মনে করি।"

এমএল: "এবং সেই ব্যবধানটির ৯৫% কভারেজ রয়েছে । তবে এতে অবাক হওয়ার কিছু নেই যে যদি কেবলমাত্র 20% সময়ের এর সঠিক মান থাকে ?"θ

এফ: "এটি সঠিক the যদি না তথ্যটি সত্যই আইডিকাল আইডিমাল না হয় (বা যাই হোক না কেন), আমার প্রমাণ অকেজো।"

এমএল: "সুতরাং আমার মূল্যায়ন আরও বিশ্বাসযোগ্য এবং বিস্তৃত? এটি কেবলমাত্র এতদূর চেষ্টা করা ডেটাসেটগুলিতে কাজ করে তবে কমপক্ষে তারা সত্যিকারের ডেটাসেট, ওয়ার্টস এবং সমস্তই ছিল There সেখানে আপনি ছিলেন, আপনি আরও 'রক্ষণশীল বলে দাবি করার চেষ্টা করছেন 'এবং' পুঙ্খানুপুঙ্খ 'এবং আপনি মডেল-চেকিং এবং স্টাফগুলিতে আগ্রহী ছিলেন। "

বি: (ইন্টারঅ্যাক্টস) "ওহে ছেলেরা, বাধা দেওয়ার জন্য দুঃখিত। আমি পদক্ষেপ নিতে এবং জিনিসগুলিতে ভারসাম্য বজায় রাখতে পছন্দ করি, সম্ভবত কিছু অন্যান্য সমস্যা প্রদর্শন করে, তবে আমি আমার ঘন ঘন সহযোগী সহকর্মী ঝাঁকুনি দেখতে সত্যিই পছন্দ করি।"

এফ: "ওহো!"

এমএল: "ঠিক আছে, বাচ্চারা। এটি মূল্যায়ন সম্পর্কে ছিল all একটি অনুমানক একটি কালো বাক্স Data তথ্য চলে আসে, তথ্য আসে। এটি মূল্যায়নের অধীনে কীভাবে কার্য সম্পাদন করে তার উপর ভিত্তি করে আমরা একটি অনুমানকারীকে অনুমোদিত বা অস্বীকার করি We ব্যবহৃত 'রেসিপি' বা 'নকশার নীতি' সম্পর্কে "

এফ: "হ্যাঁ। তবে আমাদের মূল্যায়ন গুরুত্বপূর্ণ যা সম্পর্কে আমাদের খুব আলাদা ধারণা রয়েছে M এমএল বাস্তব তথ্যগুলির উপর প্রশিক্ষণ ও পরীক্ষা করবে Where তবে আমি এমন একটি মূল্যায়ন করব যা আরও সাধারণ (কারণ এটি একটি বিস্তৃতভাবে প্রয়োগযোগ্য প্রমাণ জড়িত) এবং আরও সীমাবদ্ধ (কারণ আমি জানি না যে আমার ডেটাসেটটি আমার মূল্যায়ন ডিজাইনের সময় আমি যে মডেলিং অনুমানগুলি ব্যবহার করি তা থেকে আঁকা কিনা)) "

এমএল: "আপনি কোন মূল্যায়ন ব্যবহার করেন, বি?"

এফ: (ইন্টারঅ্যাক্টস) "আরে। আমাকে হাসাহাসি করবেন না। তিনি কোনও কিছুর মূল্যায়ন করেন না। তিনি কেবল তার বিষয়গত বিশ্বাসকে ব্যবহার করেন এবং এটি নিয়েই চলে Or বা কিছু something"

বি: "এটি সাধারণ ব্যাখ্যা। তবে আমাদের পছন্দ অনুসারে মূল্যায়নগুলি দ্বারা বায়েশিয়ানবাদকে সংজ্ঞায়িত করাও সম্ভব। তারপরে আমরা এই ধারণাটি ব্যবহার করতে পারি যে আমাদের কেউই ব্ল্যাক বাক্সের মধ্যে কী আছে তা যত্নশীল নয়, আমরা মূল্যায়নের বিভিন্ন উপায়ের বিষয়ে চিন্তা করি।"

বি অব্যাহত রয়েছে: "ক্লাসিক উদাহরণ: মেডিকেল টেস্ট। রক্ত ​​পরীক্ষার ফলাফল হয় ধনাত্মক বা নেতিবাচক। একটি ঘন ঘনবাদী স্বাস্থ্যকর মানুষের মধ্যে আগ্রহী, কোন অনুপাত নেতিবাচক ফলাফল পাবে। এবং একইভাবে, অসুস্থ মানুষদের অনুপাত কী পরিমাণে করবে? একটি ইতিবাচক পান The ঘন ঘন বিশেষজ্ঞরা বিবেচনাধীন প্রতিটি রক্ত ​​পরীক্ষার পদ্ধতির জন্য এগুলি গণনা করবেন এবং তারপরে সুপারিশ করবেন যে আমরা সেই পরীক্ষার ব্যবহার করব যা সেরা স্কোরের সেরা জুটি পেয়েছিল। "

এফ: "হুবহু। আপনি আর কী চাইবেন?"

বি: "যে ব্যক্তিরা ইতিবাচক পরীক্ষার ফলাফল পেয়েছে তাদের সম্পর্কে কী? তারা 'ইতিবাচক ফলাফল প্রাপ্তদের মধ্যে জানতে পারবে, কতজন অসুস্থ পাবে?' এবং 'যারা নেতিবাচক ফলাফল পান তাদের মধ্যে কতজন স্বাস্থ্যকর?' "

এমএল: "আহা হ্যাঁ, এটি জিজ্ঞাসা করার জন্য আরও ভাল জোড়া জোড়া মনে হচ্ছে" "

এফ: "এখানে!"

বি: "এখানে আমরা আবার যাই He তিনি কোথায় যাচ্ছেন তা পছন্দ করেন না।"

এমএল: "এটি 'প্রিয়ার্স' সম্পর্কে, তাই না?"

এফ: "ইভিল"।

বি: "যাইহোক, হ্যাঁ, আপনি ঠিক এমএল। অসুস্থ যে ধনাত্মক-ফলাফলযুক্ত লোকের অনুপাত গণনা করার জন্য আপনাকে দুটি জিনিসের একটি করতে হবে One একটি বিকল্প হ'ল প্রচুর লোকের উপর পরীক্ষা চালানো এবং কেবল পর্যবেক্ষণ করা প্রাসঙ্গিক অনুপাত। উদাহরণস্বরূপ, এই লোকদের মধ্যে কতজন এই রোগে মারা যায় ""

এমএল: "আমি যা করি তা মনে হচ্ছে। ট্রেন এবং পরীক্ষা ব্যবহার করুন।"

বি: "তবে আপনি জনসংখ্যার অসুস্থতার হার সম্পর্কে ধারণা অনুধাবন করতে ইচ্ছুক হলে এই সংখ্যাগুলি আগে থেকেই গণনা করতে পারেন quent ঘন ঘনবাদী তার ক্যালকুলেশনগুলি আগেই তৈরি করে, তবে এই জনসংখ্যা-স্তরের অসুস্থতার হারটি ব্যবহার না করেই।"

এফ: "আরও অনাকাঙ্ক্ষিত এসসাম্পশনস" "

বি: "ওহ চুপ কর। এর আগে, আপনাকে খুঁজে বের করা হয়েছিল। এমএল আবিষ্কার করেছিলেন যে আপনি যে কারও মত ভিত্তিহীন অনুমানের খুব প্রিয়। আপনার 'প্রমাণিত' কভারেজ সম্ভাবনাগুলি বাস্তব বিশ্বে স্ট্যাক করবে না যতক্ষণ না আপনার সমস্ত অনুমানগুলি উঠে না আসে। আমার পূর্বের অনুমানটি কেন এত স্বতন্ত্র? আপনি আমাকে পাগল বলেছেন, তবুও আপনি অনুমান করেন যে এটি রক্ষণশীল, শক্ত, অনুমান-মুক্ত বিশ্লেষণের কাজ ""

বি (অব্যাহত): "যাইহোক, এমএল, যেমনটি আমি বলছিলাম। বেইসিয়ানরা বিভিন্ন ধরণের মূল্যায়ন পছন্দ করে observed আমরা পর্যবেক্ষণ করা তথ্যের উপর কন্ডিশনিং করতে আরও আগ্রহী এবং সেই অনুসারে আমাদের অনুমানের যথার্থতা গণনা করি We আমরা ব্যবহার না করেই এই মূল্যায়নটি সম্পাদন করতে পারি না We তবে মজার বিষয়টি হ'ল একবার আমরা এই মূল্যায়নের ফর্মটি স্থির করে নিই এবং একবার আমরা আমাদের পূর্ব পছন্দ করি, উপযুক্ত অনুমানকারী তৈরি করার জন্য আমাদের একটি স্বয়ংক্রিয় 'রেসিপি' রয়েছে The একটি জটিল মডেলের জন্য নিরপেক্ষ अनुमानক, তার কাছে উপযুক্ত অনুমানকারী তৈরির কোনও স্বয়ংক্রিয় উপায় নেই।

এমএল: "এবং আপনি কি করেন? আপনি স্বয়ংক্রিয়ভাবে একটি অনুমানকারী তৈরি করতে পারেন?"

বি: "হ্যাঁ। নিরপেক্ষ অনুমানক তৈরি করার আমার কাছে স্বয়ংক্রিয় উপায় নেই, কারণ আমি মনে করি পক্ষপাত একটি অনুমানকারীকে মূল্যায়নের জন্য একটি খারাপ উপায় But তবে শর্তসাপেক্ষে ডেটা অনুমান যা আমি পছন্দ করি এবং তার আগে আমি আমাকে প্রাক্কলনকারী দেওয়ার পূর্ব এবং সম্ভাবনা সংযোগ করতে পারে। "

এমএল: "যাইহোক যাইহোক, আসুন আমরা পুনরায় সংশোধন করি our আমাদের সকলের আমাদের পদ্ধতিগুলি মূল্যায়নের বিভিন্ন উপায় রয়েছে এবং কোন পদ্ধতিগুলি সবচেয়ে ভাল তা নিয়ে আমরা সম্ভবত কখনও একমত হব না।"

বি: "ঠিক আছে, এটি ন্যায্য নয় We আমরা সেগুলি মেশাতে এবং মেলাতে পারতাম us আমাদের কারও কাছে যদি ভাল লেবেলযুক্ত প্রশিক্ষণের ডেটা থাকে তবে আমাদের সম্ভবত এটির বিরুদ্ধে পরীক্ষা করা উচিত And এবং সাধারণত আমাদের সকলকে আমাদের যতটা অনুমান করা যায় তা পরীক্ষা করা উচিত some এবং কিছু 'ঘনত্ববাদী 'প্রমাণগুলি মজাদারও হতে পারে, ডেটা জেনারেশনের কিছু অনুমিত মডেলের অধীনে পারফরম্যান্সের পূর্বাভাস দেয় ""

এফ: "হ্যাঁ ছেলেরা। আসুন মূল্যায়নের বিষয়ে বাস্তববাদী হোন। এবং প্রকৃতপক্ষে, আমি অসীম-নমুনা বৈশিষ্ট্যগুলি সম্পর্কে অবলম্বন করা বন্ধ করব I've আমি বিজ্ঞানীদের বলছি আমাকে একটি অসীম নমুনা দেওয়ার জন্য, কিন্তু তারা এখনও তা করেন নি It's এটি সীমাবদ্ধ নমুনাগুলিতে আমার আবার ফোকাস করার সময় "

এমএল: "সুতরাং, আমাদের কেবল একটি শেষ প্রশ্ন রয়েছে our আমাদের পদ্ধতিগুলি কীভাবে মূল্যায়ন করা যায় সে সম্পর্কে আমরা অনেক বিতর্ক করেছি , তবে কীভাবে আমরা আমাদের পদ্ধতিগুলি তৈরি করব " "

বি: "আহ। আমি যেমন আগে যাচ্ছিলাম, বায়সিয়ানদের কাছে আরও শক্তিশালী সাধারণ পদ্ধতি রয়েছে It এটি জটিল হতে পারে তবে আমরা সর্বদা কিছুটা অ্যালগরিদম (এমসিএমসির একটি নির্লজ্জ রূপ) লিখতে পারি যা আমাদের উত্তর থেকে নমুনা দেবে। "

এফ (ইন্টারেক্টস): "তবে এর পক্ষপাত থাকতে পারে have"

বি: "আপনার পদ্ধতিগুলিও তাই হতে পারে? আমি কি আপনাকে স্মরণ করিয়ে দিচ্ছি যে এমএলই প্রায়শই পক্ষপাতদুষ্ট? কখনও কখনও, আপনার পক্ষপাতহীন অনুমানকারী খুঁজে পেতে খুব অসুবিধা হয় এবং এমনকি যখন আপনার কাছে বোকা অনুমানকারী (কিছু জটিল জটিল মডেলের জন্য) থাকে যা বলে বৈচিত্রটি নেতিবাচক। এবং আপনি এটিকে পক্ষপাতহীন বলছেন Un নিরপেক্ষ, হ্যাঁ But তবে দরকারী, না! "

এমএল: "ওকে ছেলেরা। আপনি আবার রেটিং করছেন। আমাকে একটি প্রশ্ন জিজ্ঞাসা করতে দিন, এফ। আপনি দু'জন একই সমস্যার সাথে কাজ করেছেন, তখন কি আপনি কখনও আপনার পদ্ধতির পক্ষপাতটিকে বি এর পদ্ধতির পক্ষপাতের সাথে তুলনা করেছেন?"

এফ: "হ্যাঁ। বাস্তবে আমি এটি স্বীকার করতে ঘৃণা করি, তবে বি এর পদ্ধতির মাঝে মাঝে আমার অনুমানের চেয়ে কম পক্ষপাত এবং এমএসই থাকে!"

এমএল: "এখানে পাঠটি হ'ল আমরা যখন মূল্যায়নের বিষয়ে কিছুটা দ্বিমত পোষণ করি তবে আমাদের কারওরই আমাদের পছন্দসই সম্পত্তি রয়েছে এমন প্রাক্কলনকারী কীভাবে তৈরি করা যায় তার একচেটিয়া নেই।"

বি: "হ্যাঁ, আমাদের একে অপরের কাজটি আরও কিছুটা পড়া উচিত estima আমরা একে অপরকে অনুমানকারীদের জন্য অনুপ্রেরণা দিতে পারি We আমরা দেখতে পাব যে অন্যের অনুমানকারীরা আমাদের নিজস্ব সমস্যাগুলির বাইরে বাক্সের বাইরে কাজ করে।"

এফ: "এবং আমার পক্ষপাতদুষ্ট সম্পর্কে অবলম্বন করা উচিত An একটি পক্ষপাতহীন অনুমানকারীটির হাস্যকর বৈকল্পিকতা থাকতে পারে supp আমি মনে করি আমরা কীভাবে মূল্যায়ন করব এবং আমাদের অনুমানকগুলিতে আমরা যে বৈশিষ্ট্যগুলি দেখতে চাই সেগুলি বেছে নেওয়ার জন্য আমাদের সকলকে 'দায়িত্ব নিতে হবে'। আমরা কোনও দর্শনের পেছনে বাধা দিতে পারি না। আপনি যা যা মূল্যায়ন করতে পারেন তা চেষ্টা করুন। এবং অনুমানকারীদের জন্য নতুন ধারণা পেতে আমি বায়েশিয়ান সাহিত্যের দিকে তাকাতে থাকব! "

বি: "বাস্তবে, অনেক লোকই তাদের নিজস্ব দর্শন কী তা সত্যই জানেন না myself আমি নিজেও নিশ্চিত নই I আমি যদি কোনও বয়েশিয়ান রেসিপি ব্যবহার করি এবং তারপরে কিছু চমৎকার তাত্ত্বিক ফলাফল প্রমাণ করি তবে তার অর্থ এই নয় যে আমি আমি একজন ঘনঘন বিশেষজ্ঞ? পারফরম্যান্স উপরোক্ত প্রমাণগুলির সম্পর্কে যত্নশীল, তিনি রেসিপিগুলি সম্পর্কে চিন্তা করেন না এবং আমি যদি এর পরিবর্তে (বা পাশাপাশি) কিছু ট্রেন-পরীক্ষাও করি, তার মানে কি আমি মেশিন-লার্নার? "

এমএল: "দেখে মনে হচ্ছে আমরা তখন সকলেই একদম একই রকম।"


8
পাঠকদের জন্য যারা এই প্রতিক্রিয়াটি শেষ পর্যন্ত পড়বেন আমি তাদের জন্য একটি সংক্ষিপ্ত টেক-অফ বার্তা যুক্ত করার পরামর্শ দিই (এবং যদি এটি প্রযোজ্য হয় তবে উপযুক্ত উদ্ধৃতি প্রদান)।
chl

এখন পর্যন্ত -2 ভোট দিয়ে, আমি মনে করি এটি সংরক্ষণের মতো আমি খুব বেশি কিছু করতে পারি না :) আমি মনে করি যে সমাপ্তি, যেখানে তারা সকলেই একে অপরের সাথে একমত হয় এবং স্বীকার করে যে তারা একে অপরের দর্শন সম্পর্কে চিন্তা না করে একে অপরের পদ্ধতি ব্যবহার করতে পারে, এটি একটি 'টেক-অফ ম্যাসেজ'।
অ্যারন ম্যাকডেইড

10
কোন উদ্ধৃতি প্রয়োজন। আমি এটি নিজেই তৈরি করেছি। এটি সম্ভবত খুব ভালভাবে অবহিত নয়, এটি আমার নিজের (ভুল) -র ভিত্তিতে বছরের পর বছর কয়েকজন সহকর্মীর সাথে আমার যুক্তিগুলির ব্যাখ্যা।
অ্যারন ম্যাকডেইড

3
আমি অতীতে এই জাতীয় সংলাপ (সংক্ষিপ্ত, যদিও) দেখেছি এবং সেগুলি আকর্ষণীয় মনে করি। নিম্নগামীদের দ্বারাও আমি উদ্বিগ্ন ছিলাম, তাই পাঠকদের আপনার পোস্টের বাকী অংশটি পড়তে উদ্বুদ্ধ করার জন্য শীর্ষে একটি সংক্ষিপ্ত সংক্ষিপ্তসার রাখার জন্য আমার পরামর্শটি।
chl

3
13/10 আবার তর্ক করবে
410_ 19

67

এই জাতীয় আলোচনায় আমি সর্বদা বিখ্যাত কেন থম্পসনের উক্তিটি স্মরণ করি

সন্দেহ হলে, নিষ্ঠুর শক্তি ব্যবহার করুন।

এই ক্ষেত্রে, মেশিন লার্নিং একটি মোক্ষ হিসাবে যখন অনুমানগুলি ধরা শক্ত হয়; অথবা তাদের ভুল অনুমান করার চেয়ে কমপক্ষে এটি আরও ভাল।


2
এই বছর বর্ধিত কম্পিউটেশনাল ক্ষমতা এবং অটোরকোডার এবং যুক্ত প্রযুক্তিগুলির সাথে, এটি আগের চেয়ে আরও সত্য।
ফায়ারব্যাগ

কোনও সমস্যা সমাধানের জন্য ইঞ্জিনিয়াররা সূত্র, কৌশল এবং পদ্ধতি ব্যবহার করেন যা তারা আগে ব্যবহার করেছেন এবং তাদের সাফল্যের বিষয়ে নিশ্চিত ... সাধারণভাবে, এটিকে ব্রুট ফোর্স বা থাম্ব বিধিগুলির ব্যবহার বলা হয় ... নতুন সূত্র, কৌশল এবং প্রক্রিয়াগুলি ধাপে ধাপে প্রক্রিয়াতে ব্যবহৃত হয় ... ইঞ্জিনিয়ারিং ক্রিয়াকলাপগুলি গ্রুপ ক্রিয়াকলাপ - যেখানে ইঞ্জিনিয়ার, টেকনিশিয়ান এবং ম্যানুয়াল ল্যাবরেয়াররা এক সাথে কাজ করে। যখন একটি নতুন পদ্ধতি চালু করা হয় তখন প্রযুক্তিবিদ এবং শ্রমজীবীদের এই পদ্ধতিটি দিয়ে প্রশিক্ষণ দিতে সময় লাগে। সুতরাং আধুনিকায়ন একটি বিবর্তন প্রক্রিয়া প্রবর্তিত হয়।
বি.সাহু

64

যা হওয়া উচিত তার চেয়ে বেশি বিচ্ছেদকে কার্যকর করার বিষয়টি হ'ল প্রতিটি শৃঙ্খলার অভিধান xic

অনেকগুলি উদাহরণ রয়েছে যেখানে এমএল একটি শব্দ ব্যবহার করে এবং পরিসংখ্যানগুলি পৃথক পদ ব্যবহার করে - তবে উভয়ই একই জিনিসকে বোঝায় - জরিমানা, আপনি এটি আশা করবেন এবং এটি কোনও স্থায়ী বিভ্রান্তি সৃষ্টি করে না (যেমন বৈশিষ্ট্য / বৈশিষ্ট্য বনাম প্রত্যাশা) ভেরিয়েবল, বা নিউরাল নেটওয়ার্ক / এমএলপি বনাম প্রজেকশন-অনুসরণ)

এর চেয়েও বড় সমস্যাটি হ'ল উভয় শাখাগুলি সম্পূর্ণ ভিন্ন ধারণাটিকে বোঝাতে একই শব্দ ব্যবহার করে।

কয়েকটি উদাহরণ:

কার্নেল ফাংশন

এমএল-তে, কার্নেল ফাংশনগুলি শ্রেণিবদ্ধ (যেমন, এসভিএম) এবং অবশ্যই কার্নেল মেশিনে ব্যবহৃত হয়। শব্দটি একটি নতুন ইনপুট স্পেসে অ-রৈখিক পৃথক পৃথক মানচিত্রের জন্য একটি সাধারণ ক্রিয়াকলাপ ( কোসাইন, সিগময়েডাল, আরবিএফ, বহুভুজ ) বোঝায় , যাতে এই নতুন ইনপুট স্পেসে ডেটা এখন রৈখিকভাবে পৃথক হয়। (শুরুতে একটি অ-রৈখিক মডেল ব্যবহার করা বনাম)।

পরিসংখ্যানগুলিতে, একটি কার্নেল ফাংশন হচ্ছে ঘনত্বের বক্ররেখাকে মসৃণ করতে ঘনত্বের অনুমানের জন্য ওজনযুক্ত ফাংশন।

প্রত্যাগতি

এমএল-তে, ভবিষ্যদ্বাণীপূর্ণ অ্যালগরিদম বা সেই অ্যালগরিদমগুলির বাস্তবায়ন যা শ্রেণিবদ্ধ লেবেলগুলি "শ্রেণিবদ্ধ" দেয় (কখনও কখনও) মেশিনগুলি --eg, সমর্থন ভেক্টর মেশিন , কার্নেল মেশিন হিসাবে উল্লেখ করা হয় । মেশিনের প্রতিচ্ছবি হ'ল রেজিস্ট্রার , যা একটি স্কোর (ক্রমাগত পরিবর্তনশীল) প্রদান করে - যেমন, ভেক্টর রিগ্রেশনকে সমর্থন করুন

খুব কমই অ্যালগরিদমের মোডের উপর ভিত্তি করে আলাদা আলাদা নাম রয়েছে - উদাহরণস্বরূপ, একটি এমএলপি শব্দটি ব্যবহৃত হয় এটি শ্রেণীর লেবেল বা একটি অবিচ্ছিন্ন ভেরিয়েবল ফিরিয়ে দেয় কিনা used

পরিসংখ্যানগুলিতে, রিগ্রেশন , যদি আপনি এক বা একাধিক ব্যাখ্যামূলক ভেরিয়েবল বা আরও ভেরিয়েবলের উপর ভিত্তি করে কিছু প্রতিক্রিয়ার ভেরিয়েবলের পূর্বাভাস দেওয়ার জন্য অনুশীলনের তথ্য ভিত্তিক একটি মডেল তৈরি করার চেষ্টা করছেন - তবে আপনি রিগ্রেশন বিশ্লেষণ করছেন । আউটপুট অবিচ্ছিন্ন পরিবর্তনশীল বা শ্রেণিবদ্ধ লেবেল (যেমন লজিস্টিক রিগ্রেশন) তা বিবেচনা করে না। উদাহরণস্বরূপ, সর্বনিম্ন-স্কোয়ারের রিগ্রেশন এমন মডেলকে বোঝায় যা অবিচ্ছিন্ন মান দেয়; অন্যদিকে লজিস্টিক রিগ্রেশন, একটি সম্ভাব্যতা অনুমান দেয় যা পরে শ্রেণিবদ্ধ হয়ে থাকে।

পক্ষপাত

এমএলে, অ্যালগরিদমের পক্ষপাত শব্দটি রিগ্রেশন মডেলিংয়ে পরিসংখ্যানবিদদের দ্বারা ব্যবহৃত ইন্টারসেপ্ট শব্দটির সাথে ধারণাগতভাবে সমান ।

পরিসংখ্যানগুলিতে পক্ষপাতটি অ-র্যান্ডম ত্রুটি - যেমন, কিছু ঘটনা একই দিকের সেট পুরো ডেটাটিকে প্রভাবিত করে যার ফলশ্রুতিতে এই ধরণের ত্রুটি নমুনার আকার পুনঃনির্মাণ বা বৃদ্ধি করে মুছে ফেলা যায় না।


19
পরিসংখ্যানগুলিতে পক্ষপাতটি ত্রুটি হিসাবে একই নয়। ত্রুটি নিখুঁতভাবে এলোমেলো, পক্ষপাত নয়। আপনি যখন অনুমান করবেন যে আপনার অনুমানের প্রত্যাশিত মানটি সত্য মানের সাথে সমান নয়।
জোরিস মেজ

2
(@ জরিস বা আপনি এটি জানেন না এমনকি যদি! ট্রাইট লাগছে, তবে পক্ষপাত রয়েছে কিনা তা খুঁজে বের করা যথেষ্ট কার্যকর সমস্যা হতে পারে alone একাকী তথ্য থেকে, আপনি কতটা নিশ্চিত হতে পারেন যে অনুমানিত রিগ্রেশন প্যারামিটার বাদ দেওয়া পরিবর্তনশীল নয়) পক্ষপাত?) এটি একটি সাধারণ ভ্রান্ত ধারণা যে পক্ষপাতটি ডেটাগুলির বৈশিষ্ট্য, কোনও অনুমানকারকের সম্পত্তি নয়; আমি অবাক হয়েছি যদি এটি "প্রযুক্তিগত ব্যবহারের পক্ষপাতদুষ্ট!" এর মতো অ প্রযুক্তিগত ব্যবহার থেকে আসে! পরিসংখ্যানবিদরাও সর্বদা "ত্রুটি" এর মতো পদগুলির সাথে সামঞ্জস্যপূর্ণ নন: বর্গক্ষেত্র ত্রুটির অর্থ (একটি অনুমানকারী) বায়াস-স্কোয়ার উপাদান অন্তর্ভুক্ত করে, যাতে "ত্রুটি" "নিখুঁতভাবে এলোমেলো" হয় না।
সিলভারফিশ

2
আমি মনে করি এসভিএমগুলিতে "মেশিন" শব্দটি ভ্লাদিমির ভ্যাপনিকের ব্যক্তিগত স্বাদকে দায়ী করা উচিত। আজকাল, আমি মনে করি না এটি অন্য কোনও শ্রেণিবদ্ধের নাম দেওয়ার জন্য ব্যবহৃত হয় না।
ilasfl

3
E[X^X]

1
[0,1]1

25

ব্যবহারিক পদ্ধতিতে মেশিন লার্নিংয়ের ভিত্তি রয়েছে বলে মনে হয় - বাস্তবের ব্যবহারিক পর্যবেক্ষণ বা অনুকরণ। এমনকি পরিসংখ্যানগুলির মধ্যেও নির্বোধ "মডেল এবং অনুমানের পরীক্ষা করা" কার্যকর করার পদ্ধতিগুলিকে ছাড়িয়ে দিতে পারে।

উদাহরণস্বরূপ, বছর কয়েক আগে, ক্রেডিট বিরিয়াস দ্বারা প্রয়োগ করা প্রথম বাণিজ্যিকভাবে উপলব্ধ (এবং কার্যকরী) দেউলিয়ার মডেল 0-1 ফলাফলকে লক্ষ্য করে একটি সাধারণ পুরানো লিনিয়ার রিগ্রেশন মডেলের মাধ্যমে তৈরি করা হয়েছিল। প্রযুক্তিগতভাবে, এটি একটি খারাপ পদ্ধতির, তবে ব্যবহারিকভাবে এটি কার্যকর হয়েছিল।


4
এটি গ্রহ মাধ্যাকর্ষণ মডেলগুলি শহুরে ট্র্যাফিকের সাথে ব্যবহার করার মতো। আমি এটি অযৌক্তিক বলে মনে করি, তবে এটি আসলে নিখুঁতভাবে
শান্তভাবে

5
আমি সর্বশেষ বিবৃতিতে আগ্রহী: "ক্রেডিট বিরিয়াস কর্তৃক বাস্তবায়িত প্রথম বাণিজ্যিকভাবে উপলব্ধ (এবং কার্যকরী) দেউলিয়ার মডেল একটি 0-1 ফলাফলকে লক্ষ্য করে একটি সাধারণ পুরানো লিনিয়ার রিগ্রেশন মডেলের মাধ্যমে তৈরি করা হয়েছিল"। এটি কোন মডেল ছিল? আমি বিশ্বাস করি যে প্রথম মডেলটি মুডির দ্বারা রিস্কক্যালাক ছিল এবং এমনকি প্রথম সংস্করণটি ছিল একটি লজিস্টিক রিগ্রেশন মডেল। সেই মডেলের বিকাশকারীরা এমএল এর ব্যাকগ্রাউন্ড সহ সিএস লোক ছিলেন না, বরং একনোমেট্রিক্সে ছিলেন।
25:52

2
আমি বাজি ধরেছি যে তারা যৌক্তিক বিশ্লেষণের আগে বৈষম্যমূলক বিশ্লেষণ ব্যবহার করেছিল, যেমন এলআর এর আগে ডিএর ভাল আবিষ্কার হয়েছিল
নীল ম্যাকগুইগান

1
@ কৃপা আমি স্বতন্ত্র ক্রেডিট ব্যুরো রেকর্ডগুলির জন্য এমডিএস গ্রাহক দেউলিয়া মডেলের কথা ভাবছি is রিসক্যালাক ছিল সংস্থাগুলির জন্য creditণ ঝুঁকি মূল্যায়ন। এমডিএস দেউলিয়ার মডেলটি সেই সময়ের FICO ঝুঁকিপূর্ণ মডেলগুলির চেয়ে পৃথক ছিল যে লক্ষ্য ছিল দেউলিয়া এবং নয় ক্রেডিট ডিলিক্যেন্সি (যেমন FICO এর মূল স্কোর)। আমার মন্তব্য সেই প্রসঙ্গে এমএলটির সুনির্দিষ্ট বৈশিষ্ট্য সম্পর্কে কম ছিল (কারণ এটি সবেমাত্র ব্যবহারের মধ্যেই ছিল - বিকে মডেলটি প্রথম নির্মিত হয়েছিল সেই সময়ে) তবে বাস্তবতার সাথে সম্পর্কিত যে কার্যকরী কার্যকারিতা যে একেবারেই সম্পর্কিত নয় তা সম্পর্কিত তাত্ত্বিক বিধিনিষেধ বা অনুমান লঙ্ঘন।
জে স্টিভেন্স

কেন এটি প্রযুক্তিগতভাবে একটি খারাপ দৃষ্টিভঙ্গি ছিল কেন কেবল কৌতূহল। কারণ এটি অনেকগুলি সরলকরণ অনুমান করেছে যা বাস্তবতার থেকে বিস্তৃত হবে?
xji

25

গত বছরের সবচেয়ে বড় পার্থক্যগুলি আমি লক্ষ্য করেছি: হ'ল

  • মেশিন লার্নিং বিশেষজ্ঞরা মৌলিক বিষয়গুলিতে পর্যাপ্ত সময় ব্যয় করেন না এবং তাদের মধ্যে অনেকে অনুকূল সিদ্ধান্ত গ্রহণ এবং যথাযথ নির্ভুলতার স্কোরিংয়ের নিয়মগুলি বুঝতে পারেন না। তারা বুঝতে পারে না যে ভবিষ্যদ্বাণীমূলক পদ্ধতিগুলি যা কোনও অনুমান করে না তাদের জন্য যেগুলির চেয়ে বড় আকারের নমুনার আকার প্রয়োজন।
  • আমরা পরিসংখ্যানবিদরা ভাল প্রোগ্রামিং অনুশীলন এবং নতুন কম্পিউটারের ভাষা শেখার জন্য খুব কম সময় ব্যয় করে। পরিসংখ্যান সাহিত্য থেকে নতুন পদ্ধতি গণনা এবং গ্রহণের ক্ষেত্রে আমরা পরিবর্তন করতে খুব ধীর হয়েছি।

2
আরেকটি দ্রষ্টব্য হ'ল আমাদের পরিসংখ্যানবিদরা আমাদের এমন পদ্ধতিগুলিতে সীমাবদ্ধ রাখার ঝোঁক রাখেন যা আমরা গণিতের সাথে প্রমাণ করতে পারি যা ভালভাবে কাজ করবে (সম্ভবত হাস্যকর অনুমানের সেট এর অধীনে), বিশেষত যখন এটি প্রকাশনাগুলির ক্ষেত্রে আসে। মেশিন লার্নিংয়ের লোকেরা এমন কিছু পদ্ধতি ব্যবহার করে খুব খুশি হয় যা কিছু ডেটাসেটে বুদ্ধিমানভাবে কাজ করে। ফলস্বরূপ, আমি মনে করি এমএল সাহিত্যের খুব দ্রুত গতি সঞ্চার হয় তবে পরিশ্রমের মাধ্যমে আরও চালিত হওয়া প্রয়োজন।
ক্লিফ এবি

24

আমি এই প্রশ্নের সাথে একমত নই কারণ এটি পরামর্শ দেয় যে মেশিন লার্নিং এবং পরিসংখ্যানগুলি ভিন্ন বা বিরোধী বিজ্ঞান .... যখন বিপরীতটি সত্য হয়!

মেশিন লার্নিং পরিসংখ্যানগুলির ব্যাপক ব্যবহার করে ... যেকোন মেশিন লার্নিং বা ডেটা মাইনিং সফটওয়্যার প্যাকেজের একটি দ্রুত সমীক্ষা ক্লাস্টারিংয়ের কৌশলগুলি যেমন কে-মানে হিসাবে পরিসংখ্যানগুলিতে পাওয়া যায় তা প্রকাশ করবে .... এছাড়াও প্রধান উপাদানগুলির বিশ্লেষণের মতো মাত্রা হ্রাস কৌশলগুলিও দেখায় এছাড়াও একটি পরিসংখ্যান কৌশল ... এমনকি লজিস্টিক রিগ্রেশন আরও একটি।

আমার দৃষ্টিতে মূল পার্থক্যটি হ'ল traditionতিহ্যগতভাবে পরিসংখ্যানগুলি প্রাক কল্পনা তত্ত্বটি প্রমাণ করার জন্য ব্যবহৃত হত এবং সাধারণত বিশ্লেষণটি সেই মূল তত্ত্বের চারপাশে নকশা করা হত। যেখানে ডেটা মাইনিং বা মেশিনটি বিপরীত পদ্ধতির শেখার সাথে সাধারণত আমাদের প্রচলিত নিয়ম হয় সেখানে আমরা কেবল প্রশ্ন জিজ্ঞাসা বা তত্ত্বটি গঠনের পরিবর্তে এটির পূর্বাভাস দেওয়ার উপায় খুঁজে পেতে চাই এটিই পরিণতি!


21

আমি এএসএ স্ট্যাটিস্টিকাল কনসাল্টিং ইগ্রুপকে অন্য ফোরামে এ বিষয়ে কথা বলেছি। আমার প্রতিক্রিয়াটি ডেটা মাইনিংয়ের ক্ষেত্রে আরও স্পষ্টভাবে ছিল তবে দু'জনেই হাত ধরে। আমরা পরিসংখ্যানবিদরা ডেটা মাইনার, কম্পিউটার বিজ্ঞানী এবং ইঞ্জিনিয়ারদের কাছে আমাদের নাক ছুঁড়েছি। এটি ভুল. আমি মনে করি এটির কারণ হওয়ার একটি অংশ হ'ল কারণ আমরা সেই ক্ষেত্রগুলিতে কিছু লোককে তাদের সমস্যার স্টোকাস্টিক প্রকৃতি উপেক্ষা করে দেখছি। কিছু পরিসংখ্যানবিদ ডেটা মাইনিং ডেটা স্নুপিং বা ডেটা ফিশিং বলে। কিছু লোক পদ্ধতিগুলির অপব্যবহার এবং অপব্যবহার করে তবে পরিসংখ্যানবিদরা ডেটা মাইনিং এবং মেশিন লার্নিংয়ে পিছিয়ে পড়েছেন কারণ আমরা এগুলিকে ব্রড ব্রাশ দিয়ে রঙ করি। কিছু বড় পরিসংখ্যানের ফলাফল পরিসংখ্যানের ক্ষেত্রের বাইরে থেকে এসেছে। বুস্ট করা একটি গুরুত্বপূর্ণ উদাহরণ। তবে ব্রিটিম্যান, ফ্রেডম্যান, হাস্টি, তিবশিরানী, এফ্রন, এর মতো পরিসংখ্যানবিদরা গেলম্যান এবং অন্যান্যরা এটি পেয়েছে এবং তাদের নেতৃত্ব পরিসংখ্যানবিদদেরকে মাইক্রোয়ারে এবং অন্যান্য বৃহত আকারের অনুক্রমের সমস্যার বিশ্লেষণে নিয়ে এসেছে। কম্পিউটার সংস্কৃতিবিদ, প্রকৌশলী এবং পরিসংখ্যানবিদদের মধ্যে সংস্কৃতিগুলি কখনই জাল হতে পারে না now


19

আসল সমস্যা হ'ল এই প্রশ্নটি বিপথগামী। এটি মেশিন লার্নিং বনাম পরিসংখ্যান নয়, এটি প্রকৃত বৈজ্ঞানিক অগ্রিমের বিরুদ্ধে মেশিন লার্নিং। যদি কোনও মেশিন লার্নিং ডিভাইস যদি 90% সময় সঠিক ভবিষ্যদ্বাণী দেয় তবে আমি "কেন" বুঝতে পারি না, তবে বিজ্ঞানটিতে মেশিন লার্নিংয়ের অবদান কী? কল্পনা করুন যদি গ্রহগুলির অবস্থান সম্পর্কে ভবিষ্যদ্বাণী করার জন্য মেশিন লার্নিংয়ের কৌশলগুলি ব্যবহার করা হত: প্রচুর স্মাগ লোকেরা ভেবেছিল যে তারা তাদের এসভিএমগুলির সাথে অনেকগুলি জিনিস সঠিকভাবে অনুমান করতে পারে তবে তারা তাদের হাতে যে সমস্যাটি রয়েছে সে সম্পর্কে তারা কী জানে? ? স্পষ্টতই, বিজ্ঞান সংখ্যার ভবিষ্যদ্বাণী দ্বারা সত্যই অগ্রসর হয় না, এটি মডেলগুলির মাধ্যমে অগ্রগতি করে (মানসিক, গাণিতিক) যিনি আমাদের কেবল সংখ্যার চেয়েও অনেক বেশি পেরিয়ে যান।


1
+1 এটি অর্থনীতিতে মডেলগুলির ব্যবহারের কথা মনে করিয়ে দেয়। ইকোনোমেট্রিক মডেলগুলি কয়েকটি উদ্দেশ্যে নির্মিত are যথা, নীতি বিশ্লেষণ এবং পূর্বাভাস। সাধারণভাবে, কেউই সত্যিই পূর্বাভাস দেওয়ার বিষয়ে চিন্তা করে না - এটি নীতিমালার সিমুলেশনগুলির মধ্যে সর্বাধিক গুরুত্বপূর্ণ। ডেভিড হেন্ড্রি যেমনটি বলে আসছেন, সেরা পূর্বাভাসের মডেলটি নীতি বিশ্লেষণের জন্য সর্বোত্তম মডেল নয় - এবং তদ্বিপরীত। পিছনে ফিরে চিন্তা করা দরকার ... মডেলটির উদ্দেশ্য কী? আমরা কোন প্রশ্নের উত্তর দেওয়ার চেষ্টা করছি? এবং এটি কীভাবে গবেষণামূলক আবিষ্কারগুলির সাথে খাপ খায়
গ্রিম ওয়ালশ

17

"উদাহরণ থেকে শেখার" মাধ্যমে সফ্টওয়্যার তৈরির সন্ধানে স্ট্যাটিস্টিকাল লার্নিং (একেএ মেশিন লার্নিং) এর উত্স রয়েছে। অনেকগুলি কাজ রয়েছে যা আমরা কম্পিউটারগুলি করতে চাই (যেমন, কম্পিউটার ভিশন, স্পিচ স্বীকৃতি, রোবট নিয়ন্ত্রণ) যা প্রোগ্রাম করা কঠিন তবে যার জন্য প্রশিক্ষণের উদাহরণ সরবরাহ করা সহজ। এই উদাহরণগুলি থেকে ফাংশনগুলি শিখতে মেশিন লার্নিং / স্ট্যাটিস্টিকাল লার্নিং রিসার্চ কমিউনিটি অ্যালগরিদমগুলি তৈরি করে। ক্ষতির ফাংশনটি সাধারণত পারফরম্যান্স টাস্ক (দৃষ্টি, বক্তৃতা স্বীকৃতি) সম্পর্কিত ছিল। এবং অবশ্যই আমাদের বিশ্বাস করার কোনও কারণ নেই যে এই কার্যগুলি অন্তর্নিহিত কোনও সাধারণ "মডেল" ছিল (কারণ অন্যথায় আমরা সেই সাধারণ প্রোগ্রামটি নিজেই কোড আপ করে দিতাম)। সুতরাং, পরিসংখ্যানগত অনুমান করার সম্পূর্ণ ধারণাটির কোনও অর্থ হয়নি। লক্ষ্যটি ভবিষ্যদ্বাণীমূলক নির্ভুলতা এবং অন্য কিছু নয়।

সময়ের সাথে সাথে বিভিন্ন বাহিনী পরিসংখ্যান সম্পর্কে আরও শিখতে লোকেদের ড্রাইভিং মেশিন চালানো শুরু করে। একটি হ'ল ব্যাকগ্রাউন্ড জ্ঞান এবং শেখার প্রক্রিয়াতে অন্যান্য সীমাবদ্ধতা অন্তর্ভুক্ত করার প্রয়োজন ছিল। এটি লোকেদের উত্পাদনশীল সম্ভাব্য মডেলগুলি বিবেচনা করতে পরিচালিত করেছিল, কারণ এগুলি মডেল পরামিতি এবং কাঠামোর উপর মডেল এবং প্রিভিয়ার কাঠামোর মাধ্যমে পূর্ববর্তী জ্ঞানকে অন্তর্ভুক্ত করা সহজ করে তোলে। এটি ক্ষেত্রকে এই অঞ্চলে সমৃদ্ধ পরিসংখ্যানের সাহিত্যের সন্ধান করতে পরিচালিত করেছিল। আরেকটি শক্তি হ'ল ওভারফিটিংয়ের ঘটনা আবিষ্কার করা। এটি এমএল সম্প্রদায়কে ক্রস-বৈধতা এবং নিয়মিতকরণ সম্পর্কে শিখতে পরিচালিত করেছিল এবং আমরা আবারও এই বিষয়ে সমৃদ্ধ পরিসংখ্যানের সাহিত্য আবিষ্কার করেছি।

তবুও, বেশিরভাগ মেশিন লার্নিং কাজের ফোকাস হ'ল এমন একটি সিস্টেম তৈরি করা যা কোনও অজানা প্রক্রিয়া সম্পর্কে মেক ইনফারেন্সের চেয়ে নির্দিষ্ট পারফরম্যান্স প্রদর্শন করে। এটি এমএল এবং পরিসংখ্যানের মধ্যে মৌলিক পার্থক্য।


15

আদর্শভাবে তার প্রশ্নের উত্তর দেওয়ার চেষ্টা করার আগে স্ট্যাটিসটিকস এবং মেশিন লার্নিং উভয়ের একটি সম্পর্কে সম্পূর্ণ জ্ঞান থাকা উচিত। আমি এমএল-এর কাছে অনেকটা নিওফাইফ, তাই যদি আমি বলি নির্দোষ হয় তবে আমাকে ক্ষমা করুন।

এসভিএম এবং রিগ্রেশন ট্রি সম্পর্কে আমার সীমিত অভিজ্ঞতা আছে। পরিসংখ্যানের দৃষ্টিকোণ থেকে এমএল-এর অভাব হিসাবে আমাকে কী আঘাত করে তা হ'ল অনুমিতির একটি উন্নত ধারণা।

(উদাহরণস্বরূপ) শ্রেণিবিন্যাস ত্রুটি (এমসিই), বা ভারসাম্য ত্রুটি হার (বিইআর) বা অনুরূপ দ্বারা পরিমাপ করা হিসাবে এমএল অনুমানের পূর্বাভাসের সঠিকতার সাথে প্রায় একচেটিয়াভাবে ফুটে উঠেছে বলে মনে হয়। এমএল তথ্যকে এলোমেলোভাবে ভাগ করার খুব ভাল অভ্যাসে রয়েছে (সাধারণত 2: 1) একটি প্রশিক্ষণ সেট এবং একটি পরীক্ষার সেটে। মডেলগুলি প্রশিক্ষণ সেট ব্যবহার করে ফিট এবং পারফরম্যান্স (এমসিই, বিইআর ইত্যাদি) পরীক্ষার সেট ব্যবহার করে মূল্যায়ন করা হয়। এটি একটি দুর্দান্ত অনুশীলন এবং ধীরে ধীরে মূলধারার পরিসংখ্যানগুলিতে প্রবেশ করছে।

এমএল পুনরায় মডেলিং পদ্ধতিগুলি (বিশেষত ক্রস-বৈধকরণ) এরও ভারী ব্যবহার করে, যার উত্সটি পরিসংখ্যান হিসাবে উপস্থিত বলে মনে হয়।

তবে, এমএল অনুমানের সম্পূর্ণরূপে বিকাশযুক্ত ধারণাটির অভাব বলে মনে হচ্ছে - ভবিষ্যদ্বাণীমূলক নির্ভুলতার বাইরে। এটির দুটি ফলাফল রয়েছে।

1) কোনও প্রশংসা বলে মনে হয় না যে কোনও পূর্বাভাস (প্যারামিটার অনুমান ইত্যাদি) এলোমেলো ত্রুটি এবং সম্ভবত সিস্টেমমেটিক ত্রুটি (পক্ষপাত) এর সাথে জড়িত। পরিসংখ্যানবিদরা মেনে নেবেন যে এটি পূর্বাভাসের একটি অনিবার্য অংশ এবং চেষ্টা করে ত্রুটিটি অনুমান করবে। পরিসংখ্যান কৌশলগুলি চেষ্টা করবে এবং এমন একটি অনুমানের সন্ধান করবে যার সর্বনিম্ন পক্ষপাত এবং এলোমেলো ত্রুটি রয়েছে। তাদের কৌশলগুলি সাধারণত ডেটা প্রক্রিয়াটির মডেল দ্বারা চালিত হয় তবে সর্বদা নয় (যেমন বুটস্ট্র্যাপ)।

2) একই জনসংখ্যার (একটি প্রশিক্ষণ-পরীক্ষার ডেটা সেট পদ্ধতির বিষয়ে আমি আগে যা বলেছিলাম তা সত্ত্বেও) একই জনগোষ্ঠীর নতুন নমুনায় কোনও মডেল প্রয়োগ করার সীমাবদ্ধতার এমএল সম্পর্কে গভীর বোঝাপড়া বলে মনে হচ্ছে না। বিভিন্ন পরিসংখ্যান কৌশল, তাদের মধ্যে বৈধতা এবং দণ্ডের শর্তগুলি সম্ভাবনা-ভিত্তিক পদ্ধতিতে প্রয়োগ করা হয়, পার্সিমনি এবং মডেল জটিলতার মধ্যে বাণিজ্য-ব্যবস্থায় পরিসংখ্যানবিদদের গাইড করে। এমএলে এই জাতীয় নির্দেশিকা অনেক বেশি অ্যাডহক বলে মনে হয়।

আমি এমএলে বেশ কয়েকটি কাগজপত্র দেখেছি যেখানে ট্রেনিং ডেটাসেটে অনেক মডেলের ফিটনেস অনুকূলকরণের জন্য ক্রস বৈধকরণ ব্যবহৃত হয় - মডেলের জটিলতা বাড়ার সাথে সাথে আরও ভাল এবং আরও ভাল ফিট করা যায়। সামান্য প্রশংসা পাওয়া যায় যে নির্ভুলতার ক্ষুদ্র লাভগুলি অতিরিক্ত জটিলতার পক্ষে মূল্যবান নয় এবং এটি স্বাভাবিকভাবেই অতিরিক্ত-ফিটনেসকে বাড়ে। তারপরে এই সমস্ত অপটিমাইজড মডেলগুলি ভবিষ্যদ্বাণীমূলক পারফরম্যান্সের উপর নজর রাখার জন্য এবং অত্যধিক মানসিক চাপ প্রতিরোধের জন্য পরীক্ষার সেটটিতে প্রয়োগ করা হয়। দুটি জিনিস ভুলে গেছে (উপরে)। ভবিষ্যদ্বাণীপূর্ণ কর্মক্ষমতা একটি স্টোকাস্টিক উপাদান থাকবে। দ্বিতীয়ত একটি পরীক্ষার সেট বিরুদ্ধে একাধিক পরীক্ষা আবার ওভার-ফিটনেস ফলাফল। "সেরা" মডেলটি এমএল প্র্যাকটিশনারের দ্বারা পুরো প্রশংসা ছাড়াই চয়ন করা হবে যে তিনি চেরি এই পরীক্ষার সম্ভাব্য বহিরাগতগুলির একটি উপলব্ধি থেকে বেছে নিয়েছেন।

আমার 2 সেন্ট মূল্য। একে অপরের কাছ থেকে আমাদের অনেক কিছু শেখার আছে।


2
"সেরা" মডেল সম্পর্কে আপনার মন্তব্য এমএল প্র্যাকটিশনার দ্বারা চয়ন করা হবে ... মূলধারার পরিসংখ্যানগুলিতেও একইভাবে প্রযোজ্য। বেশিরভাগ মডেল নির্বাচন প্রক্রিয়াগুলির জন্য, চূড়ান্ত মডেলটির উপর কেবল এমন একটি শর্ত রয়েছে যেন মডেলের জায়গার কোনও অনুসন্ধান করা হয়নি (প্রদত্ত যে মডেলটির গড়পড়তা মোটামুটি নতুন is সুতরাং আমি মনে করি না যে আপনি এটি "ক্লাব" হিসাবে এমএল অনুশীলনকারীকে মারতে, যাতে কথা বলতে পারেন।
সম্ভাব্যতাব্লোগিক

একজন এমএল প্র্যাকটিশনার হিসাবে আপনি যে ছবিটি আঁকছেন তা আমি চিনতে পারি না। এমএল সাহিত্য নিয়মিতকরণের বিভিন্নতা, এমডিএল, বয়েসিয়ান, এসআরএম এবং মডেলের জটিলতা নিয়ন্ত্রণের অন্যান্য পদ্ধতির প্রায় সমস্ত কিছুই। আমি যেখান থেকে বসেছি, দেখে মনে হচ্ছে জটিলতা নিয়ন্ত্রণের স্ট্যাটাসের পদ্ধতিগুলি কম কাঠামোগত, তবে এটি আপনার পক্ষে পক্ষপাতদুষ্ট।
মুহাম্মদ আলকারৌরি

13

এই প্রশ্নটি ডেটা বিজ্ঞানের তথাকথিত অতি-সংস্কৃতিতেও বাড়ানো যেতে পারে 2015 সালে ডেভিড ডোনহো পেপার 50 বছরের ডেটা সায়েন্সের যেখানে তিনি পরিসংখ্যান এবং কম্পিউটার বিজ্ঞান (মেশিন লার্নিং সহ) থেকে বিভিন্ন দৃষ্টিভঙ্গির মুখোমুখি হন, উদাহরণস্বরূপ সরাসরি অবস্থান (বিভিন্ন ব্যক্তি থেকে) যেমন:

  • শতাব্দী ধরে পরিসংখ্যান থাকা অবস্থায় আমাদের কেন ডেটা বিজ্ঞানের প্রয়োজন?
  • তথ্য বিজ্ঞান পরিসংখ্যান।
  • পরিসংখ্যান ব্যতীত ডেটা সায়েন্স, এমনকি আকাঙ্ক্ষিত।
  • পরিসংখ্যান তথ্য বিজ্ঞানের সর্বনিম্ন গুরুত্বপূর্ণ অঙ্গ।

এবং historicalতিহাসিক, দার্শনিক বিবেচনার সাথে মিলিত হয়েছে, উদাহরণস্বরূপ:

আমি আজকের ডেটা সায়েন্সের উপস্থাপনাটির পর্যালোচনা করি, যেখানে পরিসংখ্যানগুলিকে খুব কম সংক্ষিপ্ত স্থান দেওয়া হয়, তখন আমি লক্ষ্য করা এড়াতে পারি না যে ডেটা সায়েন্স হিসাবে শেখানো হচ্ছে অন্তর্নিহিত সরঞ্জামগুলি, উদাহরণ এবং ধারণাগুলি সমস্ত ছিল আক্ষরিক পিএইচডি প্রশিক্ষিত কেউ দ্বারা উদ্ভাবিত। পরিসংখ্যান এবং অনেক ক্ষেত্রে প্রকৃত সফ্টওয়্যারটি এমএ বা পিএইচডি সহ কেউ তৈরি করেছিলেন developed পরিসংখ্যান মধ্যে। শতাব্দীর পর শতাব্দী ধরে পরিসংখ্যানবিদদের জমে থাকা ই আর্টস পুরোপুরি পেপার করা খুব অপ্রতিরোধ্য, এবং ডেটা সায়েন্সের শিক্ষণ, গবেষণা এবং অনুশীলনে লুকানো যায় না।

এই প্রবন্ধটি বিতর্কটিতে অনেক প্রতিক্রিয়া ও অবদানের জন্ম দিয়েছে।


3
এটি এমন একটি কাগজের মতো দেখাচ্ছে যা এই সাম্প্রতিক জনপ্রিয় থ্রেড স্ট্যাটাস স্টাটসেক্সেক্সঞ্জ / প্রশ্নগুলি / ১৯৫০৪৪৪ সালে উল্লেখযোগ্য হবে , আমি মনে করি সেখানে কেউ এটি উল্লেখ করেছে না।
অ্যামিবা

1
আমি মনে করি আপনি যদি এই কাগজটির সংক্ষিপ্তসার করে কোনও নতুন উত্তর পোস্ট করেন তবে এটি দুর্দান্ত হবে।
অ্যামিবা

আমি করব, এবং আমার জন্য প্রথমে প্রদত্ত সমস্ত উত্তরগুলি সংক্ষিপ্ত করা দরকার
লরেন্ট ডুভাল

12

আমি মেশিন লার্নিং এবং স্ট্যাটিস্টিকসের মধ্যে theতিহাসিক / historicalতিহাসিক পার্থক্যটি আসলে কী তা জানি না তবে আমি নিশ্চিত যে এটি স্পষ্ট নয় ... এবং আমি মেশিন লার্নার বা পরিসংখ্যানবিদ কিনা তা জানার পক্ষে সত্যই আগ্রহী নই, আমি মনে করি ব্রেইম্যানের কাগজের 10 বছর পরে, প্রচুর লোক উভয়ই ...

যাইহোক, আমি মডেলগুলির ভবিষ্যদ্বাণীপূর্ণ নির্ভুলতা সম্পর্কে প্রশ্ন আকর্ষণীয় পেয়েছি । আমাদের মনে রাখতে হবে যে কোনও মডেলের যথার্থতা পরিমাপ করা সর্বদা সম্ভব নয় এবং ত্রুটিগুলি পরিমাপ করার সময় আমরা প্রায়শই স্পষ্টভাবে কিছু মডেলিং তৈরি করি।

উদাহরণস্বরূপ, মানে সময় সিরিজ পূর্বাভাস নিরঙ্কুশ ত্রুটি সময়ের একটি গড় হয় এবং এটি ভাবনাটি হলো এই যে কর্মক্ষমতা কিছু অর্থে হল, সঙ্গে মধ্যমা পূর্বাভাস একটি পদ্ধতি কর্মক্ষমতা পরিমাপ নিশ্চল এবং কিছু দেখায় ergodic সম্পত্তি। যদি (কোনও কারণে) আপনাকে পরবর্তী 50 বছরের জন্য পৃথিবীতে গড় তাপমাত্রার পূর্বাভাস দেওয়া দরকার এবং যদি আপনার মডেলিং গত 50 বছর ধরে ভাল অভিনয় করে ... তবে এর অর্থ এই নয় ...

আরও সাধারণভাবে, (যদি আমি মনে করি, এটি নিখরচায় দুপুরের খাবার বলা হয়) আপনি মডেলিং ছাড়া কিছু করতে পারবেন না ... এছাড়াও, আমি মনে করি পরিসংখ্যান এই প্রশ্নের উত্তর খোঁজার চেষ্টা করছে: "উল্লেখযোগ্য বা না কিছু", এটি বিজ্ঞানের একটি খুব গুরুত্বপূর্ণ প্রশ্ন এবং একটি শেখার প্রক্রিয়ার মাধ্যমে উত্তর দেওয়া যায় না। জন টুকি (তিনি কি কোনও পরিসংখ্যানবিদ ছিলেন?) বর্ণনা করতে:

কিছু তথ্যের সংমিশ্রণ এবং উত্তরের আকস্মিক আকাঙ্ক্ষা নিশ্চিত করে না যে প্রদত্ত ডেটা বডি থেকে যুক্তিসঙ্গত উত্তর বের করা যায়

আশাকরি এটা সাহায্য করবে !


12

স্পষ্টতই, দুটি ক্ষেত্র স্পষ্টতই একই, তবে বিভিন্ন সমস্যার মুখোমুখি, একইরূপে তবে অভিন্ন নয় তবে অভিন্ন ধারণা নয় এবং বিভিন্ন বিভাগ, জার্নাল এবং সম্মেলনে কাজ করে।

আমি যখন ক্রেসি এবং পঠনের পাওয়ার ডাইভারজেন স্ট্যাটিস্টিক পড়ি তখন এগুলি আমার জন্য স্থির হয়ে যায়। তাদের সূত্রটি সাধারণভাবে ব্যবহৃত পরীক্ষার পরিসংখ্যানগুলিকে এক হিসাবে আলাদা করে দেয় যা এক ঘাতক, ল্যাম্বদা দ্বারা পরিবর্তিত হয়। দুটি বিশেষ কেস রয়েছে, ল্যাম্বদা = 0 এবং ল্যাম্বদা = 1।

কম্পিউটার বিজ্ঞান এবং পরিসংখ্যান একটি অবিচ্ছিন্নতার সাথে মাপসই হয় (এটি সম্ভবত অন্যান্য পয়েন্টগুলি অন্তর্ভুক্ত করতে পারে)। ল্যাম্বদার একটি মান অনুসারে, আপনি পরিসংখ্যানগুলি সাধারণত পরিসংখ্যান চেনাশোনাগুলিতে উদ্ধৃত হন এবং অন্যদিকে কম্প সায়েন্স চেনাশোনাগুলিতে সাধারণত পরিসংখ্যান পাওয়া যায়।

পরিসংখ্যান

  • লাম্বদা = 1
  • স্কোয়ারের যোগফল অনেকগুলি উপস্থিত হয়
  • পরিবর্তনশীলতার একটি পরিমাপ হিসাবে বৈকল্পিক
  • মেলামেশা হিসাবে মেলামেশা
  • মডেল ফিটের পরিমাপ হিসাবে চি-স্কোয়ার স্ট্যাটিস্টিক

কম্পিউটার বিজ্ঞান:

  • লাম্বদা = 0
  • যোগফলগুলির যোগফলগুলি অনেকগুলি উপস্থিত হয়
  • পরিবর্তনশীলতার একটি পরিমাপ হিসাবে এন্ট্রপি
  • সহযোগিতার পরিমাপ হিসাবে পারস্পরিক তথ্য
  • মডেল ফিটের পরিমাপ হিসাবে জি-স্কোয়ার স্ট্যাটিস্টিক

9

আপনি একবার একটি অভিনব কম্পিউটার অ্যালগরিদম চালান - এবং আপনি একটি সিএস সম্মেলন উপস্থাপনা / পরিসংখ্যান কাগজ পান (বাহ, কি দ্রুত রূপান্তর!)। আপনি এটিকে বাণিজ্যিকীকরণ করেন এবং এটি 1 মিলিয়ন বার চালান - এবং আপনি অবিচ্ছিন্ন হয়ে পড়েছেন (তবে আমি কেন সর্বদা বেহুদা এবং অপরিশোধনযোগ্য ফলাফল পাচ্ছি ???) যদি না আপনি অ্যালগরিদমের বৈশিষ্ট্যগুলিকে সাধারণীকরণের সম্ভাবনা এবং পরিসংখ্যানকে কীভাবে ব্যবহার করবেন তা জানেন না।


3
আমি এই উত্তরটি অগ্রাহ্য করেছি। যদিও এর মতো একটি প্রশ্নের সাথে এটি অনিবার্যভাবে কিছু ব্যক্তিগত মতামত জড়িত করবে, আইএমও আমাদের আরও কিছু স্থিতিশীল সমালোচনার জন্য প্রচেষ্টা করা উচিত। এটি কেবল একটি ভাড়া হিসাবে আসে।
অ্যান্ডি ডাব্লু

@ অ্যান্ডডাব্লু, এটি অবশ্যই আমি চারপাশে যা দেখছি তার একটি অত্যুক্তি। পরিসংখ্যানগতভাবে সামনে চিন্তা করতে ব্যর্থতা একাডেমিক জগতের ক্ষেত্রেও সত্য: মনোবিজ্ঞান বা চিকিত্সা বিজ্ঞানের প্রকাশিত ফলাফলগুলির প্রতিরূপতা নামমাত্রের চেয়ে প্রায় 25% (দেখুন, কেবলমাত্র স্ট্যাটাসটিক্স.টাম্বলআর / পোস্ট / 21326470429/… ) 95%। ওপি কম্পিউটার বিজ্ঞান গ্রহণের জন্য পরিসংখ্যান চেয়েছিল; সম্ভবত কম্পিউটার বিজ্ঞানের কিছু পরিসংখ্যান আলিঙ্গন করা উচিত এবং আমি এর কারণগুলি দিয়েছি।
স্টাসকে

5
@ স্টাস্ক আমি মনে করি আপনি কিছু গুরুত্বপূর্ণ পয়েন্ট তৈরি করেছেন, কেন এগুলিকে কিছুটা কম আক্রমণাত্মক করার চেষ্টা করবেন না?
গালা

2
আমি এই pithy উত্তর উপভোগ।
আয়ান ওয়ার্ববার্টন

6

পরিসংখ্যান প্রয়োগের এমন একটি ক্ষেত্র রয়েছে যেখানে ডেটা উত্পন্ন করার মডেলটিতে ফোকাস করা অনেক অর্থবোধ করে। নকশা করা পরীক্ষাগুলিতে যেমন, প্রাণীজ অধ্যয়ন, ক্লিনিকাল ট্রায়ালস, শিল্প ডিওই, পরিসংখ্যানবিদদের ডেটা জেনারিং মডেল কী হতে পারে তাতে একটি হাত থাকতে পারে। এমএল খুব গুরুত্বপূর্ণ এই সমস্যাটিতে খুব বেশি সময় ব্যয় করতে পারে না কারণ এমএল সাধারণত "বৃহত্তর" পর্যবেক্ষণের তথ্যের উপর ভিত্তি করে ভবিষ্যদ্বাণী করার অন্য একটি খুব গুরুত্বপূর্ণ সমস্যার দিকে মনোনিবেশ করে। এটি এমনিতেই বলা যায় না যে এমএল "বড়" ডিজাইন করা পরীক্ষাগুলিতে প্রয়োগ করা যাবে না, তবে এটি স্বীকার করা জরুরী যে সংস্থানসমূহের সীমাবদ্ধ পরীক্ষাগুলি থেকে উদ্ভূত "ক্ষুদ্র" ডেটা সমস্যাগুলির বিষয়ে পরিসংখ্যানগুলির বিশেষ বিশেষজ্ঞ রয়েছে।

দিনের শেষে আমি মনে করি আমরা সকলেই হাতের মুঠোয় সমস্যার সমাধান করতে সবচেয়ে ভাল কাজ করে তা ব্যবহার করতে সম্মত হতে পারি। উদাহরণস্বরূপ, আমাদের একটি নকশা করা পরীক্ষা থাকতে পারে যা পূর্বাভাসের লক্ষ্য নিয়ে খুব প্রশস্ত ডেটা তৈরি করে। পরিসংখ্যানগত নকশার নীতিগুলি এখানে খুব দরকারী এবং এমএল পদ্ধতিগুলি ভবিষ্যদ্বাণীকারী তৈরি করতে কার্যকর হতে পারে।


4

আমি মনে করি মেশিন লার্নিংয়ের পরিসংখ্যানের আওতাধীন একটি সাব-শাখা হওয়া দরকার, ঠিক যেমনটি আমার দৃষ্টিতে, রসায়ন পদার্থবিদ্যার অধীনে একটি সাব-শাখা হওয়া দরকার।

আমি মনে করি রসায়নের ক্ষেত্রে পদার্থবিজ্ঞান দ্বারা অনুপ্রাণিত দৃষ্টিভঙ্গি বেশ শক্ত (আমার ধারণা)। আমি মনে করি না এমন কোনও রাসায়নিক প্রতিক্রিয়া রয়েছে যার সমতুল্য শারীরিক দিক দিয়ে জানা নেই। আমি মনে করি পদার্থবিজ্ঞান একটি রসায়ন স্তরে আমরা দেখতে পাই এমন সমস্ত কিছু ব্যাখ্যা করে একটি আশ্চর্যজনক কাজ করেছে। এখন পদার্থবিদদের চ্যালেঞ্জ কোয়ান্টাম স্তরে ক্ষুদ্র রহস্যগুলি ব্যাখ্যা করছে বলে মনে হচ্ছে, এমন চরম পরিস্থিতির মধ্যে যা পর্যবেক্ষণযোগ্য নয়

এখন মেশিন লার্নিংয়ে ফিরে আসুন। আমি মনে করি এটিও পরিসংখ্যানের অধীনে একটি উপ-শাখা হওয়া উচিত (ঠিক কীভাবে রসায়ন পদার্থবিজ্ঞানের একটি উপ-শাখা) is

তবে এটি আমার কাছে মনে হয়, একরকমভাবে, হয় মেশিন লার্নিংয়ের বর্তমান অবস্থা, বা পরিসংখ্যান, পুরোপুরি এটিকে উপলব্ধি করতে যথেষ্ট পরিপক্ক নয়। তবে দীর্ঘমেয়াদে আমার মনে হয় একজনকে অবশ্যই অপরটির একটি শাখা হয়ে উঠতে হবে। আমি মনে করি এটি এমএল যা পরিসংখ্যানের আওতায় আসবে।

আমি ব্যক্তিগতভাবে মনে করি / অনুমান কার্যাবলী বা ভবিষ্যদ্বাণী অনুমান করতে "শেখানো" এবং "নমুনা বিশ্লেষণ" এগুলি মূলত পরিসংখ্যানের প্রশ্ন।


3
জীববিজ্ঞান, মনোবিজ্ঞান এবং সমাজবিজ্ঞানও কি পদার্থবিজ্ঞানের "উপ-শাখা" হওয়া উচিত?
অ্যামিবা

ডান .. মনোবিজ্ঞান হ'ল ইনপুট / আউটপুট যা অত্যন্ত জটিল জৈবিক যন্ত্রগুলিতে জড়িত। একদিন আমাদের গাড়িগুলির ত্রুটিগুলি নির্ণয়ের জন্য আমাদের মনোবিজ্ঞানীর কাছে প্রেরণের প্রয়োজন হতে পারে (মনোবিজ্ঞানী নিজেই কম্পিউটার হতে পারেন)।
গুহামান

1
আমার কাছে মনে হচ্ছে গণিত সবার পিতা। সেখান থেকে আমরা গণিত প্রয়োগ করেছি, যা থেকে পদার্থবিজ্ঞান এবং অন্যান্য জিনিস আসে। পরিসংখ্যান সেগুলির মধ্যে একটি। আমি মনে করি এমএল এর নিজস্ব কোনও শাখা হওয়া উচিত নয় এবং পরিবর্তে পরিসংখ্যানগুলিতে মিশ্রিত হওয়া দরকার। তবে এমএল যদি তার নিজস্ব একটি শাখা হয়ে যায় তবে আমি এটিকে শিশু / পরিসংখ্যানের উপ-শাখা হিসাবে পছন্দ করি।
গুহামান

4

কোর্সেরা কোর্স থেকে "রিয়েল লাইফে ডেটা সায়েন্স" ব্রায়ান ক্যাফো

মেশিন লার্নিং

  • ভবিষ্যদ্বাণীকে জোর দিন
  • পূর্বাভাস পারফরম্যান্সের মাধ্যমে ফলাফলগুলি মূল্যায়ন করে
  • ওভারফিটিংয়ের জন্য উদ্বিগ্ন তবে প্রতি সেডে মডেল জটিলতা নয়
  • পারফরম্যান্স উপর জোর দেওয়া
  • উপন্যাসের ডেটাসেটগুলিতে পারফরম্যান্সের মাধ্যমে সাধারণীকরণযোগ্যতা পাওয়া যায়
  • সাধারণত, কোনও সুপারপুলেশন মডেল নির্দিষ্ট করা হয়নি
  • কর্মক্ষমতা এবং দৃust়তা নিয়ে উদ্বেগ

Ditionতিহ্যগত পরিসংখ্যান বিশ্লেষণ

  • সুপারপপুলেশন অনুমিতিকে জোর দেয়
  • অগ্রাধিকার অনুমানের উপর ফোকাস
  • আরও জটিল মডেলগুলি আরও ভাল পারফরম্যান্স করলেও জটিল মডেলগুলি (পার্সিমনি) এর চেয়ে বেশি সহজ মডেল পছন্দ করে
  • প্যারামিটার ব্যাখ্যার উপর জোর দেওয়া
  • পরিসংখ্যানগত মডেলিং বা স্যাম্পলিং অনুমানগুলি তথ্যকে জনগণের আগ্রহের সাথে সংযুক্ত করে
  • অনুমান এবং দৃust়তা নিয়ে উদ্বিগ্ন

-5

কম্পিউটার বিজ্ঞানী হিসাবে হিসাবে পরিসংখ্যানগত পদ্ধতির দিকে তাকানোর সময় আমি সর্বদা আগ্রহী। আমার কাছে অনেক সময় দেখে মনে হয় পরিসংখ্যান বিশ্লেষণে ব্যবহৃত পরিসংখ্যানের মডেলগুলি অনেক পরিস্থিতিতে ডেটাগুলির জন্য খুব জটিল complex

উদাহরণস্বরূপ ডেটা সংক্ষেপণ এবং পরিসংখ্যানের মধ্যে একটি শক্তিশালী লিঙ্ক রয়েছে। মূলত একটি ভাল পরিসংখ্যান মডেল প্রয়োজন যা তথ্য ভালভাবে পূর্বাভাস করতে সক্ষম এবং এটি তথ্য একটি খুব ভাল সংক্ষেপণ এনেছে। কম্পিউটার সায়েন্সে ডেটা সর্বদা সংকুচিত করার সময় পরিসংখ্যানের মডেলের জটিলতা এবং ভবিষ্যদ্বাণীটির যথার্থতা খুব গুরুত্বপূর্ণ। সংকোচনের পরে কেউ বড় হওয়ার জন্য কখনই কোনও ডেভার ফাইল (সাউন্ড ডেটা বা চিত্রের ডেটা বা ভিডিও ডেটা ধারণ করে) পেতে চায় না!

আমি দেখতে পেয়েছি যে পরিসংখ্যান সম্পর্কিত কম্পিউটার বিজ্ঞানে আরও গতিশীল জিনিস রয়েছে যেমন উদাহরণস্বরূপ ন্যূনতম বিবরণ দৈর্ঘ্য এবং নরমালাইজড সর্বাধিক সম্ভাবনা

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.