লিনিয়ার রিগ্রেশন কি অচল? [বন্ধ]


12

আমি বর্তমানে লিনিয়ার রিগ্রেশন ক্লাসে আছি, তবে আমি এই অনুভূতিটি কাঁপতে পারি না যে আমি যা শিখছি তা আধুনিক পরিসংখ্যান বা মেশিন লার্নিংয়ের ক্ষেত্রে আর প্রাসঙ্গিক নয়। সরল বা একাধিক লিনিয়ার রিগ্রেশনকে অনুমান করতে কেন এতটা সময় ব্যয় করা হয় যখন আজকাল এতগুলি আকর্ষণীয় ডেটাসেটগুলি প্রায়শই লিনিয়ার রিগ্রেশন সম্পর্কিত অনেক অবাস্তব অনুমানকে লঙ্ঘন করে? পরিবর্তে সমর্থন ভেক্টর মেশিন বা গাউসিয়ান প্রক্রিয়া ব্যবহার করে রিগ্রেশন-এর মতো আরও নমনীয়, আধুনিক সরঞ্জামগুলিতে অনুলিপি শেখাচ্ছেন না কেন? কোনও জায়গাতে হাইপারপ্লেন সন্ধানের চেয়ে জটিল হলেও, এটি শিক্ষার্থীদের আধুনিক দিনের সমস্যাগুলি মোকাবিলার জন্য আরও ভাল পটভূমি দেবে না?


10
স্ক্রু ড্রাইভারগুলি কী হাতুড়িগুলি অচল করে দেয়? নাকি প্রত্যেকে আলাদা আলাদা কাজ সম্পাদন করে?
সাইকোরাক্স মনিকাকে

6
আমার কাছে একটি মাল্টিটুল রয়েছে যা একটি ছুরি, একটি করাত, বিভিন্ন স্ক্রু ড্রাইভার, এক জোড়া প্লেয়ার এবং সম্ভবত অন্য কয়েকটি জিনিস হিসাবে কাজ করে তবে আমার যখন এই সরঞ্জামগুলির কোনও দরকার হয় তখন এটি শেষ জিনিস যা আমি পৌঁছাতে পারি। এটি কেবল একটি চিমটি মধ্যে দরকারী, এটি কখনই "কাজের সেরা হাতিয়ার" নয়।
ড্যারেন

7
অনেকগুলি, সত্যিকারের লোকেরা মুখোমুখি হওয়া অনেক পরিস্থিতিতে উচ্চ শব্দের সাথে খুব অল্প ডেটা সেট জড়িত; বেশিরভাগ ক্ষেত্রে আরও জটিল মডেলগুলি সম্ভব হয় না, তবে একটি প্লেইন রৈখিক মডেল কমপক্ষে স্থায়ী হয় এমন সময়ের কমপক্ষে একটি ভাল ভগ্নাংশ। বৃহত্তর ডেটা সেটগুলি (এবং তাদের সম্পর্কিত সমস্যাগুলি) চলমান মোট ডেটা বিশ্লেষণের অনুপাত হিসাবে বাড়তে থাকবে, খুব ছোট ডেটা সেট এবং অপেক্ষাকৃত সহজ বিশ্লেষণগুলি কখনই চলে না। আরও যোগ করা হয়েছে যে আরও পরিশীলিত সরঞ্জামগুলি কেবল historতিহাসিকভাবে নয়, ধারণা অনুসারেও সহজ সরলগুলির শীর্ষে নির্মিত হয়।
গ্লেন_বি -রিনস্টেট মনিকা

6
লিনিয়ার রিগ্রেশন অব্যাহত ব্যবহারিক ব্যবহারের ক্ষেত্রে এমন অনেক পরিস্থিতিতে, এটি আরও উল্লেখযোগ্য যে এটি আরও পরিশীলিত অ্যাডেটিভ মডেলগুলির একটি বিস্তৃত শ্রেণির সম্পর্কে শেখার ক্ষেত্রে ভিত্তিযুক্ত। সেই সম্মানের সাথে এই প্রশ্নটি জিজ্ঞাসার মতো যে ক্যালকুলাস পাটিগণিতকে অচল করে তোলে কিনা asking
জ্যাকব সোকোলার

1
@ আকসাকাল দয়া করে বিশদ দিন। বায়েসীয় অপ্টিমাইজেশনের ব্যবহার সম্পর্কে কী?
মার্ক এল স্টোন

উত্তর:


24

এটি সত্য যে লিনিয়ার রিগ্রেশন অনুমানগুলি বাস্তববাদী নয়। তবে এটি সমস্ত পরিসংখ্যানের মডেলের ক্ষেত্রে সত্য true "সমস্ত মডেল ভুল, তবে কিছু দরকারী।"

আমি অনুমান করি আপনি এমন ছাপের মধ্যে রয়েছেন যে যখন আপনি আরও জটিল মডেল ব্যবহার করতে পারেন তখন লিনিয়ার রিগ্রেশন ব্যবহার করার কোনও কারণ নেই। এটি সত্য নয়, কারণ সাধারণভাবে আরও জটিল মডেলগুলি অত্যধিক মানানসইয়ের পক্ষে বেশি ঝুঁকিপূর্ণ এবং তারা আরও বেশি গণনামূলক সংস্থান ব্যবহার করে, এটি গুরুত্বপূর্ণ যদি উদাহরণস্বরূপ, আপনি একটি এমবেডেড প্রসেসর বা ওয়েব সার্ভারে পরিসংখ্যান করার চেষ্টা করছেন। সহজ মডেলগুলি বোঝা এবং ব্যাখ্যা করাও সহজ; বিপরীতে, জটিল মেশিন-শেখার মডেল যেমন নিউরাল নেটওয়ার্কগুলি কালো বাক্স হিসাবে কমবেশি ঝোঁক থাকে।

এমনকি যদি কোনও দিন লিনিয়ার রিগ্রেশনটি ব্যবহারিকভাবে কার্যকর না হয়ে যায় (যা প্রত্যাশিত ভবিষ্যতে অত্যন্ত অসম্ভব বলে মনে হয়) তবে এটি তাত্ত্বিকভাবে গুরুত্বপূর্ণ হবে, কারণ আরও জটিল মডেলগুলি ভিত্তি হিসাবে লিনিয়ার রিগ্রেশন গড়ে তুলতে ঝোঁক। উদাহরণস্বরূপ, নিয়মিত মিক্সড-এফেক্টস লজিস্টিক রিগ্রেশন বোঝার জন্য আপনাকে প্রথমে সাধারণ পুরানো লিনিয়ার রিগ্রেশন বুঝতে হবে ression

এটি এমনটি বলার অপেক্ষা রাখে না যে আরও জটিল, নতুন এবং চিকন মডেলগুলি দরকারী বা গুরুত্বপূর্ণ নয়। তাদের অনেকেই আছেন। তবে সহজ মডেলগুলি আরও বিস্তৃতভাবে প্রযোজ্য এবং সেহেতু আরও গুরুত্বপূর্ণ এবং আপনি বিভিন্ন মডেল উপস্থাপন করতে যাচ্ছেন তবে প্রথমে স্পষ্টভাবে উপস্থাপন করার জন্য তা বোঝা যায়। এই দিনগুলিতে লোকেরা যাঁরা নিজেকে "ডেটা বিজ্ঞানী" বা কিছু বলে অভিহিত করেন তাদের দ্বারা প্রচুর পরিমাণে খারাপ ডেটা বিশ্লেষণ করা হয় তবে আস্থাভাজনের অন্তর্বর্ত আসলে কী তা যেমন বেসিক স্টাফগুলিও জানেন না। একটি পরিসংখ্যান না!


আপনি একটি "জটিল মডেল" বলতে কী বোঝাতে চান তা পরিষ্কার করতে পারেন? ওপি কি একই জিনিস বোঝায়?
হাটসেপসুট

1
@ হাটসেপসট ব্যবহারিকভাবে এমন কিছু যা কেবল লিনিয়ার রিগ্রেশন বা এর কোনও বিশেষ ক্ষেত্রে নয়। ওপি উদাহরণ হিসাবে এসভিএম এবং গাউসিয়ান-প্রক্রিয়া মডেল দিয়েছে। আমি মিশ্র মডেল, লজিস্টিক রিগ্রেশন এবং পেনালাইযুক্ত রিগ্রেশন উল্লেখ করেছি। আরও কিছু উদাহরণ হ'ল সিদ্ধান্ত গাছ, নিউরাল নেটওয়ার্ক, মার্স, বায়সিয়ান হায়ারার্কিকাল মডেল এবং কাঠামোগত সমীকরণ মডেল। যদি আপনি জিজ্ঞাসা করছেন যে আমরা কীভাবে সিদ্ধান্ত নিই যে কোনও মডেল অন্যের চেয়ে জটিল বা ঠিক কীভাবে মডেল হিসাবে গণনা করা হয় তবে সেগুলি নিজের কাছে ক্রস বৈধিকরিত প্রশ্ন।
কোডিওলজিস্ট

"Overfitting"; ক্ষণিকের ওজনযুক্ত যোগফল হিসাবে প্রমাণিত এমন কিছু ফিট করার জন্য নবম-ক্রমের বহুবচন ব্যবহার করা। এটি এতটাই ভাল ফিট করে যে প্লটটি শব্দের মাত্রার ঠিক উপরে উপকরণের ত্রুটিগুলি পুনরুত্পাদন করেছে। আমি এখনও আশ্চর্য হয়েছি যদি বাস্তবে সেই বহুপথ ব্যবহার করা আরও ভাল কাজ করত।
জোশুয়া

7

সাধারণত লিনিয়ার রিগ্রেশন অচল নয় । এখনও রয়েছে এমন লোকেরা যারা লাসো সম্পর্কিত পদ্ধতিগুলির চারপাশে গবেষণায় কাজ করছেন এবং তারা কীভাবে একাধিক পরীক্ষার সাথে সম্পর্কিত উদাহরণস্বরূপ - আপনি গুগল করতে পারেন এমমানুয়েল ক্যান্ডেস এবং মালগোর্জাটা বোগদান।

আপনি যদি বিশেষত ওএলএস অ্যালগরিদম সম্পর্কে জিজ্ঞাসা করেন তবে তারা কেন এটি শিক্ষা দেয় তার উত্তর হ'ল পদ্ধতিটি এত সহজ যে এটির ক্লোজড ফর্ম সমাধান রয়েছে। এছাড়াও এটি রিজ রিগ্রেশন বা লাসো / ইলাস্টিকনেটের সংস্করণের চেয়ে সহজ। আপনি সাধারণ রৈখিক প্রতিরোধের সমাধানের জন্য নিজের স্বজ্ঞাততা / প্রমাণগুলি তৈরি করতে পারেন এবং তারপরে অতিরিক্ত বাধা দিয়ে মডেলটিকে আরও সমৃদ্ধ করতে পারেন।


3

আমি মনে করি না যে রিগ্রেশন পুরানো, এটি বর্তমানে এমন কিছু সমস্যার জন্য তুচ্ছ হিসাবে বিবেচিত হতে পারে যা বর্তমানে ডেটা বিজ্ঞানীদের মুখোমুখি হয়েছে, তবে এখনও পরিসংখ্যান বিশ্লেষণের এটিবিসি is আপনি কীভাবে বুঝতে পারবেন যে এসভিএম সঠিকভাবে কাজ করছে যদি আপনি না জানেন যে সাদামাটা মডেল কীভাবে কাজ করছে? এই জাতীয় একটি সহজ সরঞ্জাম ব্যবহার আপনাকে শিখিয়ে দেয় কীভাবে পাগল জটিল মডেলগুলিতে ঝাঁপ দেওয়ার আগে ডেটাটি সন্ধান করতে হবে এবং আরও বিশ্লেষণে কোন সরঞ্জামগুলি ব্যবহার করা যেতে পারে এবং কোনটি পারে না তা গভীরভাবে বুঝতে হবে। একবার আমার একজন প্রফেসর এবং আমার সহকর্মীর সাথে এই কথোপকথন করার পরে তিনি আমাকে বলেছিলেন যে তার ছাত্ররা যেখানে জটিল মডেল প্রয়োগ করতে পারে তবে তারা কী বুঝতে পারে না লিভারেজ কী তা বা ডেটাতে কী ভুল ছিল তা বুঝতে একটি সাধারণ কিউকিউ প্লটটি পড়তে পারে না। প্রায়শই সর্বাধিক সাধারণ এবং পঠনযোগ্য মডেলটিতে সৌন্দর্য থাকে।


3

সংক্ষিপ্ত উত্তর না হয় । উদাহরণস্বরূপ, আপনি যদি এমএনআইএসটি ডেটা সহ লিনিয়ার মডেলটি চেষ্টা করেন তবে আপনি এখনও 90% নির্ভুলতা পাবেন!

একটি দীর্ঘ উত্তর "ডোমেনের উপর নির্ভর করে" হবে তবে লিনিয়ার মডেলটি বহুল ব্যবহৃত হয়।

  • নির্দিষ্ট ক্ষেত্রগুলিতে, বলুন, মেডিকেল স্টাডি, একটি ডেটা পয়েন্ট পাওয়া অত্যন্ত ব্যয়বহুল। এবং বিশ্লেষণের কাজটি এখনও অনেক বছর আগের মতো: লিনিয়ার রিগ্রেশন এখনও একটি খুব গুরুত্বপূর্ণ ভূমিকা পালন করে।

  • মোডেন মেশিন লার্নিংয়ে বলুন, পাঠ্য শ্রেণিবদ্ধকরণে লিনিয়ার মডেলটি এখনও খুব গুরুত্বপূর্ণ, যদিও অন্য ফ্যানসিয়ার মডেল রয়েছে। এটি কারণ লিনিয়ার মডেলটি খুব "স্থিতিশীল", তাই এতে ডেটা বেশি ফিট করার মতো পছন্দ কম থাকে।

শেষ অবধি, লিনিয়ার মডেল হ'ল সত্যই অন্যান্য মডেলের বেশিরভাগ বিল্ডিং ব্লক। ভাল শিখলে ভবিষ্যতে আপনার উপকার হবে।


2

ব্যবহারিক ক্ষেত্রে, আপনি যদি আপনার কাজের জন্য আরও জটিল মডেল ব্যবহার করেন তবে লিনিয়ার রিগ্রেশনও দরকারী। মূলটি হ'ল লিনিয়ার রিগ্রেশনটি বোঝা সহজ এবং অতএব আরও জটিল মডেলগুলিতে কী ঘটছে তা ধারণামূলকভাবে বুঝতে সহজ।

আমি আপনাকে একটি পরিসংখ্যান বিশ্লেষক হিসাবে আমার বাস্তব লাইভ কাজ থেকে একটি বাস্তব প্রয়োগ উদাহরণ দিতে পারেন। যদি আপনি নিজেকে একটি বিশাল ডেটাসেট সহ বন্য, অদৃশ্যে পরিচালিত হয়ে খুঁজে বের করেন এবং আপনার বস আপনাকে এটি সম্পর্কে কিছু বিশ্লেষণ চালাতে বলে তবে আপনি কোথায় শুরু করবেন? ঠিক আছে, আপনি যদি ডেটাসেটের সাথে অপরিচিত থাকেন এবং বিভিন্ন বৈশিষ্ট্য একে অপরের সাথে কীভাবে সম্পর্কিত বলে আশা করা যায় তা সম্পর্কে ভাল ধারণা না থাকলে আপনার পরামর্শ মতো একটি জটিল মডেল তদন্ত শুরু করার জন্য খারাপ জায়গা।

পরিবর্তে, শুরু করার সর্বোত্তম জায়গাটি হ'ল সাধারণ পুরানো লিনিয়ার রিগ্রেশন। একটি রিগ্রেশন বিশ্লেষণ সম্পাদন করুন, গুণফলগুলি দেখুন এবং অবশিষ্টগুলি গ্রাফ করুন। একবার আপনি ডেটা দিয়ে কী চলছে তা দেখতে শুরু করলে আপনি কোন উন্নত পদ্ধতি প্রয়োগের চেষ্টা করতে যাচ্ছেন সে সম্পর্কে আপনি কিছু সিদ্ধান্ত নিতে পারেন।

আমি দৃ as়ভাবে বলছি যে আপনি যদি স্কেলার্ন.এসভিএম (যদি আপনি পাইথনের মধ্যে থাকেন) এর মতো কিছু উন্নত মডেল ব্ল্যাক বক্সে আপনার ডেটা প্লাগ করে থাকেন তবে আপনার ফলাফলগুলি অর্থবহ হবে বলে আপনার খুব কম আস্থা থাকবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.