ডেটা বিজ্ঞানী সাক্ষাত্কারের প্রশ্ন: লিনিয়ার রিগ্রেশন কম


10

আমি এমন একটি কাজের জন্য একটি সাক্ষাত্কার প্রশ্নের মুখোমুখি হয়েছি যেখানে সাক্ষাত্কারকারী আমাকে ধারণা করেছিলেন আপনার your আর2মূল্য স্থিতিস্থাপকতা মডেলের জন্য খুব কম (5 থেকে 10% এর মধ্যে)। আপনি এই প্রশ্নটি কীভাবে সমাধান করবেন?

আমি কী ভুল হয়েছে বা কোন লিনিয়ার পদ্ধতি প্রয়োগ করা উচিত তা দেখার জন্য আমি রিগ্রেশন ডায়াগনস্টিক্স করব তা ছাড়া অন্য কিছু ভাবতে পারি নি। একরকম আমি মনে করি সাক্ষাত্কারটি আমার উত্তর নিয়ে সন্তুষ্ট ছিল না। কোনও মডেল ফিট করার জন্য এবং এমনটি কম থাকা সত্ত্বেও এটি উত্পাদন স্তরের পূর্বাভাসের জন্য ব্যবহারের জন্য এমন দৃশ্যে কাজ করার মতো আরও কিছু রয়েছে কি?আর2?

সম্পাদনা করুন : পরবর্তী পর্যায়ে তারা আমাকে সাক্ষাত্কারের সময় সমস্যার মডেল করার জন্য ডেটা দিয়েছিল এবং আমি পিছিয়ে থাকা ভেরিয়েবলগুলি, প্রতিযোগী দামের প্রভাব, alityতু ডামিগুলি কোনও পার্থক্য করেছে কিনা তা দেখার চেষ্টা করেছি।আর2১ 17..6 শতাংশে গিয়েছিল এবং হোল্ডআউট নমুনায় এর সম্পাদনা খারাপ ছিল। ব্যক্তিগতভাবে আমি মনে করি যে লাইভ পরিবেশে ভবিষ্যদ্বাণী করার জন্য এই জাতীয় মডেল স্থাপন করা তার অনৈতিক কারণ এটি ভ্রান্ত ফলাফল দেয় এবং ক্লায়েন্টদের ক্ষতির কারণ হয়ে দাঁড়ায় (আপনার কোম্পানির রাজস্বতে এই জাতীয় মডেলের দাম প্রস্তাবনা ব্যবহার করে কল্পনা করুন!)। এই জাতীয় দৃশ্যে এমন কি আরও কিছু করা হয়ে গেছে যা সবার জানা দরকার? এমন কিছু সম্পর্কে যা আমি অবগত নই, যা আমি 'রুপোর বুলেট' বলতে প্ররোচিত হই?

এছাড়াও, বহিরাগত ভেরিয়েবল যুক্ত করার পরে কল্পনা করা যাক আর2আরও 2% দ্বারা উন্নতি হয় তাহলে এই পরিস্থিতিতে কী করা যায়? আমাদের কী মডেলিং প্রকল্পটি বাতিল করা উচিত বা এখনও উত্পাদন স্তরের মানের এমন একটি মডেল বিকাশের আশা রয়েছে যা হোল্ডআউট নমুনায় পারফরম্যান্স দ্বারা নির্দেশিত হয়?

সম্পাদনা 2 : আমি এই প্রশ্নটি অর্থনীতির দৃষ্টিকোণ থেকে বোঝার জন্য অর্থনীতি. stackexchange.com ফোরামে পোস্ট করেছি


12
"ধরুন আপনার আর2দামের স্থিতিস্থাপকতার মডেলের জন্য খুব কম (5 থেকে 10% এর মধ্যে) " কোনও প্রশ্ন নয় ।"আর2দামের স্থিতিস্থাপকতার মডেলের জন্য খুব কম (5 থেকে 10% এর মধ্যে) "হবে" ঠিক আছে, হয়ে গেছে "I আমি ধরে নিতে পারি যে কোনও সমস্যা নেই, তাই করার মতো আরও কিছু করার নেই really তারা যদি সত্যই আগত না হয় তবে আমাকেই করতে হত তারা কোন দিকটিকে সমাধান করার জন্য সমস্যা হিসাবে বিবেচনা করেছেন তা জিজ্ঞাসা করুন their তাদের অনুপস্থিতিতে আপনি এখানে সমস্যাটিকে কী হিসাবে দেখেন ?
গ্লেন_বি -রেইনস্টেট মনিকা

1
আমি স্ব-অধ্যয়নের জন্য এটি ট্যাগ করেছি @ গ্লেেন_ বি আমাকে আরও বিশদ যুক্ত করার প্রয়োজন আছে কিনা তা আমাকে জানান। ধন্যবাদ!
উত্সাহিত

2
ধন্যবাদ, এটি করা ভাল জিনিস। তবে আরও বিশদে আপনার আসল প্রশ্নটি সমাধান করা দরকার। "ধরুন এক্স" কোনও পরিস্থিতি উপস্থাপন করছে যা আপনাকে কোনও সমস্যার সমাধান করতে বলছে না।
গ্লেন_বি -রিনস্টেট মনিকা

1
অর্থনীতি . stackexchange.com/q/16617 এ ক্রস পোস্ট । কোনও প্রশ্নের জন্য দয়া করে সেরা সাইটটি স্থির করার চেষ্টা করুন: আপনি যদি মনে করেন যে এটি বিভিন্ন সাইটে ভেরিয়েন্টগুলি উপযুক্তভাবে তৈরি করা উপযুক্ত তবে এখনও সেগুলিতে লিঙ্ক করুন।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

1
@ স্কোর্টচি, আমি উভয় ফোরামে অতিরিক্ত সম্পাদনা হিসাবে লিঙ্কটি যুক্ত করেছি। ধন্যবাদ!
উত্সাহিত

উত্তর:


11

সমস্যাটি যদি আমরা এই দৃষ্টিকোণ থেকে দেখি তবে কী হবে। দামের স্থিতিস্থাপকতা হ'ল চাহিদা এবং একটি পণ্যের দামের মধ্যে সম্পর্ক।

যখন এই পরিস্থিতিতে আর-বর্গক্ষেত্র কম হয়, তখন আমরা সম্ভবত বোঝাতে পারি যে সেই নির্দিষ্ট পণ্যের দাম এবং চাহিদার মধ্যে সম্পর্ক একটি শক্তিশালী নয়।

মূল্য নির্ধারণের অবস্থান থেকে এটি বোঝাতে পারে যে আপনি এমন একটি পণ্য পেয়েছেন যার জন্য আপনি চাহিদার উপর কোনও বড় প্রভাব ছাড়াই নির্বিচারে দাম নির্ধারণ করতে পারেন বা ডিফারেনশিয়াল মূল্য নির্ধারণের পরেও চাহিদাটি বেশ অনিশ্চিত।

আপনি Veblen পণ্য তাকান , এটি স্থিতিস্থাপকতা বিপরীত যেখানে উদাহরণ। দাম বাড়ার সাথে সাথে চাহিদাও বাড়ে।

অন্যদিকে, আর-বর্গক্ষেত্র কম থাকলে, এটি কেবল এমন এক শ্রেণির পণ্যকে বোঝাতে পারে যার জন্য চাহিদা আসে যখন দাম তুলনামূলকভাবে গুরুত্বহীন। আমার মাথার শীর্ষগুলির মধ্যে, একটি ক্যান্সারের ড্রাগ এমন কিছু হতে পারে যা এই সম্পত্তিটিকে মেনে চলতে পারে। যেখানে ড্রাগের গুরুত্ব তার আদেশের চেয়েও বেশি মূল্য ছাড়িয়ে যায় এবং চাহিদাতে কোনও পরিবর্তন দেখাতে পারে না।

এবং উপসংহারে, আমি ধরে নিচ্ছি সাক্ষাত্কারকারীর অভিপ্রায়টি যদি আপনি বুঝতে পারতেন যে উচ্চতর আর-স্কোয়ারের সাথে আরও ভাল মডেল কীভাবে তৈরি করা যায় তার পরিবর্তে লো আর-স্কোয়ারের অর্থ কী বোঝায়।


উপসংহারের জন্য +1। আমি এই ভাবনার উদ্দেশ্যটিও ভাবছি যে প্রার্থী যদি অন্ধভাবে কোনও মেট্রিক অনুসরণ না করে সম্পূর্ণরূপে না বুঝে তা দেখার চেষ্টা করছে।
হাইতাও ডু

5

আমি নিশ্চিত নই যে সাক্ষাত্কারকারীর পরে কী ছিল তবে যখন আমি খারাপ বিবেচনার আগে এই মডেলগুলির মুখোমুখি হই তখন এই বিষয়গুলি আমি বিবেচনা করি এবং একটি উত্তর আমি সাক্ষাত্কারকারীরূপে শুনতে পছন্দ করব (এখন কয়েক বছর ধরে সাক্ষাত্কার নিচ্ছিলাম)।

  1. আরও ডেটা পাওয়া : এটি সর্বদা সহায়তা না করে তবে কয়েকটি সমাধান রয়েছে যা এই সমাধানের প্রভাবগুলি মূল্যায়নে সহায়তা করতে পারে:

    • বিভিন্ন নমুনা আকারের সাথে মডেলটি চালান - ফলাফলগুলি যদি আরও ডেটার সাথে উন্নত হয় তবে এর যুক্তিসঙ্গত ধরে নেওয়া আরও ডেটা প্রাপ্তি মডেলটির কার্যকারিতা উন্নত করতে থাকবে।
    • নমুনা অনুপাতের বৈশিষ্ট্যগুলি - আপনি বৈশিষ্ট্যগুলি নির্বাচনের পরে প্রতিটি বৈশিষ্ট্যের মান অনুযায়ী পর্যাপ্ত নমুনা রয়েছে কিনা তা বোঝার চেষ্টা করুন। এই বিষয়ে একটি উত্তর প্রশ্ন দেখুন ।
    • লক্ষ্য মানগুলি অনুপস্থিত - স্থিতিস্থাপকতা বিভিন্ন দামের সীমাগুলির মধ্যে একই রকম আচরণ করতে পারে না। এমন পরিস্থিতিতে যেখানে আপনার নমুনাগুলির ডেটা একটি নির্দিষ্ট পরিসরের দিকে পক্ষপাতদুষ্ট, সেখানে আপনি সাধারণীকরণ করতে পারবেন না এমন ভাল সম্ভাবনা রয়েছে (উদাহরণস্বরূপ 90% নমুনাগুলি 0-10-এর মধ্যে দামের জন্য এবং অন্যান্য 10% এর মধ্যে দামের জন্য) 1000-10000)। এই সমস্যাটি মোকাবেলা করার উপায় রয়েছে আরও বেশি তথ্য পাওয়ার ব্যতীত (মডেল প্রশিক্ষণকে বিভক্ত করুন, রিগ্রেশন ব্যবহার করবেন না)।
  2. আরও ভাল বৈশিষ্ট্য ইঞ্জিনিয়ারিং : আপনার যদি পর্যাপ্ত ডেটা থাকে এবং আপনি গভীর-শিক্ষার বিষয়ে জানেন তবে সম্ভবত এটি অপ্রাসঙ্গিক। যদি আপনি উল্লিখিত মানদণ্ডে ফিট না হন তবে এই প্রচেষ্টাটির প্রতি আপনার প্রচেষ্টা ফোকাস করুন। ব্যবহারকারীর আচরণের মডেলগুলিতে এমন অনেকগুলি সম্পর্ক রয়েছে যা আমাদের মানব-অন্তর্নিহিততা কোনও মেশিন প্রশিক্ষিত মডেলের চেয়ে ভাল বোঝার।
    আপনার ক্ষেত্রে যেমন আপনি আরও বেশ কয়েকটি বৈশিষ্ট্য এবং মডেল পারফরম্যান্সের এত ব্যাপক পরিমাণে ইঞ্জিনিয়ার করেছেন। এই পদক্ষেপটি ত্রুটিগুলির ঝুঁকিতে থাকে কারণ এটি সাধারণত যুক্তি ভিত্তিক কোড জড়িত (যদি এলেস / গাণিতিক সূত্রগুলি থাকে))

  3. আরও ভাল মডেল নির্বাচন : আপনি যেমন পরামর্শ দিয়েছেন, সম্ভবত একটি লিনিয়ার মডেল আরও ভাল কাজ করবে। আপনার ডেটা কি সমজাতীয়? ক্রস বৈশিষ্ট্যগুলি দামের স্থিতিস্থাপকতাটিকে আরও ভালভাবে ব্যাখ্যা করবে বলে আপনার বিশ্বাস করার কারণ রয়েছে? (মৌসুমতা * প্রতিযোগীর দাম)।

  4. হাইপার প্যারামিটারগুলির সুর : গ্রিড অনুসন্ধানের মডেলটির হাইপার প্যারামিটারগুলি (+ ক্রস যাচাইকরণের ফলাফল) একটি ভাল অনুশীলন তবে আমার অভিজ্ঞতা হিসাবে এটি খুব কমই পারফরম্যান্সকে উন্নত করে (অবশ্যই 5% থেকে 90% পর্যন্ত নয়)।

আরও কিছু কাজ করা যেতে পারে তবে এই পয়েন্টগুলি যথেষ্ট জেনেরিক।


1

@ দাফানাত এবং @ আরুন দ্বারা প্রস্তাবিতগুলির উপরে, আমি যুক্ত করতে চাই যে কিছু ভিজ্যুয়াল পরিদর্শন সাহায্য করতে পারে।

উদাহরণস্বরূপ, এটি এমন কিছু সমস্যা হতে পারে যা কিছু প্রবাসী আপনার প্রভাবিত করে আর2। রাজস্ব পরিচালনার সমস্যাগুলিতে কাজ করার পরে, আমাকে ক্রমাগত প্রভাবশালী পয়েন্টগুলি তদন্ত করতে হয়েছিল । প্রায়শই আউটলিয়াররা নির্দিষ্ট এক-অফ ইভেন্টগুলির সাথে সম্পর্কিত যেমন প্রচারমূলক প্রচারণা, ছাড় ইত্যাদি were


ডোমেন নির্দিষ্ট ইনপুট ভাগ করে নেওয়ার জন্য ধন্যবাদ কারণ এটি প্রকৃতপক্ষে একটি উপার্জন ব্যবস্থাপনার সমস্যা
উত্সাহিত্বে
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.