ভবিষ্যদ্বাণী করতে কোনও রিগ্রেশন মডেল ব্যবহার করছেন: কখন থামবেন?


9

পূর্বাভাস দেওয়ার জন্য আমি আমার পরীক্ষার ব্যবস্থা থেকে একটি সাধারণ লিনিয়ার রিগ্রেশন মডেল গণনা করেছি। আমি পড়েছি যে উপলভ্য ডেটা থেকে খুব দূরে চলে যায় এমন পয়েন্টগুলির জন্য আপনার পূর্বাভাসগুলি গণনা করা উচিত নয়। তবে আমি কতদূর পরিবহন করতে পারি তা জানতে সাহায্যের জন্য আমি কোনও গাইডেন্স পাইনি। উদাহরণস্বরূপ, আমি যদি 50 গিগাবাইটের একটি ডিস্ক আকারের জন্য পড়ার গতি গণনা করি তবে আমার ধারণা ফলাফলটি বাস্তবতার কাছাকাছি থাকবে। 100 জিবি, 500 গিগাবাইটের একটি ডিস্ক আকার সম্পর্কে কী? আমার ভবিষ্যদ্বাণীগুলি বাস্তবের নিকটে থাকলে আমি কীভাবে জানব?

আমার পরীক্ষার বিবরণগুলি হ'ল:

আমি বিভিন্ন ডিস্ক আকার ব্যবহার করে একটি সফ্টওয়্যার পড়ার গতি পরিমাপ করছি। এখন পর্যন্ত আমি এটিকে 5 গিগাবাইট থেকে 30 জিবি করে পরিমাপ করেছি পরীক্ষার (মোট 6 টি পদক্ষেপ) এর মধ্যে 5 গিগাবাইটের ডিস্ক আকার বাড়িয়ে।

আমার ফলাফল লিনিয়ার এবং মান ত্রুটিগুলি ছোট, আমার মতে।


2
আমি মনে করি দরকারী উত্তর পেতে আপনাকে আপনার ২ য় বাক্যটি প্রসারিত এবং স্পষ্ট করতে হবে।
Rolando2

rolando2 ঠিক আছে। "অনেক বেশি পূর্বাভাস" বলতে কী বোঝ?
ডেভিড রবিনসন

আমি যে দস্তাবেজটি পড়েছি সেগুলিতে সঠিক শব্দগুলি খুঁজে পাচ্ছি না। ধারণাটি "আমার মূল ব্যবস্থা থেকে খুব দূরে"। তাই আমি 30 গিগাবাইট ডিস্ক দিয়ে পঠনের গতি পরিমাপ করেছি। যদি আমি 100 গিগাবাইটের ডিস্কের পড়ার গতি পূর্বাভাস করি তবে এটি কি "খুব বেশি দূরে"?
ফ্লানফ্ল

জড়িত বিষয়গুলির রূপরেখার জন্য গাংয়ের উত্তর যথেষ্ট। আপনার নির্দিষ্ট ক্ষেত্রে সহায়তা করতে পারে এমন একটি অতিরিক্ত জিনিস হ'ল সফ্টওয়্যার পড়ার সাথে জড়িত শারীরিক প্রক্রিয়াটি বিবেচনা করা। কোন ধরণের অপারেশন করা দরকার? সফ্টওয়্যারটি কি পড়ার প্রক্রিয়ার অংশ হিসাবে ডিস্কটি সংগঠিত বা সাজানোর প্রয়োজন? এই প্রশ্নগুলি রৈখিকতা অনুমানের জন্য কিছু ভিত্তি সরবরাহ করতে সহায়তা করবে
সম্ভাব্যতাব্লোগিক

উত্তর:


19

আপনি যে শব্দটির জন্য অনুসন্ধান করছেন সেটি হ'ল 'এক্সট্রোপোলেশন'। সমস্যাটি হ'ল আপনার যতটুকু ডেটা থাকবে এবং ডিস্ক আকারের আপনার শেষ পয়েন্টগুলির মধ্যে (যেমন, 5 থেকে 30 এর মধ্যে) কতগুলি মধ্যবর্তী স্তর রয়েছে তা নির্ধারণ করা যায় না, সত্যই অন্তর্নিহিত কার্যটিতে কিছুটা বক্রতা থাকতে পারে তা সর্বদা সম্ভব is , যে আপনার কেবল সনাক্ত করার ক্ষমতা নেই। ফলস্বরূপ, যখন আপনি শেষ বিন্দু থেকে অনেক দূরে এক্সট্রোপোলেটেড হন, তখন একটি ছোট ডিগ্রি বক্রতা কী পরিমাণে বৃদ্ধি পায়, এতে সত্যিকারের ফাংশনটি আপনার ফিট লাইন থেকে আরও এবং আরও দূরে সরে যায়। আরেকটি সম্ভাবনা হ'ল প্রকৃত ফাংশনটি পরীক্ষিত সীমার মধ্যে পুরোপুরি সোজা, তবে আপনার গবেষণার শেষ পয়েন্ট থেকে কিছুটা দূরে সম্ভবত একটি পরিবর্তন-পয়েন্ট রয়েছে। এই ধরণের জিনিসগুলি অস্বীকার করা অসম্ভব; প্রশ্ন হচ্ছে, তারা সম্ভবত এবং যদি আপনার ভবিষ্যদ্বাণীটি সত্য হয়ে ওঠে তবে কতটা ভুল? আমি জানি না কীভাবে এই প্রশ্নগুলির একটি বিশ্লেষণাত্মক উত্তর দেওয়া যায়। আমার কুণ্ডলীটি হ'ল 500 যখন অধ্যয়নকালীন পরিসরটি [5, 30] তখন খুব ভয়ঙ্কর দীর্ঘ পথ থেকে দূরে থাকে তবে আমার শিকারগুলি আপনার চেয়ে বেশি সার্থক বলে মনে করার কোনও আসল কারণ নেই। পূর্বাভাস অন্তরগুলি গণনা করার মানক সূত্রগুলি আপনি দূরে সরে যাওয়ার সাথে সাথে আপনাকে একটি বিস্তৃত ব্যবধান দেখায়x¯, যে অন্তরটি দেখতে কেমন তা দেখে সহায়ক হতে পারে। তবুও, আপনার মনে রাখা দরকার যে আপনি একটি তাত্ত্বিক অনুমান করছেন যে লাইনটি সত্যই সঠিকভাবে সরল, এবং সমস্ত পথের বাইরে চলে গেছেx- আপনি পূর্বাভাস জন্য ব্যবহার করবে মূল্য। এই ভবিষ্যদ্বাণীটির বৈধতা ডেটা ও ফিট এবং উভয়ই অনুমানের উপর নির্ভরশীল।


2
সম্পূর্ণরূপে সম্মতি (+1)। এই প্রশ্নের উত্তর কঠোরভাবে পরিসংখ্যানগত হতে পারে না। একটি সফ্টওয়্যার ও কম্পিউটার ইঞ্জিনিয়ারের সাথে কথা বলা এখানে প্রাসঙ্গিক হবে!
ডোমিনিক কম্টোইস

উত্তরের জন্য ধন্যবাদ, এটি সত্যই সহায়ক। আমি নিজেই শিখিয়েছি তাই আমি প্রচুর বুনিয়াদি জ্ঞান (শব্দভান্ডার জানার মতো) অনুপস্থিত।
ফ্লানফ্ল

আত্মবিশ্বাসের ব্যবধানের প্রস্থের বিপরীতটিকে ভবিষ্যদ্বাণীটির "শক্তি" এর এক ধরণের সূচক হিসাবে বিবেচনা করা যায় না? অবশ্যই এটির ব্যবহারের জন্য আপনাকে কিছু স্বেচ্ছাচারী মানগুলি বেছে নিতে হবে ..
নট 101

2
@ naught101, আপনি যদি ধরে নিতে চান যে রিগ্রেশন লাইনটি পুরোপুরি সোজা, তবে ভবিষ্যদ্বাণী ব্যবধানের প্রস্থটিকে ভবিষ্যদ্বাণীটির শক্তির একটি পরিমাপ হিসাবে বিবেচনা করা যেতে পারে, (ডাব্লু / আরও বিস্তৃত দুর্বল ভবিষ্যদ্বাণীগুলি নির্দেশ করে) তবে এটি এখনও রয়েছে অনুমান যে অনুমান উপর
গুং - মনিকা পুনরায়

7

আমাকে @ গুংয়ের দুর্দান্ত উত্তরে কয়েকটি পয়েন্ট যুক্ত করতে দিন:

  • আপনার ক্ষেত্রের উপর নির্ভর করে প্রাসঙ্গিক নিয়ম থাকতে পারে (DIN / EN বা আইএসও হিসাবে)। এটি সম্ভবত হার্ড ডিস্ক পড়ার গতি পূর্বাভাস দেওয়ার কোনও সমস্যা নয় তবে উদাহরণস্বরূপ বিশ্লেষণাত্মক রসায়নে বিধিটি কোনও এক্সট্রোপোলেশন নয় । সময়কাল। আপনি যদি 500 গিগাবাইট পর্যন্ত যেতে চান তবে 500 গিগাবাইট অন্তর্ভুক্ত করে কিছু পরিমাপ করুন।

  • রৈখিক মডেল স্থাপনের স্বাভাবিক উপায়ে দুটি গুরুত্বপূর্ণ অনুমান রয়েছে

    • স্পষ্টতই, যে ফাংশনটি রৈখিক। অনুশীলনে সাধারণত লিনিয়ারিটি অসীমতায় প্রসারিত হয় এমন খুব ভাল ধারণা নয়। উদাহরণস্বরূপ আপনি হার্ড ডিস্কের ভলিউমের চেয়ে বেশি পরিমাণে পড়লে লিনিয়ারিটি খুঁজে পেতে আপনি কী আশা করতে পারেন?

    • সাধারণত, সমকামিতাও ধরে নেওয়া হয়। এর অর্থ হ'ল ত্রুটি / গোলমালের পরম পরিমাণ নির্ভরতার উপর নির্ভর করে না (x) ভেরিয়েবল, এখানে: পড়তে হবে এমন পরিমাণের পরিমাণ। আমি হার্ড ডিস্ক রিডিং সম্পর্কে নিশ্চিত নই, তবে আমি অভিজ্ঞ (রসায়ন / কেমোমেট্রিক্স) সাধারণত ধ্রুব পরম এবং ধ্রুবক আপেক্ষিক শব্দ (বা শব্দের বিভিন্ন উত্সের কারণে আরও জটিল আচরণ) এর মধ্যে কিছু experience
      ধীরে ধীরে শব্দ ব্যবস্থার নিরঙ্কুশ পরিমাণ থেকে যে কোনও বিচ্যুততার অর্থ হ'ল অতিরিক্ত বহির্বাহনের জন্য পূর্বাভাস অন্তরগুলি চূড়ান্তভাবে ভুল - সাধারণত সেগুলি খুব সংকীর্ণ হবে।

  • এমনকি যদি এই অনুমানগুলি মেটানো হয় তবে বিবেচনা করুন যে ভবিষ্যদ্বাণী ব্যবধানটি আসলে এই ধরণের এক্সট্রাপোলেশনের জন্য কত বড় is

    lm ক্রমাঙ্কন পরিসীমা lm এক্সট্রোপোলেশন

    (আমি পেয়েছি খুব সুন্দর পরিমাপের কিছু সত্যিকারের ক্রমাঙ্কন ডেটা নিয়েছি এবং এটি আপনার সমস্যার সাথে অভিযোজিত করেছি)।
    নোট করুন যে পূর্বাভাস অন্তরx= 500 মোট পার্থক্য হিসাবে ইতিমধ্যে দ্বিগুণ বড়tআপনার ক্রমাঙ্কনের ডেটা স্প্যান! আপনার যদি এত দুর্দান্ত লিনিয়ার ডেটা সেট না থাকে তবে ভবিষ্যদ্বাণী ব্যবধানটি কেবল "বিস্ফোরিত হবে"।


1
+1, বিশেষত সমকামিতা অনুমানটি এখানে আলোচনার জন্য একটি দুর্দান্ত সংযোজন। ( "। ডট" ক্ষুদ্র নোট, মাধ্যমে আপনি বোঝাতে চেয়েছেন সময়কাল। নিয়ম পূর্ববর্তী বাক্যে বিবৃত এর উপসংহার জোর একটি উপায় হিসেবে?)
পুনর্বহাল মনিকা - gung

@ গুং: যদি পিরিয়ড শব্দ হয় তবে তার অর্থ আমি :-) ধন্যবাদ।
এসবিএল

2
পিরিয়ডকে "ডট" কল করা কেবলমাত্র কম্পিউটার টার্মিনোলজিতে এবং বিশেষত ইউআরএলগুলিতে ব্যবহৃত হয় (যেমন, "স্ট্যাটাস ডট স্ট্যাকেক্সচেঞ্জ ডট কম")। এটি ইংরেজিতে মোটামুটি নতুন ব্যবহার, সম্ভবত প্রায় 20 বছর পুরানো।
গুং - মনিকা পুনরায়

1
আপনার অতিরিক্ত পয়েন্টের জন্য ধন্যবাদ। আমি কিছুক্ষণ আগে আমার কাজ শেষ করেছি তবে আমি আশা করি এই প্রশ্নের উভয় উত্তরই অন্যান্য শিক্ষার্থীদের সহায়তা করবে!
ফ্ল্যানফল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.