ডেটা অনিশ্চয়তার উপর ভিত্তি করে লিনিয়ার রিগ্রেশন opeালের অনিশ্চয়তা গণনা করুন


12

ডেটা অনিশ্চয়তার উপর ভিত্তি করে লিনিয়ার রিগ্রেশন opeালের অনিশ্চয়তা কীভাবে গণনা করবেন (সম্ভবত এক্সেল / ম্যাথামেটিকায়)?

উদাহরণ: উদাহরণ প্লট আসুন ডেটা পয়েন্ট (0,0), (1,2), (2,4), (3,6), (4,8), ... (8, 16) থাকুক তবে প্রতিটি y এর মান আছে ৪. এর একটি অনিশ্চয়তা আমি খুঁজে পেয়েছি বেশিরভাগ ফাংশনগুলি অনিশ্চয়তা 0 হিসাবে গণনা করবে কারণ পয়েন্টগুলি পুরোপুরি y = 2x এর সাথে ফাংশনটির সাথে মেলে। তবে, ছবিতে দেখানো হয়েছে, y = x / 2 পয়েন্টগুলিও মেলে। এটি একটি অতিরঞ্জিত উদাহরণ, তবে আমি আশা করি এটি আমার কী প্রয়োজন তা দেখায়।

সম্পাদনা: আমি যদি আরও কিছুটা ব্যাখ্যা করার চেষ্টা করি, যখন প্রতিটি পয়েন্টের y এর একটি নির্দিষ্ট মান থাকে তবে আমরা ভান করি আমরা এটি সত্য কিনা তা জানি না। উদাহরণস্বরূপ প্রথম পয়েন্ট (0,0) আসলে (0,6) বা (0, -6) বা এর মধ্যে কিছু হতে পারে। আমি জিজ্ঞাসা করছি যে জনপ্রিয় সমস্যাগুলির মধ্যে এটির বিবেচনা করে তাতে কোনও অ্যালগরিদম আছে কিনা। উদাহরণে পয়েন্টগুলি (0,6), (1,6.5), (2,7), (3,7.5), (4,8), ... (8, 10) এখনও অনিশ্চয়তার মধ্যে পড়ে, সুতরাং এগুলি সঠিক পয়েন্ট হতে পারে এবং সেই পয়েন্টগুলিকে সংযুক্ত রেখার একটি সমীকরণ রয়েছে: y = x / 2 + 6, যখন আমরা অনিশ্চয়তায় ফ্যাক্টরিং না পেয়ে সমীকরণটির সমীকরণ থাকে: y = 2x + 0. সুতরাং কে এর অনিশ্চয়তা 1,5 এবং n এর 6 হয়।

টিএল; ডিআর: ছবিতে, একটি লাইন y = 2x রয়েছে যা সর্বনিম্ন বর্গক্ষেত্র ফিট ব্যবহার করে গণনা করা হয় এবং এটি ডেটা পুরোপুরি ফিট করে। আমি y = কেএক্স + এন মধ্যে কত কে এবং এন পরিবর্তন করতে পারে তা চেষ্টা করার চেষ্টা করছি তবে আমরা যদি y মানগুলিতে অনিশ্চয়তা জানি তবে ডেটা ফিট করে। আমার উদাহরণে, কে এর অনিশ্চয়তা 1.5 এবং n এ এটি 6 the ইমেজে আছে 'সেরা' ফিট লাইন এবং একটি লাইন যা সবেমাত্র পয়েন্টগুলিতে ফিট করে।


1
আপনার যদি আপনার অনিশ্চয়তা থাকে তবে সাধারণত আপনি সাধারণত লিনিয়ার রিগ্রেশন ব্যবহার করবেন না কারণ এটি পক্ষপাতদুষ্ট (যদিও ছোট অনিশ্চয়তার ফলে ছোট পক্ষপাত ঘটবে; সম্ভবত আপনি এতটা যত্ন নেন না)। আপনার y এর অনিশ্চয়তা কি সর্বদা স্থির বা এগুলি কি আলাদা হয়? আপনি কিভাবে আপনার লাইনে ফিট করছেন? x
গ্লেন_বি -রিনস্টেট মনিকা

আমি মূলত y এর মধ্যে অনিশ্চয়তার বিষয়ে জিজ্ঞাসা করছি। তবে আমি খুশি হব যদি সমাধানটি এক্স এর ক্ষেত্রেও অনিশ্চয়তা বিবেচনা করে। সাধারণত তারা স্থির হয় না, তবে যে সমাধানগুলির জন্য তাদের ধ্রুবক হওয়া প্রয়োজন তা ঠিক ছিল, আমি লাইনারিফিট, ফিট, গণিত এবং লিনেস্টের সন্ধান (এবং একটি কাস্টম ফাংশন যা আমি দেখতে পেয়েছি যে ওজনকে অনিশ্চয়তার ভিত্তিতে মানিয়েছে) চেষ্টা করেছি in সীমা অতিক্রম করা।
বেডানেক

পরীক্ষার পুনরাবৃত্তি বলে যা ঘটবে তার সাথে "অনিশ্চয়তা" মানগুলি কীভাবে সম্পর্কিত হবে তা আপনি পরিষ্কারভাবে ব্যাখ্যা করতে পারেন? যেমন, অবিকল কি, এই অনিশ্চয়তাগুলি উপস্থাপন করে?
গ্লেন_বি -রিনস্টেট মনিকা

উদাহরণস্বরূপ ত্রুটি যদি y ওজন হয় তবে ডিজিটাল স্কেলটি কেবলমাত্র + -6 এ সঠিক। (এই মানগুলির সাথে সেরা উদাহরণ নয়, তবে উদাহরণস্বরূপ যখন স্কেল 255g দেখায় এটি 255.0 বা 255.9 হতে পারে)
বেডানেক

আপনি কীভাবে ব্যাখ্যা করতে পারেন যে এটি আমার প্রশ্নের প্রথম বাক্যটির সাথে কীভাবে সম্পর্কিত?
গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:


8

"আমি মধ্যে এবং কত পরিবর্তন করতে পারে তা সন্ধান করার চেষ্টা করছি তবে আমরা যদি মানগুলির মধ্যে অনিশ্চয়তা জানি তবে এখনও ডেটা ফিট করে ।"n y = k x + n ykny=kx+ny

সত্যিকারের সম্পর্কটি যদি লিনিয়ার হয় এবং এর ত্রুটিগুলি শূন্যের অর্থ এবং জ্ঞাত মানক বিচ্যুতির সাথে স্বতন্ত্র স্বাভাবিক এলোমেলো পরিবর্তনশীল হয় তবে জন্য % আত্মবিশ্বাস অঞ্চলটি হ'ল উপবৃত্ত যা , যেখানে ত্রুটির স্ট্যানডার্ড ডেভিয়েশন হয় , সংখ্যা , জোড়া এবং হ'ল ডিগ্রি সহ চি-বর্গ বিতরণের র্ধ্ব ফ্র্যাকটাইল ।100 ( 1 - α ) ( কে , এন ) ( কে x আই + এন - ওয়াই আই ) 2 / σ 2 আই < χ 2 ডি , α σ আই ওয়াই আই ডি ( এক্স , ওয়াই ) χ 2 ডি , α α y100(1α)(k,n)(kxi+nyi)2/σi2<χd,α2σiyid(x,y)χd,α2αd

সম্পাদনা - প্রতিটি এর স্ট্যান্ডার্ড ত্রুটি 3 হিসাবে নেওয়া - অর্থাৎ, প্রতিটি জন্য আনুমানিক 95% আস্থা অন্তরকে আলাদাভাবে উপস্থাপন করার জন্য প্লটটিতে ত্রুটি বারগুলি গ্রহণ করা - জন্য 95% আস্থা অঞ্চলের সীমানার সমীকরণ হয় ।y i ( k , n ) 204 ( কে - 2 ) 2 + 72 এন ( কে - 2 ) + 9 এন 2 = 152.271yiyi(k,n)204(k2)2+72n(k2)+9n2=152.271

এখানে চিত্র বর্ণনা লিখুন


4

পাইথনে এই সাধারণ কোডটি সহ আমি একটি নিষ্পাপ সরাসরি নমুনা করেছি:

import random
import numpy as np
import pylab
def uncreg(x, y, xu, yu, N=100000):
    out = np.zeros((N, 2))
    for n in xrange(N):
        tx = [s+random.uniform(-xu, xu) for s in x]
        ty = [s+random.uniform(-yu, yu) for s in y]
        a, b = np.linalg.lstsq(np.vstack([tx, np.ones(len(x))]).T, ty)[0]
        out[n, 0:2] = [a, b]
    return out
if __name__ == "__main__":
    P = uncreg(np.arange(0, 8.01), np.arange(0, 16.01, 2), 0.1, 6.)
    H, xedges, yedges = np.histogram2d(P[:, 0], P[:, 1], bins=(50, 50))
    pylab.imshow(H, interpolation='nearest', origin='low', aspect='auto',
                 extent=[xedges[0], xedges[-1], yedges[0], yedges[-1]])

এবং এটি পেয়েছি: সরাসরি নমুনার ফলাফলের হিস্টোগ্রাম

অবশ্যই আপনি Pযে ডেটা চান তা সন্ধান করতে পারেন বা অনিশ্চয়তা বিতরণগুলি পরিবর্তন করতে পারেন।


0

আমি আগে একই শিকারে ছিলাম এবং আমি মনে করি এটি শুরু করার জন্য একটি দরকারী জায়গা হতে পারে। এক্সেল ম্যাক্রো ফাংশন উভয় অধ্যাদেশের প্রতিটি পয়েন্টের জন্য টেবুলার পয়েন্ট এবং অনিশ্চয়তার উপর ভিত্তি করে রৈখিক ফিট শর্তাদি এবং তাদের অনিশ্চয়তা দেয়। সম্ভবত আপনি অন্য পরিবেশে এটি প্রয়োগ করতে চান, পরিবর্তন করতে পারেন ইত্যাদি ঠিক করার উপর ভিত্তি করে তৈরি কাগজটি সন্ধান করুন (ম্যাথামেটিকার জন্য কিছু লেগ ওয়ার্ক হয়েছে) এটি কতটা ভালভাবে টিকানো আছে তা দেখতে ম্যাক্রোটি খুললেন না।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.