রৈখিক, ঘনিষ্ঠ এবং লগারিদমিক ফাংশনগুলির বাইরে সেরা ফিটিং কার্ভ ফিটিং ফাংশন নির্ধারণ করা


18

প্রসঙ্গ:

গণিত স্ট্যাক এক্সচেঞ্জের একটি প্রশ্ন থেকে (আমি কি কোনও প্রোগ্রাম তৈরি করতে পারি) , কারও কাছে পয়েন্টের একটি সেট রয়েছে এবং এটি লিনিয়ার, এক্সফোনেনশিয়াল বা লোগারিথমিকের সাথে একটি বক্ররেখা ফিট করতে চায়। সাধারণ পদ্ধতিটি হ'ল এর মধ্যে একটি (যা মডেলকে নির্দিষ্ট করে) বাছাই করে শুরু করা এবং তার পরে পরিসংখ্যান গণনা করা।এক্স-Y

তবে যা সত্যই চেয়েছিল তা হ'ল লিনিয়ার, এক্সফোনেনশিয়াল বা লগারিদমিকের বাইরে 'সেরা' বাঁক খুঁজে পাওয়া find

স্পষ্টতই, কেউ তিনটি চেষ্টা করতে পারে এবং সেরা পরস্পর সম্পর্কিত সহগ অনুযায়ী তিনটির সেরা ফিট বক্র বেছে নিতে পারে।

তবে একরকম আমি অনুভব করছি এটি বেশ কোশার নয়। সাধারণত গৃহীত পদ্ধতি হ'ল প্রথমে আপনার মডেলটি বাছাই করা, সেই তিনটির মধ্যে একটি (বা অন্য কোনও লিঙ্ক ফাংশন), তারপরে ডেটা থেকে সহগের হিসাব করুন। এবং পোস্ট ফ্যাক্টো সর্বোত্তম পিকিং চেরি পিকিং। তবে আমার কাছে আপনি কোনও ফাংশন নির্ধারণ করছেন বা ডেটা থেকে সহগগুলি এটি এখনও একই জিনিস, আপনার পদ্ধতিটি সেরাটি আবিষ্কার করছে ... জিনিসটি (আসুন আমরা বলতে পারি যে কোন ফাংশনটি রয়েছে - অন্য কোন সহগ খুঁজে পাওয়া যাবে)।

প্রশ্নাবলী:

  • ফিটের পরিসংখ্যানের তুলনার ভিত্তিতে লিনিয়ার, ক্ষতিকারক এবং লগারিদমিক মডেলগুলির মধ্যে সেরা ফিটিং মডেলটি বেছে নেওয়া কি উপযুক্ত?
  • যদি তা হয় তবে এটি করার সবচেয়ে উপযুক্ত উপায় কোনটি?
  • যদি কোনও ফাংশনে রিগ্রেশন প্যারামিটারগুলি (সহগুণগুলি) সন্ধান করতে সহায়তা করে তবে তিনটি কার্ভ পরিবারের মধ্যে কোনটি সবচেয়ে ভাল থেকে আসে তা বেছে নেওয়ার জন্য কেন আলাদা প্যারামিটার থাকতে পারে না?

1
আমি আপনার সুবিধার্থে মডেল-নির্বাচন ট্যাগ যুক্ত করেছি: এর মাধ্যমে সংযোগ স্থাপন করলে প্রচুর প্রত্যক্ষ প্রাসঙ্গিক থ্রেড তৈরি হবে। দেখার মতো অন্যান্য ট্যাগগুলির মধ্যে আইস অন্তর্ভুক্ত রয়েছে । আপনার অবশেষে আবিষ্কার করা উচিত যে এই সমস্যার গাণিতিক বিবৃতিতে দুটি অপরিহার্য উপাদান অনুপস্থিত রয়েছে: পয়েন্টগুলি কীভাবে এবং কেন তাত্ত্বিক বক্ররেখা থেকে বিচ্যুত হতে পারে তার বর্ণনা এবং সঠিক বক্ররেখার সঠিক মূল্য না পাওয়ার ব্যয়ের একটি ইঙ্গিত। এই উপাদানগুলিতে অনুপস্থিত, এমন অনেকগুলি ভিন্ন ভিন্ন পদ্ধতি রয়েছে যা বিভিন্ন উত্তর প্রদান করতে পারে, এটি দেখায় যে "সেরা" অসম্পূর্ণ সংজ্ঞায়িত।
whuber

1
আপনি মডেলটিতে বৈধতা দেওয়ার জন্য আপনার ডেটার শতকরা একটি অংশ আলাদা করতে পারেন এবং সেই মডেলটিকে বাছাই করতে পারেন যা সেই বৈধতার ডেটার সেটটিকে সবচেয়ে ভাল মানায়। সুতরাং আপনার সারসংক্ষেপে আপনার ডেটাগুলিকে ১ ভাগে ভাগ করার জন্য তিনটি স্বতন্ত্র সেট থাকবে have একক মডেলকে প্রশিক্ষণের জন্য ডেটা ২ 2. তথ্য যা প্রতিটি মডেলকে বৈধ করে তোলে যা আপনাকে সেরা মডেলটি নির্বাচন করতে দেয় এবং ৩. আপনার আসল চূড়ান্ত বৈধতা ডেটা যা স্পর্শ না করে ।
ক্লিনেগ

1
@ ক্লেইনেগ এটি সঠিক দিকের মতো মনে হচ্ছে। মডেলের পছন্দ (যেমন লিন / এক্সপ্রেস / লগের মধ্যে) একক মডেল হাইপারপ্যারামিটারের মতো, যা কিছু উপায়ে নিয়মিত প্যারামিটারগুলির অন্য এক পর্যায়ে থাকে এবং পৃথক ট্রেন / বৈধতা / পরীক্ষার ধাপে এটিতে প্রবেশ করা সাধারণকরণ হতে পারে।
মিচ

প্রাসঙ্গিক: over ওভারফিটে করার একটি সূক্ষ্ম উপায়] ( johndcook.com/blog/2015/03/17/a-subtle-way-to-over-fit ) - একাধিক মডেলের ফাংশনগুলির মধ্যে নির্বাচন করা (যেমন এক্সপ বনাম লিনিয়ার বনাম লগ) কেবলমাত্র অন্য একটি পরামিতি। আপনি এটিকে হাইপারপ্যারামিটার (যা একটি বৈধকরণের পদক্ষেপের প্রয়োজন হবে) বা কম্বিনেশনের জটিল ক্রিয়ায় নিয়মিত পরামিতি (যেখানে এটি একটি পরীক্ষার ধাপে পরীক্ষা করা হবে) হিসাবে ভাবতে পারেন।
মিচ

উত্তর:


9
  • আপনি ইউরেকা নামক নিখরচায় সফ্টওয়্যারটি পরীক্ষা করে দেখতে চাইতে পারেন । এটি কার্যকরী ফর্ম এবং প্রদত্ত কার্যকরী সম্পর্কের প্যারামিটার উভয়ই সন্ধান করার প্রক্রিয়াটিকে স্বয়ংক্রিয় করার নির্দিষ্ট লক্ষ্য রাখে।
  • আপনি যদি বিভিন্ন সংখ্যক পরামিতিগুলির সাথে মডেলগুলির সাথে তুলনা করছেন, আপনি সাধারণত ফিটের একটি পরিমাপ ব্যবহার করতে চান যা আরও বেশি পরামিতি সহ মডেলগুলিকে শাস্তি দেয়। একটি সমৃদ্ধ সাহিত্য রয়েছে যার উপর ফিটের পরিমাপ মডেল তুলনার জন্য সবচেয়ে উপযুক্ত এবং মডেলগুলি বাসা বাঁধতে না পারলে বিষয়গুলি আরও জটিল হয়। আপনার দৃশ্যের ভিত্তিতে অন্যেরা কী সবচেয়ে উপযুক্ত মডেল তুলনা সূচক বলে মনে করতে আগ্রহী তা জানতে আগ্রহী হলাম (সাইড পয়েন্ট হিসাবে, সম্প্রতি আমার ব্লগে কার্ভ ফিটিংয়ের জন্য মডেলের তুলনা সূচী সম্পর্কে মডেল তুলনা সূচকগুলি নিয়ে আলোচনা হয়েছিল )।
  • আমার অভিজ্ঞতা থেকে, অ-লিনিয়ার রিগ্রেশন মডেলগুলি প্রদত্ত ডেটা থেকে খাঁটি পরিসংখ্যানগত ফিটের বাইরেও কারণে ব্যবহৃত হয়:
    1. অ-লিনিয়ার মডেলগুলি ডেটার সীমার বাইরে আরও কল্পনাযোগ্য ভবিষ্যদ্বাণী করে
    2. অ-লিনিয়ার মডেলগুলিকে সমতুল্য ফিটের জন্য কম পরামিতি প্রয়োজন
    3. নন-লিনিয়ার রিগ্রেশন মডেলগুলি প্রায়শই ডোমেনগুলিতে প্রয়োগ করা হয় যেখানে যথেষ্ট পূর্বে গবেষণা এবং তত্ত্বের গাইড মডেল নির্বাচন রয়েছে।

5

এটি এমন একটি প্রশ্ন যা খুব বিবিধ ডোমেনে বৈধ।

সর্বোত্তম মডেল হ'ল প্যারামিটার অনুমানের সময় ব্যবহার করা হয়নি এমন ডেটা পয়েন্টগুলির পূর্বাভাস দিতে পারে। আদর্শভাবে কেউ ডেটা সেটের উপসেট সহ মডেল প্যারামিটারগুলি গণনা করতে পারে এবং অন্য ডেটা সেটে ফিট পারফরম্যান্সটি মূল্যায়ন করে। আপনি যদি বিশদে আগ্রহী হন তবে "ক্রস-বৈধতা" দিয়ে অনুসন্ধান করুন।

সুতরাং প্রথম প্রশ্নের উত্তর হ'ল "না"। আপনি কেবল সেরা ফিটিং মডেল নিতে পারবেন না। চিত্র আপনি এনটি ডিগ্রি থেকে এন ডেটা পয়েন্টের সাথে একটি বহুবর্ষ ফিট করছেন। এটি একটি নিখুঁত ফিট হবে, কারণ সমস্ত মডেল হুবহু সমস্ত ডেটা পয়েন্টে পাস করবে। তবে এই মডেলটি নতুন ডেটাতে সাধারণীকরণ করবে না।

সবচেয়ে উপযুক্ত উপায়, যতদূর আমি বলতে পারি, আপনার মডেলটি অন্য ডেটা-সেটগুলিতে মেট্রিক ব্যবহার করে কতটা সাধারণীকরণ করতে পারে তা গণনা করা যা একযোগে অবশিষ্টগুলির প্রশস্ততা এবং আপনার মডেলের পরামিতিগুলির সংখ্যাকে শাস্তি দেয়। এআইসি এবং বিআইসি এই বিষয়গুলির কয়েকটি যা আমি সচেতন।


3

যেহেতু প্রচুর লোকেরা নিয়মিতভাবে তাদের ডেটাতে বিভিন্ন কার্ভের ফিটগুলি অন্বেষণ করে তাই আপনার সংরক্ষণগুলি কোথা থেকে আসছে তা আমি জানি না। মঞ্জুর, এই সত্যটি রয়েছে যে একটি চতুর্ভুজ সর্বদা কমপক্ষে পাশাপাশি রৈখিক এবং একটি ঘনক্ষেত্র হিসাবে কমপক্ষে পাশাপাশি একটি চতুষ্কোণ হিসাবে উপযুক্ত হবে, সুতরাং এই জাতীয় একটি অরৈখিক পদ যুক্ত করার পরিসংখ্যানগত তাত্পর্য পরীক্ষা করার উপায় রয়েছে এবং এইভাবে অযথা জটিলতা এড়াতে তবে সম্পর্কের বিভিন্ন ধরণের পরীক্ষার প্রাথমিক অনুশীলনটি কেবল ভাল অনুশীলন। প্রকৃতপক্ষে, কোনও ব্যক্তি সম্ভবত ফিট করার জন্য সবচেয়ে প্রশংসনীয় ধরণের বাঁকটি কী তা দেখতে খুব নমনীয় লোস রিগ্রেশন দিয়ে শুরু করতে পারেন।


3
চতুর্ভুজটি আরও ভাল ফিট করে কিনা, আপনি কীভাবে ভাল ফিটকে পরিচালনা করেছেন তার উপর নির্ভর করবে। বিশেষত, আপনি যদি এমন কোনও মাপসই ব্যবহার করেন যা আরও বেশি পরামিতিগুলির (যেমন, এআইসিসি) মডেলগুলিকে শাস্তি দেয়, তবে উদাহরণস্বরূপ, চতুর্ভুজ বনাম লিনিয়ারের জন্য ফিট আরও খারাপ হতে পারে।
জেরোমি অ্যাংলিম

9
@ রোল্যান্ডো, সম্ভবত আমি ভুল বোঝাবুঝি করছি, কিন্তু সত্যই, এই ধরণের (অযোগ্য) পরামর্শটি হুবহু ঠিক সেই ধরণের জিনিস যা পরিসংখ্যানবিদ হিসাবে আমরা এর বিরুদ্ধে "লড়াই" করার জন্য এতটা সময় ব্যয় করি। বিশেষত, যদি ওপি সাধারণ বক্ররেখার জিনিসপত্রের উদাহরণস্বরূপ, ভবিষ্যদ্বাণী বা অনুমানের বাইরে কোনও বিষয়ে আগ্রহী হয় তবে পরিসংখ্যানগুলির কাছে "আপনি যা কিছু ভাবতে পারেন তা চেষ্টা করুন" এর অর্থগুলি বোঝা খুব গুরুত্বপূর্ণ understand
কার্ডিনাল

2
আনসকম্ব, টুকি, মোস্টেলার, টুফ্টে এবং ক্লিভল্যান্ডের traditionতিহ্যের সাথে এই মন্তব্যগুলির পুনর্মিলন করতে আমার অসুবিধা হচ্ছে, যা ডেটাটি ভিজ্যুয়ালাইজ করতে এবং অন্বেষণ করতে এবং মডেল তৈরির আগে, সহকর্মীদের প্রতিষ্ঠা করার আগে প্রতিটি সম্পর্কের আকার আকারের প্রয়োজনের উপর জোর দেয় or অন্যান্য পরিসংখ্যান উত্পন্ন।
Rolando2

8
তাদের পদ্ধতির বিষয়ে অনেক বিতর্ক রয়েছে controversy এই বিষয়গুলির সংক্ষিপ্তসার করার একটি অতি-সরল উপায় হ'ল আপনি যদি নিদর্শনগুলি সম্পর্কে জানতে এবং নতুন আবিষ্কার করতে চান যা পরে বৈধকরণের প্রয়োজন হয় তবে অনুসন্ধান বিশ্লেষণ উপযুক্ত। আপনি যদি অনুমান আঁকতে চান (বিশেষত নমুনা থেকে পি-ভ্যালু, আত্মবিশ্বাসের ব্যবধান ইত্যাদি ব্যবহার করে সাধারণ জনগণের কাছে কারণ) তবে এত বেশি নয়।
ফ্র্যাঙ্ক হ্যারেল

4
এটি আমি সিভিতে দেখেছি এমন সবচেয়ে উত্পাদনশীল মন্তব্য থ্রেড, বিশেষত এক্সচেঞ্জ বি / টি রোল্যান্ডো 2 (3 ^) এবং @ ফ্র্যাঙ্কহারেল। আমি উভয় পদ্ধতির খুব আবেদনময়ী দেখতে। আমার নিজস্ব রেজোলিউশন হ'ল দৃ conc় সিদ্ধান্তগুলি আঁকানোর জন্য সেই মডেলটিকে কীভাবে পরীক্ষা করতে হবে এবং কেবলমাত্র ফিট / টেস্ট করতে হবে তা পরিকল্পনা করা হয়েছে, তবে সত্যটি কী হতে পারে তা আবিষ্কার করার জন্য ডেটা (ডাব্লু / ও ফলাফলগুলি বিশ্বাস করে প্রয়োজনীয়ভাবে অবশ্যই) ভালভাবে অনুসন্ধান করতে হবে plan এবং পরবর্তী গবেষণা জন্য পরিকল্পনা । (আমার কি অন্য গবেষণা চালানো উচিত এবং কিছু পরীক্ষা করা উচিত, এটি কি আকর্ষণীয় / গুরুত্বপূর্ণ হবে?) মূল বিশ্লেষণগুলি এই বিশ্লেষণগুলির ফলাফল সম্পর্কে আপনার বিশ্বাস
গুং - মনিকা পুনরায়

3

আপনাকে সত্যিকারের বিজ্ঞান / তত্ত্বের মধ্যে একটি ভারসাম্য খুঁজে বের করতে হবে যা ডেটা বাড়ে এবং ডেটা আপনাকে কী বলে। অন্যরা যেমন বলেছে, আপনি যদি কোনও সম্ভাব্য রূপান্তর (যে কোনও ডিগ্রির বহুপদী ইত্যাদি) মাপসই করতে দেন তবে আপনি অত্যধিক মানানসই এবং অকেজো এমন কিছু পেয়ে যাবেন।

নিজেকে বোঝানোর একটি উপায় সিমুলেশন মাধ্যমে। মডেলগুলির মধ্যে একটি বেছে নিন (লিনিয়ার, এক্সফোনেনশিয়াল, লগ) এবং ডেটা তৈরি করুন যা এই মডেলটিকে অনুসরণ করে (পরামিতিগুলির পছন্দ সহ)। যদি আপনার x মানগুলির শর্তসাপেক্ষ প্রকরণটি x ভেরিয়েবলের প্রসারের তুলনায় সামান্য হয় তবে একটি সহজ প্লট এটি স্পষ্ট করে তুলবে যে কোন মডেলটি বেছে নেওয়া হয়েছিল এবং "সত্য" কী what তবে আপনি যদি এমন একটি প্যারামিটারের সেট বেছে নেন যে প্লটগুলি থেকে এটি সুস্পষ্ট নয় (সম্ভবত এমন ক্ষেত্রে যেখানে কোনও বিশ্লেষণাত্মক সমাধান আগ্রহী) তবে 3 টি উপায়ের প্রতিটি বিশ্লেষণ করুন এবং দেখুন যা "সেরা" ফিট দেয়। আমি আশা করি আপনি দেখতে পাবেন যে "সেরা" ফিটটি প্রায়শই "সত্য" ফিট হয় না।

অন্যদিকে, কখনও কখনও আমরা ডেটা আমাদের যতটা সম্ভব আমাদের জানাতে চাই এবং আমাদের সম্পর্কের প্রকৃতিটি নির্ধারণ করার জন্য বিজ্ঞান / তত্ত্ব থাকতে পারে না। বাক্স এবং কক্সের মূল কাগজটি (জেআরএসএস বি, খণ্ড ২ no, সংখ্যা ২, ১৯64৪) ওয়াই ভেরিয়েবলের বিভিন্ন রূপান্তরের মধ্যে তুলনা করার উপায়গুলি নিয়ে আলোচনা করেছে, তাদের প্রদত্ত রূপান্তরগুলির সেটটি নির্দিষ্ট ক্ষেত্রে লিনিয়ার এবং লগতে রয়েছে (তবে তাত্পর্যপূর্ণ নয়) , তবে কাগজের তত্ত্বের কোনও কিছুই আপনাকে কেবল তাদের সংস্কারের পরিবারে সীমাবদ্ধ করে না, একই পদ্ধতিটি আপনার আগ্রহী 3 টি মডেলের মধ্যে একটি তুলনা অন্তর্ভুক্ত করার জন্য বাড়ানো যেতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.