পরিসংখ্যান এবং বড় তথ্য cross-validation

1

কখন / কোথায় কার্যকরী ডেটা বিশ্লেষণ ব্যবহার করবেন?

ফাংশনাল ডেটা অ্যানালাইসিস (এফডিএ) এ আমি খুব নতুন। আমি পড়ছি: র‌্যামসে, জেমস ও।, এবং সিলভারম্যান, বার্নার্ড ডাব্লু। (2006), ফাংশনাল ডেটা অ্যানালাইসিস, ২ য় সংস্করণ, স্প্রিংগার, নিউইয়র্ক। তবে এফডিএ কোথায় / কখন ব্যবহার করব তা আমি এখনও খুব পরিষ্কার জানি না? কেউ দয়া করে আমাকে বিশেষ করে চর্চা ক্ষেত্রে একটি উদাহরণ …

15 statistical-significance cross-validation nonparametric

2

"বুটস্ট্র্যাপ বৈধতা" (ওরফে "পুনরায় মডেল ক্রস-বৈধকরণ") এর পদ্ধতি কী?

"বুটস্ট্র্যাপ বৈধতা" / "পুনর্নির্মাণ ক্রস-বৈধকরণ" আমার কাছে নতুন, তবে এই প্রশ্নের উত্তর দিয়ে আলোচনা করা হয়েছিল । আমি সংগ্রহ করি এটিতে 2 ধরণের ডেটা জড়িত থাকে: আসল ডেটা এবং সিমুলেটেড ডেটা, যেখানে সিমুলেটেড ডেটাগুলির একটি সেট সেট রিয়েল রিপ্লেলিং-উইথ রিপ্লেসমেন্টের মাধ্যমে আসল ডেটা থেকে উত্পন্ন হয় যতক্ষণ না সিমুলেটেড ডেটা …

15 cross-validation bootstrap validation resampling

2

কক্স আনুপাতিক বিপদ মডেল দিয়ে ক্রস-বৈধকরণ কীভাবে করবেন?

ধরুন আমি একটি ডেটাসেটে (মডেল বিল্ডিং ডেটাসেট) কোনও নির্দিষ্ট রোগের সংঘটিত হওয়ার জন্য একটি পূর্বাভাস মডেল তৈরি করেছি এবং এখন একটি নতুন ডেটাসেটে (বৈধকরণ ডেটাসেট) মডেলটি কতটা ভাল কাজ করে তা পরীক্ষা করে দেখতে চাই want লজিস্টিক রিগ্রেশন দিয়ে নির্মিত একটি মডেলের জন্য, আমি মডেল বিল্ডিং ডেটাসেট থেকে প্রাপ্ত মডেল …

15 predictive-models cross-validation survival roc

2

ছুটি-এক-আউট ক্রস-বৈধকরণের উচ্চ প্রকরণ

আমি বারবার পড়েছি যে "লেভ-ওয়ান-আউট" ক্রস-বৈধকরণের প্রশিক্ষণের ভাঁজগুলির বৃহত ওভারল্যাপের কারণে উচ্চ বৈচিত্র রয়েছে। তবে আমি বুঝতে পারি না কেন এটি: প্রশিক্ষণ সেটগুলি প্রায় অভিন্ন হওয়ার কারণে ক্রস-বৈধকরণের পারফরম্যান্সটি খুব স্থিতিশীল (কম বৈকল্পিক) হওয়া উচিত নয়? বা আমার কী পুরোপুরি "বৈকল্পিক" ধারণাটি সম্পর্কে ভুল ধারণা রয়েছে? আমিও সম্পূর্ণরূপে বুঝতে পারি …

15 variance cross-validation bias

1

উচ্চ বৈধতা নির্ভুলতা তবে গবেষণায় কম পরীক্ষার নির্ভুলতা কী হবে?

মেশিন লার্নিং গবেষণায় বৈধতা সম্পর্কে আমার একটি নির্দিষ্ট প্রশ্ন আছে। যেমনটি আমরা জানি, মেশিন লার্নিং সিস্টেম গবেষকদের তাদের মডেলগুলি প্রশিক্ষণের ডেটাতে প্রশিক্ষণ দিতে, বৈধতা সেট দ্বারা প্রার্থী মডেলগুলি থেকে চয়ন করতে এবং পরীক্ষার সেটটিতে নির্ভুলতার প্রতিবেদন করতে বলে। খুব কঠোর গবেষণায়, পরীক্ষার সেটটি কেবল একবার ব্যবহার করা যেতে পারে। তবে …

15 machine-learning cross-validation reproducible-research

2

জ্যাকনিফ বনাম এলইউসিভি

সত্যিই কি জ্যাকনিফের মধ্যে কোনও পার্থক্য রয়েছে এবং একের বাইরে ক্রস বৈধতা রয়েছে? পদ্ধতিটি অদৃশ্য বলে মনে হচ্ছে আমি কি কিছু মিস করছি?

15 cross-validation jackknife

2

কেন সাইকিট-লার বুটস্ট্র্যাপ ফাংশন পরীক্ষা সেটটির পুনরায় নমুনা দেয়?

মডেল মূল্যায়নের জন্য বুটস্ট্র্যাপিং ব্যবহার করার সময়, আমি সর্বদা ভেবেছিলাম যে ব্যাগের বাইরে থাকা নমুনাগুলি সরাসরি পরীক্ষার সেট হিসাবে ব্যবহৃত হয়েছিল। যাইহোক, এই ক্ষেত্রে দেখা হবে না মনে হচ্ছে, অনুমোদিত নয় এমন scikit-শিখতেBootstrap পদ্ধতির, যা আউট-অফ-ব্যাগ তথ্য উপসেট থেকে প্রতিস্থাপন দিয়ে ছবি আঁকার থেকে টেস্ট সেট নির্মাণের বলে মনে হয়। …

15 cross-validation bootstrap random-forest scikit-learn bagging

3

কীভাবে ডেটা বৃদ্ধি এবং ট্রেন-বৈধতা বিভক্ত করা যায়?

আমি মেশিন লার্নিং ব্যবহার করে চিত্রের শ্রেণিবিন্যাস করছি। ধরুন আমার কাছে কিছু প্রশিক্ষণ ডেটা (চিত্র) রয়েছে এবং ডেটাটিকে প্রশিক্ষণ এবং বৈধতা সেটগুলিতে বিভক্ত করব। এবং আমি এলোমেলো ঘোরাঘুরি এবং শব্দ ইঞ্জেকশন দ্বারা ডেটা (মূল চিত্রগুলি থেকে নতুন চিত্রগুলি তৈরি করতে) বৃদ্ধি করতে চাই। অগমেন্টেশনটি অফলাইনে করা হয়। ডেটা বৃদ্ধির সঠিক …

14 machine-learning classification cross-validation dataset data-augmentation

3

প্রশিক্ষণ, পরীক্ষা, বেঁচে থাকার বিশ্লেষণ সমস্যায় বৈধতা দেওয়া

আমি এখানে বিভিন্ন থ্রেড ব্রাউজ করছি, তবে আমার সঠিক প্রশ্নের উত্তর দেওয়া হয়েছে বলে আমি মনে করি না। আমার কাছে ~ 50,000 শিক্ষার্থীর একটি ডেটাসেট এবং ড্রপ আউট করার সময়। আমি প্রচুর সংখ্যক সম্ভাব্য কোভেরিয়েটদের সাথে আনুপাতিক বিপদ সংক্ষিপ্তকরণ সম্পাদন করতে যাচ্ছি। আমি ড্রপআউট / থাকার বিষয়ে লজিস্টিক রিগ্রেশনও করতে …

14 cross-validation survival train

4

জনস্বাস্থ্য নীতি গবেষণায় কেস স্টাডিজগুলি যেখানে অবিশ্বাস্য / বিভ্রান্ত / অবৈধ অধ্যয়ন বা মডেলগুলির অপব্যবহার করা হয়েছিল?

আমি একটি বর্তমান জনস্বাস্থ্য ইস্যুতে একটি সাহিত্য পর্যালোচনা খসড়া তৈরি করছি যেখানে ডেটা বিভ্রান্ত হচ্ছে: জনস্বাস্থ্য / মহামারীবিজ্ঞানের শিক্ষায় সাধারণ historicalতিহাসিক কেস স্টাডিগুলি কী কী যেখানে অবৈধ বা বিভ্রান্তিকর সম্পর্ক বা সূত্রগুলি ইচ্ছাকৃতভাবে বা ভ্রান্তভাবে জনস্বাস্থ্য নীতি এবং আইনটিতে নিযুক্ত করা হয়েছিল? 1960 এবং পরবর্তী তথ্যপ্রমাণ ভিত্তিক সরকার নেতৃত্বাধীন অধ্যয়ন …

14 cross-validation reliability epidemiology biostatistics

2

অপ্টিমাইজেশন: পরিসংখ্যানগুলিতে সমস্ত অশুভের মূল?

আমি নিম্নলিখিত প্রকাশটি আগে শুনেছি: "পরিসংখ্যানের মধ্যে সমস্ত অপকর্মের মূলে অপটিমাইজেশন"। উদাহরণস্বরূপ, এই থ্রেডের শীর্ষস্থানীয় উত্তরটি মডেল নির্বাচনের সময় খুব আক্রমণাত্মকভাবে অনুকূল হওয়ার ঝুঁকির প্রসঙ্গে সেই বিবৃতি দেয়। আমার প্রথম প্রশ্নটি নিম্নরূপ: এই উক্তিটি বিশেষত কারও জন্যই দায়ী? (যেমন পরিসংখ্যান সাহিত্যে) আমি যা বুঝতে পারি তা থেকে বিবৃতিটি ওভারফিটিংয়ের ঝুঁকিগুলিকে …

14 cross-validation optimization overfitting

6

10-গুণ ক্রস বৈধতা করতে ডেটা সেটকে কীভাবে ভাগ করবেন

লক । এই প্রশ্নটি এবং এর উত্তরগুলি লক করা আছে কারণ প্রশ্নটি অফ-টপিক তবে historicalতিহাসিক তাত্পর্যপূর্ণ। এটি বর্তমানে নতুন উত্তর বা মিথস্ক্রিয়া গ্রহণ করছে না। এখন আমার কাছে একটি Rডেটা ফ্রেম রয়েছে (প্রশিক্ষণ), কেউ আমাকে কীভাবে এলোমেলোভাবে 10-ভাঁজ ক্রস বৈধকরণ করতে এই ডেটা সেটটি বিভক্ত করতে পারেন?

14 cross-validation

3

আর এর বুট প্যাকেজে সিভি.এল.এম. এর ব্যয়ের কাজটি কী?

আমি ছাড়ার-এক-আউট পদ্ধতিটি ব্যবহার করে ক্রস বৈধকরণ করছি। আমার একটি বাইনারি প্রতিক্রিয়া আছে এবং আর এর জন্য বুট প্যাকেজ এবং cv.glm ফাংশনটি ব্যবহার করছি । আমার সমস্যাটি হ'ল আমি এই ফাংশনটির "ব্যয়" অংশটি পুরোপুরি বুঝতে পারি না। আমি যা বুঝতে পারি তা থেকে এটি এমন ফাংশন যা সিদ্ধান্ত নেয় যে …

14 r cross-validation

2

মেশিন লার্নিংয়ের জন্য টাইম সিরিজের অর্ডার দেওয়া

ক্রস-বৈধতা এবং সময় সিরিজ সম্পর্কে আরজে হেন্ডম্যানের একটি "গবেষণা টিপস" পড়ার পরে আমি আমার একটি পুরানো প্রশ্নে ফিরে এসেছি যা আমি এখানে প্রণয়ন করার চেষ্টা করব। ধারণাটি হ'ল শ্রেণিবদ্ধকরণ বা রিগ্রেশন সমস্যাগুলিতে, ডেটার ক্রম গুরুত্বপূর্ণ নয়, এবং তাই কে- ফোল্ড ক্রস-বৈধকরণ ব্যবহার করা যেতে পারে। অন্যদিকে, সময় সিরিজে ডেটা ক্রম …

14 time-series machine-learning cross-validation

2

এআইসি, বিআইসি এবং জিসিভি: দণ্ডিত রিগ্রেশন পদ্ধতিতে সিদ্ধান্ত নেওয়ার জন্য সবচেয়ে ভাল কী?

আমার সাধারণ বোঝাপড়াটি হ'ল এআইসি মডেলের ফিটনেসের ধার্মিকতা এবং মডেলের জটিলতার মধ্যে বাণিজ্য বন্ধের বিষয়ে ডিল করে। AIC=2k−2ln(L)AIC=2k−2ln(L)AIC =2k -2ln(L) মডেলটিতে k = পরামিতির সংখ্যাkkk = সম্ভাবনাLLL Bayesian তথ্য নির্ণায়ক সাথে BIC ঘনিষ্ঠভাবে AIC.The এআইসি সঙ্গে সম্পর্কযুক্ত কম দৃঢ়ভাবে চেয়ে BIC দিয়েছেন করে পরামিতি সংখ্যা স্থগিত। আমি দেখতে পাচ্ছি যে …

14 cross-validation lasso aic ridge-regression bic

প্রশ্ন ট্যাগ «cross-validation»