পরিসংখ্যান এবং বড় তথ্য validation

1

আমি দুটি মডেলকে প্রশিক্ষণ দিয়েছি (h2o অটোএমএল ব্যবহার করে বাইনারি শ্রেণিবদ্ধ) এবং আমি ব্যবহার করতে একটি নির্বাচন করতে চাই। আমার নিম্নলিখিত ফলাফল রয়েছে: model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 aucএবং loglossকলাম ক্রস বৈধতা মেট্রিক্স হয় …

15 model-selection validation auc gini log-loss

1

পৃথক মডেলিং / বৈধতা সেটগুলি ব্যবহার করে কোনও রিগ্রেশন মডেল তৈরি করার সময়, বৈধতার ডেটা "পুনর্বার" করা কি উপযুক্ত?

ধরুন আমি মডেলিং / বৈধতা পর্যবেক্ষণের মধ্যে একটি 80/20 বিভক্ত পেয়েছি। আমি মডেলিং ডেটা সেটটিতে একটি মডেল ফিট করেছি এবং যাচাইকরণ ডেটা সেটটিতে আমি যে ত্রুটিটি দেখছি তাতে আমি আরামদায়ক। ভবিষ্যতের পর্যবেক্ষণগুলি স্কোর করার জন্য আমি আমার মডেলটি রোলআউট করার আগে, 100% ডেটাতে আপডেট হওয়া প্যারামিটারের অনুমানের জন্য মডেলিং ডেটার …

13 regression predictive-models validation

3

শাস্ত্রীয় পরিসংখ্যানগুলিতে কেন হোল্ডআউট পদ্ধতি (প্রশিক্ষণ এবং পরীক্ষায় ডেটা বিভক্ত করা) ব্যবহৃত হয় না?

ডেটা মাইনিংয়ের সাথে আমার শ্রেণিকক্ষের সংস্পর্শে, হোল্ডআউট পদ্ধতিটি মডেল কর্মক্ষমতা মূল্যায়নের উপায় হিসাবে চালু হয়েছিল। যাইহোক, আমি যখন লিনিয়ার মডেলগুলিতে আমার প্রথম শ্রেণি নিয়েছিলাম তখন এটি মডেল বৈধতা বা মূল্যায়নের মাধ্যম হিসাবে চালু হয়নি। আমার অনলাইন গবেষণাও কোনও ধরণের ছেদ দেখায় না। শাস্ত্রীয় পরিসংখ্যানগুলিতে কেন হোল্ডআউট পদ্ধতি ব্যবহার করা হয় …

12 regression validation model-evaluation out-of-sample

1

ব্রিয়ার স্কোরের গড় পরম ত্রুটির অ্যানালগের নাম?

গতকালের প্রশ্নটি মডেলের যথার্থতা নির্ধারণ করে যা ঘটনার সম্ভাব্যতাটি অনুমান করে আমাকে সম্ভাব্যতা স্কোরিং সম্পর্কে উত্সাহী করেছিল। Brier স্কোর একটি গড় স্কোয়ারড ত্রুটি পরিমাপ। সাদৃশ্যটির অর্থ কি পরম ত্রুটি কার্যকারিতা পরিমাপ একটি নাম আছে?11N∑i=1N(predictioni−referencei)21N∑i=1N(predictioni−referencei)2\frac{1}{N}\sum\limits _{i=1}^{N}(prediction_i - reference_i)^2 1এনΣi = 1এন| পিআরইডিi c t i o nআমি- আর ই চই র …

12 classification error validation scoring-rules brier-score

3

ট্রেন / টেস্ট / বৈধকরণ সেটগুলিতে টাইম সিরিজের ডেটা বিভক্ত করা

ট্রেন / পরীক্ষা / বৈধতা সেটগুলিতে টাইম সিরিজের ডেটা বিভক্ত করার সর্বোত্তম উপায় কী, যেখানে হাইপারপ্যারমিটার টিউনিংয়ের জন্য বৈধতা সেটটি ব্যবহৃত হবে? আমাদের কাছে দৈনিক বিক্রয় ডেটা 3 বছরের মূল্যবান রয়েছে এবং আমাদের পরিকল্পনাটি 2015-2016 প্রশিক্ষণ ডেটা হিসাবে ব্যবহার করা হবে, তারপরে এলোমেলোভাবে নমুনা হিসাবে সেট করার জন্য 2017 ডেটা …

12 time-series cross-validation validation

2

নিয়মিতকরণের পরামিতি লাম্বদা-র ত্রুটিটি কি উত্তল ফাংশন?

রিজ বা লাসোতে নিয়মিতকরণ পরামিতি ল্যাম্বদা নির্বাচন করার ক্ষেত্রে প্রস্তাবিত পদ্ধতিটি ল্যাম্বদার বিভিন্ন মান চেষ্টা করে, বৈধতা সেটটিতে ত্রুটিটি পরিমাপ করে এবং অবশেষে লাম্বদার সেই মানটি বেছে নেয় যা সর্বনিম্ন ত্রুটি প্রদান করে। যদি ফ (ল্যাম্বদা) ফাংশন = ত্রুটি উত্তল হয় তবে এটি আমার কাছে ক্লিট হয় না। এটা কি …

11 cross-validation error regularization validation optimization

1

গুচ্ছ বৈধতার জন্য তথ্য (ষষ্ঠ) মেট্রিকের প্রকরণের পিছনে অন্তর্দৃষ্টি কী?

আমার মতো অ-পরিসংখ্যানবিদদের জন্য, VIমেরিনা মেলিয়া " তুলনা ক্লাস্টারিংস - একটি তথ্য ভিত্তিক দূরত্ব " (মাল্টিভারিয়েট অ্যানালাইসিস, 2007 এর জার্নাল) দ্বারা প্রাসঙ্গিক কাগজ পড়ার পরেও মেট্রিকের (তথ্যের প্রকরণ) ধারণাটি ধারণ করা খুব কঠিন । আসলে, আমি সেখানে ক্লাস্টারিংয়ের অনেক শর্তের সাথে পরিচিত নই। নীচে একটি এমডব্লিউই রয়েছে এবং আমি জানতে …

11 r clustering validation intuition

1

প্যানেল / অনুদায়ী ডেটাগুলির জন্য পূর্বাভাস মূল্যায়ন মেট্রিক

আমি বেশ কয়েকটি বিভিন্ন মডেলের মূল্যায়ন করতে চাই যা একটি মাসিক স্তরে আচরণের পূর্বাভাস সরবরাহ করে। ডেটা ভারসাম্যযুক্ত, এবং 100,000 এবং 12. ফলাফলটি নির্ধারিত মাসে একটি কনসার্টে অংশ নিচ্ছে, সুতরাং এটি কোনও মাসে ~ 80% লোকের জন্য শূন্য, তবে ভারী ব্যবহারকারীদের একটি দীর্ঘ ডান লেজ রয়েছে। ভবিষ্যদ্বাণীগুলি আমার কাছে ফলাফলের …

11 repeated-measures predictive-models stata panel-data validation

3

ধারাবাহিকতা পরীক্ষা কি?

আমাকে এমন প্রশ্ন জিজ্ঞাসা করা হয়েছিল "" আপনি কি আপনার প্রতিদিনের কাজটিতে কোনও ধারাবাহিকতা পরীক্ষা করেছিলেন? " একটি বায়োস্টাটিস্টিয়ান পজিশনের জন্য একটি ফোন সাক্ষাত্কারের সময়। আমি কি উত্তর দিতে জানি না। কোন তথ্য প্রশংসা করা হয়।

11 validation

2

একটি বৃহত সামগ্রিক ডেটাসেট থেকে কীভাবে প্রতিনিধি নমুনা সেট করবেন?

একটি নমুনা সেট তৈরি করার পরিসংখ্যান কৌশলগুলি কী, যা সমগ্র জনগোষ্ঠীর প্রতিনিধি (একটি পরিচিত আত্মবিশ্বাসের স্তর সহ)? এছাড়াও, কীভাবে যাচাই করবেন, যদি নমুনা সামগ্রিক ডেটাসেটের সাথে ফিট করে? পুরো ডেটাসেট (যা কোটি কোটি রেকর্ড হতে পারে) পার্সিং না করেই কি এটি সম্ভব?

10 sampling sample-size validation

2

আশাবাদ পক্ষপাত - পূর্বাভাস ত্রুটির অনুমান

ইলিমেন্টস অফ স্ট্যাটিস্টিকাল লার্নিং (পিডিএফ অনলাইনে উপলভ্য) বইটি অপটিমাইজম পক্ষপাত (7.21, পৃষ্ঠা 229) নিয়ে আলোচনা করেছে। এটিতে বলা হয়েছে যে আশাবাদ পক্ষপাতটি হ'ল প্রশিক্ষণ ত্রুটি এবং ইন-স্যাম্পল ত্রুটির মধ্যে পার্থক্য (আমরা যদি প্রতিটি প্রশিক্ষণের মূল বিন্দুতে নতুন ফলাফলের মানগুলি নমুনা করি তবে ত্রুটি পরিলক্ষিত হয়) (প্রতি নীচে)। এরপরে, এতে বলা …

9 error bias validation

4

মডেল ফিটিং / প্রশিক্ষণ এবং বৈধতার জন্য ব্যবহৃত নমুনা তথ্যের অনুপাত গণনা করা

ডেটা পূর্বাভাস দেওয়ার জন্য আমি পরিকল্পনা করে এমন একটি নমুনা আকার "এন" সরবরাহ করেছি। ডেটা উপ-বিভক্ত করার কয়েকটি উপায় কী কী যাতে আমি এটির কয়েকটি মডেল স্থাপনের জন্য ব্যবহার করি এবং মডেলটিকে বৈধতা দেওয়ার জন্য বাকী ডেটাগুলি? আমি জানি যে এর কোনও কালো এবং সাদা উত্তর নেই, তবে কিছু "থাম্বের …

9 machine-learning modeling sample validation

প্রশ্ন ট্যাগ «validation»