আমি বক্তৃতাটি দেখিনি, তাই যা বলা হয়েছিল তা নিয়ে আমি মন্তব্য করতে পারি না can't
আমার $ 0.02: আপনি যদি পুনরায় মডেলিং ব্যবহার করে পারফরম্যান্সের ভাল অনুমান পেতে চান তবে আপনার পুনরায় মডেলিংয়ের সময় সমস্ত অপারেশনগুলি পূর্বের পরিবর্তে করা উচিত। এটি বৈশিষ্ট্য নির্বাচনের ক্ষেত্রে সত্যই সত্য [1] পাশাপাশি পিসিএর মতো অ-তুচ্ছ কাজগুলি। যদি এটি ফলাফলগুলিতে অনিশ্চয়তা যোগ করে তবে তা পুনর্নির্মাণে অন্তর্ভুক্ত করুন।
মূল উপাদানগুলির রিগ্রেশন সম্পর্কে চিন্তা করুন: পিসিএ এর পরে কিছু উপাদানগুলিতে লিনিয়ার রিগ্রেশন হয়। পিসিএ অনুমান করে প্যারামিটারগুলি (গোলমাল সহ) এবং উপাদানগুলির সংখ্যাটিও অবশ্যই চয়ন করতে হবে (বিভিন্ন মান বিভিন্ন ফলাফলের ফলে => আরও শব্দ হবে)।
বলুন আমরা স্কিম 1 এর সাথে 10 গুণ সিভি ব্যবহার করেছি:
conduct PCA
pick the number of components
for each fold:
split data
fit linear regression on the 90% used for training
predict the 10% held out
end:
বা স্কিম 2:
for each fold:
split data
conduct PCA on the 90% used for training
pick the number of components
fit linear regression
predict the 10% held out
end:
এটি দ্বিতীয় পদ্ধতির ত্রুটি অনুমানের তুলনায় পরিষ্কার হওয়া উচিত যা পিসিএ দ্বারা সৃষ্ট অনিশ্চয়তা, উপাদানগুলির সংখ্যা নির্বাচন এবং লিনিয়ার রিগ্রেশনকে প্রতিফলিত করে। বাস্তবে, প্রথম স্কিমের সিভি এর আগে কী তা আগে কোনও ধারণা নেই।
আমি সমস্ত অপারেশন ডাব্লু / রিসম্পলিংয়ে সর্বদা না করার জন্য আমি দোষী, তবে কেবল তখনই যখন আমি সত্যিকার অর্থে পারফরম্যান্সের প্রাক্কলনগুলি যত্ন করি না (যা অস্বাভাবিক)।
দুটি প্রকল্পের মধ্যে কি অনেক পার্থক্য রয়েছে? এটি ডেটা এবং প্রাক প্রক্রিয়াজাতকরণের উপর নির্ভর করে। আপনি যদি কেবল কেন্দ্রিক এবং স্কেলিং করে থাকেন তবে সম্ভবত তা নয়। আপনার যদি এক টন ডেটা থাকে তবে সম্ভবত না। প্রশিক্ষণের সেট আকারটি কমার সাথে সাথে, খারাপ অনুমানের ঝুঁকি বেড়ে যায়, বিশেষত যদি এন পি এর কাছাকাছি থাকে।
আমি অভিজ্ঞতার সাথে দৃ can়তার সাথে বলতে পারি যে পুনর্নির্মাণের মধ্যে তদারকি বৈশিষ্ট্য নির্বাচন না করা সত্যিই খারাপ ধারণা (বড় প্রশিক্ষণের সেট ছাড়াই)। আমি দেখতে পাই না যে প্রাক-প্রক্রিয়াজাতকরণ এটি (কিছুটা ডিগ্রি পর্যন্ত) থেকে প্রতিরোধী হবে।
@ মঞ্চগুন: আমি মনে করি যে উপাদানগুলির সংখ্যাটি একটি টিউনিং প্যারামিটার এবং আপনি সম্ভবত এটি সাধারণকরণযোগ্য পারফরম্যান্সের প্রাক্কলন ব্যবহার করে বেছে নিতে চাইবেন। আপনি স্বয়ংক্রিয়ভাবে কে কে বেছে নিতে পারেন যে কমপক্ষে X% বৈকল্পিক ব্যাখ্যা করা হয়েছে এবং পুনরায় মডেলিংয়ের মধ্যে সেই প্রক্রিয়াটি অন্তর্ভুক্ত করা যায় যাতে আমরা সেই প্রক্রিয়াটিতে গোলমালের জন্য দায়বদ্ধ।
ম্যাক্স
[1] এমব্রয়েজ, সি।, এবং ম্যাকলাচলান, জি। (2002)। মাইক্রোয়ারে জিন-এক্সপ্রেশন ডেটার ভিত্তিতে জিন নিষ্কাশনে নির্বাচনের পক্ষপাতিত্ব। ন্যাশনাল একাডেমি অফ সায়েন্সেসের কার্যক্রম, 99 (10), 6562–6566।