বৈশিষ্ট্য স্কেলিংয়ের ফলাফল


11

আমি বর্তমানে এসভিএম ব্যবহার করছি এবং [0,1] এর সীমার মধ্যে আমার প্রশিক্ষণ বৈশিষ্ট্যগুলি স্কেলিং করছি। আমি প্রথমে আমার প্রশিক্ষণের সেটটিকে ফিট করি / রূপান্তর করি এবং তারপরে আমার পরীক্ষার সেটে একই রূপান্তরটি প্রয়োগ করি। উদাহরণ স্বরূপ:

    ### Configure transformation and apply to training set
    min_max_scaler = MinMaxScaler(feature_range=(0, 1))
    X_train = min_max_scaler.fit_transform(X_train)

    ### Perform transformation on testing set
    X_test = min_max_scaler.transform(X_test)

ধরা যাক ট্রেনিং সেটে প্রদত্ত বৈশিষ্ট্যের [0,100] ব্যাপ্তি রয়েছে এবং পরীক্ষার সেটে একই বৈশিষ্ট্যটির [-10,120] ব্যাপ্তি রয়েছে। প্রশিক্ষণ সেটে সেই বৈশিষ্ট্যটি যথাযথভাবে [0,1] এ স্কেল করা হবে, যখন টেস্টিং সেটে সেই বৈশিষ্ট্যটি প্রথম নির্দিষ্ট করা বাহিরের ব্যাপ্তিতে স্কেল করা হবে, [-0.1,1.2] এর মতো কিছু।

আমি ভাবছিলাম যে মডেলটিকে প্রশিক্ষণ দেওয়ার জন্য টেস্টিং সেট বৈশিষ্ট্যগুলি কীভাবে ব্যবহার করা হচ্ছে তার বাইরে? এটা কি কোন সমস্যা?

উত্তর:


6

প্রতিটি শ্রেণীর মধ্যে, বৈশিষ্ট্যগুলির জন্য আপনার মানগুলির বন্টন থাকবে। এটি নিজেই উদ্বেগের কারণ নয়।

কিছুটা তাত্ত্বিক দৃষ্টিকোণ থেকে আপনি নিজেকে জিজ্ঞাসা করতে পারেন যে আপনার বৈশিষ্ট্যগুলি কেন স্কেল করা উচিত এবং কেন আপনাকে সেগুলি সঠিকভাবে বেছে নেওয়া উচিত।
এর একটি কারণ হতে পারে যে আপনার নির্দিষ্ট প্রশিক্ষণ অ্যালগরিদমটি বৈশিষ্ট্যের তুলনায় 0 - 1 এর চেয়ে বেশি মানের সাথে আরও ভাল (আরও ভাল) রূপান্তর করতে পরিচিত which সেক্ষেত্রে আপনি সম্ভবত ভাল আছেন। আমার অনুমান যে আপনার এসভিএম ঠিক আছে: অভ্যন্তরীণ পণ্যটির কারণে আপনি খুব বেশি সংখ্যক এড়াতে চান, তবে সর্বোচ্চ ১.২ বনাম। সর্বোচ্চ সর্বোচ্চ ১.০ কোনও পার্থক্য তৈরি করতে পারে না।
(OTOH, যদি আপনি উদাহরণস্বরূপ নেতিবাচক মানগুলি গ্রহণ না করতে আপনার অ্যালগরিদম জানতেন তবে আপনি অবশ্যই সমস্যায় পড়বেন))

ব্যবহারিক প্রশ্ন হ'ল প্রশিক্ষণ দ্বারা আচ্ছাদিত সীমার বাইরে সামান্য কিছু ক্ষেত্রে আপনার মডেল ভাল অভিনয় করে কিনা। আমি বিশ্বাস করি যে প্রশিক্ষণ ডোমেনের বাইরের ক্ষেত্রে পারফরম্যান্স ড্রপের জন্য পরীক্ষার ফলাফল / পরীক্ষা ফলাফল পরীক্ষা করেই কেবল সেরা এবং সম্ভবত উত্তর দেওয়া যেতে পারে। এটি একটি বৈধ উদ্বেগ এবং এটি অনুসন্ধান করা আপনার মডেলের বৈধতার অংশ হবে।

আপনার বর্ণিত আকারের পার্থক্য পর্যবেক্ষণ করা মডেলটির স্থিতিশীলতার দিকে বেশ ঘনিষ্ঠ নজর রাখার কারণ হ'ল আইএমএইচও।


7

এটি একটি মন্তব্য হিসাবে বোঝানো হয়েছিল তবে এটি অনেক দীর্ঘ।

আপনার পরীক্ষার সেটটি আলাদা সীমার মধ্যে রয়েছে এমন একটি চিহ্ন হতে পারে যে প্রশিক্ষণ সেটটি পরীক্ষার সেটটির ভাল উপস্থাপনা নয়। তবে, পার্থক্যটি যদি আপনার উদাহরণের মতো সত্যিই ছোট হয় তবে সম্ভবত এটি আপনার পূর্বাভাসকে প্রভাবিত করবে না। দুর্ভাগ্যক্রমে, আমি মনে করি না যে আমার কোনও ভাবার পক্ষে যুক্তিযুক্ত কারণ আছে এটি কোনও পরিস্থিতিতে কোনও এসভিএমকে প্রভাবিত করবে না।

লক্ষ্য করুন যে MinMaxScalar ব্যবহারের যুক্তি (ডকুমেন্টেশন অনুসারে):

এই স্কেলিংটি ব্যবহারের অনুপ্রেরণার মধ্যে বৈশিষ্ট্যগুলির খুব ছোট স্ট্যান্ডার্ড বিচ্যুতিগুলির দৃ rob়তা এবং বিরল ডেটাতে শূন্য এন্ট্রি সংরক্ষণ করা অন্তর্ভুক্ত।

সুতরাং, আপনার ডেটা সেই ক্ষেত্রে উপযুক্ত কিনা তা নিশ্চিত করা আপনার পক্ষে গুরুত্বপূর্ণ।

যদি আপনি সত্যিই কোনও পার্থক্যের পরিসর সম্পর্কে উদ্বিগ্ন হন তবে আপনার preprocessing.scaleপরিবর্তে নিয়মিত মানককরণ (যেমন ) ব্যবহার করা উচিত।


হাই রবার্ট, উত্তরের জন্য ধন্যবাদ! প্রশিক্ষণ / পরীক্ষার সেটটির উপস্থাপনা সম্পর্কে ভাল বিষয় তবে এটি সময় সিরিজের ডেটা তাই নতুন ডেটা আসার সাথে সাথে আমি গ্যারান্টি দিতে পারি না যে মানগুলি আগের তুলনায় একই রকম হবে। আপনার মতো আমারও ঠিক একই অনুভূতি আছে যে এটি ভাবার কোনও যুক্তিসঙ্গত কারণ নেই যে এটি কোনও পরিস্থিতিতে কোনও এসভিএমকে প্রভাবিত করবে না।
মাইক 1886

আপনি কি MinMaxScaler এবং মানক ব্যবহার করে ভবিষ্যদ্বাণীগুলির তুলনা করেছেন?
রবার্ট স্মিথ

আমার আছে এবং ফলাফলগুলি একই রকম, তবে MinMaxScalar এর সাথে জিনিসগুলি খারাপ হয়ে উঠছে কিনা তা সত্যই আমাকে জানায় না।
মাইক 1886

অবশ্যই। যাইহোক, আপনি যদি কোনও মূল্যবান জিনিস না পান তবে প্রমিতকরণ ব্যবহার করা ভাল MinMaxScaler
রবার্ট স্মিথ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.