প্রশিক্ষণের ডেটার চেয়ে ডেটা পরীক্ষা করার সময় কম বৈশিষ্ট্য থাকতে পারে তখন কী করবেন?


10

ধরা যাক আমরা কোনও দোকানের বিক্রয় পূর্বাভাস দিচ্ছি এবং আমার প্রশিক্ষণের ডেটাতে দুটি সেট বৈশিষ্ট্য রয়েছে:

  • তারিখ সহ স্টোর বিক্রয় সম্পর্কে একটি (ক্ষেত্র "স্টোর" অনন্য নয়)
  • স্টোরের ধরণের সম্পর্কে একটি (ক্ষেত্র "স্টোর" এখানে অনন্য)

সুতরাং ম্যাট্রিক্সটি এরকম কিছু দেখবে:

+-------+-----------+------------+---------+-----------+------+-------+--------------+
| Store | DayOfWeek |    Date    |  Sales  | Customers | Open | Promo | StateHoliday |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
|   1   |     5     | 2015-07-31 |  5263.0 |   555.0   |  1   |   1   |      0       |
|   2   |     5     | 2015-07-31 |  6064.0 |   625.0   |  1   |   1   |      0       |
|   3   |     5     | 2015-07-31 |  8314.0 |   821.0   |  1   |   1   |      0       |
|   4   |     5     | 2015-07-31 | 13995.0 |   1498.0  |  1   |   1   |      0       |
|   5   |     5     | 2015-07-31 |  4822.0 |   559.0   |  1   |   1   |      0       |
|   6   |     5     | 2015-07-31 |  5651.0 |   589.0   |  1   |   1   |      0       |
|   7   |     5     | 2015-07-31 | 15344.0 |   1414.0  |  1   |   1   |      0       |
|   8   |     5     | 2015-07-31 |  8492.0 |   833.0   |  1   |   1   |      0       |
|   9   |     5     | 2015-07-31 |  8565.0 |   687.0   |  1   |   1   |      0       |
|   10  |     5     | 2015-07-31 |  7185.0 |   681.0   |  1   |   1   |      0       |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
[986159 rows x 4 columns]

এবং

+-------+-----------+------------+---------------------+
| Store | StoreType | Assortment | CompetitionDistance |
+-------+-----------+------------+---------------------+
|   1   |     c     |     a      |         1270        |
|   2   |     a     |     a      |         570         |
|   3   |     a     |     a      |        14130        |
|   4   |     c     |     c      |         620         |
|   5   |     a     |     a      |        29910        |
|   6   |     a     |     a      |         310         |
|   7   |     a     |     c      |        24000        |
|   8   |     a     |     a      |         7520        |
|   9   |     a     |     c      |         2030        |
|   10  |     a     |     a      |         3160        |
+-------+-----------+------------+---------------------+
[1115 rows x 4 columns]

দ্বিতীয় ম্যাট্রিক্স স্টোরের ধরণ, তাদের প্রত্যেকটি আইটেমের ভাণ্ডার গ্রুপ এবং নিকটতম প্রতিযোগী স্টোর থেকে দূরত্ব বর্ণনা করে।

তবে আমার পরীক্ষার ডেটাতে, আমার কাছে কেবল ক্ষেত্রগুলি Customersএবং Salesক্ষেত্রগুলি ছাড়াই প্রথম ম্যাট্রিক্সে তথ্য রয়েছে। উদ্দেশ্য বিক্রয় ক্ষেত্রের পূর্বাভাস দেওয়া হয়

  • দোকান
  • সপ্তাহের দিন
  • তারিখ
  • খোলা (দোকান খোলা আছে কিনা)
  • প্রচার (দোকানে প্রচার চলছে কিনা)
  • স্টেটহিডেড (এটি রাষ্ট্রীয় ছুটি হোক)

পূর্বাভাস দেওয়ার জন্য আমি সহজেই উপরের বুলেটযুক্ত ক্ষেত্রগুলির উপর ভিত্তি করে একটি শ্রেণিবদ্ধ প্রশিক্ষণ দিতে পারি Salesতবে আমি কীভাবে আমার পরীক্ষার ডেটা না পেয়ে আমার প্রশিক্ষণ ডেটাতে দ্বিতীয় ম্যাট্রিক্স ব্যবহার করতে পারি?

স্টোর প্রকারের সম্পর্কে দ্বিতীয় ম্যাট্রিক্স স্থিতিশীল এবং আমি সহজেই পরীক্ষার ডেটাতে এটিতে যোগ দিতে পারব কি এটি ধরে নেওয়া যুক্তিসঙ্গত?

আমার পরীক্ষার ডেটা বৈশিষ্ট্য সেটে যদি ছিদ্র থাকে তবে কী হবে, পরীক্ষার ডেটাতে কিছু সারি বলি, আমার কাছে "প্রচার" মান নেই have


আপনি জানেন যে আপনি কেগল ফোরামটিতে এটি জিজ্ঞাসা করতে পারেন, এবং এটি ইতিমধ্যে উত্তর দেওয়া হয়েছে : kaggle.com/c/rossmann-store-sales/forums/t/17137/… এবং kaggle.com/c/rossmann-store-sales/forums / টি / 16730 /…
নীল স্লেটার

ওওও, ক্ষমা করে দাও আমার কাগল দুষ্টুতা। কেউ আমার হাত ধরে ছাড়াই প্রথম বার ক্যাগল করুন =)
আলভাস

1
সমস্যা নেই. Customersতথ্য প্রতিযোগিতার খুব নির্দিষ্ট। যদি আপনি নিশ্চিত হন না যে এমএল (যেমন খালি Promoমান) এর জন্য সাধারণভাবে অনুপস্থিত মানগুলি কীভাবে মোকাবেলা করতে হয় তবে কেবলমাত্র সেই সমস্যাটি সম্পর্কেই এই প্রশ্নটি পরিবর্তন করা উপযুক্ত। এই সাইটে ইতিমধ্যে এর সম্পর্কে ইতিমধ্যে কিছু উত্তর রয়েছে যেমন, ডেটাসায়েন্স.স্ট্যাকেক্সচেঞ্জ
নিল স্লেটার

উত্তর:


6

নিরীক্ষণযোগ্য শেখার জন্য অতিরিক্ত বৈশিষ্ট্যগুলি ব্যবহার করুন। আপনি ভ্লাদিমির ভ্যাপনিকের এসভিএমগুলির প্রসঙ্গে এটি গ্রহণ করতে উপভোগ করতে পারেন, যাকে তিনি সুবিধাপ্রাপ্ত শিক্ষণ বলেছেন: বুদ্ধিমান শিক্ষকের সাথে শেখা: মিলতা নিয়ন্ত্রণ এবং জ্ঞান স্থানান্তর


2

আমি মনে করি আপনি যেভাবে সমস্যাটি উল্লেখ করছেন তাতে সমস্যা হতে পারে। আপনি বলছেন যে ডেটাতে দুটি ক্ষেত্র নেই তা পরীক্ষা করে দেখুন তবে এটি সঠিক হতে পারে না।

আপনাকে আপনার সমস্ত ডেটা নিতে হবে এবং এটিকে 2 টি গ্রুপে ভাগ করতে হবে, প্রশিক্ষণ সেট এবং পরীক্ষার সেট। 80% -20% বা 70% -30% অনুপাতে। তারপরে আপনি প্রশিক্ষণ সেটে থাকা ডেটা দিয়ে আপনার অ্যালগরিদমকে প্রশিক্ষণ দিন এবং পরীক্ষার সেটে থাকা ডেটা দিয়ে মডেলের যথার্থতাটি পরীক্ষা করুন।

আপনার সঠিকতাটি হ'ল আপনার মডেলটি সঠিক হওয়ার সম্ভাবনা। অথবা অন্যভাবে বলেছিলেন, পরের বার আপনি যখন নিজের মডেলটি বিক্রয় পূর্বাভাসের জন্য ব্যবহার করেন, নির্ভুলতা হ'ল আপনার ভবিষ্যদ্বাণীটি আসল হওয়ার সম্ভাবনা


আমি মনে করি আপনি ওপি-র "টেস্ট ডেটা" শব্দটি ব্যবহার করে এবং প্রশ্নের পুরোপুরি অনুপস্থিতিটি পুরোপুরি হারিয়ে
ফেলছেন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.