ধরা যাক আমরা কোনও দোকানের বিক্রয় পূর্বাভাস দিচ্ছি এবং আমার প্রশিক্ষণের ডেটাতে দুটি সেট বৈশিষ্ট্য রয়েছে:
- তারিখ সহ স্টোর বিক্রয় সম্পর্কে একটি (ক্ষেত্র "স্টোর" অনন্য নয়)
- স্টোরের ধরণের সম্পর্কে একটি (ক্ষেত্র "স্টোর" এখানে অনন্য)
সুতরাং ম্যাট্রিক্সটি এরকম কিছু দেখবে:
+-------+-----------+------------+---------+-----------+------+-------+--------------+
| Store | DayOfWeek | Date | Sales | Customers | Open | Promo | StateHoliday |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
| 1 | 5 | 2015-07-31 | 5263.0 | 555.0 | 1 | 1 | 0 |
| 2 | 5 | 2015-07-31 | 6064.0 | 625.0 | 1 | 1 | 0 |
| 3 | 5 | 2015-07-31 | 8314.0 | 821.0 | 1 | 1 | 0 |
| 4 | 5 | 2015-07-31 | 13995.0 | 1498.0 | 1 | 1 | 0 |
| 5 | 5 | 2015-07-31 | 4822.0 | 559.0 | 1 | 1 | 0 |
| 6 | 5 | 2015-07-31 | 5651.0 | 589.0 | 1 | 1 | 0 |
| 7 | 5 | 2015-07-31 | 15344.0 | 1414.0 | 1 | 1 | 0 |
| 8 | 5 | 2015-07-31 | 8492.0 | 833.0 | 1 | 1 | 0 |
| 9 | 5 | 2015-07-31 | 8565.0 | 687.0 | 1 | 1 | 0 |
| 10 | 5 | 2015-07-31 | 7185.0 | 681.0 | 1 | 1 | 0 |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
[986159 rows x 4 columns]
এবং
+-------+-----------+------------+---------------------+
| Store | StoreType | Assortment | CompetitionDistance |
+-------+-----------+------------+---------------------+
| 1 | c | a | 1270 |
| 2 | a | a | 570 |
| 3 | a | a | 14130 |
| 4 | c | c | 620 |
| 5 | a | a | 29910 |
| 6 | a | a | 310 |
| 7 | a | c | 24000 |
| 8 | a | a | 7520 |
| 9 | a | c | 2030 |
| 10 | a | a | 3160 |
+-------+-----------+------------+---------------------+
[1115 rows x 4 columns]
দ্বিতীয় ম্যাট্রিক্স স্টোরের ধরণ, তাদের প্রত্যেকটি আইটেমের ভাণ্ডার গ্রুপ এবং নিকটতম প্রতিযোগী স্টোর থেকে দূরত্ব বর্ণনা করে।
তবে আমার পরীক্ষার ডেটাতে, আমার কাছে কেবল ক্ষেত্রগুলি Customers
এবং Sales
ক্ষেত্রগুলি ছাড়াই প্রথম ম্যাট্রিক্সে তথ্য রয়েছে। উদ্দেশ্য বিক্রয় ক্ষেত্রের পূর্বাভাস দেওয়া হয়
- দোকান
- সপ্তাহের দিন
- তারিখ
- খোলা (দোকান খোলা আছে কিনা)
- প্রচার (দোকানে প্রচার চলছে কিনা)
- স্টেটহিডেড (এটি রাষ্ট্রীয় ছুটি হোক)
পূর্বাভাস দেওয়ার জন্য আমি সহজেই উপরের বুলেটযুক্ত ক্ষেত্রগুলির উপর ভিত্তি করে একটি শ্রেণিবদ্ধ প্রশিক্ষণ দিতে পারি Sales
তবে আমি কীভাবে আমার পরীক্ষার ডেটা না পেয়ে আমার প্রশিক্ষণ ডেটাতে দ্বিতীয় ম্যাট্রিক্স ব্যবহার করতে পারি?
স্টোর প্রকারের সম্পর্কে দ্বিতীয় ম্যাট্রিক্স স্থিতিশীল এবং আমি সহজেই পরীক্ষার ডেটাতে এটিতে যোগ দিতে পারব কি এটি ধরে নেওয়া যুক্তিসঙ্গত?
আমার পরীক্ষার ডেটা বৈশিষ্ট্য সেটে যদি ছিদ্র থাকে তবে কী হবে, পরীক্ষার ডেটাতে কিছু সারি বলি, আমার কাছে "প্রচার" মান নেই have
Customers
তথ্য প্রতিযোগিতার খুব নির্দিষ্ট। যদি আপনি নিশ্চিত হন না যে এমএল (যেমন খালি Promo
মান) এর জন্য সাধারণভাবে অনুপস্থিত মানগুলি কীভাবে মোকাবেলা করতে হয় তবে কেবলমাত্র সেই সমস্যাটি সম্পর্কেই এই প্রশ্নটি পরিবর্তন করা উপযুক্ত। এই সাইটে ইতিমধ্যে এর সম্পর্কে ইতিমধ্যে কিছু উত্তর রয়েছে যেমন, ডেটাসায়েন্স.স্ট্যাকেক্সচেঞ্জ