পাইথনের সাথে বিশ্লেষণে নবজাতক তাই দয়া করে নম্র হন :-) আমি এই প্রশ্নের উত্তর খুঁজে পাই না - যদি ইতিমধ্যে অন্য কোথাও অন্য কোনও ফর্ম্যাটে উত্তর দেওয়া হয় তবে ক্ষমা চাই।
খুচরা আউটলেটের জন্য আমার কাছে লেনদেনের ডেটাসেট রয়েছে। ব্যাখ্যা সহ চলকগুলি হ'ল:
- বিভাগ: স্টোরের বিভাগ, একটি স্ট্রিং;
- প্রোড_নাম: পণ্যের নাম, একটি স্ট্রিং;
- প্রাপ্তি: চালানের সংখ্যা, একটি int;
- ক্যাশিয়ার, ক্যাশিয়ারের সংখ্যা, একটি আন্ত;
- ব্যয়: আইটেমের দাম, একটি ভাসা;
- তারিখ, এমএম / ডিডি / ওয়াই ওয়াই ফর্ম্যাটে;
- সময়, ফর্ম্যাটে এইচ এইচ: এমএম: এসএস, একটি স্ট্রেট;
একক লেনদেনে কেনা সমস্ত পণ্যের জন্য রশিদের সমান মূল্য থাকে, সুতরাং এটি একটি একক লেনদেনে কেনা ক্রয়ের গড় সংখ্যা নির্ধারণ করতে ব্যবহার করা যেতে পারে।
এটি সম্পর্কে সবচেয়ে ভাল উপায় কি? আমি মূলত groupby()
তার নিজস্ব অভিন্ন ঘটনাগুলি দ্বারা রসিদ ভেরিয়েবলকে গোষ্ঠী হিসাবে ব্যবহার করতে চাই যাতে আমি একটি হিস্টোগ্রাম তৈরি করতে পারি।
একটি পান্ডাস ডেটা ফ্রেমে ডেটা নিয়ে কাজ করা।
সম্পাদনা করুন:
শিরোনাম সহ কিছু নমুনা ডেটা এখানে দেওয়া হয়েছে (প্রোড_নামটি আসলে একটি হেক্স নম্বর):
section,prod_name,receipt,cashier,cost,date,time
electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20
womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46
womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47
menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20
এই নমুনা সেট থেকে আমি প্রাপ্তির একটি হিস্টোগ্রাম প্রত্যাশা করব যা প্রাপ্তির দুটি ঘটনা দেখায় 102857 (যেহেতু সেই ব্যক্তি একটি লেনদেনে দুটি আইটেম কিনেছিলেন) এবং প্রাপ্তির যথাক্রমে 102856 এবং রসিদ 102858 রয়েছে Note দ্রষ্টব্য: আমার ডেটাসেটটি বিশাল নয়, প্রায় 1 মিলিয়ন সারি।