আমার কাছে আইটেমগুলির একটি তালিকা রয়েছে যা সম্ভবত কিছু রফতানি সমস্যা রয়েছে। আমি সদৃশ আইটেমগুলির একটি তালিকা পেতে চাই যাতে আমি ম্যানুয়ালি সেগুলি তুলনা করতে পারি। আমি যখন পান্ডাসের সদৃশ পদ্ধতিটি ব্যবহার করার চেষ্টা করি তখন এটি কেবল প্রথম নকলটিই দেয়। ডুপ্লিকেটগুলি কেবল প্রথমটি নয়, সমস্ত পাওয়ার কী উপায় আছে?
আমার ডেটাসেটের একটি ছোট্ট সাবসেকশনটি এরকম দেখাচ্ছে:
ID,ENROLLMENT_DATE,TRAINER_MANAGING,TRAINER_OPERATOR,FIRST_VISIT_DATE
1536D,12-Feb-12,"06DA1B3-Lebanon NH",,15-Feb-12
F15D,18-May-12,"06405B2-Lebanon NH",,25-Jul-12
8096,8-Aug-12,"0643D38-Hanover NH","0643D38-Hanover NH",25-Jun-12
A036,1-Apr-12,"06CB8CF-Hanover NH","06CB8CF-Hanover NH",9-Aug-12
8944,19-Feb-12,"06D26AD-Hanover NH",,4-Feb-12
1004E,8-Jun-12,"06388B2-Lebanon NH",,24-Dec-11
11795,3-Jul-12,"0649597-White River VT","0649597-White River VT",30-Mar-12
30D7,11-Nov-12,"06D95A3-Hanover NH","06D95A3-Hanover NH",30-Nov-11
3AE2,21-Feb-12,"06405B2-Lebanon NH",,26-Oct-12
B0FE,17-Feb-12,"06D1B9D-Hartland VT",,16-Feb-12
127A1,11-Dec-11,"064456E-Hanover NH","064456E-Hanover NH",11-Nov-12
161FF,20-Feb-12,"0643D38-Hanover NH","0643D38-Hanover NH",3-Jul-12
A036,30-Nov-11,"063B208-Randolph VT","063B208-Randolph VT",
475B,25-Sep-12,"06D26AD-Hanover NH",,5-Nov-12
151A3,7-Mar-12,"06388B2-Lebanon NH",,16-Nov-12
CA62,3-Jan-12,,,
D31B,18-Dec-11,"06405B2-Lebanon NH",,9-Jan-12
20F5,8-Jul-12,"0669C50-Randolph VT",,3-Feb-12
8096,19-Dec-11,"0649597-White River VT","0649597-White River VT",9-Apr-12
14E48,1-Aug-12,"06D3206-Hanover NH",,
177F8,20-Aug-12,"063B208-Randolph VT","063B208-Randolph VT",5-May-12
553E,11-Oct-12,"06D95A3-Hanover NH","06D95A3-Hanover NH",8-Mar-12
12D5F,18-Jul-12,"0649597-White River VT","0649597-White River VT",2-Nov-12
C6DC,13-Apr-12,"06388B2-Lebanon NH",,
11795,27-Feb-12,"0643D38-Hanover NH","0643D38-Hanover NH",19-Jun-12
17B43,11-Aug-12,,,22-Oct-12
A036,11-Aug-12,"06D3206-Hanover NH",,19-Jun-12
আমার কোডটি বর্তমানে এটির মতো দেখাচ্ছে:
df_bigdata_duplicates = df_bigdata[df_bigdata.duplicated(cols='ID')]
একটি দম্পতি সদৃশ আইটেম সেখানে। তবে, যখন আমি উপরের কোডটি ব্যবহার করি, আমি কেবল প্রথম আইটেমটি পাই। এপিআই রেফারেন্সে, আমি দেখতে পাচ্ছি যে আমি কীভাবে শেষ আইটেমটি পেতে পারি তবে আমি তাদের সমস্তটি দেখতে চাই যাতে আমি কেন তাত্পর্য পাচ্ছি তা দেখার জন্য আমি তাদের দৃষ্টি দিয়ে পরীক্ষা করতে পারি। সুতরাং, এই উদাহরণে আমি তিনটি A036 এন্ট্রি এবং উভয়ই 11795 এন্ট্রি এবং অন্য কোনও সদৃশ এন্ট্রি পেতে চাই, কেবল প্রথমটির পরিবর্তে। যে কোনও সহায়তা সর্বাধিক প্রশংসিত।
ID
একাধিক অভিন্ন সারি বা সব কলাম", না "।