প্যানডে ধারাবাহিকভাবে ডেটা মিস করার জন্য এনএএন স্থানধারক হিসাবে ব্যবহৃত হয় , ধারাবাহিকতা ভাল। আমি সাধারণত NAN "অনুপস্থিত" হিসাবে পড়ি / অনুবাদ করি । আরো দেখুন ডেটা অনুপস্থিত সঙ্গে কাজ ' ডক্সে অধ্যায়।
ওয়েস ডক্সে 'এনএ-প্রতিনিধিত্বের পছন্দ' লিখেছেন :
বছরের বেশিরভাগ উত্পাদন ব্যবহারের পরে [এনএএন] কমপক্ষে আমার মতে, নম্পপি এবং পাইথনের সাধারণ পরিস্থিতি বিবেচনায় রেখে সেরা সিদ্ধান্ত হিসাবে প্রমাণিত হয়েছে। বিশেষ মান NaN (না-এ-সংখ্যা) সর্বত্র এনএ মান হিসাবে ব্যবহৃত হয়, এবং সেখানে এপিআই ফাংশন রয়েছে isnull
এবং notnull
যা এনএ মানগুলি সনাক্ত করতে dtyype জুড়ে ব্যবহার করা যেতে পারে।
...
সুতরাং, আমি পাইথোনিক "প্র্যাকটিলিটি বিটস পিউরিটি" পদ্ধতির পছন্দ করেছি এবং এনএ বোঝাতে ফ্লোট এবং অবজেক্ট অ্যারেগুলিতে একটি বিশেষ মান ব্যবহার করার জন্য সহজ সরল পদ্ধতির জন্য এবং পূর্ণসংখ্যার অ্যারেগুলিকে এমএএন হতে হবে যখন প্রচার করতে পারি প্রবর্তিত
দ্রষ্টব্য: "গোটচা" যা অনুপস্থিত ডেটাযুক্ত পূর্ণসংখ্যা সিরিজগুলি ভাসমানগুলিতে আপকেটেড হয় ।
আমার মতে মধ্যে nan (একটিও বেশি) ব্যবহার করতে প্রধান কারণ এটি numpy এর float64 dtype সঙ্গে সংরক্ষণ করা যেতে পারে, বরং কম দক্ষ বস্তুর dtype চেয়ে হয় দেখতে এন প্রচার টাইপ ।
s_bad = pd.Series([1, None], dtype=object)
s_good = pd.Series([1, np.nan])
In [13]: s_bad.dtype
Out[13]: dtype('O')
In [14]: s_good.dtype
Out[14]: dtype('float64')
জেফ এই সম্পর্কে মন্তব্য (নীচে):
np.nan
ভেক্টরাইজড অপারেশনগুলির জন্য অনুমতি দেয়; এটি একটি ভাসমান মান, যখন None
সংজ্ঞা অনুসারে বস্তুর প্রকারকে জোর করে, যা মূলত আঙ্কে সমস্ত দক্ষতা অক্ষম করে।
সুতরাং 3 বার দ্রুত পুনরাবৃত্তি করুন: অবজেক্ট == খারাপ, ভাসা == ভাল
এই বলে যে, অনেকগুলি ক্রিয়াকলাপ এখনও নোনা বনাম NaN এর সাথে ঠিক একইভাবে কাজ করতে পারে (তবে সম্ভবত এটি সমর্থিত নয় যেমন তারা কখনও কখনও আশ্চর্যজনক ফলাফলও দিতে পারে ):
In [15]: s_bad.sum()
Out[15]: 1
In [16]: s_good.sum()
Out[16]: 1.0
দ্বিতীয় প্রশ্নের উত্তর দেওয়ার জন্য:
আপনার ব্যবহার করা উচিত pd.isnull
এবং pd.notnull
নিখোঁজ ডেটা (এনএএন) পরীক্ষা করা উচিত ।
qwerty
কোনও সংখ্যা নয়।