আমার দৃষ্টিকোণ থেকে, এই প্রশ্নটি একটি দ্বি-পদক্ষেপের উত্তরের জন্য উপযুক্ত। প্রথম অংশটি আসুন আমরা একে নরম প্রিপ্রোসেসিং বলি , বিভিন্ন ডেটা মাইনিং অ্যালগরিদমকে ডেটা এমনভাবে প্রিপ্রোসেসের ব্যবহার হিসাবে গ্রহণ করা যেতে পারে যে এটি আরও বিশ্লেষণের জন্য উপযুক্ত করে তোলে। লক্ষ্য করুন যে এটি একটি বিশ্লেষণ নিজেই হতে পারে, যদি লক্ষ্যটি একমাত্র শটে মোকাবেলা করার পক্ষে যথেষ্ট সহজ।
দ্বিতীয় অংশটি, হার্ড প্রিপ্রোসেসিং , আসলে অন্য যে কোনও প্রক্রিয়া আগে আসে এবং এটি প্রক্রিয়া করার জন্য নির্দিষ্ট সামগ্রী নির্বাচন করে ডেটা পরিষ্কার করার জন্য সাধারণ সরঞ্জাম বা স্ক্রিপ্ট ব্যবহার হিসাবে গ্রহণ করা যেতে পারে। এই সমস্যার জন্য, পসিক্স আমাদেরকে একটি দুর্দান্ত যাদু সরঞ্জাম সরবরাহ করে, যা সংক্ষিপ্ত - এবং খুব শক্তিশালী - প্রিপ্রোসেসিং স্ক্রিপ্টগুলি রচনা করতে ব্যবহার করা যেতে পারে।
উদাহরণস্বরূপ, সোশ্যাল ওয়েবসাইটগুলি (টুইটার, ফেসবুক, ...) থেকে আসা ডেটা নিয়ে কাজ করে এমন লোকদের জন্য the তথ্য পুনরুদ্ধার সাধারণত খুব নির্দিষ্ট বিন্যাসযুক্ত ফাইলগুলি দেয় - যদিও সর্বদা সুন্দর কাঠামো নয়, কারণ তাদের মধ্যে হারিয়ে যাওয়া ক্ষেত্র থাকতে পারে এবং তাই । এই ক্ষেত্রেগুলির জন্য, একটি সাধারণ awk
স্ক্রিপ্ট ডেটা পরিষ্কার করতে পারে, পরবর্তী প্রক্রিয়াজাতকরণের জন্য একটি বৈধ ইনপুট ফাইল তৈরি করে । জাদু সেট থেকে, এক এছাড়াও বাতলান পারে grep
, sed
, cut
, join
, paste
, sort
, এবং অন্যান্য সরঞ্জামের একটি পুরো বৃন্দ।
সহজ সরল উত্স ফাইলে যদি খুব বেশি নিতি-গ্রিট থাকে তবে ডেটা সাফ করার জন্য পদ্ধতিগুলির একটি বান্ডিল উত্পাদন করা প্রয়োজন হতে পারে। এ জাতীয় ক্ষেত্রে স্ক্রিপ্টিং ভাষা (শেল ছাড়া অন্য), যেমন পাইথন, রুবি এবং পার্ল ব্যবহার করা ভাল। এটি খুব সোজা এবং পুনঃব্যবহারযোগ্য উপায়ে নির্দিষ্ট ডেটা নির্বাচন করতে এপিআই'র তৈরির অনুমতি দেয় । এই ধরনের এপিআই এর মাঝে মাঝে যেমন তাদের লেখক, জনগণের তৈরি করা হয় IMDbPY , স্ট্যাক এক্সচেঞ্জ এপিআই , এবং অনেক অন্যদের।
সুতরাং, প্রশ্নের উত্তর দিয়ে: এখানে কোনও সেরা অনুশীলন আছে? এটি সাধারণত আপনার কাজের উপর নির্ভর করে। আপনি যদি সর্বদা একই ডেটা ফর্ম্যাটটি মোকাবেলা করেন তবে এটিকে প্রাক প্রসেস করার জন্য একটি সংগঠিত স্ক্রিপ্টটি লেখার পক্ষে সর্বশ্রেষ্ঠ ; অন্যদিকে, যদি আপনার কিছু ডেটাসেটে কেবল একটি সহজ এবং দ্রুত পরিষ্কার প্রয়োজন হয় তবে সংক্ষিপ্ত শেল স্ক্রিপ্টগুলির জন্য পসিক্স সরঞ্জামগুলিতে গণনা করুন যা পাইথন স্ক্রিপ্টের চেয়ে পুরো কাজটি আরও দ্রুত করতে পারে। ক্লিন আপ যেহেতু ডেটাसेट এবং আপনার উদ্দেশ্যে উভয়ই নির্ভর করে, ইতিমধ্যে সবকিছু করা শক্ত to তবুও, এমন অনেকগুলি এপিআই রয়েছে যা আপনাকে সমস্যার মধ্য দিয়ে এগিয়ে নিয়ে যায়।