আসুন ডেটাগুলিকে তিনটি বিভাগে শ্রেণিবদ্ধ করা হয়: মানুষের দ্বারা পাঠযোগ্য ডেটা (সাধারণত পাঠ্য, বই থেকে শুরু করে বিভিন্ন প্রোগ্রামে ভিন্ন), কম্পিউটার এবং অন্যান্য ডেটা (চিত্র বা শব্দকে পার্সিং) দ্বারা পড়ার উদ্দেশ্যে ডেটা।
প্রথম বিভাগের জন্য, আমাদের কম্পিউটার ব্যবহার করতে পারে এমন কিছুতে সেগুলি প্রক্রিয়া করা প্রয়োজন। যেহেতু মানুষের ব্যবহৃত ভাষাগুলি সাধারণত পার্সাররা তুলনামূলকভাবে ভাল ক্যাপচার করতে পারে, আমরা সাধারণত এটির জন্য পার্সার ব্যবহার করি।
তৃতীয় বিভাগে থাকা ডেটার উদাহরণ হ'ল কোনও বইয়ের বাইরে থাকা কোনও পৃষ্ঠার স্ক্যান করা চিত্র যা আপনি পাঠ্যে ভাগ করতে চান। এই বিভাগের জন্য আপনার প্রায়শই আপনার ইনপুট সম্পর্কে খুব সুনির্দিষ্ট জ্ঞান প্রয়োজন, এবং সুতরাং এটির বিশ্লেষণ করার জন্য আপনার একটি নির্দিষ্ট প্রোগ্রামের প্রয়োজন। স্ট্যান্ডার্ড পার্সিং প্রযুক্তি আপনাকে এখানে খুব বেশি পাবেন না।
আপনার প্রশ্নটি দ্বিতীয় বিভাগ সম্পর্কে: আমাদের কাছে যদি বাইনারি থাকে এমন ডেটা থাকে তবে এটি প্রায় সর্বদা একটি কম্পিউটার প্রোগ্রামের একটি পণ্য, অন্য কম্পিউটার প্রোগ্রামের উদ্দেশ্যে তৈরি। এটি অবিলম্বে এর অর্থ হ'ল যে ফর্ম্যাটটিতে ডেটা রয়েছে সেটি প্রোগ্রামের দ্বারা তৈরির জন্য বেছে নেওয়া হয়েছে।
কম্পিউটার প্রোগ্রামগুলি প্রায়শই একটি বিন্যাসে ডেটা উত্পাদন করে যার একটি পরিষ্কার কাঠামো রয়েছে। যদি আমরা কিছু ইনপুট পার্স করি তবে আমরা মূলত ইনপুটটির কাঠামোটি বের করার চেষ্টা করছি । বাইনারি ডেটা সহ, এই কাঠামোটি সাধারণত কম্পিউটারগুলি দ্বারা খুব সহজেই পার্স করা যায়।
অন্য কথায়, কোনও ইনপুটটির কাঠামোটি নির্ধারণের জন্য এটি সাধারণভাবে কিছুটা বর্জ্য যার জন্য আপনি ইতিমধ্যে কাঠামোটি জানেন। পার্সিং যেমন নিখরচায় থাকে না (এটি সময় নেয় এবং আপনার প্রোগ্রামে জটিলতা যোগ করে) তাই বাইনারি ডেটাতে লেক্সার / পার্সার ব্যবহার করা 'এত ভুল'।