পঠনযোগ্যতা মূলত হিউরিস্টিকস নিয়ে গঠিত যা "বেশিরভাগ ক্ষেত্রে ভালভাবে কাজ করে" অনেক ক্ষেত্রে।
আমি এই বিষয় সম্পর্কে কিছু গবেষণা কাগজ লিখেছি এবং আমি কেন ভাল সমাধান করতে পারে এমন সমাধান নিয়ে আসা সহজ এবং যখন 100% যথার্থতার কাছাকাছি পাওয়া কঠিন হয় তার পটভূমিটি ব্যাখ্যা করতে চাই।
মানব ভাষার অন্তর্নিহিত এমন একটি ভাষাগত আইন রয়েছে যা ওয়েব পৃষ্ঠার সামগ্রীতে প্রকাশিত (তবে একচেটিয়াভাবে নয়) যা ইতিমধ্যে পরিষ্কারভাবে দুটি প্রকারের পাঠ্যকে পৃথকভাবে পৃথক করে (সম্পূর্ণ পাঠ্য বনাম, পূর্ণ-পাঠ্য বা প্রায়, " মূল সামগ্রী "বনাম" "বয়লারপ্লেট")।
এইচটিএমএল থেকে মূল বিষয়বস্তু পেতে, এটি বেশিরভাগ ক্ষেত্রে কেবলমাত্র এইচটিএমএল পাঠ্য উপাদানগুলি (যেমন পাঠ্যের ব্লকগুলি যা মার্কআপ দ্বারা বিঘ্নিত হয় না) রাখে যা প্রায় 10 টিরও বেশি শব্দ রাখে। এটি প্রদর্শিত হয় যে পাঠ্য লেখার দুটি পৃথক প্রেরণার জন্য মানুষ দুটি প্রকারের পাঠ্য ("সংক্ষিপ্ত" এবং "লম্বা" থেকে শব্দ নির্ধারণ করে যা তারা নির্গত হয়) আমি তাদের "নেভিগেশনাল" এবং "তথ্য" প্রেরণা বলব।
যদি কোনও লেখক আপনাকে চান দ্রুত চান যা লেখা আছে তা পান, তিনি "নেভিগেশনাল" পাঠ্য ব্যবহার করেন, অর্থাত্ কয়েকটি শব্দ (যেমন "স্টপ", "এটি পড়ুন", "এখানে ক্লিক করুন")। নেভিগেশনাল উপাদানগুলির মধ্যে এটি বেশিরভাগ বিশিষ্ট পাঠ্য (মেনু ইত্যাদি)
যদি কোনও লেখক আপনার কাছে তার অর্থ কী তা গভীরভাবে বুঝতে চান তবে সে অনেক শব্দ ব্যবহার করে। এইভাবে, অপ্রয়োজনীয়তা বৃদ্ধির ব্যয়ে অস্পষ্টতা অপসারণ করা হয়। নিবন্ধের মতো সামগ্রী সাধারণত এই শ্রেণিতে পড়ে কারণ এটিতে কেবল কয়েকটি শব্দ বেশি থাকে।
যদিও এই বিচ্ছেদ ঘটনাগুলির আধিক্যে কাজ করে বলে মনে হচ্ছে, এটি শিরোনাম, সংক্ষিপ্ত বাক্য, অস্বীকৃতি, কপিরাইট পাদদেশ ইত্যাদি দ্বারা জটিল হয়ে উঠছে with
এখানে আরও পরিশীলিত কৌশল এবং বৈশিষ্ট্য রয়েছে যা মূল সামগ্রীকে বয়লারপ্লেট থেকে পৃথক করতে সহায়তা করে। উদাহরণস্বরূপ লিঙ্কের ঘনত্ব (ব্লকের শব্দের সংখ্যা যা ব্লকের সামগ্রিক সংখ্যার তুলনায় লিঙ্কযুক্ত), পূর্ববর্তী / পরবর্তী ব্লকের বৈশিষ্ট্য, "পুরো" ওয়েবে একটি নির্দিষ্ট ব্লকের পাঠ্যের ফ্রিকোয়েন্সি এইচটিএমএল ডকুমেন্টের ডিওএম কাঠামো, পৃষ্ঠার ভিজ্যুয়াল চিত্র ইত্যাদি
আপনি আমার সর্বশেষ নিবন্ধটি পড়তে পারেন " অগভীর পাঠ্য বৈশিষ্ট্যগুলি ব্যবহার করে বয়লারপ্লেট সনাক্তকরণতাত্ত্বিক দৃষ্টিভঙ্গি থেকে কিছুটা অন্তর্দৃষ্টি পেতে । আপনি আমার কাগজের উপস্থাপনার ভিডিওটি ভিডিওলেক্টার.টনেও দেখতে পাবেন।
"পঠনযোগ্যতা" এই বৈশিষ্ট্যগুলির কয়েকটি ব্যবহার করে। আপনি যদি সাবধানে এসভিএন চেঞ্জলগটি দেখে থাকেন তবে দেখতে পাবেন যে সময়ের সাথে সাথে কৌশলগুলির সংখ্যা বিভিন্ন রকম হয়েছিল এবং পাঠযোগ্যতার এক্সট্রাকশন কোয়ালিটিরও এটি ছিল। উদাহরণস্বরূপ, ২০০৯ সালের ডিসেম্বরে লিঙ্কের ঘনত্বের প্রবর্তন খুব উন্নতি করতে সহায়তা করেছিল।
আমার মতে, অতএব এটি সঠিক সংস্করণ সংখ্যা উল্লেখ না করে "পাঠযোগ্যতা এটির মতো করে" বলার কোনও মানে নেই।
আমি একটি ওপেন সোর্স এইচটিএমএল বিষয়বস্তু নিষ্কাশন লাইব্রেরি প্রকাশ করেছি যার নাম বয়লারপাইপ যার , যা বেশ কয়েকটি পৃথক নিষ্কাশন কৌশল সরবরাহ করে। ব্যবহারের ক্ষেত্রে উপর নির্ভর করে, এক বা অন্য এক্সট্র্যাক্টর আরও ভাল কাজ করে। গুগল অ্যাপইঞ্জিনে সহযোদ্ধা বয়লারপাইপ-ওয়েব অ্যাপ্লিকেশনটি ব্যবহার করে আপনি এই পছন্দের পৃষ্ঠাগুলিতে এই এক্সট্র্যাক্টরগুলি চেষ্টা করতে পারেন।
সংখ্যাগুলি বলতে, বয়লারপাইপ উইকিতে " বেঞ্চমার্কস " পৃষ্ঠাটি দেখুন যা বয়লারপাইপ, পাঠযোগ্যতা এবং অ্যাপল সাফারি সহ কয়েকটি নিষ্কাশন কৌশলগুলির সাথে তুলনা করে।
আমার উল্লেখ করা উচিত যে এই অ্যালগোরিদমগুলি ধরে নিয়েছে যে মূল বিষয়বস্তুটি আসলে সম্পূর্ণ পাঠ্য। এমন কিছু ক্ষেত্রে রয়েছে যেখানে "মূল বিষয়বস্তু" অন্য কিছু, যেমন একটি চিত্র, একটি টেবিল, একটি ভিডিও ইত্যাদি al
চিয়ার্স,
খ্রীষ্টান