প্রশ্ন ট্যাগ «html-content-extraction»

30
এইচটিএমএল স্ক্র্যাপিংয়ের জন্য বিকল্পগুলি? [বন্ধ]
বন্ধ । এই প্রশ্নটি আরও ফোকাস করা প্রয়োজন । এটি বর্তমানে উত্তর গ্রহণ করছে না। এই প্রশ্নটি উন্নত করতে চান? প্রশ্নটি আপডেট করুন যাতে এটি কেবলমাত্র এই পোস্টটি সম্পাদনা করে একটি সমস্যার উপর দৃষ্টি নিবদ্ধ করে । 6 বছর আগে বন্ধ ছিল । আমি এইচটিএমএল স্ক্র্যাপিংয়ের জন্য পাইথন প্যাকেজটি বিউটিফুল …

30
পাইথন ব্যবহার করে এইচটিএমএল ফাইল থেকে পাঠ্য আহরণ করা হচ্ছে
আমি পাইথন ব্যবহার করে একটি HTML ফাইল থেকে পাঠ্যটি বের করতে চাই ract আমি মূলত একই আউটপুটটি পেতে চাই যদি আমি কোনও ব্রাউজার থেকে পাঠ্যটি অনুলিপি করে নোটপ্যাডে আটকান। আমি নিয়মিত ভাব প্রকাশের চেয়ে আরও শক্তিশালী কিছু চাই যা খারাপভাবে গঠিত এইচটিএমএলে ব্যর্থ হতে পারে। আমি অনেক লোককে বিউটিফুল স্যুপের …

8
একটি রেজেক্স ম্যাচের অংশটি বের করুন
আমি এইচটিএমএল পৃষ্ঠা থেকে শিরোনামটি বের করতে একটি নিয়মিত প্রকাশ চাই। বর্তমানে আমার কাছে এটি রয়েছে: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') কেবলমাত্র <শিরোনাম> এর সামগ্রীগুলি নিষ্কাশনের জন্য কি কোনও নিয়মিত অভিব্যক্তি রয়েছে তাই আমাকে ট্যাগগুলি সরাতে হবে না?

10
বিউটিউসলসপ গ্র্যাব দৃশ্যমান ওয়েবপেজ পাঠ্য
মূলত, আমি কোনও ওয়েবপৃষ্ঠায় দৃশ্যমান পাঠ্য কঠোরভাবে দখল করতে বিউটিফুলসপ ব্যবহার করতে চাই । উদাহরণস্বরূপ, এই ওয়েবপেজটি আমার পরীক্ষার কেস। এবং আমি মূলত কেবলমাত্র এখানে এবং সেখানে বডি টেক্সট (নিবন্ধ) এবং সম্ভবত কয়েকটি ট্যাব নাম পেতে চাই। আমি এই এসও প্রশ্নে পরামর্শটি চেষ্টা করেছি যা প্রচুর <script>ট্যাগ এবং এইচটিএমএল মন্তব্য …
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.