সম্প্রতি আমি শিখেছি যে আপনার প্রয়োজনীয় ডেটা পাওয়ার জন্য কোনও ওয়েবসাইটের এইচটিএমএলকে বিশ্লেষণ করার জন্য একটি রেজেক্স ব্যবহার করা সেরা ক্রিয়াকলাপ নয়।
সুতরাং আমার প্রশ্নটি সহজ: তবে কী, সবচেয়ে ভাল / সবচেয়ে দক্ষ এবং একটি সাধারণ স্থিতিশীল উপায় এই ডেটা পাওয়ার জন্য?
আমি এটা নোট করা উচিত:
- কোনও এপিআই এর নেই
- অন্য কোনও উত্স নেই যেখানে আমি ডেটা পেতে পারি (কোনও ডাটাবেস, ফিড এবং এ জাতীয় নয়)
- উত্স ফাইলগুলিতে কোনও অ্যাক্সেস নেই। (পাবলিক ওয়েবসাইট থেকে প্রাপ্ত ডেটা)
- ধরা যাক ডেটাটি স্বাভাবিক পাঠ্য, এইচটিএমএল পৃষ্ঠায় একটি টেবিলটিতে প্রদর্শিত হয়
আমি বর্তমানে আমার প্রকল্পের জন্য অজগর ব্যবহার করছি তবে একটি ভাষার স্বাধীন সমাধান / টিপস ভাল লাগবে।
একটি পার্শ্ব প্রশ্ন হিসাবে: ওয়েবপেজটি আজাক্স কল দ্বারা নির্মিত হলে আপনি কীভাবে তা ব্যবহার করবেন?
সম্পাদনা করুন:
এইচটিএমএল পার্সিংয়ের ক্ষেত্রে, আমি জানি যে ডেটা পাওয়ার কোনও স্থিতিশীল উপায় নেই। পৃষ্ঠা পরিবর্তন হওয়ার সাথে সাথেই আপনার পার্সারটি সম্পন্ন করা হবে। এই ক্ষেত্রে স্থিতিশীলের সাথে আমি কী বোঝাতে চাইছি তা হল: পৃষ্ঠাটি বিশ্লেষণের একটি কার্যকর উপায়, যা সর্বদা আমাকে একই ফলাফল দেয় (স্পষ্টরূপে ডেটার একই সেটের জন্য) যদি পৃষ্ঠার পরিবর্তন না হয় not