আমি কীভাবে সাইট স্ক্র্যাপিং প্রতিরোধ করব? [বন্ধ]


301

আমার একটি বৃহত শিল্পীর ডাটাবেস সহ মোটামুটি বড় সংগীত ওয়েবসাইট রয়েছে। আমি আমাদের সংগৃহীত ডেটা স্ক্র্যাপ করে অন্য মিউজিক সাইটগুলি লক্ষ্য করছি (আমি এখানে এবং সেখানে ডামি শিল্পীর নাম লিখি এবং তারপরে গুগল অনুসন্ধান করি)।

আমি কীভাবে স্ক্রিন স্ক্র্যাপিং রোধ করতে পারি? এটা কি সম্ভব?


9
আপনি কি আইপি বা অনুরূপ (আপনার লগগুলি পরীক্ষা করুন) এর মাধ্যমে তাদের স্ক্র্যাপার সনাক্ত করার চেষ্টা করার জন্য এবং কেবল সেইগুলির জন্য আপনার ডেটা সম্পূর্ণরূপে নকল করার কথা বিবেচনা করেছেন? এইভাবে, হ্যাঁ, তারা আপনার সাইটের "স্ক্র্যাপ" করবে তবে তাদের "ডেটা" অকেজো হবে।
লাসে ভি কার্লসেন

30
Downর্ধ্বমুখী ললক্যাটগুলি এবং বিপরীত / স্ক্র্যাম্বল্ড টেক্সট কেউ?
ওয়েইন ওয়ার্নার

2
অনুরূপ প্রশ্ন stackoverflow.com/questions/2705394/...
user279521


2
@ জোনাসসিজেড এটি ব্যঙ্গাত্মক কৌতুক ছিল। দুঃখজনক বিষয় হ'ল অনুরূপ প্রস্তাবটি আপনার উত্তরে অন্তর্ভুক্ত রয়েছে, সমালোচিত হলেও।
টোমা জ্যাটো - মনিকা

উত্তর:


325

দ্রষ্টব্য: যেহেতু এই উত্তরের সম্পূর্ণ সংস্করণ স্ট্যাক ওভারফ্লো দৈর্ঘ্যের সীমা অতিক্রম করেছে, তাই আপনাকে আরও টিপস এবং বিশদ সহ প্রসারিত সংস্করণটি পড়তে গিটহাবের দিকে যেতে হবে।


স্ক্র্যাপিং (বা ওয়েবস্ক্র্যাপিং , স্ক্রেনসক্র্যাপিং , ওয়েব ডেটা মাইনিং , ওয়েব ফসল তোলা , বা ওয়েব ডেটা এক্সট্রাকশন নামে পরিচিত) বাধা দেওয়ার জন্য , এই স্ক্র্যাপারগুলি কীভাবে কাজ করে তা এবং এক্সটেনশনের মাধ্যমে কী তাদের ভাল কাজ করতে বাধা দেয় তা জানতে সহায়তা করে।

বিভিন্ন ধরণের স্ক্র্যাপ রয়েছে এবং প্রতিটি আলাদা আলাদাভাবে কাজ করে:

  • যেমন মাকড়সা, Google এর বট মত বা ওয়েবসাইট copiers HTtrack , যা যাও recursively অর্ডার ডেটা পেতে অন্য পৃষ্ঠাগুলির লিঙ্কগুলি অনুসরণ করুন। এগুলি কখনও কখনও নির্দিষ্ট পৃষ্ঠা পেতে লক্ষ্যযুক্ত স্ক্র্যাপিংয়ের জন্য ব্যবহৃত হয়, প্রায়শই প্রতিটি পৃষ্ঠা থেকে পছন্দসই ডেটা উত্তোলনের জন্য এইচটিএমএল পার্সারের সাথে মিশ্রিত হয়।

  • শেল স্ক্রিপ্টস: কখনও কখনও, সাধারণ ইউনিক্স সরঞ্জামগুলি স্ক্র্যাপিংয়ের জন্য ব্যবহৃত হয়: পৃষ্ঠা ডাউনলোড করার জন্য উইজেট বা কার্ল এবং ডেটা বের করার জন্য গ্রেপ (রেজেক্স)।

  • এইচটিএমএল পার্সার, যেমন জসপ, স্কেরাপি এবং অন্যদের উপর ভিত্তি করে । শেল-স্ক্রিপ্ট রেজেক্স ভিত্তিক একটিগুলির মতো, এইচটিএমএলে নিদর্শনগুলির উপর ভিত্তি করে পৃষ্ঠাগুলি থেকে ডেটা আহরণ করে কাজ করে, সাধারণত সমস্ত কিছু উপেক্ষা করে।

    উদাহরণস্বরূপ: যদি আপনার ওয়েবসাইটটিতে কোনও অনুসন্ধান বৈশিষ্ট্য থাকে, তবে এই জাতীয় স্ক্র্যাপার কোনও অনুসন্ধানের জন্য একটি অনুরোধ জমা দিতে পারে এবং ফলাফলের পৃষ্ঠা থেকে এইচটিএমএল থেকে সমস্ত ফলাফলের লিঙ্ক এবং তাদের শিরোনামগুলি পেতে পারে, বিশেষভাবে কেবল অনুসন্ধান ফলাফলের লিঙ্ক এবং তাদের শিরোনামগুলি পেতে । এগুলি সবচেয়ে সাধারণ।

  • উদাহরণস্বরূপ স্ক্রীনস্ক্রেপারগুলি। সেলেনিয়াম বা ফ্যান্টমজেএস , যা আপনার ওয়েবসাইটকে একটি সত্যিকারের ব্রাউজারে খোলে, জাভাস্ক্রিপ্ট, এজেএক্স এবং আরও কিছু চালায় এবং তারপরে সাধারণত ওয়েবপেজ থেকে পছন্দসই পাঠ্যটি পান:

    • আপনার পৃষ্ঠাটি লোড হয়ে যাওয়ার পরে এবং জাভাস্ক্রিপ্ট চলার পরে ব্রাউজার থেকে এইচটিএমএল পাওয়া এবং তারপরে পছন্দসই ডেটা বের করার জন্য এইচটিএমএল পার্সার ব্যবহার করে। এগুলি সর্বাধিক সাধারণ এবং এইচটিএমএল পার্সার / স্ক্র্যাপার ভাঙ্গার জন্য অনেকগুলি পদ্ধতি এখানেও কাজ করে।

    • রেন্ডার করা পৃষ্ঠাগুলির স্ক্রিনশট নেওয়া এবং তারপরে স্ক্রিনশট থেকে পছন্দসই পাঠ্যটি বের করার জন্য ওসিআর ব্যবহার করা। এগুলি বিরল, এবং কেবলমাত্র ডেডিকেটেড স্ক্র্যাপার যারা সত্যই আপনার ডেটা চান এটি সেট আপ করবে।

  • যেমন Webscraping সেবা ScrapingHub বা কিমোনো । প্রকৃতপক্ষে, এমন লোক আছেন যাদের কাজ হ'ল কীভাবে আপনার সাইটটি স্ক্র্যাপ করবেন এবং অন্যদের ব্যবহারের জন্য সামগ্রীটি টেনে আনবেন।

    আশ্চর্যজনকভাবে, পেশাদার স্ক্র্যাপিং পরিষেবাদিগুলি প্রতিরোধ করা সবচেয়ে কঠিন, তবে কীভাবে আপনার সাইটটিকে স্ক্র্যাপ করা যায় তা নির্ধারণ করার জন্য আপনি যদি কঠোর এবং সময়োপযোগী হন, তবে এইগুলি (এবং যারা তাদের এটি করার জন্য অর্থ প্রদান করে) আপনার ওয়েবসাইটকে স্ক্র্যাপ করার জন্য বিরক্ত হবে না।

  • ফ্রেম সহ অন্যান্য সাইটের পৃষ্ঠাগুলিতে আপনার ওয়েবসাইট এম্বেড করা এবং মোবাইল অ্যাপ্লিকেশনগুলিতে আপনার সাইট এম্বেড করা।

    প্রযুক্তিগতভাবে স্ক্র্যাপিং না করার সময়, মোবাইল অ্যাপস (অ্যান্ড্রয়েড এবং আইওএস) ওয়েবসাইটগুলি এম্বেড করতে পারে এবং কাস্টম সিএসএস এবং জাভাস্ক্রিপ্ট ইনজেক্ট করতে পারে, এইভাবে আপনার পৃষ্ঠাগুলির উপস্থিতি পুরোপুরি বদলে দেয়।

  • মানব অনুলিপি - আটকান: লোকেরা আপনার সামগ্রীটি অন্যত্র ব্যবহার করার জন্য অনুলিপি এবং পেস্ট করবে।

এই বিভিন্ন ধরণের স্ক্র্যাপের মধ্যে প্রচুর ওভারল্যাপ রয়েছে এবং বিভিন্ন স্ক্র্যাপাররা একই রকম আচরণ করবে, যদিও তারা বিভিন্ন প্রযুক্তি এবং পদ্ধতি ব্যবহার করে।

এই টিপসটি বেশিরভাগ আমার নিজস্ব ধারণা, বিভিন্ন স্ক্র্যাপার লেখার সময় বিভিন্ন সমস্যার মুখোমুখি হয়েছিল, পাশাপাশি ইন্টারভেস্টের কাছ থেকে পাওয়া তথ্য এবং ধারণাগুলির বিট।

কীভাবে স্ক্র্যাপিং বন্ধ হবে

আপনি এটি সম্পূর্ণরূপে প্রতিরোধ করতে পারবেন না , যেহেতু আপনি যা করেন না কেন নির্ধারিত স্ক্র্যাপরা কীভাবে স্ক্র্যাপ করবেন তা নির্ধারণ করতে পারে। তবে কয়েকটি জিনিস করে আপনি প্রচুর স্ক্র্যাপিং বন্ধ করতে পারেন:

আপনার লগগুলি এবং ট্র্যাফিক নিদর্শনগুলি পর্যবেক্ষণ করুন; আপনি যদি অস্বাভাবিক ক্রিয়াকলাপ দেখেন তবে অ্যাক্সেস সীমাবদ্ধ করুন:

আপনার লগগুলি নিয়মিত পরীক্ষা করুন এবং স্বয়ংক্রিয় অ্যাক্সেস (স্ক্র্যাপার) এর অস্বাভাবিক ক্রিয়াকলাপের সূত্র, একই আইপি ঠিকানা থেকে অনেকগুলি অনুরূপ ক্রিয়াকলাপের ক্ষেত্রে আপনি অ্যাক্সেস অবরুদ্ধ বা সীমাবদ্ধ করতে পারেন।

বিশেষত, কিছু ধারণা:

  • হার সীমাবদ্ধকরণ:

    কেবলমাত্র ব্যবহারকারীদের (এবং স্ক্র্যাপারদের) নির্দিষ্ট সময়ে সীমাবদ্ধ সংখ্যক ক্রিয়া সম্পাদনের অনুমতি দিন - উদাহরণস্বরূপ, কেবলমাত্র নির্দিষ্ট আইপি ঠিকানা বা ব্যবহারকারীর থেকে প্রতি সেকেন্ডে কয়েকটি অনুসন্ধানের অনুমতি দিন। এটি স্ক্র্যাপারগুলিকে ধীর করবে এবং এগুলি অকার্যকর করে তুলবে। বাস্তবের ব্যবহারকারীর চেয়ে খুব দ্রুত বা দ্রুত সম্পন্ন হয়ে গেলে আপনি ক্যাপচাও প্রদর্শন করতে পারেন।

  • অস্বাভাবিক ক্রিয়াকলাপ সনাক্ত করুন:

    আপনি যদি অস্বাভাবিক ক্রিয়াকলাপ দেখতে পান যেমন নির্দিষ্ট আইপি ঠিকানা থেকে অনেক অনুরূপ অনুরোধ, কেউ অতিরিক্ত সংখ্যক পৃষ্ঠাগুলি দেখছেন বা অস্বাভাবিক সংখ্যক অনুসন্ধান করছেন তবে আপনি অ্যাক্সেস আটকাতে পারবেন, বা পরবর্তী অনুরোধগুলির জন্য একটি ক্যাপচা দেখাতে পারেন।

  • কেবল আইপি ঠিকানার মাধ্যমে নিরীক্ষণ এবং রেট সীমাটি রাখবেন না - অন্যান্য সূচকগুলিও ব্যবহার করুন:

    আপনি যদি ব্লক বা হার সীমাবদ্ধতা করেন তবে এটি কেবল প্রতি-আইপি ঠিকানার ভিত্তিতে করবেন না; নির্দিষ্ট ব্যবহারকারী বা স্ক্র্যাপার সনাক্ত করতে আপনি অন্যান্য সূচক এবং পদ্ধতিগুলি ব্যবহার করতে পারেন। কিছু সূচক যা আপনাকে নির্দিষ্ট ব্যবহারকারী / স্ক্র্যাপার সনাক্ত করতে সহায়তা করতে পারে:

    • ব্যবহারকারীরা কীভাবে দ্রুত ফর্মগুলি পূরণ করে এবং কোন বোতামে তারা ক্লিক করে;

    • আপনি জাভাস্ক্রিপ্টের সাহায্যে প্রচুর তথ্য সংগ্রহ করতে পারেন, যেমন স্ক্রিনের আকার / রেজোলিউশন, টাইমজোন, ইনস্টল করা ফন্ট ইত্যাদি; আপনি ব্যবহারকারীদের সনাক্ত করতে এটি ব্যবহার করতে পারেন।

    • এইচটিটিপি শিরোনাম এবং তাদের অর্ডার, বিশেষত ব্যবহারকারী-এজেন্ট।

    উদাহরণস্বরূপ, আপনি যদি একক আইপি ঠিকানা থেকে অনেক অনুরোধ পেয়ে থাকেন, সমস্ত একই ব্যবহারকারী এজেন্ট, পর্দার আকার (জাভাস্ক্রিপ্ট দ্বারা নির্ধারিত) এবং ব্যবহারকারী (এই ক্ষেত্রে স্ক্র্যাপার) সর্বদা একইভাবে এবং বোতামে ক্লিক করেন নিয়মিত বিরতি, এটি সম্ভবত স্ক্রিন স্ক্র্যাপার; এবং আপনি অস্থায়ীভাবে অনুরূপ অনুরোধগুলি ব্লক করতে পারেন (যেমন IP নির্দিষ্ট আইপি ঠিকানা থেকে আসা ব্যবহারকারী এজেন্ট এবং পর্দার আকারের সমস্ত অনুরোধগুলি ব্লক করুন), এবং এইভাবে আপনি সেই আইপি ঠিকানায় প্রকৃত ব্যবহারকারীদের অসুবিধে করবেন না, যেমন। শেয়ার করা ইন্টারনেট সংযোগের ক্ষেত্রে।

    আপনি এটিকে আরও গ্রহণ করতে পারেন, যেমন আপনি অনুরূপ অনুরোধগুলি সনাক্ত করতে পারেন, এমনকি যদি তারা বিভিন্ন আইপি ঠিকানা থেকে আসে তবে বিতরণ স্ক্র্যাপিংয়ের নির্দেশক (বোটনেট বা প্রক্সিগুলির নেটওয়ার্ক ব্যবহার করে একটি স্ক্র্যাপার)। যদি আপনি প্রচুর পরিমাণে অনুরূপ অনুরোধগুলি পান তবে সেগুলি বিভিন্ন আইপি ঠিকানা থেকে আসে তবে আপনি অবরুদ্ধ করতে পারবেন। আবার, অজান্তে প্রকৃত ব্যবহারকারীদের অবরুদ্ধ না করার বিষয়ে সচেতন হন।

    এটি জাভাস্ক্রিপ্ট চালিত স্ক্রীনস্ক্রেপারগুলির বিরুদ্ধে কার্যকর হতে পারে, কারণ আপনি তাদের কাছ থেকে প্রচুর তথ্য পেতে পারেন।

    সুরক্ষা স্ট্যাক এক্সচেঞ্জ সম্পর্কিত প্রশ্ন:

  • অস্থায়ীভাবে অ্যাক্সেস ব্লক করার পরিবর্তে ক্যাপচা ব্যবহার করুন:

    হার-সীমাবদ্ধকরণ কার্যকর করার সহজ উপায় হ'ল সাময়িকভাবে নির্দিষ্ট সময়ের জন্য অ্যাক্সেস ব্লক করা, তবে ক্যাপচা ব্যবহার করা আরও ভাল হতে পারে, আরও নীচে ক্যাপচায় বিভাগটি দেখুন।

নিবন্ধকরণ এবং লগইন প্রয়োজন

এটি আপনার সাইটের জন্য যদি সম্ভব হয় তবে আপনার সামগ্রীগুলি দেখতে অ্যাকাউন্ট তৈরির প্রয়োজন। এটি স্ক্র্যাপারদের জন্য একটি ভাল প্রতিরোধক, তবে প্রকৃত ব্যবহারকারীদের জন্য এটি একটি ভাল প্রতিরোধকও।

  • আপনার যদি অ্যাকাউন্ট তৈরি এবং লগইনের প্রয়োজন হয় তবে আপনি সঠিকভাবে ব্যবহারকারীর এবং স্ক্র্যাপের ক্রিয়াগুলি ট্র্যাক করতে পারেন। এইভাবে, আপনি কোনও নির্দিষ্ট অ্যাকাউন্টটি স্ক্র্যাপ করার জন্য ব্যবহার করা হচ্ছে তা সহজেই সনাক্ত করতে পারেন এবং এটি নিষিদ্ধ করেন। রেট সীমাবদ্ধ করা বা অপব্যবহার শনাক্ত করার মতো বিষয়গুলি (যেমন অল্প সময়ে বিশাল সংখ্যক অনুসন্ধান) সহজ হয়ে যায়, কারণ আপনি কেবল আইপি ঠিকানার পরিবর্তে নির্দিষ্ট স্ক্র্যাপার সনাক্ত করতে পারেন।

অনেক অ্যাকাউন্ট তৈরি করতে স্ক্রিপ্টগুলি এড়ানোর জন্য, আপনার উচিত:

  • নিবন্ধকরণের জন্য একটি ইমেল ঠিকানা প্রয়োজন এবং অ্যাকাউন্টটি সক্রিয় করতে অবশ্যই একটি লিঙ্ক প্রেরণ করে সেই ইমেল ঠিকানাটি যাচাই করুন। ইমেল ঠিকানার জন্য কেবলমাত্র একটি অ্যাকাউন্টের অনুমতি দিন।

  • নিবন্ধকরণ / অ্যাকাউন্ট তৈরির সময় একটি ক্যাপচা সমাধান করার প্রয়োজন।

বিষয়বস্তু দেখার জন্য অ্যাকাউন্ট তৈরির প্রয়োজনীয়তা ব্যবহারকারীদের এবং অনুসন্ধান ইঞ্জিনগুলিকে দূরে সরিয়ে দেবে; নিবন্ধটি দেখার জন্য যদি আপনার অ্যাকাউন্ট তৈরির প্রয়োজন হয়, ব্যবহারকারীরা অন্য কোথাও চলে যাবেন।

ক্লাউড হোস্টিং এবং স্ক্র্যাপিং পরিষেবা আইপি ঠিকানাগুলি থেকে অ্যাক্সেস ব্লক করুন

কখনও কখনও, স্ক্র্যাপারগুলি ওয়েব হোস্টিং পরিষেবাগুলি থেকে চালানো হবে, যেমন অ্যামাজন ওয়েব পরিষেবাদি বা জিএই, বা ভিপিএস। এই জাতীয় ক্লাউড হোস্টিং পরিষেবাদি দ্বারা ব্যবহৃত আইপি ঠিকানাগুলি থেকে উত্পন্ন অনুরোধগুলির জন্য আপনার ওয়েবসাইটে অ্যাক্সেস সীমাবদ্ধ করুন (বা একটি ক্যাপচা দেখান)।

একইভাবে, আপনি প্রক্সি বা ভিপিএন সরবরাহকারীদের দ্বারা ব্যবহৃত আইপি ঠিকানাগুলি থেকে অ্যাক্সেসও সীমাবদ্ধ করতে পারেন, কারণ স্ক্র্যাপাররা অনেকগুলি অনুরোধ সনাক্ত না হওয়ার জন্য এ জাতীয় প্রক্সি সার্ভার ব্যবহার করতে পারে।

সতর্কতা অবলম্বন করুন যে প্রক্সি সার্ভার এবং ভিপিএন থেকে অ্যাক্সেস অবরুদ্ধ করে আপনি প্রকৃত ব্যবহারকারীকে নেতিবাচকভাবে প্রভাবিত করবেন।

যদি আপনি অবরুদ্ধ করেন তবে আপনার ত্রুটি বার্তাকে ননডস্ক্রিপ্ট করুন

যদি আপনি অবরুদ্ধ / সীমাবদ্ধ অ্যাক্সেস করেন তবে আপনার অবশ্যই নিশ্চিত হওয়া উচিত যে আপনি কী স্ক্র্যাপারকে অবরুদ্ধ করার কারণে তা না জানিয়ে, যাতে তাদের স্ক্র্যাপটিকে কীভাবে ঠিক করবেন সে সম্পর্কে তাদের ক্লু দিয়ে দেওয়া উচিত। সুতরাং একটি খারাপ ধারণা হ'ল ত্রুটির পৃষ্ঠাগুলি যেমন পাঠ্য সহ দেখানো হবে:

  • আপনার আইপি ঠিকানা থেকে অনেকগুলি অনুরোধ, পরে আবার চেষ্টা করুন।

  • ত্রুটি, ব্যবহারকারী এজেন্ট শিরোনাম উপস্থিত নেই!

পরিবর্তে, একটি বন্ধুত্বপূর্ণ ত্রুটি বার্তা দেখান যা স্ক্র্যাপারকে বলে না যে এটি কী কারণে ঘটেছে। এরকম কিছু আরও ভাল:

  • দুঃখিত, কিছু ভুল হয়েছে। helpdesk@example.comসমস্যাটি যদি অব্যাহত থাকে তবে আপনি এর মাধ্যমে সহায়তার সাথে যোগাযোগ করতে পারেন ।

প্রকৃত ব্যবহারকারীদের জন্য এটি আরও অনেক বেশি ব্যবহারকারী বান্ধব, তাদের যদি কখনও এ জাতীয় ত্রুটি পৃষ্ঠাটি দেখা উচিত হয়। আপনার যদি সত্যিকারের ব্যবহারকারীর ত্রুটি বার্তাটি দেখে, যাতে আপনি অবরুদ্ধ না হন এবং বৈধ ব্যবহারকারীরা আপনার সাথে যোগাযোগ করতে পারে তার জন্য হার্ড ব্লকের পরিবর্তে পরবর্তী অনুরোধগুলির জন্য একটি ক্যাপচা দেখানো উচিত।

ক্যাপচা ব্যবহার করুন যদি আপনি সন্দেহ করেন যে আপনার ওয়েবসাইটটি কোনও স্ক্র্যাপ দ্বারা অ্যাক্সেস করা হচ্ছে।

ক্যাপচাগুলি ("সম্পূর্ণ কম্পিউটার ও মানুষকে আলাদা করার জন্য স্বয়ংক্রিয় পরীক্ষা") স্ক্র্যাপারগুলি থামানোর বিরুদ্ধে খুব কার্যকর। দুর্ভাগ্যক্রমে, তারা ব্যবহারকারীদের বিরক্ত করতেও খুব কার্যকর।

যেমন, যখন আপনি কোনও সম্ভাব্য স্ক্র্যাপার সন্দেহ করেন এবং স্ক্র্যাপিং বন্ধ করতে চান, তবে এটি কার্যকর হয় যদি এটি কোনও স্ক্র্যাপর নয় তবে প্রকৃত ব্যবহারকারী না হয় access আপনি যদি কোনও স্ক্র্যাপার সন্দেহ করেন তবে সামগ্রীটিতে অ্যাক্সেসের অনুমতি দেওয়ার আগে আপনি একটি ক্যাপচা দেখানো বিবেচনা করতে পারেন।

ক্যাপচা ব্যবহার করার সময় সচেতন হওয়া বিষয়গুলি:

  • নিজের রোল করবেন না, গুগলের রিক্যাপচা জাতীয় কিছু ব্যবহার করুন : ক্যাপচায় নিজেকে প্রয়োগ করার চেয়ে এটি অনেক সহজ, আপনি নিজের সাথে আসা কিছু অস্পষ্ট ও রশ্মিযুক্ত পাঠ্য সমাধানের চেয়ে ব্যবহারকারী-বান্ধব (ব্যবহারকারীদের কেবলমাত্র একটি বাক্স টিক লাগাতে হবে) ), এবং আপনার সাইট থেকে পরিবেশন করা কোনও সাধারণ চিত্রের চেয়ে স্ক্রিপ্টারের পক্ষে সমাধান করাও অনেক কঠিন

  • এইচটিএমএল মার্কআপে ক্যাপচার সমাধানটি অন্তর্ভুক্ত করবেন না: আমি আসলে এমন একটি ওয়েবসাইট দেখেছি যার পৃষ্ঠায় ক্যাপচার জন্য সমাধান ছিল , (যদিও এটি বেশ ভালভাবে লুকানো রয়েছে) সুতরাং এটি একেবারেই অকেজো করে তোলে। এরকম কিছু করবেন না। আবার, পুনঃক্যাপ্টচের মতো একটি পরিষেবা ব্যবহার করুন এবং আপনার এই ধরণের সমস্যা হবে না (যদি আপনি এটি সঠিকভাবে ব্যবহার করেন)।

  • ক্যাপচাগুলি বাল্কের মধ্যে সমাধান করা যেতে পারে: ক্যাপচা-সমাধানের পরিষেবাগুলি রয়েছে যেখানে প্রকৃত, স্বল্প বেতনের মানুষেরা বিপুল পরিমাণে ক্যাপচাকে সমাধান করে। আবার, পুনরায় ক্যাপচা ব্যবহার করা এখানে একটি ভাল ধারণা, কারণ তাদের সুরক্ষা রয়েছে (যেমন ক্যাপচাকে সমাধান করার জন্য ব্যবহারকারীর তুলনামূলক স্বল্প সময়ের জন্য)। আপনার ডেটা সত্যই মূল্যবান না হলে এই ধরণের পরিষেবা ব্যবহারের সম্ভাবনা নেই।

আপনার পাঠ্য সামগ্রীটি একটি চিত্র হিসাবে পরিবেশন করুন

আপনি একটি চিত্র সার্ভারের পাশের অংশে পাঠ্য রেন্ডার করতে পারেন এবং এটি প্রদর্শিত হতে পারে যা সাধারণ স্ক্র্যাপারগুলি পাঠ্য উত্তোলনের ক্ষেত্রে বাধা সৃষ্টি করবে।

তবে এটি পর্দার পাঠক, অনুসন্ধান ইঞ্জিন, পারফরম্যান্স এবং অন্য সব কিছুর পক্ষে খারাপ। এটি কিছু জায়গায় অবৈধ (অ্যাক্সেসযোগ্যতার কারণে, যেমন: প্রতিবন্ধী আইনের সাথে আমেরিকানরা), এবং কিছু ওসিআর দিয়ে ফেলাও সহজ, সুতরাং এটি করবেন না।

আপনি সিএসএস স্প্রাইটের সাথে একই রকম কিছু করতে পারেন তবে এটি একই সমস্যাতে ভুগছে।

আপনার সম্পূর্ণ ডেটাসেটটি প্রকাশ করবেন না:

যদি সম্ভব হয় তবে আপনার সমস্ত ডেটাসেট পাওয়ার জন্য কোনও স্ক্রিপ্ট / বটের কোনও উপায় সরবরাহ করবেন না। উদাহরণ হিসাবে: আপনার কাছে একটি নিউজ সাইট রয়েছে, প্রচুর স্বতন্ত্র নিবন্ধ রয়েছে। আপনি সেই নিবন্ধগুলি কেবলমাত্র সাইটে অনুসন্ধানের মাধ্যমে অনুসন্ধান করেই অ্যাক্সেসযোগ্য করে তুলতে পারবেন এবং যদি আপনার সাইটে সাইটের সমস্ত নিবন্ধ এবং তাদের ইউআরএলগুলির কোনও তালিকা না থাকে তবে articles নিবন্ধগুলি কেবল অনুসন্ধান ব্যবহার করে অ্যাক্সেসযোগ্য হবে বৈশিষ্ট্য। এর অর্থ হ'ল কোনও স্ক্রিপ্ট আপনার সাইট থেকে সমস্ত নিবন্ধ পেতে চাইছে এবং আপনার নিবন্ধগুলিতে প্রদর্শিত হতে পারে এমন সমস্ত সম্ভাব্য বাক্যাংশের অনুসন্ধান করতে হবে যা এগুলি সব সময় সাশ্রয়ী, ভয়াবহভাবে অকার্যকর এবং আশাবাদী করে তোলে খড়খড়ি ছেড়ে দেয়।

এটি অকার্যকর হবে যদি:

  • বট / স্ক্রিপ্ট যেভাবেই হোক না কেন পুরো ডেটাসেটের প্রয়োজন / চায় না।
  • আপনার নিবন্ধগুলি এমন একটি URL থেকে পরিবেশন করা হয়েছে যা দেখতে কিছুটা ভাল লাগে example.com/article.php?articleId=12345। এটি (এবং অনুরূপ জিনিস) যা স্ক্র্যাপারকে কেবলমাত্র সমস্ত এসকে পুনরাবৃত্তি করতে articleIdএবং সমস্ত নিবন্ধকে সেইভাবে অনুরোধ করবে।
  • অবশেষে সমস্ত নিবন্ধ সন্ধান করার অন্যান্য উপায় রয়েছে যেমন নিবন্ধগুলির মধ্যে লিঙ্কগুলি অনুসরণ করার জন্য একটি স্ক্রিপ্ট লিখে অন্য নিবন্ধগুলির দিকে পরিচালিত করে।
  • "এবং" বা "" "এর মতো কোনও কিছুর সন্ধান করা প্রায় সমস্ত কিছুই প্রকাশ করতে পারে, তাই এটি সচেতন হওয়ার মতো বিষয়। (আপনি কেবলমাত্র শীর্ষ 10 বা 20 টি ফলাফল ফিরিয়ে এড়াতে পারবেন)।
  • আপনার সামগ্রীটি খুঁজতে আপনার অনুসন্ধান ইঞ্জিনগুলির প্রয়োজন need

আপনার এপিআই, শেষ পয়েন্ট এবং অনুরূপ জিনিসগুলি প্রকাশ করবেন না:

নিশ্চিত হয়ে নিন যে আপনি কোনও এআইপি, এমনকি অনিচ্ছাকৃতভাবেই প্রকাশ করেন না। উদাহরণস্বরূপ, আপনি যদি নিজের ডেটা লোড করতে অ্যাডোব ফ্ল্যাশ বা জাভা অ্যাপলেটগুলির (forbশ্বর নিষেধ করুন!) এর মধ্যে থেকে এজেএক্স বা নেটওয়ার্ক অনুরোধগুলি ব্যবহার করছেন তবে পৃষ্ঠা থেকে নেটওয়ার্কের অনুরোধগুলি দেখার জন্য এবং সেই অনুরোধগুলি কোথায় যাচ্ছে তা নির্ধারণ করা ক্ষুদ্রতর এবং তারপরে ইঞ্জিনিয়ারটিকে বিপরীত করুন এবং স্ক্র্যাপ প্রোগ্রামে end শেষের পয়েন্টগুলি ব্যবহার করুন। নিশ্চিত হয়ে নিন যে আপনি নিজের শেষবিন্দুগুলি অবলম্বন করেছেন এবং বর্ণিত হিসাবে এটি অন্যদের ব্যবহারের জন্য কঠোর করে তুলছেন।

এইচটিএমএল পার্সার এবং স্ক্র্যাপারগুলি নিরস্ত করতে:

যেহেতু এইচটিএমএল পার্সারগুলি এইচটিএমএলে সনাক্তকরণযোগ্য নিদর্শনগুলির উপর ভিত্তি করে পৃষ্ঠা থেকে সামগ্রী বের করে কাজ করে, আমরা ইচ্ছাকৃতভাবে এই প্যাঁচগুলি ভাঙার জন্য এই প্যাটার্নগুলিকে ইচ্ছাকৃতভাবে পরিবর্তন করতে পারি, বা এমনকি তাদের সাথে স্ক্রুও করতে পারি। এই টিপসের বেশিরভাগগুলি অন্যান্য স্ক্র্যাপারগুলির মতো মাকড়সা এবং স্ক্রীনস্ক্রেপারগুলিতেও প্রয়োগ হয়।

আপনার এইচটিএমএল প্রায়শই পরিবর্তন করুন

এইচটিএমএল প্রক্রিয়াকরণকারী স্ক্র্যাপারগুলি আপনার HTML পৃষ্ঠার নির্দিষ্ট, সনাক্তকরণযোগ্য অংশগুলি থেকে সামগ্রীগুলি বের করে সরাসরি এটি করে। উদাহরণস্বরূপ: আপনার ওয়েবসাইটে সকল পৃষ্ঠা একটি থাকে তাহলে divএকজন আইডি সহ article-content, যা প্রবন্ধের পাঠ্য ধারণ, তাহলে এটি তুচ্ছ আপনার সাইটে সব নিবন্ধ পৃষ্ঠাগুলি দেখার একটি স্ক্রিপ্ট লিখতে এবং বিষয়বস্তু পাঠ্য নিষ্কাশন হয় article-contentDIV আছে প্রতিটি নিবন্ধের পৃষ্ঠায় এবং ভয়েলে, স্ক্র্যাপারের কাছে আপনার সাইটের সমস্ত নিবন্ধ এমন বিন্যাসে রয়েছে যা অন্য কোথাও পুনরায় ব্যবহার করা যেতে পারে।

আপনি যদি ঘন ঘন আপনার পৃষ্ঠাগুলির এইচটিএমএল এবং কাঠামো পরিবর্তন করেন তবে এই জাতীয় স্ক্র্যাপারগুলি আর কাজ করবে না।

  • আপনি প্রায়শই আপনার HTML এ আইডি এবং উপাদানগুলির ক্লাস পরিবর্তন করতে পারেন, এমনকি স্বয়ংক্রিয়ভাবেও। সুতরাং, যদি আপনার div.article-contentমতো কিছু হয়ে যায় div.a4c36dda13eaf0এবং প্রতি সপ্তাহে পরিবর্তিত হয় তবে স্ক্র্যাপারটি প্রাথমিকভাবে ঠিকঠাক কাজ করবে তবে এক সপ্তাহের পরে ভেঙে যাবে। আপনার আইডি / ক্লাসের দৈর্ঘ্যটিও পরিবর্তন করার বিষয়টি নিশ্চিত করুন, অন্যথায় স্ক্র্যাপার div.[any-14-characters]পরিবর্তে পছন্দসই ডিভিটি অনুসন্ধান করতে ব্যবহার করবে । অন্যান্য অনুরূপ গর্ত থেকেও সাবধান থাকুন ..

  • যদি মার্কআপ থেকে কাঙ্ক্ষিত সামগ্রীটি খুঁজে পাওয়ার কোনও উপায় না থাকে তবে স্ক্র্যাপার এইচটিএমএল স্ট্রাকচারের উপায় থেকে এটি করবে। সুতরাং, যদি সব আপনার নিবন্ধ পৃষ্ঠাগুলি যে অনুরূপ divভিতরে divযা আসে পরে h1নিবন্ধ বিষয়বস্তু, স্ক্র্যাপার নিবন্ধ উপর ভিত্তি বিষয়বস্তু পাবেন। আবার এটিকে ভেঙে ফেলার জন্য, আপনি আপনার এইচটিএমএলগুলিতে অতিরিক্ত সময়সূচক এবং এলোমেলোভাবে অতিরিক্ত মার্কআপ যুক্ত / সরিয়ে ফেলতে পারেন, যেমন। অতিরিক্ত divএস বা spanগুলি যোগ করা । আধুনিক সার্ভার সাইড এইচটিএমএল প্রসেসিং সহ, এটি খুব বেশি শক্ত হওয়া উচিত নয়।

সচেতন হওয়ার মতো বিষয়গুলি:

  • এটি বাস্তবায়ন, রক্ষণাবেক্ষণ এবং ডিবাগ করা ক্লান্তিকর এবং কঠিন হবে।

  • আপনি ক্যাশে বাধা দেবে। বিশেষত আপনি যদি আপনার এইচডিএমএল উপাদানগুলির আইডিস বা ক্লাসগুলি পরিবর্তন করেন তবে এর জন্য আপনার সিএসএস এবং জাভাস্ক্রিপ্ট ফাইলগুলিতে অনুরূপ পরিবর্তনগুলির প্রয়োজন হবে, যার অর্থ প্রতিবার আপনি এগুলি পরিবর্তন করুন, সেগুলি ব্রাউজারের মাধ্যমে পুনরায় ডাউনলোড করতে হবে। এর ফলে পুনরাবৃত্তি দর্শকদের জন্য দীর্ঘ পৃষ্ঠা লোড সময়, এবং সার্ভার লোড বৃদ্ধি পাবে। আপনি যদি সপ্তাহে একবার এটি পরিবর্তন করেন তবে এটি কোনও বড় সমস্যা হবে না।

  • চতুর স্ক্র্যাপাররা প্রকৃত সামগ্রী যেখানে যেমন অনুমান করে এখনও আপনার সামগ্রী পেতে সক্ষম হবে। এই পৃষ্ঠায় পাঠ্যের একটি বৃহত একক ব্লক সম্ভবত আসল নিবন্ধ হতে পারে তা জেনে। এটি পৃষ্ঠা থেকে পছন্দসই ডেটা এখনও সন্ধান এবং আহরণ করা সম্ভব করে। বয়লারপাইপ ঠিক এটি করে।

মূলত, নিশ্চিত হয়ে নিন যে স্ক্রিপ্টের জন্য প্রতিটি অনুরূপ পৃষ্ঠার জন্য প্রকৃত, পছন্দসই সামগ্রী খুঁজে পাওয়া সহজ নয়।

এটি কীভাবে পিএইচপি-তে কার্যকর করা যেতে পারে তার বিশদ জানতে এক্সপ্যাথের উপর নির্ভর করে ক্রলারদের কীভাবে পৃষ্ঠা বিষয়বস্তু পেতে রোধ করবেন তা দেখুন ।

ব্যবহারকারীর অবস্থানের ভিত্তিতে আপনার এইচটিএমএল পরিবর্তন করুন

এটি পূর্ববর্তী টিপের মতো ধরণের। যদি আপনি আপনার ব্যবহারকারীর অবস্থান / দেশের উপর ভিত্তি করে বিভিন্ন এইচটিএমএল পরিবেশন করেন (আইপি ঠিকানা দ্বারা নির্ধারিত), এটি স্ক্র্যাপারগুলিকে ভেঙে দিতে পারে যা ব্যবহারকারীদের কাছে সরবরাহ করা হয়। উদাহরণস্বরূপ, যদি কেউ এমন কোনও মোবাইল অ্যাপ লিখছেন যা আপনার সাইট থেকে ডেটা স্ক্র্যাপ করে তবে এটি প্রথমে ঠিকঠাক কাজ করবে, তবে এটি প্রকৃতপক্ষে ব্যবহারকারীদের মধ্যে বিতরণ করা হবে, কারণ সেই ব্যবহারকারীরা অন্য দেশে থাকতে পারে, এবং এইভাবে আলাদা এইচটিএমএল পাবেন যা এম্বেড থাকা স্ক্র্যাপ ব্যবহারের জন্য ডিজাইন করা হয়নি।

আপনার এইচটিএমএল ঘন ঘন পরিবর্তন করুন, সক্রিয়ভাবে স্ক্র্যাপারগুলির সাথে স্ক্রু করে এটি করে!

একটি উদাহরণ: আপনার ওয়েবসাইটে থাকা একটি অনুসন্ধান বৈশিষ্ট্য রয়েছে example.com/search?query=somesearchqueryযা এখানে নিম্নলিখিত এইচটিএমএল ফিরিয়ে দেয়:

<div class="search-result">
  <h3 class="search-result-title">Stack Overflow has become the world's most popular programming Q & A website</h3>
  <p class="search-result-excerpt">The website Stack Overflow has now become the most popular programming Q & A website, with 10 million questions and many users, which...</p>
  <a class"search-result-link" href="/stories/story-link">Read more</a>
</div>
(And so on, lots more identically structured divs with search results)

আপনি যেমন অনুমান করতে পারেন এটি স্ক্র্যাপ করা সহজ: সমস্ত স্ক্র্যাপারকে একটি অনুসন্ধানের সাথে অনুসন্ধানের URL টি চাপতে হবে এবং প্রত্যাবর্তিত এইচটিএমএল থেকে পছন্দসই ডেটা বের করতে হবে। উপরে বর্ণিত হিসাবে পর্যায়ক্রমে এইচটিএমএল পরিবর্তনের পাশাপাশি, আপনি পুরানো আইডিস এবং ক্লাসগুলিতে পুরানো মার্কআপটি ছেড়ে দিতে পারেন , এটি সিএসএস সহ লুকিয়ে রাখতে পারেন এবং এটি জাল ডেটা দিয়ে পূরণ করতে পারেন, যার ফলে স্ক্র্যাপটিকে বিষাক্ত করা হয়। অনুসন্ধান ফলাফলের পৃষ্ঠাটি কীভাবে পরিবর্তন করা যেতে পারে তা এখানে:

<div class="the-real-search-result">
  <h3 class="the-real-search-result-title">Stack Overflow has become the world's most popular programming Q & A website</h3>
  <p class="the-real-search-result-excerpt">The website Stack Overflow has now become the most popular programming Q & A website, with 10 million questions and many users, which...</p>
  <a class"the-real-search-result-link" href="/stories/story-link">Read more</a>
</div>

<div class="search-result" style="display:none">
  <h3 class="search-result-title">Visit Example.com now, for all the latest Stack Overflow related news !</h3>
  <p class="search-result-excerpt">Example.com is so awesome, visit now !</p>
  <a class"search-result-link" href="http://example.com/">Visit Now !</a>
</div>
(More real search results follow)

এর অর্থ এই হবে যে ক্লাস বা আইডির উপর ভিত্তি করে এইচটিএমএল থেকে ডেটা আহরণের জন্য লিখিত স্ক্র্যাপারগুলি আপাতদৃষ্টিতে কাজ করা চালিয়ে যাবে, তবে তারা জাল তথ্য বা এমনকী বিজ্ঞাপন, ডেটা পাবেন যা বাস্তব ব্যবহারকারীরা কখনই দেখতে পাবেন না, কারণ তারা সিএসএসের সাথে লুকিয়ে রয়েছে।

স্ক্র্যাপারের সাথে স্ক্রু: আপনার পৃষ্ঠায় জাল, অদৃশ্য হানিপোট ডেটা .োকান

পূর্ববর্তী উদাহরণে যুক্ত করে, আপনি স্ক্র্যাপারগুলি ধরতে আপনার HTML এ অদৃশ্য হানিপোট আইটেমগুলি যুক্ত করতে পারেন। পূর্বে বর্ণিত অনুসন্ধানের ফলাফলের পৃষ্ঠায় যুক্ত করা যেতে পারে এমন একটি উদাহরণ:

<div class="search-result" style="display:none">
  <h3 class="search-result-title">This search result is here to prevent scraping</h3>
  <p class="search-result-excerpt">If you're a human and see this, please ignore it. If you're a scraper, please click the link below :-)
  Note that clicking the link below will block access to this site for 24 hours.</p>
  <a class"search-result-link" href="/scrapertrap/scrapertrap.php">I'm a scraper !</a>
</div>
(The actual, real, search results follow.)

সমস্ত অনুসন্ধানের ফলাফল পেতে লিখিত স্ক্র্যাপারটি পৃষ্ঠাতে থাকা অন্য যে কোনও আসল অনুসন্ধানের ফলাফলের মতো এটি বেছে নেবে এবং পছন্দসই সামগ্রী অনুসন্ধান করে লিঙ্কটি ভিজিট করবে। একজন সত্যিকারের মানুষ কখনও এটিকে প্রথম স্থানে দেখতে পাবে না (এটি সিএসএসের সাথে লুকিয়ে থাকার কারণে), এবং লিঙ্কটি দেখতে পাবে না। গুগলের মতো একটি আসল এবং কাঙ্ক্ষিত মাকড়সা লিংকটি দেখতে পাবে না কারণ আপনি নিজের রোবট.এসটিএস্টে অস্বীকার /scrapertrap/করেছেন।

আপনি scrapertrap.phpযে আইপি ঠিকানাটি দেখেছেন তার জন্য ব্লক অ্যাক্সেসের মতো কিছু করতে বা সেই আইপি থেকে পরবর্তী সমস্ত অনুরোধের জন্য একটি ক্যাপচা জোর করতে পারে।

  • /scrapertrap/আপনার রোবট.টিএসটিএক্স ফাইলটিতে আপনার হানিপোট ( ) অস্বীকার করতে ভুলবেন না যাতে অনুসন্ধান ইঞ্জিনের বটগুলি এতে না পড়ে।

  • আপনার এইচটিএমএল ঘন ঘন পরিবর্তন করার আগের টিপটির সাথে আপনি এটি একত্র করতে পারেন / উচিত।

  • এটি প্রায়শই পরিবর্তন করুন, কারণ স্ক্র্যাপাররা শেষ পর্যন্ত এড়াতে শিখবে। হানিপোট URL এবং পাঠ্য পরিবর্তন করুন। আড়াল করার জন্য ব্যবহৃত ইনলাইন সিএসএস পরিবর্তন করার বিষয়টিও বিবেচনা করতে চান এবং পরিবর্তে একটি আইডি বৈশিষ্ট্য এবং বাহ্যিক সিএসএস ব্যবহার করুন, কারণ স্ক্র্যাপাররা styleবিষয়বস্তু আড়াল করতে ব্যবহৃত সিএসএসের সাথে কোনও বৈশিষ্ট্য রয়েছে এমন কিছু এড়াতে শিখবে । এছাড়াও কখনও কখনও কেবল এটি সক্ষম করার চেষ্টা করুন, যাতে স্ক্র্যাপারটি প্রাথমিকভাবে কাজ করে তবে কিছুক্ষণ পরে বিরতি হয়। এটি পূর্ববর্তী টিপের ক্ষেত্রেও প্রযোজ্য।

  • ক্ষতিকারক ব্যক্তিরা আপনার হানিপোটের একটি লিঙ্ক ভাগ করে বা এমনকি কোনও লিঙ্কটি কোনও চিত্র হিসাবে এম্বেড করে (উদাহরণস্বরূপ ফোরামে) প্রকৃত ব্যবহারকারীদের অ্যাক্সেসকে আটকাতে পারে। ইউআরএল ঘন ঘন পরিবর্তন করুন এবং কোনও নিষেধাজ্ঞার সময়কে তুলনামূলকভাবে ছোট করুন।

যদি আপনি কোনও স্ক্র্যাপ সনাক্ত করে তবে জাল এবং অকেজো ডেটা পরিবেশন করুন

আপনি যদি স্পষ্টতই স্ক্র্যাপারটি সনাক্ত করেন তবে আপনি জাল এবং অকেজো ডেটা পরিবেশন করতে পারেন; এটি আপনার ওয়েবসাইট থেকে স্ক্র্যাপার প্রাপ্ত ডেটাটিকে দূষিত করবে। এ জাতীয় জাল তথ্যকে সত্যিকারের ডেটা থেকে আলাদা করাও আপনার অসম্ভব করে দেওয়া উচিত, যাতে স্ক্র্যাপাররা যাতে জানতে না পারে যে সেগুলি স্ক্রু করা হচ্ছে।

উদাহরণ হিসাবে: আপনার একটি নিউজ ওয়েবসাইট রয়েছে; আপনি যদি অ্যাক্সেস অবরুদ্ধ করার পরিবর্তে কোনও স্ক্র্যাপ সনাক্ত করেন, জাল, এলোমেলোভাবে উত্পাদিত নিবন্ধগুলি পরিবেশন করুন এবং এটি স্ক্র্যাপার প্রাপ্ত ডেটাগুলিকে বিষাক্ত করবে। যদি আপনি আপনার নকল তথ্যকে আসল জিনিস থেকে পৃথক করে তুলতে পারেন তবে স্ক্র্যাপারদের তাদের পছন্দসই, যেমন আসল, আসল ডেটা পাওয়া শক্ত হবে।

ব্যবহারকারী এজেন্ট খালি / নিখোঁজ থাকলে অনুরোধগুলি গ্রহণ করবেন না

প্রায়শই, অলসভাবে লিখিত স্ক্র্যাপাররা তাদের অনুরোধের সাথে কোনও ব্যবহারকারী এজেন্ট শিরোনাম প্রেরণ করবে না, যেখানে সমস্ত ব্রাউজার পাশাপাশি সার্চ ইঞ্জিন মাকড়সা করবে।

আপনি যদি এমন কোনও অনুরোধ পেয়ে থাকেন যেখানে ব্যবহারকারী এজেন্ট শিরোনাম উপস্থিত নেই, আপনি একটি ক্যাপচা প্রদর্শন করতে পারেন, বা কেবল অবরুদ্ধ বা অ্যাক্সেস সীমাবদ্ধ করতে পারেন। (বা উপরে বর্ণিত হিসাবে জাল তথ্য পরিবেশন করুন, বা অন্য কিছু ..)

এটি ছদ্মবেশী হওয়া তুচ্ছ, তবে খারাপভাবে লিখিত স্ক্র্যাপার বিরুদ্ধে ব্যবস্থা হিসাবে এটি কার্যকর করা উপযুক্ত।

ব্যবহারকারী এজেন্ট যদি সাধারণ স্ক্র্যাপার হয় তবে অনুরোধগুলি গ্রহণ করবেন না; স্ক্র্যাপারদের দ্বারা ব্যবহৃত কালো তালিকাভুক্ত

কিছু ক্ষেত্রে স্ক্র্যাপাররা এমন একটি ব্যবহারকারী এজেন্ট ব্যবহার করবে যা কোনও আসল ব্রাউজার বা সার্চ ইঞ্জিন স্পাইডার ব্যবহার করে না যেমন:

  • "মজিলা" (ঠিক এটি, আর কিছুই নয় I've এটি ব্যবহার করে আমি এখানে স্ক্র্যাপিং সম্পর্কে কয়েকটি প্রশ্ন দেখেছি A সত্যিকারের ব্রাউজার কেবল কখনও এটি ব্যবহার করবে না)
  • "জাভা 1.7.43_u43" (ডিফল্টরূপে জাভার এইচটিপিআরএল সংযোগটি এরকম কিছু ব্যবহার করে))
  • "বিজকো ইজিস্ক্র্যাপিং স্টুডিও ২.০"
  • "উইজেট", "কার্ল", "লিবক্রেল", .. (উইজেট এবং সিআরএল কখনও কখনও বেসিক স্ক্র্যাপিংয়ের জন্য ব্যবহৃত হয়)

যদি আপনি দেখতে পান যে কোনও নির্দিষ্ট ব্যবহারকারী এজেন্ট স্ট্রিং আপনার সাইটে স্ক্র্যাপার দ্বারা ব্যবহৃত হয়, এবং এটি সত্যিকারের ব্রাউজারগুলি বা বৈধ মাকড়সা দ্বারা ব্যবহৃত হয় না, আপনি এটি আপনার কালো তালিকায় যুক্ত করতে পারেন।

যদি এটি সম্পদের (সিএসএস, চিত্রগুলি) অনুরোধ না করে তবে এটি সত্যিকারের ব্রাউজার নয়।

প্রকৃত ব্রাউজারটি (প্রায় সবসময়) ছবি এবং সিএসএসের মতো সম্পদের অনুরোধ এবং ডাউনলোড করবে। এইচটিএমএল পার্সার এবং স্ক্র্যাপারগুলি কেবল আসল পৃষ্ঠাগুলি এবং তাদের সামগ্রীতে আগ্রহী হবেনা।

আপনি আপনার সম্পদে অনুরোধগুলি লগ করতে পারেন এবং আপনি যদি কেবলমাত্র এইচটিএমএল-এর জন্য প্রচুর অনুরোধগুলি দেখতে পান তবে এটি একটি স্ক্র্যাপ হতে পারে।

সাবধান যে অনুসন্ধান ইঞ্জিন বটস, প্রাচীন মোবাইল ডিভাইস, স্ক্রিন রিডার এবং ভুল কনফিগার্ড ডিভাইসগুলিও সম্পদের জন্য অনুরোধ করতে পারে না।

কুকি ব্যবহার এবং প্রয়োজনীয়; ব্যবহারকারী এবং স্ক্র্যাপ ক্রিয়াগুলি ট্র্যাক করতে এগুলি ব্যবহার করুন।

আপনার ওয়েবসাইট দেখার জন্য আপনার কুকিজ সক্ষম করার প্রয়োজন হতে পারে। এটি অনভিজ্ঞ এবং নবাগত স্ক্র্যাপ লেখকদের বাধা দেবে, তবে কোনও স্ক্র্যাপারের পক্ষে কুকিজ প্রেরণ করা সহজ। যদি আপনি সেগুলি ব্যবহার করেন এবং প্রয়োজনীয় করেন, আপনি তাদের সাথে ব্যবহারকারীর এবং স্ক্র্যাপ ক্রিয়াগুলি ট্র্যাক করতে পারেন এবং এইভাবে হার-সীমাবদ্ধকরণ, অবরুদ্ধকরণ বা প্রতি-আইপি ভিত্তিতে প্রতি ব্যবহারকারীর উপর ক্যাপচা প্রদর্শন করতে পারেন।

উদাহরণস্বরূপ: যখন ব্যবহারকারী অনুসন্ধান সম্পাদন করে, একটি অনন্য সনাক্তকারী কুকি সেট করুন। ফলাফলের পৃষ্ঠাগুলি যখন দেখা হয়, সেই কুকিটি যাচাই করুন। যদি ব্যবহারকারী সমস্ত অনুসন্ধান ফলাফল খোলে (আপনি কুকি থেকে বলতে পারেন), তবে সম্ভবত এটি কোনও স্ক্র্যাপ।

কুকিগুলির ব্যবহার অকার্যকর হতে পারে, কারণ স্ক্র্যাপাররা তাদের অনুরোধের সাথে কুকিগুলি প্রেরণ করতে পারে এবং প্রয়োজনীয় হিসাবে এগুলি ত্যাগ করতে পারে। আপনি যদি সত্যিকারের ব্যবহারকারীদের কুকিজ অক্ষম করে থাকেন তাদের অ্যাক্সেসও রোধ করতে পারেন, যদি আপনার সাইটটি কেবল কুকিজের সাথে কাজ করে।

মনে রাখবেন যে আপনি যদি কুকি সেট এবং পুনরুদ্ধার করতে জাভাস্ক্রিপ্ট ব্যবহার করেন তবে আপনি জাভাস্ক্রিপ্ট চালাবেন না এমন স্ক্র্যাপারদের ব্লক করবেন, যেহেতু তারা তাদের অনুরোধের সাথে কুকি উদ্ধার করতে এবং প্রেরণ করতে পারবেন না।

আপনার সামগ্রী লোড করতে জাভাস্ক্রিপ্ট + অ্যাজাক্স ব্যবহার করুন

পৃষ্ঠাটি নিজে লোড হওয়ার পরে আপনি আপনার সামগ্রী লোড করার জন্য জাভাস্ক্রিপ্ট + এজেএক্স ব্যবহার করতে পারেন। এটি জাভাস্ক্রিপ্ট চালায় না এমন এইচটিএমএল পার্সারের পক্ষে সামগ্রীটিকে অ্যাক্সেসযোগ্য করে তুলবে। এটি প্রায়শই নবাগত এবং অনভিজ্ঞ প্রোগ্রামারদের স্ক্র্যাপ লেখার পক্ষে কার্যকর প্রতিরোধক।

সতর্ক হোন:

  • আসল সামগ্রীটি লোড করতে জাভাস্ক্রিপ্ট ব্যবহার করা ব্যবহারকারীর অভিজ্ঞতা এবং কর্মক্ষমতা হ্রাস পাবে

  • অনুসন্ধান ইঞ্জিনগুলি জাভাস্ক্রিপ্ট না চালাতে পারে, সুতরাং এগুলি আপনার সামগ্রীকে সূচিকরণ থেকে বিরত রাখে। এটি অনুসন্ধানের ফলাফলের পৃষ্ঠাগুলির জন্য সমস্যা নাও হতে পারে, তবে নিবন্ধের পৃষ্ঠাগুলির মতো অন্য জিনিসগুলির জন্যও এটি হতে পারে।

আপনার মার্কআপ, স্ক্রিপ্ট থেকে নেটওয়ার্কের অনুরোধগুলি এবং অন্যান্য কিছুর উদ্রেক করুন।

আপনি যদি নিজের ডেটা লোড করতে এজাক্স এবং জাভাস্ক্রিপ্ট ব্যবহার করেন তবে স্থানান্তরিত ডেটাটিকে অবিচ্ছিন্ন করুন। উদাহরণস্বরূপ, আপনি সার্ভারে আপনার ডেটা এনকোড করতে পারেন (বেস 64 বা আরও জটিল হিসাবে সাধারণ কিছু দিয়ে), এবং তারপরে ডিকোড করে ক্লায়েন্টে প্রদর্শন করতে পারেন, অ্যাজাক্সের মাধ্যমে আনার পরে। এর অর্থ হ'ল নেটওয়ার্ক ট্র্যাফিকের পরিদর্শন করা কোনও ব্যক্তি তাত্ক্ষণিকভাবে আপনার পৃষ্ঠাগুলি কীভাবে কাজ করে এবং ডেটা লোড করে তা দেখতে পাবেন না এবং আপনার শেষ পয়েন্টগুলি থেকে প্রত্যেকে সরাসরি অনুরোধের ডেটা অনুরোধ করা আরও কঠিন হবে কারণ তাদের আপনার ডেসক্র্যাম্বলিং অ্যালগরিদমকে রিভার্স-ইঞ্জিনিয়ারিং করতে হবে।

  • আপনি যদি ডেটা লোড করার জন্য অ্যাজাক্স ব্যবহার করেন তবে প্রথমে পৃষ্ঠাটি লোড না করে শেষ পয়েন্টগুলি ব্যবহার করা আপনার পক্ষে শক্ত করা উচিত, উদাহরণস্বরূপ প্যারামিটার হিসাবে কিছু সেশন কী প্রয়োজন, যা আপনি নিজের জাভাস্ক্রিপ্ট বা আপনার এইচটিএমএলে এম্বেড করতে পারেন।

  • আপনি আপনার অপ্রকাশিত ডেটা সরাসরি প্রাথমিক এইচটিএমএল পৃষ্ঠায় এম্বেড করতে পারেন এবং এটি ডিওবাফাসকেট করতে এবং প্রদর্শন করতে জাভাস্ক্রিপ্ট ব্যবহার করতে পারেন যা অতিরিক্ত নেটওয়ার্কের অনুরোধগুলি এড়াতে পারে। এটি করার ফলে এটি কেবলমাত্র এইচটিএমএল-কেবল পার্সার ব্যবহার করে ডেটা বের করা শক্ত হয়ে যাবে যা জাভাস্ক্রিপ্ট চালায় না, কারণ স্ক্র্যাপারটি লেখার জন্য আপনার জাভাস্ক্রিপ্টকে রিভার্সিং করতে হবে (যা আপনারও উচিত নয়)।

  • আপনি নিজের অবলম্বন পদ্ধতিগুলি নিয়মিত পরিবর্তন করতে এবং স্ক্র্যাপারগুলিকে ভেঙে ফেলতে চাইতে পারেন যারা এটি আবিষ্কার করেছেন।

এরকম কিছু করার বিভিন্ন অসুবিধা রয়েছে, যদিও:

  • এটি বাস্তবায়ন, রক্ষণাবেক্ষণ এবং ডিবাগ করা ক্লান্তিকর এবং কঠিন হবে।

  • এটি স্ক্র্যাপার এবং স্ক্রীনস্ক্রেপারগুলির বিরুদ্ধে অকার্যকর হবে যা আসলে জাভাস্ক্রিপ্ট চালায় এবং তারপরে ডেটা বের করে ract (সর্বাধিক সাধারণ এইচটিএমএল পার্সাররা জাভাস্ক্রিপ্ট চালায় না)

  • এটি যদি আপনার জাভাস্ক্রিপ্ট অক্ষম করে থাকে তবে প্রকৃত ব্যবহারকারীদের জন্য এটি আপনার সাইটটিকে অকার্যকর করে তুলবে।

  • পারফরম্যান্স এবং পৃষ্ঠা-লোড সময়গুলি ভোগ করবে।

অ কারিগরী:

  • লোককে স্ক্র্যাপ না করতে বলুন এবং কেউ কেউ এটি সম্মান করবে

  • একজন আইনজীবী সন্ধান করুন

  • আপনার ডেটা উপলভ্য করুন, একটি এপিআই সরবরাহ করুন:

    আপনি আপনার ডেটা সহজেই উপলভ্য করতে পারেন এবং এট্রিবিউশন এবং আপনার সাইটে ফিরে একটি লিঙ্কের প্রয়োজন। সম্ভবত এটির জন্য চার্জ করুন।

বিবিধ:

  • এছাড়াও বাণিজ্যিক স্ক্র্যাপিং সুরক্ষা পরিষেবাদি রয়েছে যেমন ক্লাউডফ্লেয়ার বা ডিস্টিল নেটওয়ার্কগুলি (এটি এখানে কীভাবে কাজ করে তার বিশদ ) যেমন এগুলি করে এবং আরও আপনার জন্য এন্টি স্ক্র্যাপিং ।

  • প্রকৃত ব্যবহারকারীদের জন্য ব্যবহারযোগ্যতা এবং স্ক্র্যাপ-প্রুফেন্সের মধ্যে একটি ভারসাম্য সন্ধান করুন: আপনি যা কিছু করেন তা ব্যবহারকারীর অভিজ্ঞতাকে একরকম বা অন্যভাবে নেতিবাচকভাবে প্রভাবিত করবে, আপসগুলি সন্ধান করবে।

  • আপনার মোবাইল সাইট এবং অ্যাপ্লিকেশনগুলি ভুলে যাবেন না। আপনার যদি একটি মোবাইল অ্যাপ থাকে তবে এটি স্ক্রিনস্ক্র্যাপও করা যেতে পারে এবং এটি ব্যবহার করে থাকা আরআরটি শেষ পয়েন্টগুলি নির্ধারণ করতে নেটওয়ার্ক ট্র্যাফিক পরিদর্শন করা যেতে পারে।

  • স্ক্র্যাপারগুলি অন্যান্য স্ক্র্যাপারগুলিকে স্ক্র্যাপ করতে পারে: যদি এমন কোনও ওয়েবসাইট থাকে যা আপনার কাছ থেকে সামগ্রী স্ক্র্যাপ করে থাকে তবে অন্যান্য স্ক্র্যাপাররা সেই স্ক্র্যাপারের ওয়েবসাইট থেকে স্ক্র্যাপ করতে পারে।

আরও পড়া:


11
এটি আমাকে এখানে এনেছে। বেশ একটি চিত্তাকর্ষক উত্তর। এছাড়াও, বেশ বিস্ময়কর সংশোধন ইতিহাস। পোস্টের জন্য ধন্যবাদ. আপনি একটি upvote পেতে। এটির জন্য পরিশ্রমের পরিমাণের কারণে নয়, তবে এটি আমার পক্ষে কার্যকর।
ডেভ দ্যমিনিয়ন

1
দুর্দান্ত উত্তর! এখানে কয়েকটি চিন্তা। A real browser will (almost always) request and download assets such as images and CSSঅ্যাক্সেসযোগ্যতা পাঠকদের জন্য সত্য? ক্যাপচা নষ্ট হয়েছে তাই কমপক্ষে পেশাদার পরিষেবাগুলি সম্ভবত এটির দ্বারা বাধা না পাবে। কুকিগুলির ব্যবহারের জন্য ইইউতে বিজ্ঞপ্তি / সম্মতি প্রয়োজন। Find a balance between usability for real users and scraper-proofnessপ্রোগ্রামিং সময় / জটিলতা বনাম আর্থিক সুবিধাও ভারসাম্য বজায় রাখে।
এরিক জে

5
@ জনহহ, তারা আগ্রহী হলে তারা এটি পড়বে'll অধিকন্তু, আমি এটিকে শিরোনাম এবং উপ-শিরোনামগুলির সাথে অনুচ্ছেদে বিভক্ত করেছি, যাতে লোকেরা এটি স্ক্যান করতে পারে এবং তাদের পছন্দসই অংশগুলি পড়তে পারে। এসও তেমন একইভাবে বেশ কয়েকটি দীর্ঘ উত্তর রয়েছে এবং লোকেরা সেগুলি পড়ে।
জোনাসসিজে - মনিকা পুনরায় ইনস্টল করুন

2
@ জোশক্রোজিয়র - আমি কেবলমাত্র মনে করি যে এই জাতীয় সাইটগুলি এই তথ্যের সাথে ভাল খেলছে না। আমি বলছি না তথ্য খারাপ।
জোনএইচ

2
PS বিষয়বস্তু ধারণার আমার স্টিগানোগ্রাফিক ফিঙ্গারপ্রিন্ট সম্ভবত আইন আদালতে ব্যবহার করা যেতে পারে। ধাক্কাটি কল্পনা করুন যখন আপনি প্রমাণ করেন যে আপনার ডেটা মালিক আপনার কাছ থেকে পেয়েছেন, সরাসরি ডেটাতে অনন্য বৈশিষ্ট্যের মাধ্যমে ...
এরিক

241

আমি ধরে নেব যে আপনি সেট আপ করেছেন robots.txt

অন্যরা যেমন উল্লেখ করেছে, স্ক্র্যাপাররা তাদের ক্রিয়াকলাপের প্রায় প্রতিটি দিকই নকল করতে পারে এবং খারাপ লোকদের কাছ থেকে আসা অনুরোধগুলি সনাক্ত করা খুব কঠিন।

আমি বিবেচনা করবে:

  1. একটি পৃষ্ঠা সেট আপ করুন /jail.html,।
  2. পৃষ্ঠায় অ্যাক্সেসটিকে নিষ্ক্রিয় করুন robots.txt(যাতে শ্রদ্ধাশীল মাকড়সা কখনই পরিদর্শন করবে না)।
  3. সিএসএস ( display: none) এর সাহায্যে এটি লুকিয়ে আপনার কোনও পৃষ্ঠায় একটি লিঙ্ক স্থাপন করুন ।
  4. দর্শকদের আইপি ঠিকানা রেকর্ড করুন /jail.html

এটি আপনাকে স্ক্র্যাপারদের থেকে অনুরোধগুলি দ্রুত সনাক্ত করতে সহায়তা করতে পারে যা আপনার প্রকাশ্যে অগ্রাহ্য করছে robots.txt

এছাড়াও আপনি আপনার করতে চাইতে পারেন /jail.htmlজাল তথ্য দিয়ে (ক পুরো সম্পূর্ণ ওয়েবসাইটে স্বাভাবিক হওয়া পৃষ্ঠার মত একই, সঠিক মার্কআপ আছে কিন্তু /jail/album/63ajdka, /jail/track/3aads8, ইত্যাদি)। এইভাবে, খারাপ স্ক্র্যাপারগুলিকে সম্পূর্ণরূপে অবরুদ্ধ করার সুযোগ না পাওয়া পর্যন্ত "অস্বাভাবিক ইনপুট" থেকে সতর্ক করা হবে না।


48
আমি আগে এই কৌশলটি "হানিপোট" হিসাবে উল্লেখ করেছি। এটি স্প্যাম ফিল্টারিংয়েও ব্যবহৃত একটি কৌশল, যেখানে আপনি কোনও পৃষ্ঠায় ইমেল ঠিকানা রেখেছিলেন তবে এটি লুকিয়ে রাখেন বা পরিষ্কার করে দিন এটি বৈধ মেল প্রেরণ লোকেদের পক্ষে নয়। তারপরে যে কোনও মেল সার্ভারের আইপি ঠিকানাটি সেই ঠিকানায় মেইল ​​সরবরাহ করে।
থোমাস্রুটার

12
এটি ধরে নিয়েছে তারা লিঙ্কগুলি হামাগুড়ি দিচ্ছে। বেশিরভাগ স্ক্র্যাপাররা কোনও প্রকারের কোনও ফর্ম জমা দেওয়ার এবং ফিরে আসা ডেটা স্ক্র্যাপ করার চেষ্টা করবে।
বায়রন হুইটলক

9
পার্ল স্ক্রিপ্ট দ্বারা উত্পন্ন অন্যান্য "পৃষ্ঠাগুলিতে" লিঙ্ক থাকা ইমেলের জন্য পার্ল ভিত্তিক হানিপটগুলি আমি দেখেছি। আইনী বটগুলি যা রোবটস.টি.এস.টি.টি পড়বে তা এগুলিতে তাকাবে না এবং এটি সিএসএসের মাধ্যমে ব্যবহারকারীদের কাছ থেকে লুকানো রয়েছে তবে স্ক্র্যাপারগুলি (বা ইমেল ফসল কাটা) পৃষ্ঠাগুলির অসীম-গভীরতার গাছে দ্রুত ধরা পড়ে, এগুলির সমস্ত খারাপ ডেটা রয়েছে। আপনার প্রতিটি পৃষ্ঠার শুরুতে স্ক্রিপ্টের লিঙ্কটি ঠিক রাখুন।
স্টিফেন পি

18
হানিপটগুলির জন্য টস করতে আরও একটি দুর্দান্ত জিনিস হ'ল টিয়ারগ্রুবিং (বা তারপাইটিং)। এটি আমার পছন্দসই একটি প্রাচীন কৌশল - যখন আপনি কোনও খারাপ লোক শনাক্ত করেন, আপনি তার স্প্যামিং / স্ক্র্যাপিং প্রক্রিয়াটি উদ্দেশ্যসূত্রে তার সংযোগগুলি যতক্ষণ না শারীরিকভাবে সম্ভব বাইরে রাখার মাধ্যমে একটি ক্রলটিতে আনেন them অবশ্যই, এটি তাদেরকে সতর্ক করতে পারে যে আপনি তাদের কাছেও রয়েছেন, তবে গোগো রঞ্জক এটি মজাদার। en.wikipedia.org/wiki/Teergrubing
womp

11
এই পদ্ধতির সাথে একমাত্র সমস্যা হ'ল আমি যদি কোনও জনপ্রিয় ফোরামে [img] thyite / জেলএইচটিএমএল [/ img] রাখি । আপনি আপনার সিস্টেমে লগইন করা টন আইপি পাবেন এবং কোনটি খারাপ তা ফিল্টার করা শক্ত হবে। আপনি যদি এই জাতীয় জিনিসটি আটকাতে চান তবে আপনাকে ইউআরএল-এ আইপির সাথে যুক্ত একটি টোকেন যুক্ত করতে হবে। জেল.এফপি? টি = হয়েভম এর মতো কিছু এবং ডাটাবেসে আপনার হয়েভম এবং আইপি যারা পৃষ্ঠাটি অনুরোধ করেছেন তার একটি সংযুক্তি রয়েছে।
HoLyVieR

48

এম।

গুরুতরভাবে: আপনার যদি কিছু টাকা থাকে তবে কোনও ভাল, সুন্দর, তরুণ আইনজীবীর সাথে কথা বলুন যিনি ইন্টারনেটগুলির চারপাশে তাদের উপায় জানেন। আপনি সত্যিই এখানে কিছু করতে সক্ষম হতে পারে। সাইটগুলি কোথায় অবস্থিত তার উপর নির্ভর করে আপনার দেশে কোনও আইনজীবী বন্ধ এবং ডেস্ক বা তার সমতুল্য লিখতে পারেন। আপনি কমপক্ষে জারজদের ভয় পেতে সক্ষম হতে পারে।

আপনার ডামি মান সন্নিবেশ নথি। ডামি মানগুলি সন্নিবেশ করান যা স্পষ্টভাবে (তবে অস্পষ্টভাবে) আপনাকে নির্দেশ করে। আমি মনে করি ফোন বুক সংস্থাগুলির সাথে এটি একটি সাধারণ অনুশীলন, এবং এখানে জার্মানিতে আমার মনে হয় যে নকল এন্ট্রিগুলির মাধ্যমে অনুলিপিগুলি 1: 1 অনুলিপি করে যখন কপিরাইটগুলি ফাঁস করে দেওয়া হয়েছিল তখন বেশ কয়েকটি ঘটনা ঘটেছে।

এটি আপনার লজ্জাজনক বিষয় হবে যদি এটি আপনাকে এইচটিএমএল কোডটি বিশৃঙ্খলা করতে, এসইও, বৈধতা এবং অন্যান্য জিনিসগুলি টেনে নিয়ে যায় (যদিও একটি টেম্প্লেটিং সিস্টেম যা প্রতিটি পৃষ্ঠার অনুরোধের জন্য কিছুটা আলাদা এইচটিএমএল কাঠামো ব্যবহার করে ইতিমধ্যে এর বিরুদ্ধে প্রচুর সহায়তা করতে পারে) স্ক্র্যাপারগুলি যা সর্বদা এইচটিএমএল স্ট্রাকচার এবং শ্রেণি / আইডি নামের উপর নির্ভর করে বিষয়বস্তু বের করে।

এর মতো কেসগুলি কপিরাইট আইনগুলির জন্য ভাল। অর্থোপার্জনের জন্য অন্য ব্যক্তির সৎ কাজকে ছুঁড়ে ফেলা এমন একটি বিষয় যা আপনার বিরুদ্ধে লড়াই করতে সক্ষম হওয়া উচিত।


9
কেবল শক্ত আইনি কাঠামোযুক্ত দেশগুলিতে কাজ করে।
টমএল

3
আইনজীবীরা দ্বন্দ্বকে সাফল্য দেয় - এবং এটি থেকে লাভ it কদাচিৎ যদি কোনও আইনজীবী আপনাকে আদালতে না যাওয়ার পরামর্শ দেয়। যে যার যারাই আপনাকে বলবে যে জিতানো এবং হেরে 'ন্যায়বিচার' এর সূক্ষ্ম ধারণা নিয়ে কিছুই করার নেই, তবে সেদিন আর্গুমেন্ট, মেজাজ এবং পক্ষপাতিত্ব রয়েছে। মনে রাখবেন যদি এটি ভুল হয়ে যায় তবে আপনি কেবল আপনার আইনজীবীর ব্যয়ের জন্যই দায়বদ্ধ হতে পারেন না, তবে অন্য পক্ষগুলিও, এবং যদি তারা মামলা-মোকদ্দমা করার সিদ্ধান্ত নেন - ভাল। আপনি সহজেই আপনার ঘর এবং আপনার জীবনের অন্য কোনও সম্পদ হারাতে পারেন। কোনও জুয়া নয় আমার পরামর্শ। আমি আপনাকে কোনও মূল্যে আদালত এড়াতে পরামর্শ দিচ্ছি।
ফ্র্যাঙ্কি

3
আমি @ টমল এর সাথে একমত যদি তারা পশ্চিমে থাকে তবে এটি কিছুটা প্রশংসনীয়। তবে তারা যদি ভারত / চীন / রাশিয়া / ইউক্রেন / যাই হয় - তবে, গুরুত্ব সহকারে, ন্যূনতম কোনও সুযোগ নেই। আমি রাশিয়ান আদালত সম্পর্কে বলতে পারি: তারা আপনার দাবি নিয়ে কাজ করতেও বিরক্ত করবে না।
হাইস্টেকার

35

এটি পুরোপুরি প্রতিরোধ করার জন্য আপনার পক্ষে করার মতো কিছুই নেই। স্ক্র্যাপাররা তাদের ব্যবহারকারী এজেন্টকে জাল করতে পারে, একাধিক আইপি ঠিকানা ইত্যাদি ব্যবহার করতে পারে এবং একটি সাধারণ ব্যবহারকারী হিসাবে উপস্থিত হতে পারে। আপনি কেবলমাত্র যা করতে পারেন তা হল পৃষ্ঠাটি লোড হওয়ার সময়ে পাঠ্যটি উপলভ্য না করা - এটি চিত্র, ফ্ল্যাশ দিয়ে তৈরি করুন বা জাভাস্ক্রিপ্টের সাহায্যে এটি লোড করুন। তবে, প্রথম দুটি খারাপ ধারণা এবং শেষ কিছুটি যদি নিয়মিত ব্যবহারকারীর জন্য জাভাস্ক্রিপ্ট সক্ষম না করা হয় তবে এটি অ্যাক্সেসযোগ্যতার সমস্যা be

যদি তারা সম্পূর্ণরূপে আপনার সাইটের নিন্দা করে এবং আপনার সমস্ত পৃষ্ঠায় রাইফেল করছে তবে আপনি কিছু রেট সীমাবদ্ধ করতে পারেন।

যদিও কিছু আশা আছে। স্ক্র্যাপাররা আপনার সাইটের ডেটা একটি সামঞ্জস্যপূর্ণ ফর্ম্যাটে থাকার উপর নির্ভর করে। আপনি যদি এটিকে এলোমেলো করে ফেলতে পারেন তবে এটি তাদের স্ক্র্যাপটি ভেঙে দিতে পারে। প্রতিটি লোডে পৃষ্ঠার উপাদানগুলির আইডি বা শ্রেণীর নাম পরিবর্তন করার মতো বিষয়গুলি But তবে এটি করা অনেক কাজ এবং এটির মূল্যবান কিনা তা আমি নিশ্চিত নই। এবং তারপরেও তারা সম্ভবত যথেষ্ট উত্সর্গের সাথে এটি পেতে পারে।


14
এমন একটি সিস্টেম তৈরি করা যা প্রতি মিনিটে আইপি কত পৃষ্ঠাগুলি দেখতে পারে তা সীমাবদ্ধ করে রাখা ভাল হ্যাক, কারণ স্ক্রিন স্ক্র্যাপাররা কোনও সাধারণ ব্যক্তির চেয়ে দ্রুত গতিতে সাইটটি ছিঁড়ে ফেলবে।
ট্র্যাভিসো

একমত। আইপিগুলির জন্য অর্থ ব্যয় হয় এবং বেশিরভাগ হোস্টিং সংস্থাগুলি সীমাবদ্ধ থাকে।
তাল ওয়েইস

পুনরায়: "প্রতিটি লোডের পৃষ্ঠার উপাদানগুলির আইডি বা শ্রেণীর নাম পরিবর্তন করার মতো বিষয়" " এটি খুব খারাপ নয় যদি আপনি পিএইচপি এর মাধ্যমে কোনও শ্রেণীর নাম তৈরি করেন এবং তারপরে কেবল <ডি ক্লাস = "<? পিএইচপি প্রতিধ্বনি $ myPHP জেনারেটেড ক্লাসনাম;?>"> ব্যবহার করেন তবে এটিকে একেবারে অনন্য করতে আপনি এলোমেলো স্ট্রিং ব্যবহার করতে পারেন। যে কোনও কিছু যা তাদের নিদর্শনগুলি সন্ধান করে তা ডিওএম থেকে পার্স করা অনেক কঠিন করে তোলে।
niggles

আইপি খুঁজে পাওয়া শক্ত নয়। এখানে প্রচুর প্রক্সি, বন্ধু কম্পিউটার, ওয়ার্ক কম্পিউটার, স্কুল কম্পিউটার, গ্রন্থাগার কম্পিউটার ...
ছদ্মবেশ

@ ব্যবহারকারী 257493: সত্য, তবে আমরা এখানে এমন কারোর কথা বলছি যা এখানে ডেটা স্ক্র্যাপ করছে। সম্ভাবনা তারা যেতে যাচ্ছে না হয় যে শুধু ফসল ডেটাতে অনেক প্রচেষ্টা। এবং যদি তারা তা করে, আপনি শেষ পর্যন্ত তাদের আইপি সরবরাহ বন্ধ করে দিন।
রাইগুয়ে

31

আপনার ডেটা অ্যাক্সেস করতে একটি এক্সএমএল এপিআই সরবরাহ করুন; এমন পদ্ধতিতে যা ব্যবহার করা সহজ। লোকেরা যদি আপনার ডেটা চায়, তবে তারা তা পেয়ে যাবে, আপনি পাশাপাশি বেরিয়ে যেতে পারেন।

এইভাবে আপনি কার্যকর পদ্ধতিতে কার্যকারিতার একটি উপসেট সরবরাহ করতে পারেন, এটি নিশ্চিত করে যে খুব কমপক্ষে স্ক্র্যাপাররা এইচটিটিপি অনুরোধগুলি এবং প্রচুর পরিমাণে ব্যান্ডউইদথকে গুজব করবে না।

তারপরে আপনাকে যা করতে হবে তা হ'ল এমন লোকদের বোঝানো যাঁরা আপনার ডেটা এপিআই ব্যবহার করতে চান। ;)


3
এটা খুব যুক্তিসঙ্গত বলে মনে হচ্ছে। স্ক্রিন স্ক্র্যাপিং প্রতিরোধ করা খুব কঠিন, এবং যদি আপনি কোনও এপিআই সরবরাহ করেন তবে আপনি এটিতে কিছুটা বিধিনিষেধ আরোপ করতে পারেন, বিজ্ঞপ্তিগুলি ("----.com" এর সামগ্রী) যোগ করতে পারেন এবং মূলত কী ডেটা দেওয়া হয় তা নিয়ন্ত্রণ করতে পারেন।
alecwh

6
@ আলেকো: এবং অ্যাক্সেসের জন্য চার্জ করুন!
আন্দ্রে কারন

3
আমি আপনাকে অনুগ্রহ দিয়েছি, আংশিক কারণ প্রতিটি ওয়েবসাইট যদি এটি করে তবে ওয়েবটি আরও ভাল। আসুন আশা করি এটি আরও সাধারণ হয়ে উঠেছে।
জোনাসসিজে - মনিকা

1
আপনি তাদের পরিষেবাটিতে নিবন্ধভুক্ত করার সাথে সাথে তারা সাধারণ সাইটে ফিরে আসবে
এমপি্লুঞ্জন

আমি এই কথোপকথনের বিপরীত দিকের একজন ব্যক্তি। আমি ব্রডওয়ে শোগুলির জন্য মডেলগুলি তৈরি করি এবং ঝরঝরে অ্যাক্সেসের পরিবর্তে আমার সমস্ত ডেটা স্ক্র্যাপ করতে হবে।
ইয়াকভ ব্র্রেসার

22

দুঃখিত, এটি করা সত্যিই বেশ কঠিন ...

আমি আপনাকে পরামর্শ দিচ্ছি যে আপনি বিনয়ের সাথে তাদের আপনার সামগ্রী ব্যবহার না করতে বলুন (যদি আপনার বিষয়বস্তু কপিরাইটযুক্ত থাকে)।

যদি এটি হয় এবং তারা এটিকে না নামায়, তবে আপনি ফারথার পদক্ষেপ নিতে পারেন এবং তাদের থামাতে এবং বন্ধ করার চিঠিটি পাঠাতে পারেন ।

সাধারণত, আপনি স্ক্র্যাপিং প্রতিরোধ করতে যা কিছু করুন সম্ভবত সম্ভবত আরও নেতিবাচক প্রভাব সহ শেষ হবে, যেমন অ্যাক্সেসিবিলিটি, বটস / মাকড়সা ইত্যাদি will


12

ঠিক আছে, সমস্ত পোস্ট যেমন বলেছে, আপনি যদি এটি অনুসন্ধান ইঞ্জিন-বান্ধব করতে চান তবে বটগুলি নিশ্চিতভাবে স্ক্র্যাপ করতে পারে।

তবে আপনি এখনও কয়েকটি জিনিস করতে পারেন এবং এটি 60-70% স্ক্র্যাপিং বটগুলির জন্য আকর্ষণীয় হতে পারে।

নীচের মত একটি চেক স্ক্রিপ্ট তৈরি করুন।

যদি কোনও নির্দিষ্ট আইপি ঠিকানা খুব দ্রুত পরিদর্শন করে থাকে তবে কয়েকটি ভিজিটের পরে (5-10) এর আইপি ঠিকানা + ব্রাউজারের তথ্য কোনও ফাইল বা ডাটাবেসে রাখুন।

পরবর্তী পদক্ষেপ

(এটি একটি পটভূমি প্রক্রিয়া এবং সর্বদা চলমান বা কয়েক মিনিটের পরে নির্ধারিত হবে)) এমন একটির অন্য স্ক্রিপ্ট তৈরি করুন যা সন্দেহজনক আইপি ঠিকানাগুলি চেক করা অব্যাহত রাখবে।

কেস ১. যদি ব্যবহারকারী এজেন্ট গুগল, বিং , ইয়াহু ( যেমন আপনি গুগল করে ব্যবহারকারী এজেন্টদের উপর আরও তথ্য সন্ধান করতে পারেন) এর মতো পরিচিত সার্চ ইঞ্জিনের হয়ে থাকেন । তারপরে আপনাকে অবশ্যই http://www.iplists.com/ দেখতে হবে । এই তালিকা এবং নিদর্শন মেলে চেষ্টা করুন। এবং যদি এটি কোনও নকল ব্যবহারকারী-এজেন্টের মতো মনে হয় তবে পরবর্তী দর্শনটিতে একটি ক্যাপচা পূরণ করতে বলুন । (আপনার বটসের আইপি অ্যাড্রেসগুলিতে আরও কিছু গবেষণা করা দরকার I আমি জানি এটি অর্জনযোগ্য এবং আইপি ঠিকানার হোয়িসও চেষ্টা করে দেখুন helpful এটি সহায়ক হতে পারে))

কেস ২. কোনও অনুসন্ধানের বোটের কোনও ব্যবহারকারী এজেন্ট: পরবর্তী দর্শনটিতে কেবল একটি ক্যাপচা পূরণ করতে বলুন।


+1 iplists.com ব্যবহার করা একটি দুর্দান্ত ধারণা
ড্যানিয়েল

10

দেরী উত্তর - এবং এছাড়াও এই উত্তর সম্ভবত আপনি শুনতে চান না ...

মাইসেলফ ইতোমধ্যে বিভিন্ন বিশেষায়িত ডেটা মাইনিং স্ক্র্যাপারগুলির অনেকগুলি (বহু দশক) লিখেছেন । (কেবলমাত্র আমি "ওপেন ডেটা" দর্শন পছন্দ করি)

অন্যান্য উত্তরে ইতিমধ্যে এখানে অনেক পরামর্শ রয়েছে - এখন আমি শয়তানের উকিলের ভূমিকা পালন করব করব এবং তাদের কার্যকারিতা প্রসারিত করব এবং / অথবা সংশোধন করব।

প্রথম:

  • যদি কেউ সত্যিই আপনার ডেটা চায়
  • আপনি কার্যকরভাবে (প্রযুক্তিগতভাবে) আপনার ডেটা আড়াল করতে পারবেন না
  • যদি ডাটা হওয়া উচিত আপনার "নিয়মিত ব্যবহারকারী" প্রকাশ্যে প্রবেশযোগ্য

কিছু প্রযুক্তিগত বাধা ব্যবহার করার চেষ্টা করা সমস্যার জন্য উপযুক্ত নয়, কারণ:

  • আপনার নিয়মিত ব্যবহারকারীদের ব্যবহারকারীর অভিজ্ঞতা খারাপ করে
  • নিয়মিত এবং স্বাগত বটগুলিতে (সার্চ ইঞ্জিন)
  • ইত্যাদি ...

সরল এইচএমটিএল - সহজ উপায় হ'ল প্লেইন এইচটিএমএল পৃষ্ঠাগুলিকে পার্স করা, ভাল সংজ্ঞায়িত কাঠামো এবং সিএসএস ক্লাস সহ উদাহরণস্বরূপ ফায়ারব্যাগের সাহায্যে উপাদানটি পরীক্ষা করা, এবং আমার স্ক্র্যাপারে সঠিক এক্সপাথ এবং / অথবা সিএসএস পাথ ব্যবহার করা যথেষ্ট।

আপনি গতিশীল এবং এইচটিএমএল কাঠামো জেনারেট করতে পারেন, আপনি গতিশীলভাবে সিএসএসের ক্লাস-নামগুলি তৈরি করতে পারেন (এবং সিএসএস নিজেও) (যেমন কিছু এলোমেলো শ্রেণীর নাম ব্যবহার করে) - তবে

  • আপনি ধারাবাহিক উপায়ে আপনার নিয়মিত ব্যবহারকারীদের কাছে তথ্যগুলি উপস্থাপন করতে চান
  • উদাহরণস্বরূপ আবার - স্ক্র্যাপার সেটআপ করার জন্য এটি আরও একবার পৃষ্ঠার কাঠামো বিশ্লেষণ করার জন্য যথেষ্ট।
  • এবং কিছু "ইতিমধ্যে পরিচিত সামগ্রী" বিশ্লেষণ করে এটি স্বয়ংক্রিয়ভাবে করা যেতে পারে
    • কেউ একবার আগেই জানতে পারে (আগের স্ক্র্যাপ দ্বারা), যেমন:
    • "ফিল কিলিন্স" সম্পর্কে কি তথ্য রয়েছে
    • "ফিল সংঘর্ষগুলি" পৃষ্ঠাটি যথেষ্ট পরিমাণে প্রদর্শন করে এবং (স্বয়ংক্রিয়ভাবে) বিশ্লেষণ করুন যে পৃষ্ঠাটি কীভাবে "আজ" গঠন করা হয়েছে :)

আপনি প্রতিটি প্রতিক্রিয়ার জন্য কাঠামো পরিবর্তন করতে পারবেন না, কারণ আপনার নিয়মিত ব্যবহারকারীরা আপনাকে ঘৃণা করবে। এছাড়াও, এটি স্ক্র্যাপারের জন্য নয় বরং আপনার (রক্ষণাবেক্ষণ) জন্য আরও ঝামেলা সৃষ্টি করবে। এক্সপথ বা সিএসএস পাথ পরিচিত সামগ্রী থেকে স্বয়ংক্রিয়ভাবে স্ক্র্যাপিং স্ক্রিপ্ট দ্বারা নির্ধারণযোগ্য।

আজাক্স - শুরুতে কিছুটা শক্ত, তবে অনেক সময় স্ক্র্যাপিং প্রক্রিয়াটি গতি বাড়িয়ে দেয় :) - কেন?

অনুরোধগুলি এবং প্রতিক্রিয়াগুলি বিশ্লেষণ করার সময়, আমি কেবলমাত্র আমার নিজস্ব প্রক্সি সার্ভার সেট করেছি (পার্ল লিখিত) এবং আমার ফায়ারফক্স এটি ব্যবহার করছে। অবশ্যই, কারণ এটি আমার নিজস্ব প্রক্সি - এটি সম্পূর্ণ লুকানো - লক্ষ্য সার্ভার এটিকে নিয়মিত ব্রাউজার হিসাবে দেখায়। (সুতরাং, কোনও এক্স-ফরওয়ার্ড-ফর এবং এ জাতীয় শিরোনাম নেই)। প্রক্সি লগগুলির উপর ভিত্তি করে, বেশিরভাগই এজাক্স অনুরোধগুলির "লজিক" নির্ধারণ করা সম্ভব, উদাহরণস্বরূপ, আমি বেশিরভাগ এইচটিএমএল স্ক্র্যাপিং এড়িয়ে যেতে পারি, এবং কেবল সুসংগঠিত এজাক্স প্রতিক্রিয়াগুলি (বেশিরভাগ জেএসএন ফর্ম্যাটে) ব্যবহার করতে পারি।

সুতরাং, এজাক্স খুব বেশি সাহায্য করে না ...

আরও কিছু জটিল হ'ল এমন পৃষ্ঠা যা অনেকগুলি প্যাক করা জাভাস্ক্রিপ্ট ফাংশন ব্যবহার করে

এখানে দুটি মূল পদ্ধতি ব্যবহার করা সম্ভব:

  • আনপ্যাক এবং জেএস বুঝতে এবং একটি স্ক্র্যাপ তৈরি করুন যা জাভাস্ক্রিপ্ট যুক্তি অনুসরণ করে (শক্ত উপায়)
  • বা ( পছন্দমত নিজেরাই ব্যবহার করা) - স্ক্র্যাপের জন্য মোজরেপল দিয়ে মজিলা ব্যবহার করা । উদাহরণস্বরূপ, আসল স্ক্র্যাপিং পুরো বৈশিষ্ট্যযুক্ত জাভাস্ক্রিপ্ট সক্ষম ব্রাউজারে করা হয়, যা ডান উপাদানগুলিতে ক্লিক করার জন্য প্রোগ্রাম করা হয় এবং ব্রাউজার উইন্ডো থেকে সরাসরি "ডিকোডড" প্রতিক্রিয়াগুলি ধরে ফেলতে পারে।

এই জাতীয় স্ক্র্যাপিং ধীরে ধীরে (স্ক্র্যাপিং নিয়মিত ব্রাউজারের মতো করা হয়) তবে তা is

  • সেট আপ করুন এবং ব্যবহার করা সহজ
  • এবং এটির মোকাবিলা করা প্রায় অসম্ভব :)
  • এবং "দ্রুত একই আইপি ভিত্তিক অনুরোধগুলি অবরুদ্ধ করা" রোধ করতে "আলগা" যাইহোক প্রয়োজন

ব্যবহারকারী-এজেন্ট ভিত্তিক ফিল্টারিং এ সব সাহায্য করে না। যে কোনও গুরুতর ডেটা-মাইনার এটিকে তার স্ক্র্যাপারে কিছু সঠিক ব্যক্তিতে সেট করে।

লগইন প্রয়োজন - সাহায্য করে না। সবচেয়ে সহজ উপায় এটি (কোনও বিশ্লেষণ ছাড়াই এবং / অথবা লগইন-প্রোটোকল স্ক্রিপ্ট না করে) মজিলা ব্যবহার করে এবং মোজরেপল ভিত্তিক স্ক্র্যাপ চালানোর পরে কেবল নিয়মিত ব্যবহারকারী হিসাবে সাইটে লগইন করছে ...

মনে রাখবেন, প্রয়োজনীয় লগইন বেনামি বটগুলির জন্য সহায়তা করে, তবে আপনার ডেটা স্ক্র্যাপ করতে চায় এমন ব্যক্তির বিরুদ্ধে সহায়তা করে না। তিনি কেবল নিয়মিত ব্যবহারকারী হিসাবে নিজেকে আপনার সাইটে নিবন্ধিত করুন।

ফ্রেম ব্যবহার করাও খুব কার্যকর নয়। এটি অনেকগুলি লাইভ চলচ্চিত্র পরিষেবা ব্যবহার করে এবং এটি পরাজিত করা খুব কঠিন নয়। ফ্রেমগুলি কেবল অন্য একটি এইচটিএমএল / জাভাস্ক্রিপ্ট পৃষ্ঠাগুলি যা বিশ্লেষণের জন্য প্রয়োজন ... যদি সমস্যাগুলির মূল্যবান ডেটা হয় - ডেটা-মাইনার প্রয়োজনীয় বিশ্লেষণ করবে।

আইপি-ভিত্তিক সীমাবদ্ধতা মোটেই কার্যকর নয় - এখানে প্রচুর পাবলিক প্রক্সি সার্ভার রয়েছে এবং এখানে টিওআরও রয়েছে ... :) এটি স্ক্র্যাপিংকে কমিয়ে দেয় না (যার জন্য সত্যিকার অর্থে আপনার ডেটা চায়) wants

চিত্রগুলিতে লুকানো ডেটা খুব শক্ত। (যেমন কেবল চিত্রগুলি সার্ভার-সাইডে ডেটা রূপান্তর করা)। "পরীক্ষামূলক" (ওসিআর) নিযুক্ত করা অনেক বার সহায়তা করে - তবে সত্যই - ডেটা স্ক্র্যাপের জন্য ঝামেলার মূল্য দিতে হবে। (যার বহুগুণ মূল্য হয় না)।

অন্যদিকে, আপনার ব্যবহারকারীরা এর জন্য আপনাকে ঘৃণা করবে। মাইসেলফ, (এমনকি স্ক্র্যাপিং না করে) এমন ওয়েবসাইটগুলি ঘৃণা করে যা ক্লিপবোর্ডে পৃষ্ঠার সামগ্রীটি অনুলিপি করতে দেয় না (কারণ তথ্যগুলি চিত্রগুলিতে রয়েছে, বা (মূর্খ বিষয়গুলি) কিছু কাস্টম জাভাস্ক্রিপ্ট ইভেন্ট ডানদিকের সাথে বন্ড করার চেষ্টা করছে: )

সবচেয়ে শক্ত সেই সাইটগুলি যা জাভা অ্যাপলেট বা ফ্ল্যাশ ব্যবহার করে এবং অ্যাপলেটটি অভ্যন্তরীণভাবে সুরক্ষিত https অনুরোধগুলি ব্যবহার করে । তবে দুবার ভাবেন - আপনার আইফোন ব্যবহারকারীরা কতটা খুশি হবেন ...;)। অতএব, বর্তমানে খুব কম সাইট তাদের ব্যবহার করছে। নিজেই, আমার ব্রাউজারে সমস্ত ফ্ল্যাশ সামগ্রী ব্লক করা হচ্ছে (নিয়মিত ব্রাউজিং সেশনে) - এবং ফ্ল্যাশের উপর নির্ভর করে এমন সাইটগুলি কখনও ব্যবহার করবেন না।

আপনার মাইলফলক হতে পারে ..., যাতে আপনি এই পদ্ধতিটি চেষ্টা করতে পারেন - কেবল মনে রাখবেন - আপনি সম্ভবত আপনার কিছু ব্যবহারকারীকে আলগা করবেন। এছাড়াও মনে রাখবেন, কিছু এসডাব্লুএফ ফাইলগুলি বিভাজনযোগ্য। ;)

ক্যাপচা (ভালগুলি - যেমন রিক্যাপ্টা) অনেক সাহায্য করে - তবে আপনার ব্যবহারকারীরা আপনাকে ঘৃণা করবে ... - শুধু কল্পনা করুন, যখন আপনার ব্যবহারকারীরা সমস্ত পৃষ্ঠায় সংগীত শিল্পীদের সম্পর্কিত তথ্য দেখানোর জন্য কিছু ক্যাপচার সমাধান করার প্রয়োজন হয় তখন তারা আপনাকে কীভাবে ভালবাসবে।

সম্ভবত চালিয়ে যাওয়ার দরকার নেই - আপনি ইতিমধ্যে ছবিতে এসেছেন।

এখন আপনার কি করা উচিত:

মনে রাখবেন: আপনার উপাত্ত লুকিয়ে রাখা প্রায় অসম্ভব, যদি আপনি অন্যদিকে তাদের নিয়মিত ব্যবহারকারীদের কাছে তাদের (বন্ধুত্বপূর্ণ উপায়ে) প্রকাশ করতে চান।

সুতরাং,

  • আপনার ডেটা সহজেই অ্যাক্সেসযোগ্য - কিছু এপিআই দ্বারা make
    • এটি সহজ ডেটা অ্যাক্সেসের অনুমতি দেয়
    • যেমন আপনার সার্ভারটি স্ক্র্যাপিং থেকে অফলোড করুন - আপনার পক্ষে ভাল
  • সঠিক ব্যবহারের অধিকার সেটআপ করুন (উদাহরণস্বরূপ উত্সটি উদ্ধৃত করতে হবে)
  • মনে রাখবেন, অনেকগুলি ডেটা কপিরাইট-সক্ষম নয় - এবং তাদের রক্ষা করা শক্ত
  • কিছু জাল তথ্য যুক্ত করুন (যেমন আপনি ইতিমধ্যে করেছেন) এবং আইনী সরঞ্জামগুলি ব্যবহার করুন
    • যেমন অন্যরা ইতিমধ্যে বলেছে, একটি "বন্ধ এবং বন্ধ চিঠি" প্রেরণ
    • অন্যান্য আইনী ক্রিয়াকলাপ (মামলা করা এবং পছন্দ করা) সম্ভবত জয়ের পক্ষে অত্যন্ত ব্যয়বহুল এবং শক্ত (বিশেষত মার্কিন যুক্তরাষ্ট্রে নয়)

আপনি কিছু প্রযুক্তিগত বাধা ব্যবহার করার চেষ্টা করার আগে দু'বার ভাবেন।

পরিবর্তে ডেটা-মাইনারদের ব্লক করার চেষ্টা হিসাবে, কেবলমাত্র আপনার ওয়েবসাইটের ব্যবহারযোগ্যতার সাথে আরও প্রচেষ্টা যুক্ত করুন। আপনার ব্যবহারকারী আপনাকে ভালবাসবে। প্রযুক্তিগত বাধাগুলিতে বিনিয়োগ করা সময় (এবং শক্তি) সাধারণত মূল্যহীন না - আরও ভাল ওয়েবসাইট তৈরির জন্য সময় ব্যয় করা ভাল ...

এছাড়াও, ডেটা-চোরগুলি সাধারণ চোরের মতো নয়।

আপনি যদি কোনও সস্তা বাড়ির অ্যালার্ম কিনে এবং একটি সতর্কতা যোগ করেন "এই বাড়িটি পুলিশের সাথে সংযুক্ত রয়েছে" - অনেক চোর এমনকি প্রবেশ করার চেষ্টাও করবে না। কারণ তাঁর একটি ভুল পদক্ষেপ - এবং তিনি কারাগারে যাচ্ছেন ...

সুতরাং, আপনি কেবলমাত্র কয়েক হাজার টাকা বিনিয়োগ করছেন, কিন্তু চোর বিনিয়োগ করে এবং বেশি ঝুঁকিপূর্ণ।

তবে ডেটা-চোরের তেমন ঝুঁকি নেই। ঠিক বিপরীত - যদি আপনি একটি ভুল পদক্ষেপ নেন (যেমন আপনি প্রযুক্তিগত বাধার ফলে কিছু বিইউজি প্রবর্তন করেন), আপনি আপনার ব্যবহারকারীদের শিথিল করবেন। যদি স্ক্র্যাপিং বটটি প্রথমবারের মতো কাজ না করে, কিছুই ঘটে না - ডেটা-মাইনার কেবল অন্য পদ্ধতির চেষ্টা করবে এবং / অথবা স্ক্রিপ্টটি ডিবাগ করবে।

এই ক্ষেত্রে, আপনার আরও অনেক বেশি বিনিয়োগের প্রয়োজন - এবং স্ক্র্যাপারটি খুব কম বিনিয়োগ করবে।

আপনি কোথায় নিজের সময় এবং শক্তি বিনিয়োগ করতে চান তা ভাবুন ...

পিএস: ইংলিশ আমার নেটিভ না - সুতরাং আমার ভাঙ্গা ইংরেজিটি ক্ষমা করুন ...


@ প্যারাপ্লুউই আপনার সত্যিকারের ফ্রি সামগ্রী এবং / অথবা ওপেন সোর্স মডেল সম্পর্কে পড়তে হবে - তারিখগুলি সম্পর্কে, এটি ইতিহাস, লক্ষ্য এবং নীতি সম্পর্কে। এবং বিশেষত ওপেন ডেটা সম্পর্কে - যার জন্য আমি আমার বেশিরভাগ স্ক্র্যাপার তৈরি করেছি ...
jm666

আমি ধারণাটি বুঝতে পারি, যদিও আমি আপনার অদ্ভুত সুপারিশগুলির জন্য আপনাকে ধন্যবাদ জানাই। সে সম্পর্কে আমাদের একটি আকর্ষণীয় কথোপকথন থাকতে পারে; তবে মনে হচ্ছে আমার মূল মন্তব্যটি কোনও তৃতীয় পক্ষ মুছে ফেলেছে। এবং তাই, আমরা আসলে কি সব পরে স্বাধীন?
প্যারাপ্লুয়ি

8

কারিগরি দৃষ্টিকোণ থেকে: আপনি একবারে অনেকগুলি প্রশ্নের সাথে হিট করলে গুগল কী করে তা কেবল মডেল করুন। এটি অনেকটা থামিয়ে দেওয়া উচিত।

আইনী দৃষ্টিকোণ থেকে: মনে হচ্ছে আপনি যে ডেটা প্রকাশ করছেন তা মালিকানাধীন নয়। মানে আপনি নাম এবং পরিসংখ্যান এবং অন্যান্য তথ্য প্রকাশ করছেন যা কপিরাইট করা যায় না।

যদি এটি হয় তবে স্ক্র্যাপাররা শিল্পীর নাম ইত্যাদি সম্পর্কে আপনার তথ্য পুনরায় বিতরণ করে কপিরাইট লঙ্ঘন করছে না তবে যাইহোক, তারা যখন আপনার সাইটটিকে মেমরিতে লোড করে তখন তারা কপিরাইট লঙ্ঘন করতে পারে কারণ আপনার সাইটে কপিরাইটযোগ্য (যেমন লেআউট ইত্যাদি) এমন উপাদান রয়েছে।

আমি ফেসবুক বনাম পাওয়ার ডটকম সম্পর্কে পড়ার এবং স্ক্রিন স্ক্র্যাপিং বন্ধ করতে ফেসবুক ব্যবহার করা যুক্তিগুলি দেখার পরামর্শ দিচ্ছি। আপনার ওয়েবসাইটকে স্ক্র্যাপ করা থেকে কাউকে থামানোর চেষ্টা করার মতো অনেক আইনী উপায় রয়েছে। এগুলি সুদূরপ্রসারী এবং কল্পনাপ্রসূত হতে পারে। কখনও কখনও আদালত যুক্তি কিনে দেয়। কখনও কখনও তারা না।

তবে, ধরে নিই যে আপনি সর্বজনীন ডোমেনের তথ্য প্রকাশ করছেন যা নাম এবং মৌলিক পরিসংখ্যানের মতো কপিরাইটযোগ্য নয় ... আপনার কেবল এটিকে মুক্ত বক্তৃতা এবং ওপেন ডেটার নামে যেতে দেওয়া উচিত। এটি হ'ল ওয়েবে সমস্ত বিষয়।


1
যদিও আপনি তথ্যটি কপিরাইট করতে সক্ষম নাও হতে পারেন তবে আপনি অবশ্যই ব্যবহারের শর্তাবলী স্ক্র্যাপিংয়ের বিরুদ্ধে একটি ধারা রাখতে পারেন। তারপরে, ব্যবহারের শর্তাবলী লঙ্ঘনের জন্য একটি বন্ধ এবং বন্ধ চিঠিটি প্রেরণ করুন।
আন্দ্রে কারন

1
নিখরচায় বক্তৃতা এবং উন্মুক্ত ডেটা আসলে ইন্টারনেটের চেতনা!
Ciara

হ্যাঁ, নিখরচায় বক্তব্য এবং এগুলি সব। তবে, স্ক্র্যাপাররা সম্ভবত ওপির বাজেট বা ব্যান্ডউইথের একটি উল্লেখযোগ্য পরিমাণ নষ্ট করার পাশাপাশি অনির্বাণযোগ্য ডেটা অনুলিপি করতে পারে।
jpaugh

8

যে জিনিসগুলি প্রাথমিক স্ক্র্যাপারগুলির বিরুদ্ধে কাজ করতে পারে:

  • আইপি ব্লক করা হচ্ছে
  • এজ্যাক্স প্রচুর ব্যবহার
  • রেফারার অনুরোধ শিরোনাম পরীক্ষা করুন
  • লগইন প্রয়োজন

জিনিসগুলি যা সাধারণভাবে সহায়তা করবে:

  • প্রতি সপ্তাহে আপনার বিন্যাস পরিবর্তন করুন
  • robots.txt আমাদের

আপনার ব্যবহারকারীদের আপনাকে ঘৃণা করতে সহায়তা করবে এমন জিনিসগুলি:

  • ক্যাপচা

8

আমি প্রচুর ওয়েব স্ক্র্যাপিং করেছি এবং আমার বিরক্তিকর বিষয়গুলির ভিত্তিতে আমার ব্লগে ওয়েব স্ক্র্যাপারগুলি বন্ধ করার জন্য কিছু কৌশল সংক্ষিপ্ত করে রেখেছি।

এটি আপনার ব্যবহারকারী এবং স্ক্র্যাপারদের মধ্যে একটি বাণিজ্য। আপনি যদি আইপি'র সীমাবদ্ধ করেন, ক্যাপচা ব্যবহার করুন, লগইন প্রয়োজন হয় ইত্যাদি আপনি স্ক্র্যাপারদের পক্ষে এমন কঠিন করে তোলেন। তবে এটি আপনার খাঁটি ব্যবহারকারীদেরও তাড়িয়ে দিতে পারে।


8

আপনার সর্বোত্তম বিকল্পটি দুর্ভাগ্যক্রমে মোটামুটি ম্যানুয়াল: ট্র্যাফিকের নিদর্শনগুলি অনুসন্ধান করুন যা আপনি বিশ্বাস করেন যে তাদের স্ক্র্যাপিংয়ের সূচক এবং তাদের আইপি ঠিকানাগুলি নিষিদ্ধ করে।

যেহেতু আপনি কোনও পাবলিক সাইটের কথা বলছেন তারপরে সাইট সন্ধান ইঞ্জিনকে বন্ধুত্বপূর্ণ করা সাইটটিকে স্ক্র্যাপিং-বান্ধব করে তুলবে। যদি কোনও সার্চ ইঞ্জিন আপনার সাইটের ক্রল করে এবং স্ক্র্যাপ করতে পারে তবে একটি দূষিত স্ক্র্যাপার পাশাপাশি এটিও করতে পারে। এটি চলার জন্য একটি সূক্ষ্ম লাইন।


4
আইপি ব্লকিং একটি স্ক্র্যাপারকে কমিয়ে দেবে তবে এটি আপনার সার্ভারের জন্যও অনেক কাজ। ধরা যাক আমি আপনাকে 1000 প্রক্সি দিয়ে স্ক্র্যাপ করেছি, আমি এখনও চাই আমার কাছে ডেটা পেয়েছি এবং এখন আপনার ফায়ারওয়াল একটি গোলমাল করছে।
pguardiario

1
আপনি যখন এটি করেন, তারা আপনার উপর অনুভূমিক হয়ে যাবে। আজ ১০০০০০ ঠিকানার জন্য এগুলির জন্য কোনও দাম নেই তবে আপনি যদি সেগুলি সমস্ত নিষিদ্ধ করার চেষ্টা করেন তবে আপনার সাইটটি ধীর করে দেয় - এবং তারা আইপিগুলি একবার বা দু'বারের বেশি দেখার জন্য ঘোরান
এমপি্লুজন

6

অবশ্যই এটা সম্ভব। 100% সাফল্যের জন্য, আপনার সাইটটিকে অফলাইনে রাখুন।

বাস্তবে আপনি এমন কিছু কাজ করতে পারেন যা স্ক্র্যাপিংকে আরও জটিল করে তোলে। গুগল ব্রাউজারটি পরীক্ষা করে এটি নিশ্চিত করে যে আপনি কোনও রোবট স্ক্র্যাপিং অনুসন্ধানের ফলাফল নন (যদিও এটি, অন্যান্য সমস্ত কিছুর মতো, ছদ্মবেশী হতে পারে)।

আপনার সাইটের প্রথম সংযোগ এবং পরবর্তী ক্লিকগুলির মধ্যে কয়েক সেকেন্ডের মতো দরকার যেমন আপনি করতে পারেন। আমি নিশ্চিত নই যে আদর্শ সময়টি কী হবে বা ঠিক কীভাবে এটি করা যায়, তবে এটি অন্য ধারণা।

আমি নিশ্চিত যে আরও বেশ কিছু লোক রয়েছে যাদের অনেক বেশি অভিজ্ঞতা আছে তবে আমি আশা করি যে এই ধারণাগুলি অন্তত কিছুটা সহায়ক হবে।


6

স্ক্রিন স্ক্র্যাপিং রোধ করতে এবং করতে কয়েকটি জিনিস আপনি করতে পারেন things কিছু খুব কার্যকর হয় না, অন্যরা (একটি ক্যাপচা) হয় তবে ব্যবহারের ক্ষেত্রে বাধা দেয়। আপনাকে এটিও মনে রাখতে হবে যে এটি বৈধ সাইটের স্ক্র্যাপারগুলিকে বাধা দিতে পারে যেমন সার্চ ইঞ্জিন সূচকগুলি।

যাইহোক, আমি ধরে নিই যে আপনি যদি এটিটি স্ক্র্যাপ না করতে চান তবে এর অর্থ আপনি অনুসন্ধান ইঞ্জিনগুলিও এটির সূচী করতে চান না।

আপনি চেষ্টা করতে পারেন এমন কয়েকটি জিনিস এখানে:

  • একটি ছবিতে পাঠ্য প্রদর্শন করুন। এটি যথেষ্ট নির্ভরযোগ্য এবং এটি ক্যাপচা-এর চেয়ে ব্যবহারকারীর জন্য খুব কম ব্যথাযুক্ত তবে এর অর্থ তারা কাটা এবং পেস্ট করতে পারবেন না এবং এটি প্রাকৃতিকভাবে স্কেল বা অ্যাক্সেসযোগ্য হবে না।
  • একটি ক্যাপচা ব্যবহার করুন এবং পৃষ্ঠাটি ফেরার আগে এটি সম্পন্ন করা প্রয়োজন। এটি একটি নির্ভরযোগ্য পদ্ধতি, তবে এটি কোনও ব্যবহারকারীর উপর চাপিয়ে দেওয়ার সবচেয়ে বড় ব্যথা।
  • পৃষ্ঠাগুলি দেখার আগে ব্যবহারকারীর একটি অ্যাকাউন্টে সাইন আপ করতে এবং তাদের ইমেল ঠিকানাটি নিশ্চিত করতে হবে। এটি বেশ কার্যকর হবে তবে পুরোপুরি নয় - স্ক্রিন-স্ক্র্যাপার হয়ত কোনও অ্যাকাউন্ট সেট আপ করতে পারে এবং তাদের জন্য লগ ইন করার জন্য চতুরতার সাথে তাদের স্ক্রিপ্টটি প্রোগ্রাম করতে পারে।
  • যদি ক্লায়েন্টের ব্যবহারকারী-এজেন্ট স্ট্রিংটি খালি থাকে তবে অ্যাক্সেস আটকে দিন। একটি সাইট-স্ক্র্যাপিং স্ক্রিপ্টটি প্রায়শই অলসভাবে প্রোগ্রাম করা হয়ে থাকে এবং কোনও ব্যবহারকারী-এজেন্ট স্ট্রিং সেট করে না, যেখানে সমস্ত ওয়েব ব্রাউজারগুলি তা করবে।
  • আপনি সনাক্ত পর্দা স্ক্র্যাপার ব্যবহারকারী-এজেন্ট স্ট্রিংগুলির একটি কালো তালিকা সেট আপ করতে পারেন। আবার এটি কেবল অলস-কোডেডদেরই সহায়তা করবে; একজন প্রোগ্রামার যিনি জানেন তিনি কী করছেন কোনও ব্যবহারকারী-এজেন্ট স্ট্রিং সেট করতে পারেন একটি ওয়েব ব্রাউজারের ছদ্মবেশ।
  • URL টি প্রায়শই পরিবর্তন করুন। আপনি যখন এটি পরিবর্তন করেন, নিশ্চিত হয়ে নিন যে পুরানোটি কাজ করে চলেছে তবে কেবলমাত্র একজন ব্যবহারকারী যতক্ষণ তার ব্রাউজার খোলা রাখার সম্ভাবনা রয়েছে। নতুন ইউআরএল পথটি কী হবে তা অনুমান করা শক্ত করুন hard স্ক্রিপ্টগুলি যদি তাদের URL টি হার্ড-কোডেড থাকে তবে এটি দখল করা কঠিন করে তুলবে। কোনও ধরণের স্ক্রিপ্ট দিয়ে এটি করা ভাল।

যদি আমার এটি করতে হয় তবে আমি সম্ভবত শেষ তিনটির সংমিশ্রণটি ব্যবহার করব, কারণ তারা বৈধ ব্যবহারকারীদের অসুবিধা হ্রাস করে। যাইহোক, আপনাকে মেনে নিতে হবে যে আপনি এইভাবে সবাইকে অবরুদ্ধ করতে পারবেন না এবং একবার কেউ কীভাবে এটির আশেপাশে যাবেন তা আবিষ্কার করলে তারা চিরতরে এটিকে মুছতে সক্ষম হবেন। আমার ধারণা অনুসারে আপনি কেবল তাদের আইপি ঠিকানাগুলি ব্লক করার চেষ্টা করতে পারেন।


6
  1. না, থামানো সম্ভব নয় (কোনও উপায়ে)
  2. এটা আলিঙ্গন. আরডিএফএ হিসাবে প্রকাশিত হবে না এবং সুপার অনুসন্ধান ইঞ্জিন বান্ধব হয়ে ডেটা পুনরায় ব্যবহারকে উত্সাহিত করবে না কেন? লোকেরা আপনাকে ধন্যবাদ জানাবে এবং creditণ প্রদান করবে যেখানে যথাযথভাবে (উদাহরণ হিসাবে মিউজিব্রাইনজ দেখুন)।

এটি সম্ভবত আপনি যে উত্তর চান তা নয়, তবে আপনি যা প্রকাশ করার চেষ্টা করছেন তা কেন গোপন করবেন?


5

পদ্ধতি এক (কেবলমাত্র ছোট সাইট):
এনক্রিপ্ট করা / এনকোডড ডেটা পরিবেশন করুন।
আমি অজগর (urllib, অনুরোধগুলি, সুন্দরী স্যুপ ইত্যাদি ...) ব্যবহার করে ওয়েবটি স্কেপ করেছি এবং অনেকগুলি ওয়েবসাইট পেয়েছি যা এনক্রিপ্টড / এনকোডড ডেটা পরিবেশন করে যা কোনও প্রোগ্রামিং ভাষায় ডিক্রিপ্ট-সক্ষম হয় না কেবল এনক্রিপশন পদ্ধতির অস্তিত্বের কারণে না।

আমি পিএইচপি ওয়েবসাইটে আউটপুট এনক্রিপ্ট করে এবং কমানোর মাধ্যমে এটি অর্জন করেছি (সতর্কতা: এটি বড় সাইটের পক্ষে ভাল ধারণা নয়) প্রতিক্রিয়া সর্বদা ঝাঁকুনিযুক্ত সামগ্রী ছিল।

পিএইচপি-তে আউটপুট হ্রাস করার উদাহরণ ( পিএইচপি পৃষ্ঠার এইচটিএমএল আউটপুটটি কীভাবে ছোট করবেন? ):

<?php
  function sanitize_output($buffer) {
    $search = array(
      '/\>[^\S ]+/s', // strip whitespaces after tags, except space
      '/[^\S ]+\</s', // strip whitespaces before tags, except space
      '/(\s)+/s'      // shorten multiple whitespace sequences
    );
    $replace = array('>', '<', '\\1');
    $buffer = preg_replace($search, $replace, $buffer);
    return $buffer;
  }
  ob_start("sanitize_output");
?>

দ্বিতীয় পদ্ধতি:
আপনি যদি তাদের আটকাতে না পারেন তবে প্রতিক্রিয়া হিসাবে নকল / অকেজো ডেটা পরিবেশন করার জন্য তাদের স্ক্রু করতে পারেন।

পদ্ধতি তিনটি:
সাধারণ স্ক্র্যাপিং ব্যবহারকারী এজেন্টদের ব্লক করুন, আপনি এটি প্রধান / বৃহত ওয়েবসাইটগুলিতে দেখতে পাবেন কারণ আপনি ব্যবহারকারী-এজেন্ট হিসাবে "পাইথন 3.4" দিয়ে তাদের স্ক্র্যাপ করা অসম্ভব।

চারটি পদ্ধতি:
নিশ্চিত হয়ে নিন যে সমস্ত ব্যবহারকারীর শিরোনাম বৈধ কিনা, আমি মাঝে মাঝে আমার স্ক্র্যাপটিকে একটি খাঁটি ব্যবহারকারীর মতো দেখানোর জন্য যথাসম্ভব অনেকগুলি শিরোনাম সরবরাহ করি, এর মধ্যে কিছু সত্য এমনকি এন-এফইউ এর মতো বৈধ নয় :)।
আমি সাধারণত সরবরাহ করে এমন কয়েকটি শিরোনামের তালিকা এখানে।

headers = {
  "Requested-URI": "/example",
  "Request-Method": "GET",
  "Remote-IP-Address": "656.787.909.121",
  "Remote-IP-Port": "69696",
  "Protocol-version": "HTTP/1.1",
  "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
  "Accept-Encoding": "gzip,deflate",
  "Accept-Language": "en-FU,en;q=0.8",
  "Cache-Control": "max-age=0",
  "Connection": "keep-alive",
  "Dnt": "1",  
  "Host": "http://example.com",
  "Referer": "http://example.com",
  "Upgrade-Insecure-Requests": "1",
  "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.111 Safari/537.36"
}

2

বটগুলিকে কালো তালিকাভুক্ত করার পরিবর্তে, আপনার সেগুলি হোয়াইটলিস্ট করা উচিত। শীর্ষস্থানীয় কয়েকটি ইঞ্জিনের জন্য আপনি যদি অনুসন্ধানের ফলাফলগুলিকে হত্যা করতে না চান তবে আপনি তাদের ব্যবহারকারী-এজেন্ট স্ট্রিংগুলিকে হোয়াইটলিস্ট করতে পারেন, যা সাধারণত ভাল প্রচারিত হয়। কম নৈতিক বটগুলি জনপ্রিয় ওয়েব ব্রাউজারগুলির ব্যবহারকারী-এজেন্ট স্ট্রিং জালিয়াতি করে। শীর্ষস্থানীয় কয়েকটি অনুসন্ধান ইঞ্জিনগুলি আপনার ট্র্যাফিকের 95% এর উপরে চালিত হওয়া উচিত।

অন্যান্য পোস্টাররা যে কৌশলগুলি ব্যবহার করেছেন সেগুলি ব্যবহার করে নিজেরাই বটগুলি চিহ্নিত করা মোটামুটি সোজা হওয়া উচিত।


2

এটির কাছে দ্রুত যোগাযোগ হ'ল বুবি / বট ফাঁদ সেট করা।

  1. এমন একটি পৃষ্ঠা তৈরি করুন যা এটি নির্দিষ্ট পরিমাণে খোলা থাকলে বা একেবারে খোলার পরেও আইপি এবং হোয়াট নোটের মতো নির্দিষ্ট তথ্য সংগ্রহ করবে (আপনি অনিয়ম বা নিদর্শনগুলিও বিবেচনা করতে পারেন তবে এই পৃষ্ঠাটি মোটেও খোলার দরকার নেই)।

  2. আপনার পৃষ্ঠায় এটির জন্য একটি লিঙ্ক তৈরি করুন যা সিএসএস প্রদর্শনের সাথে লুকানো রয়েছে: কোনওটি নয়; বা বাম: -9999px; positon: পরম; এগুলিকে এমন জায়গাগুলিতে রাখার চেষ্টা করুন যা আপনার সামগ্রীর অধীনে চলে আসে এবং আপনার পাদলেখের মতো নয় যেখানে কখনও কখনও বটগুলি কোনও পৃষ্ঠার নির্দিষ্ট অংশগুলি ভুলে যেতে বেছে নিতে পারে like

  3. আপনার রোবটস.টি.এস.টি. ফাইলটিতে আপনি যে পৃষ্ঠাগুলি বন্ধুত্বপূর্ণ বটগুলি চান না (LOL, যেমন তাদের খুশির মুখগুলি আছে!) চান না তাদের পুরো পৃষ্ঠাটি সেট করুন এবং এই পৃষ্ঠাটিকে সেগুলির মধ্যে একটি হিসাবে সেট করুন।

  4. এখন, যদি বন্ধুত্বপূর্ণ বট আসে তবে সেই পৃষ্ঠাটিকে উপেক্ষা করা উচিত। ঠিক আছে তবে এটি এখনও যথেষ্ট ভাল নয়। এই পৃষ্ঠাগুলির মধ্যে আরও কয়েকটি তৈরি করুন বা পৃথক নামগুলি গ্রহণ করার জন্য কোনওরকম কোনও পৃষ্ঠাটিকে পুনরায় রুট করুন। এবং তারপরে আপনি অগ্রাহ্য করতে চান এমন পৃষ্ঠাগুলির পাশাপাশি আপনার রোবট.txt ফাইলে এই ফাঁদ পৃষ্ঠাগুলিতে আরও বাতিল করার নিয়ম রাখুন।

  5. এই বটগুলির আইপি বা এই পৃষ্ঠাগুলিতে প্রবেশ করা যে কেউ সংগ্রহ করুন, তাদের নিষিদ্ধ করবেন না তবে এলোমেলো সংখ্যা, কপিরাইট নোটিশ, নির্দিষ্ট পাঠ্য স্ট্রিং, ভীতিজনক চিত্র প্রদর্শন, মূলত আপনার বাধা দেওয়ার মতো কিছু যেমন আপনার সামগ্রীতে নুডল পাঠ্য প্রদর্শন করতে একটি ফাংশন তৈরি করুন ভাল বিষয়বস্তু। আপনি এমন লিঙ্কও সেট করতে পারেন যা কোনও পৃষ্ঠাতে নির্দেশ করে যা চিরকালের জন্য লোড হতে পারে। পিএইচপি আপনি স্লিপ () ফাংশন ব্যবহার করতে পারেন। এটি যদি ক্রলারের সাথে লড়াই করবে তবে যদি পৃষ্ঠাগুলি বাইপাস করার জন্য কিছু ধরণের সনাক্তকরণ থাকে যা লোড করতে খুব বেশি সময় নেয় কারণ বেশ কিছু লিখিত বটগুলি একসাথে এক্স পরিমাণের লিঙ্ক প্রসেস করতে থাকে।

  6. যদি আপনি নির্দিষ্ট পাঠ্য স্ট্রিং / বাক্য তৈরি করে থাকেন তবে কেন আপনার পছন্দসই অনুসন্ধান ইঞ্জিনে না গিয়ে সেগুলি অনুসন্ধান করুন, এটি আপনাকে দেখায় যে আপনার সামগ্রীটি কোথায় শেষ হচ্ছে।

যাইহোক, আপনি যদি কৌশলগতভাবে এবং সৃজনশীলতার সাথে চিন্তা করেন এটি একটি ভাল সূচনা পয়েন্ট হতে পারে। করণীয় সর্বোত্তম জিনিসটি বট কীভাবে কাজ করে তা শিখতে হবে।

আমি কিছু আইডির স্ক্যাম্বলিং সম্পর্কে বা পৃষ্ঠা উপাদানটিতে বৈশিষ্ট্যগুলি দেখানোর উপায় সম্পর্কেও ভাবব:

<a class="someclass" href="../xyz/abc" rel="nofollow" title="sometitle"> 

এটি প্রতিবার তার ফর্মটি পরিবর্তন করে কারণ কিছু বট আপনার পৃষ্ঠাগুলিতে বা লক্ষ্যযুক্ত উপাদানগুলির নির্দিষ্ট নিদর্শনগুলির জন্য সন্ধান করা হতে পারে।

<a title="sometitle" href="../xyz/abc" rel="nofollow" class="someclass"> 

id="p-12802" > id="p-00392"

1
আপনি কেবল তাদের নিষিদ্ধ করতে চান না, আপনি তাদের সাথে পুরোপুরি স্ক্রু চান ... আমি এটি ভালবাসি!
জোয়েডবার্গ

স্টিলথ নিষিদ্ধকরণ হ'ল আমি যা ভাবছিলাম (ওরফে শ্যাডাব্যানিং, নরক নিষিদ্ধ)।
এরিক

1

আপনি সাধারণ স্ক্রিন স্ক্র্যাপিং বন্ধ করতে পারবেন না। আরও ভাল বা খারাপ, এটি ওয়েবের প্রকৃতি।

আপনি এটি তৈরি করতে পারেন যাতে নিবন্ধিত ব্যবহারকারী হিসাবে লগ ইন না করে কেউ নির্দিষ্ট কিছু জিনিস (সঙ্গীত ফাইল সহ) অ্যাক্সেস করতে পারে না। আপাচে এটি করা খুব বেশি কঠিন নয় । আমি ধরে নিয়েছি আইআইএসেও এটি করা খুব বেশি কঠিন হবে না।


1

একটি উপায় হ'ল এক্সএমএল বৈশিষ্ট্য, ইউআরএল এনকোডযুক্ত স্ট্রিং, এইচটিএমএল এনকোডেড জেএসএন বা ডেটা ইউআরআই সহ প্রিফর্মেটেড পাঠ্য হিসাবে ক্লায়েন্টের HTML এ রূপান্তর করা হবে। এখানে কয়েকটি সাইট রয়েছে যা এটি করে:

  • স্কেচারস : এক্সএমএল

    <document 
     filename="" 
     height="" 
     width="" 
     title="SKECHERS" 
     linkType="" 
     linkUrl="" 
     imageMap="" 
     href=&quot;http://www.bobsfromskechers.com&quot; 
     alt=&quot;BOBS from Skechers&quot; 
     title=&quot;BOBS from Skechers&quot; 
    />
  • ক্রোম ওয়েব স্টোর : জেএসএন

    <script type="text/javascript" src="https://apis.google.com/js/plusone.js">{"lang": "en", "parsetags": "explicit"}</script>
  • বিং নিউজ : ডেটা ইউআরএল

    <script type="text/javascript">
      //<![CDATA[
      (function()
        {
        var x;x=_ge('emb7');
        if(x)
          {
          x.src='data:image/jpeg;base64,/*...*/';
          } 
        }() )
  • প্রোটোপেজ : ইউআরএল এনকোড স্ট্রিং

    unescape('Rolling%20Stone%20%3a%20Rock%20and%20Roll%20Daily')
  • টিডলিউইকি : এইচটিএমএল সত্তা + প্রিফর্মেটেড জেএসওএন

       <pre>
       {&quot;tiddlers&quot;: 
        {
        &quot;GettingStarted&quot;: 
          {
          &quot;title&quot;: &quot;GettingStarted&quot;,
          &quot;text&quot;: &quot;Welcome to TiddlyWiki,
          }
        }
       }
       </pre>
  • অ্যামাজন : অলস লোড হচ্ছে

    amzn.copilot.jQuery=i;amzn.copilot.jQuery(document).ready(function(){d(b);f(c,function() {amzn.copilot.setup({serviceEndPoint:h.vipUrl,isContinuedSession:true})})})},f=function(i,h){var j=document.createElement("script");j.type="text/javascript";j.src=i;j.async=true;j.onload=h;a.appendChild(j)},d=function(h){var i=document.createElement("link");i.type="text/css";i.rel="stylesheet";i.href=h;a.appendChild(i)}})();
    amzn.copilot.checkCoPilotSession({jsUrl : 'http://z-ecx.images-amazon.com/images/G/01/browser-scripts/cs-copilot-customer-js/cs-copilot-customer-js-min-1875890922._V1_.js', cssUrl : 'http://z-ecx.images-amazon.com/images/G/01/browser-scripts/cs-copilot-customer-css/cs-copilot-customer-css-min-2367001420._V1_.css', vipUrl : 'https://copilot.amazon.com'
  • এক্সএমএল ক্যালাব্যাশ : নেমস্পিড এক্সএমএল + কাস্টম মাইম টাইম + কাস্টম ফাইল এক্সটেনশন

       <p:declare-step type="pxp:zip">
            <p:input port="source" sequence="true" primary="true"/>
            <p:input port="manifest"/>
            <p:output port="result"/>
            <p:option name="href" required="true" cx:type="xsd:anyURI"/>
            <p:option name="compression-method" cx:type="stored|deflated"/>
            <p:option name="compression-level" cx:type="smallest|fastest|default|huffman|none"/>
            <p:option name="command" select="'update'" cx:type="update|freshen|create|delete"/>
       </p:declare-step>

যদি আপনি উপরের যে কোনওটির উত্স দেখতে পান তবে আপনি দেখতে পাচ্ছেন যে স্ক্র্যাপিং কেবল মেটাডেটা এবং নেভিগেশনকে ফিরিয়ে দেবে।


সুতরাং ... সেই পদ্ধতির ফলে স্ক্র্যাপিং আরও সহজ হয়ে যায়, কারণ সামগ্রী এখন অভিন্ন বিন্যাসে রয়েছে। আসলে, এটিকে আর স্ক্র্যাপিং বলা হবে না : একে পার্সিং বলা হয় , এবং এটি প্রোগ্রামাগুলিভাবে করা খুব সহজ।
jpaugh

1

বেশিরভাগই ইতিমধ্যে বলা হয়েছে, তবে আপনি কি ক্লাউডফ্লেয়ার সুরক্ষা বিবেচনা করেছেন? আমি এটা বোঝাতে চাই:

ছবির বর্ণনা

অন্যান্য সংস্থাগুলি সম্ভবত এটিও করেন, ক্লাউডফ্লেয়ার আমি জানি know

আমি নিশ্চিত যে এটি তাদের কাজকে জটিল করে তুলবে। রেট সীমাবদ্ধতার কারণে ক্লাউডফ্লেয়ার দ্বারা সুরক্ষিত কোনও সাইটের ডেটা স্ক্র্যাপ করার চেষ্টা করার সময় আমি একবার আইপিও 4 মাসের জন্য স্বয়ংক্রিয়ভাবে নিষিদ্ধ হয়ে পড়েছিলাম (আমি সাধারণ এজেএক্স অনুরোধ লুপটি ব্যবহার করেছি)।


1

আমি উপরের বেশিরভাগ পোস্টের সাথে একমত এবং আমি যুক্ত করতে চাই যে আপনার সাইটটি যত বেশি বন্ধুত্বপূর্ণ, তত বেশি স্ক্র্যাপ-সক্ষম হবে। আপনি সেখানে বেশ কয়েকটি এমন জিনিস করার চেষ্টা করতে পারেন যা স্ক্র্যাপারদের পক্ষে এটি আরও শক্ত করে তোলে তবে এটি আপনার অনুসন্ধান-দক্ষতায়ও প্রভাব ফেলতে পারে ... এটি অবশ্যই আপনার সাইটটি অবশ্যই সার্চ ইঞ্জিনগুলিতে র‌্যাঙ্ক করতে চায় তার উপর নির্ভর করে।


0

একটি ক্যাপচা পিছনে আপনার সামগ্রী স্থাপন মানে রোবট আপনার সামগ্রী অ্যাক্সেস করতে অসুবিধা হবে। তবে, মানুষের অসুবিধাগ্রস্ত হবে যাতে অনাকাঙ্ক্ষিত হতে পারে।


0

যদি আপনি একটি দুর্দান্ত উদাহরণ দেখতে চান তবে http://www.bkstr.com/ দেখুন । তারা কুকি সেট করতে এজ / এস অ্যালগরিদম ব্যবহার করে, পৃষ্ঠাটি পুনরায় লোড করে যাতে এটি ব্রাউজারের মধ্যে অনুরোধটি চলছে কিনা তা যাচাই করতে কুকিটি ব্যবহার করতে পারে। স্ক্র্যাপের জন্য নির্মিত একটি ডেস্কটপ অ্যাপ অবশ্যই এটি পেতে পারে তবে এটি বেশিরভাগ সিআরএল টাইপ স্ক্র্যাপিং বন্ধ করে দেবে।


0

স্ক্রিন স্ক্র্যাপাররা এইচটিএমএল প্রক্রিয়াকরণের মাধ্যমে কাজ করে। এবং যদি তারা আপনার ডেটা পাওয়ার জন্য দৃ are়প্রতিজ্ঞ হয় তবে আপনি প্রযুক্তিগতভাবে তেমন কিছু করতে পারবেন না কারণ মানুষের চোখের বল কোনও কিছুই প্রক্রিয়া করে। আইনীভাবে এটি ইতিমধ্যে আপনাকে নির্দেশ দেওয়া হয়েছে যদিও আপনার কিছুটা অবলম্বন থাকতে পারে এবং এটি আমার প্রস্তাবনা।

তবে আপনি নন- এইচটিএমএল-ভিত্তিক উপস্থাপনা যুক্তি ব্যবহার করে আপনার ডেটার সমালোচনামূলক অংশটি আড়াল করতে পারেন

  • প্রতিটি শিল্পী / অ্যালবাম ইত্যাদির জন্য একটি ফ্ল্যাশ ফাইল তৈরি করুন etc.
  • প্রতিটি শিল্পী সামগ্রীর জন্য একটি চিত্র তৈরি করুন। শিল্পীর নাম ইত্যাদির জন্য কেবল একটি চিত্রই যথেষ্ট। সার্ভারে একটি জেপিজি / পিএনজি ফাইলে পাঠ্যটি রেন্ডার করে এবং সেই চিত্রটির সাথে লিঙ্ক করে এটি করুন।

মনে রাখবেন যে এটি সম্ভবত আপনার অনুসন্ধানের স্থানকে প্রভাবিত করবে।


0

এইচটিএমএল, সিএসএস এবং জাভাস্ক্রিপ্ট তৈরি করুন। পার্সারগুলির তুলনায় জেনারেটরগুলি লেখা সহজ, সুতরাং আপনি প্রতিটি পরিবেশন করা পৃষ্ঠা আলাদা আলাদাভাবে তৈরি করতে পারেন। আপনি তখন আর ক্যাশে বা স্থির সামগ্রী ব্যবহার করতে পারবেন না।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.