লিঙ্কডইন ওয়েব স্ক্র্যাপিং


11

আমি সম্প্রতি লিঙ্কডইন এপিআইতে সংযোগের জন্য একটি নতুন আর প্যাকেজ আবিষ্কার করেছি । দুর্ভাগ্যক্রমে লিঙ্কডইন এপিআই শুরু হতে বেশ সীমাবদ্ধ বলে মনে হয়; উদাহরণস্বরূপ, আপনি কেবল সংস্থাগুলিতে প্রাথমিক তথ্য পেতে পারেন এবং এটি ব্যক্তিদের ডেটা থেকে আলাদা করা হয়। আমি কোনও প্রদত্ত সংস্থার সমস্ত কর্মচারীর ডেটা পেতে চাই, যা আপনি সাইটে ম্যানুয়ালি করতে পারেন তবে এপিআইয়ের মাধ্যমে সম্ভব নয়।

আমদানি.আইও সঠিক হবে যদি এটি লিঙ্কডইন পৃষ্ঠাগুলি স্বীকৃতি দেয় (পৃষ্ঠার শেষে দেখুন)।

লিঙ্কডইন সাইটের বর্তমান ফর্ম্যাটটিতে প্রযোজ্য কোনও ওয়েব স্ক্র্যাপিং সরঞ্জাম বা কৌশলগুলি, বা আরও নমনীয় বিশ্লেষণ চালানোর জন্য এপিআইকে নমন করার উপায়গুলি কি কেউ জানেন? আর বা ওয়েব ভিত্তিতে সাধারণত, তবে অবশ্যই অন্যান্য পদ্ধতির জন্য উন্মুক্ত।


2
ওয়েব স্ক্র্যাপিং লিঙ্কডইন তাদের পরিষেবার শর্তাদির পরিপন্থী। দেখুন লিঙ্কডইন "DOS" এবং "কী করবেন না" "অ্যাক্সেস করতে ম্যানুয়াল বা স্বয়ংক্রিয় সফ্টওয়্যার ব্যবহার করুন, ডিভাইস, স্ক্রিপ্ট রোবট, অন্যান্য উপায়ে বা প্রক্রিয়া," গেরো, "" ক্রল "বা" মাকড়সা "পরিষেবাসমূহ বা কোন: - না সম্পর্কিত তথ্য বা তথ্য; "
ব্রায়ান স্পিয়ারিং

উত্তর:


10

বিউটিফুল স্যুপটি বিশেষত ওয়েব ক্রলিং এবং স্ক্র্যাপিংয়ের জন্য ডিজাইন করা হয়েছে তবে এটি আরথের জন্য নয় অজগরটির জন্য রচিত:

http://www.crummy.com/software/BeautifulSoup/bs4/doc/


2
আমি মনে করি না যে সুন্দর স্যুপ আপনাকে পৃষ্ঠাগুলিতে পুনরাবৃত্তি করতে দেয়, আপনি করতে পারেন তা সক্রিয় করে । ধন্যবাদ
ক্রিস্টোফের্লোভেল

3

স্কেরাপি একটি দুর্দান্ত পাইথন গ্রন্থাগার যা আপনাকে বিভিন্ন সাইটগুলি দ্রুত স্ক্র্যাপ করতে এবং আপনার কোডের কাঠামোকে আরও উন্নত করতে সহায়তা করতে পারে। সমস্ত সাইটকে ক্লাসিক সরঞ্জাম দিয়ে পার্স করা যায় না, কারণ তারা গতিশীল জেএস সামগ্রী সামগ্রী তৈরি করতে পারে। এই কাজের জন্য সেলেনিয়াম ব্যবহার করা ভাল (এটি ওয়েব সাইটগুলির জন্য একটি পরীক্ষার কাঠামো, তবে এটি একটি দুর্দান্ত ওয়েব স্ক্র্যাপিং সরঞ্জাম)। এখানে একটা ব্যাপার মোড়কের পাইথন এই লাইব্রেরি জন্য উপলব্ধ। গুগলে আপনি কয়েকটি কৌশল খুঁজে পেতে পারেন যা আপনাকে স্ক্রাপির অভ্যন্তরে সেলেনিয়াম ব্যবহার করতে এবং আপনার কোডটি পরিষ্কার, সংগঠিত এবং স্ক্র্যাপি লাইব্রেরির জন্য দুর্দান্ত কিছু সরঞ্জাম ব্যবহার করতে পারে help

আমি মনে করি যে সেলেনিয়াম ক্লাসিক সরঞ্জামগুলির চেয়ে লিংকডিনের জন্য আরও ভাল স্ক্র্যাপার হতে পারে। এখানে জাভাস্ক্রিপ্ট এবং গতিশীল সামগ্রী রয়েছে। এছাড়াও, আপনি সমস্ত উপলব্ধ সামগ্রীর গেরো আপনার অ্যাকাউন্টে প্রমাণীকরণ করতে চাই এবং যদি, আপনি সর্বোত্তম প্রমাণীকরণ মত সহজ লাইব্রেরি ব্যবহার করে সমস্যা অনেক পাবেন অনুরোধ বা urllib


1

আমি প্রাসঙ্গিক বিভাগগুলি নির্বাচনের জন্য সিলেক্টারেজেট ক্রোম প্লাগ-ইন এর সাথে সম্মিলিতভাবে রোভস্ট পছন্দ করি ।

ফোরামগুলির মাধ্যমে পৃষ্ঠাটি ছড়িয়ে দেওয়ার জন্য আমি রোভ্ট এবং ছোট স্ক্রিপ্টগুলি তৈরি করেছি:

  1. "পেজ এন অফ এম" অবজেক্টটির সন্ধান করুন
  2. নিষ্কাশন মি
  3. পৃষ্ঠার কাঠামোর ভিত্তিতে, 1 থেকে মি পর্যন্ত লিঙ্কের একটি তালিকা তৈরি করুন (যেমন www.sample.com/page1)
  4. লিঙ্কের সম্পূর্ণ তালিকার মাধ্যমে স্ক্র্যাপারটি আইট্রেট করুন

0

অজগরটি জানলে আমিও সুন্দরী সপ নিয়ে যাব। আপনি বরং জাভাস্ক্রিপ্ট / জিকুয়েরি কোড করেন (এবং আপনি নোড.জেএস এর সাথে পরিচিত), আপনি কফি স্ক্রিপ্টটি চেকআউট করতে চাইতে পারেন ( টিউটোরিয়ালটি দেখুন ) আমি ইতিমধ্যে ওয়েব পৃষ্ঠাগুলি স্ক্র্যাপ করার জন্য বেশ কয়েকটি অনুষ্ঠানে সফলভাবে এটি ব্যবহার করেছি।


0

lxML পাইথনের একটি দুর্দান্ত ওয়েব স্ক্র্যাপিং লাইব্রেরি। বিউটিফুল স্যুপ lxML এর উপরে একটি মোড়ক। সুতরাং, এলএক্সএমএল স্কেরিপি এবং সুন্দর স্যুপ উভয়ের চেয়ে দ্রুত এবং এতে অনেক সহজ শেখার বক্ররেখা রয়েছে।

এটি এমন কোনও স্ক্র্যাপারের একটি উদাহরণ যা আমি এটির সাথে একটি ব্যক্তিগত প্রকল্পের জন্য তৈরি করেছি, যা ওয়েব পৃষ্ঠাগুলিতে পুনরাবৃত্তি করতে পারে।


0

বিউটিফুলসপ লিংকডইনে কাজ করে না। স্ক্র্যাপি নীতি লঙ্ঘন করে। অক্টোপার্স কেবল উইন্ডোজের জন্য। অন্য উপায় আছে? আমি কোনও ব্যক্তির অ্যাকাউন্টের জন্য অনুরূপ লোকের ডেটা বের করতে চাই। সাহায্য করুন!


1
দয়া করে এটি একটি মন্তব্য হিসাবে পোস্ট করুন, বা একটি নতুন প্রশ্ন জিজ্ঞাসা করুন
ক্রিস্টোফের্লোভেল

এটি গুরুত্বপূর্ণ তথ্য তবে দয়া করে যদি এটির কোনও উত্তর বলে মনে করা হয় তবে এতে থাকা প্রশ্নটি সরিয়ে দিন।
পিথিকোস

0

এখানে, আমি আমার সফল অভিজ্ঞতা ভাগ করে নিই।

অক্টোপার্স একটি দুর্দান্ত ফ্রি ওয়েব স্ক্র্যাপিং সরঞ্জাম । আমি এটি সফলভাবে লিংকডিন ডেটা স্ক্র্যাপ করতে ব্যবহার করেছি এবং এখানে লিঙ্কডিন থেকে ডেটা আহরণের একটি বিশদ ভিডিও টিউটোরিয়াল ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.