লিঙ্কগুলি পুনরুদ্ধার করুন এবং নিষ্কাশন করুন (লিনাক্স / উইন্ডোজ)


2

আমার কাছে একটি "উত্স। টেক্সট" ফাইল রয়েছে যার মধ্যে কিছু ইউআরএলগুলির তালিকা রয়েছে। উদাহরণ স্বরূপ:

source.txt:    
http://www.amazon.com/gp/product/B007OZNZG0/ref=s9_pop_gw_g349_ir05/176-5131847-6150405?pf_rd_m=ATVPDKIKX0DER&pf_rd_s=center-2&pf_rd_r=02R1PYSDAPM8P0XF7HXW&pf_rd_t=101&pf_rd_p=1263340922&pf_rd_i=507846
http://www.amazon.com/gp/product/B0083PWAPW/ref=s9_pop_gw_g424_ir04/176-5131847-6150405?pf_rd_m=ATVPDKIKX0DER&pf_rd_s=center-2&pf_rd_r=02R1PYSDAPM8P0XF7HXW&pf_rd_t=101&pf_rd_p=1263340922&pf_rd_i=507846

আমি "উত্স। টেক্সট" এর অভ্যন্তরে প্রতিটি লিঙ্কটি পুনরুদ্ধার করতে চাই এবং প্রত্যেকটির এইচটিএমএল অনুসন্ধান করতে চাই এবং "/ জিপি / পণ্য" থাকা সমস্ত লিঙ্কগুলি খুঁজে বের করতে চাই এবং তারপরে এগুলিকে "extract.txt" ফাইলে সংরক্ষণ করতে পারি যা এর অনুরূপ হবে :

extracted.txt:
http://www.amazon.com/gp/product/B008GFRB9E/ref=fs_j
http://www.amazon.com/gp/product/B008GFUA4C/ref=fs_2
...

আমি উইন্ডোজ 7 (64 বিট) এবং সাইগউইন ব্যবহার করছি, তাই আমি লিনাক্স কমান্ডগুলিও চালাতে পারি।


আপনি আপনার প্রশ্নটির পুনঃব্যবহার করতে চাইতে পারেন। প্রথমবার এটি পড়ার পরে, আমি ভেবেছিলাম একটি সাধারণ grep(এসএসির উত্তর হিসাবে) আপনি যা চেয়েছিলেন তা হ'ল। এখন আমি আপনার প্রশ্নের 2 গণমাধ্যমে বার পড়েছি, এবং আমি অনুমান আপনি কি বলতে চান যে আপনি চান পুনরুদ্ধার ওয়েব পেজ যার URL গুলি আপনি প্রতিটি, এবং তারপর এইচটিএমএল মাধ্যমে অনুসন্ধান "জন্য /gp/product"। তুমি কি এটাই বুজাতে চাও? যদি তা হয় তবে আমি বিশ্বাস করি আপনার উচিত wget
স্কট

আমি প্রশ্নটি পরিবর্তন করেছি। হ্যাঁ, আমার অর্থ "উত্স। টেক্সট" এ ইউআরএলগুলি পুনরুদ্ধার এবং অনুসন্ধান করা।
এস এ 14

1
আপনি "wget ​​-qO- -i উত্স.txt | গ্রেপ / জিপি / পণ্য" ব্যবহার করতে পারেন তবে এটি "/ জিপি / পণ্য"
সমেত লাইনগুলি

@ এফএসম্যাক্সবি আপনাকে ধন্যবাদ আমি চেষ্টা করেছি এবং আপনি ঠিক বলেছেন। আউটপুট ", যখন এটি হওয়া উচিত" "a href =" / জিপি / পণ্য / সঙ্গে লাইন amazon.com/gp/product "কোন পরামর্শ কিভাবে এই পরিবর্তন করতে।?
Si14

1
@ সি 14 সম্ভবত আপনি এই তালিকা থেকে প্রকৃত লিঙ্কগুলি নিষ্কাশন করতে বিশ্রী বা সেড ব্যবহার করতে পারেন, তবে আমি কীভাবে এটি করব তা জানি না। কমপক্ষে এটি প্রথম পদক্ষেপ।
এফএসম্যাক্সবি

উত্তর:


-1

একটি ব্যাশ শেলের মধ্যে আপনি গ্রেপ ব্যবহার করতে পারেন। grep "/gp/product/" source.txt >extracted.txt


উপরের কমান্ডটি কেবল উত্স.txt এ কীওয়ার্ডটি অনুসন্ধান করে এবং এতে ইউআরএল খোলে না এবং অনুসন্ধান করে না। আমি সাইগউইনে চেষ্টা করেছিলাম। আমি নিশ্চিত নই যে এটি কীভাবে বাশ শেলের উপর পরীক্ষা করা যায়? আপনার কি পরামর্শ আছে?
এস 14
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.