আমার কাছে একটি "উত্স। টেক্সট" ফাইল রয়েছে যার মধ্যে কিছু ইউআরএলগুলির তালিকা রয়েছে। উদাহরণ স্বরূপ:
source.txt:
http://www.amazon.com/gp/product/B007OZNZG0/ref=s9_pop_gw_g349_ir05/176-5131847-6150405?pf_rd_m=ATVPDKIKX0DER&pf_rd_s=center-2&pf_rd_r=02R1PYSDAPM8P0XF7HXW&pf_rd_t=101&pf_rd_p=1263340922&pf_rd_i=507846
http://www.amazon.com/gp/product/B0083PWAPW/ref=s9_pop_gw_g424_ir04/176-5131847-6150405?pf_rd_m=ATVPDKIKX0DER&pf_rd_s=center-2&pf_rd_r=02R1PYSDAPM8P0XF7HXW&pf_rd_t=101&pf_rd_p=1263340922&pf_rd_i=507846
আমি "উত্স। টেক্সট" এর অভ্যন্তরে প্রতিটি লিঙ্কটি পুনরুদ্ধার করতে চাই এবং প্রত্যেকটির এইচটিএমএল অনুসন্ধান করতে চাই এবং "/ জিপি / পণ্য" থাকা সমস্ত লিঙ্কগুলি খুঁজে বের করতে চাই এবং তারপরে এগুলিকে "extract.txt" ফাইলে সংরক্ষণ করতে পারি যা এর অনুরূপ হবে :
extracted.txt:
http://www.amazon.com/gp/product/B008GFRB9E/ref=fs_j
http://www.amazon.com/gp/product/B008GFUA4C/ref=fs_2
...
আমি উইন্ডোজ 7 (64 বিট) এবং সাইগউইন ব্যবহার করছি, তাই আমি লিনাক্স কমান্ডগুলিও চালাতে পারি।
আমি প্রশ্নটি পরিবর্তন করেছি। হ্যাঁ, আমার অর্থ "উত্স। টেক্সট" এ ইউআরএলগুলি পুনরুদ্ধার এবং অনুসন্ধান করা।
—
এস এ 14
আপনি "wget -qO- -i উত্স.txt | গ্রেপ / জিপি / পণ্য" ব্যবহার করতে পারেন তবে এটি "/ জিপি / পণ্য"
—
সমেত লাইনগুলি
@ এফএসম্যাক্সবি আপনাকে ধন্যবাদ আমি চেষ্টা করেছি এবং আপনি ঠিক বলেছেন। আউটপুট ", যখন এটি হওয়া উচিত" "a href =" / জিপি / পণ্য / সঙ্গে লাইন amazon.com/gp/product "কোন পরামর্শ কিভাবে এই পরিবর্তন করতে।?
—
Si14
@ সি 14 সম্ভবত আপনি এই তালিকা থেকে প্রকৃত লিঙ্কগুলি নিষ্কাশন করতে বিশ্রী বা সেড ব্যবহার করতে পারেন, তবে আমি কীভাবে এটি করব তা জানি না। কমপক্ষে এটি প্রথম পদক্ষেপ।
—
এফএসম্যাক্সবি
grep
(এসএসির উত্তর হিসাবে) আপনি যা চেয়েছিলেন তা হ'ল। এখন আমি আপনার প্রশ্নের 2 গণমাধ্যমে বার পড়েছি, এবং আমি অনুমান আপনি কি বলতে চান যে আপনি চান পুনরুদ্ধার ওয়েব পেজ যার URL গুলি আপনি প্রতিটি, এবং তারপর এইচটিএমএল মাধ্যমে অনুসন্ধান "জন্য/gp/product
"। তুমি কি এটাই বুজাতে চাও? যদি তা হয় তবে আমি বিশ্বাস করি আপনার উচিতwget
।