কী মিলছে কেবল মুদ্রণের জন্য কীভাবে সেড, অজ, বা গাওক ব্যবহার করবেন?

Question 1

আমি সেড, অ্যাড, বা গাক ব্যবহার করে কীভাবে অনুসন্ধান-এবং-প্রতিস্থাপনের মতো কাজ করতে পারি তার প্রচুর উদাহরণ এবং ম্যান পৃষ্ঠাগুলি দেখতে পাচ্ছি।

তবে আমার ক্ষেত্রে আমার একটি নিয়মিত প্রকাশ রয়েছে যা আমি একটি নির্দিষ্ট মান বের করতে কোনও পাঠ্য ফাইলের বিরুদ্ধে চালাতে চাই। আমি অনুসন্ধান এবং প্রতিস্থাপন করতে চাই না। এটি বাশ থেকে আহ্বান করা হচ্ছে। আসুন একটি উদাহরণ ব্যবহার করুন:

নিয়মিত প্রকাশের উদাহরণ:

.*abc([0-9]+)xyz.*

উদাহরণ ইনপুট ফাইল:

a
b
c
abc12345xyz
a
b
c

এই শোনার মতোই সহজ, আমি ঠিক কীভাবে সেড / অ্যাওক / গাউককে কল করব তা বুঝতে পারি না। আমি যা করতে আশা করছিলাম তা আমার বাশ স্ক্রিপ্টের মধ্যে থেকে:

myvalue=$( sed <...something...> input.txt )

আমি যে জিনিসগুলির চেষ্টা করেছি সেগুলির মধ্যে রয়েছে:

sed -e 's/.*([0-9]).*/\\1/g' example.txt # extracts the entire input file
sed -n 's/.*([0-9]).*/\\1/g' example.txt # extracts nothing

Question 2

আমার sed(ম্যাক ওএস এক্স) কাজ করে নি +। আমি *পরিবর্তে চেষ্টা করেছি এবং আমি pমুদ্রণ ম্যাচের জন্য ট্যাগ যুক্ত করেছি :

sed -n 's/^.*abc\([0-9]*\)xyz.*$/\1/p' example.txt

কমপক্ষে একটি সংখ্যার চরিত্রটি মিলে যাওয়ার জন্য +, আমি ব্যবহার করব:

sed -n 's/^.*abc\([0-9][0-9]*\)xyz.*$/\1/p' example.txt

Question 3

এটি করার জন্য আপনি সেড ব্যবহার করতে পারেন

 sed -rn 's/.*abc([0-9]+)xyz.*/\1/gp'

-n ফলাফল লাইন মুদ্রণ করবেন না
-rএটি এটি তৈরি করে যাতে আপনার ক্যাপচার গ্রুপ প্যারেনগুলি পালাতে না পারে ()।
\1 ক্যাপচার গ্রুপ ম্যাচ
/g গ্লোবাল ম্যাচ
/p ফলাফল মুদ্রণ

আমি নিজের জন্য একটি সরঞ্জাম লিখেছিলাম যা এটি সহজ করে তোলে

rip 'abc(\d+)xyz' '$1'

Question 4

আমি perlনিজের জন্য এটি সহজ করতে ব্যবহার করি। যেমন

perl -ne 'print $1 if /.*abc([0-9]+)xyz.*/'

এটি পার্ল চালায়, -nঅপশনটি পার্লকে এসটিডিআইএন থেকে একবারে এক লাইনে পড়তে এবং কোডটি কার্যকর করতে নির্দেশ দেয়। -eবিকল্প চালানোর নির্দেশ নির্দিষ্ট করে।

নির্দেশটি পঠিত রেখায় একটি রেজিএক্সপ্যাক চালায় এবং যদি এটি ব্র্যাকের প্রথম সেট ( $1) এর সামগ্রীগুলি মুদ্রণ করে তবে তা মিলে যায় ।

আপনি এটি করতে পারেন শেষ পর্যন্ত একাধিক ফাইলের নামও। যেমন

perl -ne 'print $1 if /.*abc([0-9]+)xyz.*/' example1.txt example2.txt

Question 5

যদি আপনার সংস্করণটিকে grepসমর্থন করে তবে আপনি -oমুদ্রণের বিকল্পটি ব্যবহার করতে পারেন কেবল আপনার regexp সাথে মেলে এমন যেকোনো লাইনের অংশ।

যদি না হয় তবে sedআমি এখানে সেরাটি নিয়ে আসতে পারি:

sed -e '/[0-9]/!d' -e 's/^[^0-9]*//' -e 's/[^0-9]*$//'

... যা কোনও অঙ্ক ছাড়াই মুছে ফেলা / এড়িয়ে চলে এবং বাকী রেখাগুলির জন্য, সমস্ত নেতৃস্থানীয় এবং অনুসরণকারী অ-অঙ্কের অক্ষর সরিয়ে দেয়। (আমি কেবল অনুমান করছি যে আপনার উদ্দেশ্য হ'ল প্রতিটি লাইন থেকে একটি সংখ্যা বের করা)

এর মতো কিছু নিয়ে সমস্যা:

sed -e 's/.*\([0-9]*\).*/&/'

.... বা

sed -e 's/.*\([0-9]*\).*/\1/'

... এটি sedকেবল "লোভী" ম্যাচটিকে সমর্থন করে ... তাই প্রথমটি * * বাকী লাইনের সাথে মিলবে। অ-লোভী মিল অর্জন করার জন্য ... বা sedপারেলের সাথে সামঞ্জস্যপূর্ণ বা এর এক্সটেনশনের সাথে অন্যান্য এক্সটেনশনের কোনও সংস্করণ অর্জন করতে আমরা অবহেলিত চরিত্রের ক্লাস ব্যবহার করতে না পারলে আমরা প্যাটার্ন স্পেসের সাথে একটি নির্দিষ্ট প্যাটার্ন ম্যাচটি বের করতে পারি না (একটি লাইন )।

Question 6

আপনি দখল করা গোষ্ঠীটি অ্যাক্সেস করতে এর awkসাথে ব্যবহার করতে পারেন match():

$ awk 'match($0, /abc([0-9]+)xyz/, matches) {print matches[1]}' file
12345

এটি প্যাটার্নটি মেলাতে চেষ্টা করে abc[0-9]+xyz। এটি যদি এটি করে থাকে তবে এটি এর স্লাইসগুলি অ্যারেতে সঞ্চয় করে matches, যার প্রথম আইটেমটি ব্লক [0-9]+। যেহেতু match() সেই স্ট্রিংটি শুরু হয় যেখানে অক্ষরের অবস্থান বা সূচকটি প্রত্যাবর্তন করে (1, এটি স্ট্রিংয়ের শুরুতে শুরু হয়) , এটি printক্রিয়াকে ট্রিগার করে ।

সঙ্গে grepআপনি একটি বর্ণন-পিছনে এবং চেহারা-এগিয়ে ব্যবহার করতে পারেন:

$ grep -oP '(?<=abc)[0-9]+(?=xyz)' file
12345

$ grep -oP 'abc\K[0-9]+(?=xyz)' file
12345

এই চেক প্যাটার্ন [0-9]+যখন এটি মধ্যে ঘটে abcএবং xyzএবং মাত্র ডিজিটের ছাপে।

Question 7

পার্ল হ'ল পরিষ্কার বাক্য গঠন, তবে আপনার যদি পার্ল না থাকে (সর্বদা সেখানে থাকে না, আমি বুঝতে পারি), তবে জেনসব বৈশিষ্ট্যটি ব্যবহার করা গেম এবং একটি রেজেক্সের উপাদানগুলি ব্যবহার করার একমাত্র উপায়।

gawk '/abc[0-9]+xyz/ { print gensub(/.*([0-9]+).*/,"\\1","g"); }' < file

নমুনা ইনপুট ফাইলের আউটপুট হবে

দ্রষ্টব্য: জেনসুব পুরো রেনেক্সকে (// এর মধ্যে) প্রতিস্থাপন করে, সুতরাং প্রতিস্থাপনের সংখ্যার আগে এবং পরে পাঠ্য থেকে মুক্তি পাওয়ার জন্য আপনাকে * * স্থাপন করতে হবে ([0-9] +) এর আগে এবং পরে।

Question 8

আপনি যদি লাইনগুলি নির্বাচন করতে চান তবে যে বিটগুলি চান না তা বের করে দিন:

egrep 'abc[0-9]+xyz' inputFile | sed -e 's/^.*abc//' -e 's/xyz.*$//'

এটি মূলত আপনি যে লাইনের সাথে চান তা নির্বাচন করে egrepএবং তারপরে sedসংখ্যাটির আগে এবং পরে বিটগুলি সরিয়ে ফেলার জন্য ব্যবহার করে।

আপনি এখানে এটি কর্মে দেখতে পারেন:

pax> echo 'a
b
c
abc12345xyz
a
b
c' | egrep 'abc[0-9]+xyz' | sed -e 's/^.*abc//' -e 's/xyz.*$//'
12345
pax>

আপডেট: স্পষ্টতই যদি আপনি প্রকৃত পরিস্থিতি আরও জটিল হন তবে আমার কাছে আরইএস সংশোধন করা দরকার। উদাহরণস্বরূপ যদি আপনার শুরুতে এবং শেষে শূন্য বা আরও বেশি অ-সংখ্যাগুলির মধ্যে সর্বদা একক সংখ্যা সমাহিত থাকে:

egrep '[^0-9]*[0-9]+[^0-9]*$' inputFile | sed -e 's/^[^0-9]*//' -e 's/[^0-9]*$//'

Question 9

ওপি-র ক্ষেত্রে সুনির্দিষ্টভাবে উল্লেখ করা হয়নি যে একক লাইনে একাধিক মিল থাকতে পারে তবে গুগল ট্র্যাফিকের জন্য আমিও এর জন্য একটি উদাহরণ যুক্ত করব।

যেহেতু ওপি'র প্রয়োজনটি একটি প্যাটার্ন থেকে একটি গ্রুপ বের করা, তাই ব্যবহারের grep -oজন্য 2 টি পাসের প্রয়োজন হবে। তবে, আমি এখনও এটি কাজটি সর্বাধিক স্বজ্ঞাত উপায় বলে মনে করি।

$ cat > example.txt <<TXT
a
b
c
abc12345xyz
a
abc23451xyz asdf abc34512xyz
c
TXT

$ cat example.txt | grep -oE 'abc([0-9]+)xyz'
abc12345xyz
abc23451xyz
abc34512xyz

$ cat example.txt | grep -oE 'abc([0-9]+)xyz' | grep -oE '[0-9]+'
12345
23451
34512

যেহেতু প্রসেসরের সময়টি মূলত ফ্রি তবে মানুষের পাঠযোগ্যতা অমূল্য, তাই আমি এই প্রশ্নটির উপর ভিত্তি করে আমার কোডটি রিফ্যাক্টর করি, "এখন থেকে এক বছর পর, আমি কী ভাবব যে এটি করে?" প্রকৃতপক্ষে, আমি যে কোডটি প্রকাশ্যে বা আমার দলের সাথে ভাগ করে নিতে চাইছি তার জন্য, আমি man grepদীর্ঘ বিকল্পগুলি কী তা নির্ধারণ করতে এবং সেগুলি বিকল্পের পরিবর্তে খুলব । তাই ভালো:grep --only-matching --extended-regexp

Question 10

আপনি শেল দিয়ে এটি করতে পারেন

while read -r line
do
    case "$line" in
        *abc*[0-9]*xyz* ) 
            t="${line##abc}"
            echo "num is ${t%%xyz}";;
    esac
done <"file"

Question 11

অজস্র জন্য। আমি নিম্নলিখিত স্ক্রিপ্ট ব্যবহার করব:

/.*abc([0-9]+)xyz.*/ {
            print $0;
            next;
            }
            {
            /* default, do nothing */
            }

Question 12

gawk '/.*abc([0-9]+)xyz.*/' file