Perl模式匹配 - 自由手記- 痞客邦

文章推薦指數: 80 %
投票人數:10人

PERL在模式中支援一些特殊字元,可以起到一些特殊的作用。

1、字元+. +意味著一個或多個相同的字元,如:/de+f/指def、deef、deeeeef等。

它儘量匹配盡可能多的相同字 ... 自由手記 跳到主文 記錄區 部落格全站分類:財經政論 相簿 部落格 留言 名片 Sep17Mon201810:10 Perl模式匹配 Perl內置的模式匹配讓你能夠簡便高效地搜索大量的資料。

不管你是在一個巨型的商業門戶網站上用於掃描每日感興趣的珍聞報導,還是在一個政府組織裡用於精確地描述人口統計(或者人類基因組圖),或是在一個教育組織裡用於在你的web網站上生成一些動態資訊,Perl都是你可選的工具。

這裡的一部分原因是Perl的資料庫聯接能力,但是更重要的原因是Perl的模式匹配能力。

如果你把「文本」的含義盡可能地擴展,那麼可能你做的工作中有90%是在處理文本。

這個領域實在就是Perl的最初專業,而且一直是Perl的目的——實際上,它甚至是Perl的名字:PracticalExtractionandReportLanguage(實用抽取和報表語言)。

Perl的模式提供了在堆積成山的資料中掃描資料和抽取有用資訊的強大工具。

  一、簡介 模式指在字串中尋找的特定序列的字元,由反斜線包含:/def/即模式def。

其用法如結合函數split將字串用某模式分成多個單詞:@array=split(//,$line); 二、匹配操作符=~、!~ =~檢驗匹配是否成功:$result=$var=~/abc/;若在該字串中找到了該模式,則返回非零值,即true,不匹配則返回0,即false。

!~則相反。

這兩個操作符適於條件控制中,如: if($question=~/please/){ print("Thankyouforbeingpolite!\n"); } else{ print("Thatwasnotverypolite!\n"); } 三、模式中的特殊字元 PERL在模式中支援一些特殊字元,可以起到一些特殊的作用。

1、字元+ +意味著一個或多個相同的字元,如:/de+f/指def、deef、deeeeef等。

它儘量匹配盡可能多的相同字元,如/ab+/在字串abbc中匹配的將是abb,而不是ab。

當一行中各單詞間的空格多於一個時,可以如下分割: @array=split(/+/,$line); 注:split函數每次遇到分割模式,總是開始一個新單詞,因此若$line以空格打頭,則@array的第一個元素即為空元素。

但其可以區分是否真有單詞,如若$line中只有空格,則@array則為空陣列。

且上例中TAB字元被當作一個單詞。

注意修正。

2、字元[]和[^] []意味著匹配一組字元中的一個,如/a[0123456789]c/將匹配a加數位加c的字串。

與+聯合使用例:/d[eE]+f/匹配def、dEf、deef、dEdf、dEEEeeeEef等。

^表示除其之外的所有字元,如:/d[^deE]f/匹配d加非e字元加f的字串。

3、字元*和? 它們與+類似,區別在於*匹配0個、1個或多個相同字元,?匹配0個或1個該字元。

如/de*f/匹配df、def、deeeef等;/de?f/匹配df或def。

4、逸出字元 如果你想在模式中包含通常被看作特殊意義的字元,須在其前加斜線"\"。

如:/\*+/中\*即表示字元*,而不是上面提到的一個或多個字元的含義。

斜線的表示為/\\/。

在PERL5中可用字元對\Q和\E來轉義。

注意:特別是用變數進行模式匹配時,比如:s/$str/xxx/,如變數$str中含有特殊字元,則/\Q$str\E/ 5、匹配任意字母或數位 上面提到模式/a[0123456789]c/匹配字母a加任一數字加c的字串,另一種表示方法為:/a[0-9]c/,類似的,[a-z]表示任意小寫字母,[A-Z]表示任意大寫字母。

任意大小寫字母、數位的表示方法為:/[0-9a-zA-Z]/。

6、錨模式   錨描述^或\A僅匹配串首$或\Z僅匹配串尾\b匹配單詞邊界\B單詞內部匹配   例1:/^def/只匹配以def打頭的字串,/$def/只匹配以def結尾的字串,結合起來的/^def$/只匹配字串def(?)。

\A和\Z在多行匹配時與^和$不同。

例2:檢驗變數名的類型: if($varname=~/^\$[A-Za-z][_0-9a-zA-Z]*$/){ print("$varnameisalegalscalarvariable\n"); }elsif($varname=~/^@[A-Za-z][_0-9a-zA-Z]*$/){ print("$varnameisalegalarrayvariable\n"); }elsif($varname=~/^[A-Za-z][_0-9a-zA-Z]*$/){ print("$varnameisalegalfilevariable\n"); }else{ print("Idon'tunderstandwhat$varnameis.\n"); } 例3:\b在單詞邊界匹配:/\bdef/匹配def和defghi等以def打頭的單詞,但不匹配abcdef。

/def\b/匹配def和abcdef等以def結尾的單詞,但不匹配defghi,/\bdef\b/只匹配字串def。

注意:/\bdef/可匹配$defghi,因為$並不被看作是單詞的部分。

例4:\B在單詞內部匹配:/\Bdef/匹配abcdef等,但不匹配def;/def\B/匹配defghi等;/\Bdef\B/匹配cdefg、abcdefghi等,但不匹配def,defghi,abcdef。

7、模式中的變數替換 將句子分成單詞: $pattern="[\\t]+"; @words=split(/$pattern/,$line); 8、字元範圍轉義   E逸出字元描述範圍\d任一數字[0-9]\D除數位外的任一字元[^0-9]\w任意單詞字元[_0-9a-zA-Z]\W任意非單詞字元[^_0-9a-zA-Z]\s空白[\r\t\n\f]\S非空白[^\r\t\n\f]   例:/[\da-z]/匹配任一數字或小寫字母。

9、匹配任一字元 字元"."匹配除換行外的所有字元,通常與*合用。

,在模式/p. t/中,‘.’用於匹配任何單個字元。

這個模式用於匹配pot、pat、pit、carpet、python和pup_tent。

‘.’要求存在一個字元,但是不能有更多的字元。

因此,該模式不能與apt相匹配(p與t之間沒有任何字元),也不能與expect相匹配(pt之間的字元太多)。

10、匹配指定數目的字元 字元對{}指定所匹配字元的出現次數。

如:/de{1,3}f/匹配def,deef和deeef;/de{3}f/匹配deeef;/de{3,}f/匹配不少於3個e在d和f之間;/de{0,3}f/匹配不多於3個e在d和f之間。

11、指定選項 字元"|"指定兩個或多個選擇來匹配模式。

如:/def|ghi/匹配def或ghi。

例:檢驗數位表示合法性 if($number=~/^-?\d+$|^-?0[xX][\da-fa-F]+$/){ print("$numberisalegalinteger.\n"); }else{ print("$numberisnotalegalinteger.\n"); } 其中^-?\d+$匹配十進位數位,^-?0[xX][\da-fa-F]+$匹配十六進位數位。

12、模式的部分重用 當模式中匹配相同的部分出現多次時,可用括弧括起來,用\n來多次引用,以簡化運算式: /\d{2}([\W])\d{2}\1\d{2}/匹配: 12-05-92 26.11.87 070492等 注意:/\d{2}([\W])\d{2}\1\d{2}/不同于/(\d{2})([\W])\1\2\1/,後者只匹配形如17-17-17的字串,而不匹配17-05-91等。

13、轉義和特定字元的執行次序 象操作符一樣,轉義和特定字元也有執行次序:   特殊字元描述()模式記憶體+*? {}出現次數^$\b\B錨| 選項 14、指定模式定界符 缺省的,模式定界符為反斜線/,但其可用字母m自行指定,如: m!/u/jqpublic/perl/prog1! 等價于/\/u\/jqpublic\/perl\/prog1/ 注:當用字母'作為定界符時,不做變數替換;當用特殊字元作為定界符時,其轉義功能或特殊功能即不能使用。

15、模式次序變數 在模式匹配後調用重用部分的結果可用變數$n,全部的結果用變數$&。

$string="Thisstringcontainsthenumber25.11."; $string=~/-?(\d+)\.?(\d+)/; #匹配結果為25.11 $integerpart=$1; #now$integerpart=25 $decimalpart=$2; #now$decimalpart=11 $totalpart=$&; #nowtotalpart=25.11 四、模式匹配選項   選項描述g匹配所有可能的模式i忽略大小寫m將串視為多行o只賦值一次s將串視為單行x忽略模式中的空白 1、匹配所有可能的模式(g選項) @matches="balata"=~/.a/g; #now@matches=("ba","la","ta") 匹配的迴圈: while("balata"=~/.a/g){ $match=$&; print("$match\n"); } 結果為: ba la ta 當使用了選項g時,可用函數pos來控制下次匹配的偏移: $offset=pos($string); pos($string)=$newoffset; 2、忽略大小寫(i選項)例 /de/i匹配de,dE,De和DE。

3、將字串看作多行(m選項) 在此情況下,^符號匹配字串的起始或新的一行的起始;$符號匹配任意行的末尾。

4、只編譯模式一次 $var=1; $line=; while($var<10){ $result=$line=~/$var/o; $line=; $var++; } 每次均匹配/1/,儘管var在改變。

5、將字串看作單行例 /a.*bc/s匹配字串axxxxx\nxxxxbc,但/a.*bc/則不匹配該字串。

6、在模式中忽略空格 /\d{2}([\W])\d{2}\1\d{2}/x等價于/\d{2}([\W])\d{2}\1\d{2}/。

五、替換操作符 語法為s/pattern/replacement/,其效果為將字串中與pattern匹配的部分換成replacement。

如: $string="abc123def"; $string=~s/123/456/; #now$string="abc456def"; 在替換部分可使用模式次序變數$n,如s/(\d+)/[$1]/,但在替換部分不支援模式的特殊字元,如{},*,+等,如s/abc/[def]/將把abc替換為[def]。

替換操作符的選項如下表:   選項描述g改變模式中的所有匹配i忽略模式中的大小寫e替換字串作為運算式m將待匹配串視為多行o僅賦值一次s將待匹配串視為單行x忽略模式中的空白   注:e選項把替換部分的字串看作運算式,在替換之前先計算其值,如: $string="0abc1"; $string=~s/[a-zA-Z]+/$&x2/e; #now$string="0abcabc1" 六、翻譯操作符 這是另一種替換方式,語法如:tr/string1/string2/。

同樣,string2為替換部分,但其效果是把string1中的第一個字元替換為string2中的第一個字元,把string1中的第二個字元替換為string2中的第二個字元,依此類推。

如: $string="abcdefghicba"; $string=~tr/abc/def/; #nowstring="defdefghifed" 當string1比string2長時,其多餘字元替換為string2的最後一個字元;當string1中同一個字元出現多次時,將使用第一個替換字元。

翻譯操作符的選項如下:   選項描述c翻譯所有未指定字元d刪除所有指定字元s把多個相同的輸出字元縮成一個   如$string=~tr/\d//c;把所有非數位字元替換為空格。

$string=~tr/\t//d;刪除tab和空格;$string=~tr/0-9//cs;把數位間的其它字元替換為一個空格。

  七、擴展模式匹配 PERL支援PERL4和標準UNIX模式匹配操作所沒有的一些模式匹配能力。

其語法為:(?pattern),其中c是一個字元,pattern是起作用的模式或子模式。

1、不存貯括弧內的匹配內容 在PERL的模式中,括弧內的子模式將存貯在記憶體中,此功能即取消存貯該括弧內的匹配內容,如/(?:a|b|c)(d|e)f\1/中的\1表示已匹配的d或e,而不是a或b或c。

2、內嵌模式選項 通常模式選項置於其後,有四個選項:i、m、s、x可以內嵌使用,語法為:/(?option)pattern/,等價于/pattern/option。

3、肯定的和否定的預見匹配 肯定的預見匹配語法為/pattern(?=string)/,其意義為匹配後面為string的模式,相反的,(?!string)意義為匹配後面非string的模式,如: $string="25abc8"; $string=~/abc(?=[0-9])/; $matched=$&; #$&為已匹配的模式,此處為abc,而不是abc8 4、模式注釋 PERL5中可以在模式中用?#來加注釋,如: if($string=~/(?i)[a-z]{2,3}(?#matchtwoorthreeAlphabeticcharacters)/{ ... }   PS:一個新函數:grep   Perl中的一個常見操作是搜索陣列,尋找某些模式。

例如,如果將一個檔讀入一個陣列, 然後你想要知道哪一行包含某個單詞。

Perl有一個特殊的函數,可以用來進行這項操作,這個 函數稱為grep。

grep函數的句法如下: grepexpresstion,listgrepblocklistgrep函數反覆運算運行通過list中的每個元素,然後執行expression或block。

在expression或block中,$_被設置為要計算的清單中的每個元素。

如果該運算式返回真,grep就返回該元素。

請看下面這個例子:my@dogs=qw(greyhoundbloodhoundterriermuttchihuahua); my@hounds=grep/hound/,@dogs; 在這個例子中,@dogs的每個元素被依次賦予$_。

然後根據$_對運算式/hound/進行測試。

返回真的每個元素被grep返回,並存放在@hounds中。

這裡你必須記住兩點。

首先,在運算式中,$_是對清單中的實際值的引用。

如果修改$_,就會改變清單中的原始元素:@hounds=greps/hound/hounds/,@dogs;當運行這個代碼後,@hounds將包含greyhounds和bloodhounds(請注意它們結尾處的字母s)。

通過修改$_,原始陣列@dogs也被修改了,同時,它現在包含了greyhounds、bloodhounds、terrier、mutt和chihuahua。

需要記住的另一點(Perl程式師有時忘記了這一點)是:grep不一定必須與模式匹配或替換運算子一道使用,它可以與任何運算子一道使用。

下面這個例子用於檢索長度超過8個字元的犬名:@longdogs=greplength($_)8,@dogs;   參考資料:1網上一個未名的好心人寫的模式匹配教學   2Perl語言程式設計第三版作者:LarryWall,TomChristiansen,andJonOrwant譯者:何偉平   HTTP://blog.csdn.net/smilelance/archive/2006/03/30/644783.aspx 全站熱搜 創作者介紹 戮克 自由手記 戮克發表在痞客邦留言(0)人氣() E-mail轉寄 全站分類:財經企管上一篇:AndroidID詳解 下一篇:VB.net編碼規範 歷史上的今天 2018:【絕食,是為了對抗政府在選舉上違法舞弊——敬覆中央選舉委員會】 2018:忠犬護主,我護民主 2018:GHUnit的使用 2018:header()的幾個用法 2018:VB.net編碼規範 2018:AndroidID詳解 2018:linux特殊符號大全 2017:若爆韓戰陸不排除對台動武 2016:來看看三立刪除的是什麼新聞呢? 2016:民進黨大師們告訴你.你看到的國軍是假的啦!! 2016:高雄市政不可批評!不要破壞高雄官員復建城市的士氣! 2016:記者的查證義務更高,沒有能力當記者就不要當。

2016:花媽會沒事!因為她看起來太像呆丸人,高雄人愛這味! 2016:陳菊拆果菜市場是「威權統治遺毒」 2016:其邁其邁陳其邁,陳其邁也加入網路霸凌的行列了 2016:顏色對了和顏色錯了的差別~吱:颱風還沒來之前,為什麼不能去唱歌? 2016:管媽竟然鼓勵肉搜? 2015:大甲鎮瀾宮:有拿到十套波卡禮尚往來 2015:被諷「和戴季全有特殊性關係」柯P怒搥桌離席 2015:快點來澄清!中華民國護照是可以進去聯合國的喔! 2015:戴季全明起請假 由林向愷暫代董座職權 2015:這張圖今天又可以再發一次,柯大人教你什麼叫禮貌! 2015:民粹吱雙重標準嘆為觀止台灣救星(柯P)有神快拜! 2015:12年國教領綱繼續黑箱!會議紀錄委員名字都改以「OO」取代 2015:柯媽生氣說徐弘庭家庭教育太差,沒品。

可是柯媽,你兒子在公開場合多次說話沒品耶!而且馮光遠說你兒子憤怒是「反應過度」。

2015:徐議員會納悶,有市長的高度、首長的氣度、以及家長的溫度,不是最基本的配備嗎?怎麼連區公所的基層職員都辦得的事,堂堂一位以85萬高票當選的素人市長,裝都裝不像,比王品服務生都不如。

2015:台南三弊案》調查處急追!校地變住宅地財團神準預購獲利逾10倍 2015:▼22K情何以堪!國營企業年終好肥 最高每人爽拿28萬▼ 2015:▼【更新】【壹週刊】【獨家】打臉戴季全 揭里斯特大虧財報▼ 2015:7次問伊梓帆「挺柱嗎」 沒回應不死心小聲碎問 2015:能不能說別人"兩人有特殊性關係"的標準到底是什麼... 2015:人身攻擊不用道歉嗎?聽柯神的話準沒錯!還有柯媽媽也罵你沒品沒家教耶: 2014:TextView文字置中 ▲top 留言列表 發表留言 站方公告 [公告]2022/09/02相簿、部落格功能維護公告[公告]2022/08/22、08/23應用市集部分功能維護公告[公告]痞客邦APP全新服務上線-美食優惠券 活動快報 黑亞當觀後感問卷 填寫DC宇宙《黑亞當》觀後感問卷調查,發表你的獨特... 看更多活動好康 我的好友 熱門文章 最新文章 動態訂閱 文章精選 文章精選 所有文章列表 文章搜尋 新聞交換(RSS) 誰來我家 POWEREDBY (登入) RSS訂閱 參觀人氣 本日人氣: 累積人氣: 最新留言 我的連結 網路流行用語薑餅屋先生鳴黎的筆記http://www.unood.me/我的Coding之路資訊理想化的延伸良葛格學習筆記小黑人的Android教室短網址產生器 月曆 « 十月2022 » 日 一 二 三 四 五 六             1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31           我去誰家 QRCode 本部落格的文章和圖片大多來自網路,如有侵權請告知,以便刪除 回到頁首 回到主文 免費註冊 客服中心 痞客邦首頁 ©2003-2022PIXNET 關閉視窗



請為這篇文章評分?