人妻人人妻a乱人伦青椒视频_Java正則表達式引發(fā)的思考_單元測試方法

Java正則表達式引發(fā)的思考

發(fā)表于：2012-11-26來(lái)源：淘寶網(wǎng)綜合業(yè)務(wù)平臺團隊博客作者：xuanyin點(diǎn)擊數：標簽：java

Java正則表達式引發(fā)的思考。情況回放：上周預發(fā)機器出了一個(gè)問(wèn)題，CPU不定時(shí)會(huì )近100%滿(mǎn)負載運行。

　　情況回放：

　　上周預發(fā)機器出了一個(gè)問(wèn)題，CPU不定時(shí)會(huì )近100%滿(mǎn)負載運行。重啟以后就會(huì )恢復，之后又會(huì )到達100%，而且不會(huì )自恢復。

　　首先想到的是程序出現了死循環(huán)，于是用jstack把棧打印出來(lái)，發(fā)現業(yè)務(wù)線(xiàn)程都停在了regex相關(guān)的代碼上，有死循環(huán)的樣子。

　　查看棧，發(fā)現一切都是由ClientFilter這個(gè)類(lèi)開(kāi)始，其使用了matcher.matches()方法。這樣一來(lái)，就很可能是由于輸入了不規范的正則導致的了。于是查看輸入日志，發(fā)現這么一個(gè)輸入：

　　也就是說(shuō)輸入的正則表達式為：******Deliver …，我們的代碼會(huì )將這種代碼規范成：.*.*.*.*.*.*.*Deliver。在java試了一下，試著(zhù)匹配

　　“sssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssss”，果然會(huì )假死。

　　那么問(wèn)題是：為什么輸入這種正則會(huì )導致假死?

　　這里的原因是：java使用的是greedy模式來(lái)匹配 .*。為了讓分析簡(jiǎn)單，我們將輸入改成：.*.*.*.*D，正則需要匹配的字符串為：abcdefghijklmnopqrstuvwxyz0123456789，共36個(gè)字符。首先，我們將正則轉換成 ”有限自動(dòng)機(Finite-State Machine)“

　　那么greedy模式(可參看：java.util.regex.Pattern.Curly.match0(…)，另兩個(gè)是possessive與lazy，分別對應 + 與 ?)的意思就是：最大可能的匹配當前狀態(tài)(優(yōu)先匹配粗的路徑)，當不能匹配時(shí)再回溯配置下一個(gè)(虛線(xiàn)所示)，直到，回溯到cmin個(gè)匹配(對于 .* 這個(gè)cmin為0)。比如說(shuō)

　　.*D，如果想匹配 testDdev，那么Java首先將 .* 轉成 .{0, MAX}(這里的MAX應該是2億多，具體可以看代碼)，那么 .{0, MAX} 得到的匹配是(java會(huì )自動(dòng)在string后加上一個(gè)終止字符，這個(gè)字符只能java.util.regex.Pattern.LastNode匹配)：

　　testDev$

　　RED: 已匹配的部分

　　當到最后時(shí)，java會(huì )調用 next.match(matcher, i, seq)

　　testDev$

　　RED: 已匹配的部分

　　BLUE:回溯部分

　　顯然這里 D 不匹配，所以又需要回溯

　　testDev$

　　RED: 已匹配的部分

　　BLUE:回溯部分

　　顯然這里 e 也不匹配，所以還需要回溯，直到回溯到 D，才會(huì )正式進(jìn)入到下一個(gè)狀態(tài)：

　　testDev$

　　RED: {0 MAX} 配置的部分

　　BLUE:回溯部分

　　GREEN: D 配置的部分

　　testDdev

　　RED: 已匹配的部分

　　如下面的代碼所示(java.util.regex.Pattern.Curly.match0(…))：