字符串搜索算法

字符串搜索算法String searching algorithms)又称字符串比对算法string matching algorithms)是一种搜索算法,是字符串算法中的一类,用以试图在一长字符串或文章中,找出其是否包含某一个或多个字符串,以及其位置。

最直观的解法是比对,如下例中,在字符串haystack中找出字符串needle

char* haystack;
char* needle;
int hlen, nlen, found;
int i,j,k;

found = 0;
hlen = strlen(haystack);
nlen = strlen(needle);
for (i = 0; i < hlen; ++i) {
    for (j = 0; j < nlen; ++j) {
        if (haystack[i+j] != needle[j]) break;
        if (j == nlen - 1) found = 1;
    };
};
return found;

上例中,若字符串needle存在于字符串haystack中,则传回1,否则传回0。

但是此直观算法的复杂度为 O(mn),其中haystack的长度为n、needle的长度为m,所以另有更快速的算法。

部分算法比较

m 为模式的长度, n 为要搜索的字符串长度, k为字母表长度。

算法 预处理时间 匹配时间
朴素算法 0 (无需预处理) Θ(nm)
Rabin-Karp算法 Θ(m) 平均 Θ(n + m),
最差 Θ((n−m)m)
基于有限状态机的搜索 Θ(mk) Θ(n)
克努斯-莫里斯-普拉特算法 Θ(m) Θ(n)
Boyer-Moore字符串搜索算法 Θ(m + k) 最好Ω(n/m),
最坏 O(n)
Bitap算法 Θ(m + k) O(mn)

外部链接