半个汉字的校验与处理(C++)

由于汉字是2个字符(这里不讨论可变字符的情形),因此,在C语言中,用一个固定长度的buffer 存放包含汉字的字符串,就有汉字被截断从而导致半个汉字的情形的出现。半个汉字的存在,对字符串的后续处理,会带来一定的麻烦,比如在xml文档、或者SQL语句中,如果存在半个汉字,就会导致xml解析失败,或者sql执行错误的异常。为了解决这个问题,有必要找到并删除半个汉字,或者存放的时候,即便截断,也不产生新的半个汉字。

以下是我近期对半个汉字的处理,C++代码如下:

// strSrc: 原始字符串
    // nMaxLen: 截断后的最大长度
    char *GetTruncate(char *strSrc, int nMaxLen)
    {
        if (strSrc == NULL || nMaxLen == 0)
        {
            return NULL;
        }
        int len = strlen(strSrc);
        if (len == 0)
        {
            return strSrc;
        }
        int size = len; bool bFlag = false;
        if (len >= nMaxLen)
        {
            size = nMaxLen;
            bFlag = true;
        }
        int index = 0; int mid = 0;
        for (int i = size - 1; i >= 0; i--)
        {
            mid = i;
            if (!(strSrc[i] & 0x80)) // 找到非汉字的话,立刻停止搜索
            {
                break;
            }
            index++;
        }
        if (bFlag) // 原始字符串的长度比预留的空间要大
        {
            if (index == 0 || (index % 2) != 0) // 0 or 奇数
            {
                strSrc[size - 1] = 0;
            }
            else
            {
                strSrc[size - 2] = 0;
            }
        }
        else
        {
            if (index % 2 == 0) // 0 or 偶数
            {
                strSrc[size] = 0;
            }
            else
            {
                strSrc[size - 1] = 0;
            }
        }
        return strSrc;
    }

清泛网注:

其中只需要看一个字节和0x80与运算(& 0x80 )是否不为零,不为零则该字节是汉字的第一个字节,否则是普通的ASCII字符。

C++ 汉字处理

分享到:
评论加载中,请稍后...
创APP如搭积木 - 创意无限,梦想即时!
回到顶部