Python 3.5从零开始学最新章节_刘宇宙著

2.7　字符串操作

字符串是Python中最常用的数据类型。我们可以使用引号（'或"）创建字符串。

通常字符串不能进行数学操作，即使看起来像数字也不行。字符串不能进行除法、减法和字符串之间的乘法运算。下面的操作都是非法的。

>>> 'hello'/3
Traceback (most recent call last):
  File "<pyshell#83>", line 1, in <module>
    'hello'/3
TypeError: unsupported operand type(s) for /: 'str' and 'int'
>>> 'world'-1
Traceback (most recent call last):
  File "<pyshell#84>", line 1, in <module>
    'world'-1
TypeError: unsupported operand type(s) for -: 'str' and 'int'
>>> 'hello'*world
Traceback (most recent call last):
  File "<pyshell#85>", line 1, in <module>
    'hello'*world
NameError: name 'world' is not defined
>>> 'hello'-'world'
Traceback (most recent call last):
  File "<pyshell#86>", line 1, in <module>
    'hello'-'world'
TypeError: unsupported operand type(s) for -: 'str' and 'str'

字符串可以使用操作符+，但功能和数学中不一样，它会进行拼接（concatenation）操作，即将前后两个字符首尾连接起来。

例如：

>>> string1='hello'
>>> string2='world'
>>> print(string1+string2)
helloworld

输出的字符紧紧挨着，看起来不怎么好看，能不能在两个单词间加一个空格呢？

如果想让字符串之间有空格，就可以建一个空字符变量插在相应的字符串之间，让字符串隔开，或者在字符串中加入相应的空格。交互模式下输入如下：

>>> string1='hello'
>>> string2='world'
>>> space=' '
>>> print(string1+space+string2)
hello world

或者

>>> string1='hello'
>>> string2=' world'
>>> print(string1+string2)
hello world

这些是字符串的一些简单操作，在后续章节中会介绍更多、更实用的字符串操作。

小萌，你有没有发现进行了这么多操作，操作中都没有出现中文，这是怎么回事呢？

是啊，虽说一直用英文操作，在编码时可以学习英文，但很多时候我还是喜欢用中文表达。我们目前没有操作中文，是因为Python不支持中文吗？

Python是支持中文的。正如我们前面所说，字符串也是一种数据类型，但是字符串特殊的是有编码问题。

因为计算机只能处理数字，其实只认识0和1，即二进制。如果要处理文本，就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8比特（bit）为一个字节（byte），所以一个字节（8位）能表示的最大整数是255（二进制11111111等于十进制255，简单表示为2**8-1=255）。如果要表示更大的整数，就必须用更多字节。比如两个字节（16位）可以表示的最大整数是65535（2**16-1），4个字节（32位）可以表示的最大整数是4294967295 （2**32-1）。

由于计算机是美国人发明的，因此最早只有127个字母被编码到计算机里，也就是大小写英文字母、数字和一些符号，这个编码表被称为ASCII编码。例如，大写字母A的编码是65，小写字母z的编码是122。

要处理中文，显然一个字节是不够的，至少需要两个字节，而且不能和ASCII编码冲突，所以中国制定了GB2312编码，用来把中文编进去。

可以想象，全世界有上百种语言，日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里，各国有各国的标准，就不可避免地出现冲突。结果就是，在多语言混合的文本中就会显示乱码。当时各国对编码问题的感觉如图2-7所示。

图2-7　令人头疼的字符编码

Unicode应运而生。Unicode把所有语言都统一到一套编码里，这样就不会有乱码问题了。

Unicode标准在不断发展，最常用的是用两个字节表示一个字符（如果要用到非常偏僻的字符，就需要4个字节）。现代操作系统和大多数编程语言都直接支持Unicode。

下面我们来看ASCII编码和Unicode编码的区别：ASCII编码是1个字节，而Unicode编码通常是两个字节。

字母A用ASCII编码是十进制的65，二进制的01000001。

字符0用ASCII编码是十进制的48，二进制的00110000。注意字符0和整数0是不同的。

汉字“中”已经超出了ASCII编码的范围，用Unicode编码是十进制的20013，二进制的01001110 00101101。

如果把ASCII编码的A用Unicode编码，只需要在前面补0就可以，因此A的Unicode编码是00000000 01000001。

新的问题又出现了：如果统一成Unicode编码，乱码问题从此消失了。但是写的文本基本上全部是英文时，用Unicode编码比ASCII编码多一倍存储空间，在存储和传输上十分不划算。

本着节约的精神，又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1～6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4～6个字节。如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间，如表2-9所示。

表2-9　各种编码方式比较

从表2-9可以发现，UTF-8编码有一个额外的好处，就是ASCII编码实际上可以看成是UTF-8编码的一部分，所以只支持ASCII编码的大量历史遗留软件可以在UTF-8编码下继续工作。

搞清楚ASCII、Unicode和UTF-8的关系后，我们可以总结一下现在计算机系统通用的字符编码工作方式：在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或需要传输时，可以转换为UTF-8编码。

例如，用记事本编辑时，从文件读取的UTF-8字符被转换为Unicode字符到内存；编辑完成后，保存时再把Unicode转换为UTF-8保存到文件，如图2-8所示。

浏览网页时，服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器，如图2-9所示。

图2-8　字符转换

图2-9　服务器、浏览器中的字符串转换

我们经常看到很多网页的源码上有类似<meta charset="UTF-8" />的信息，表示该网页用的UTF-8编码。

在最新的Python 3版本中，字符串是以UTF-8编码的。也就是说，Python 3的字符串支持多语言。比如在交互模式下输入：

>>> print('你好，世界！')
你好，世界！
>>> print('馕齉')
馕齉

可以看到，在Python 3中，简单和复杂的中文字符都可以正确输出。

Python 2中默认的编码格式是ASCII，在没修改编码格式时无法正确输出中文，在读取中文时会报错。Python 2使用中文的语法是在字符串前面加上前缀u。

2.7 字符串操作

2.7　字符串操作