中国旅游客流的时空格局及大数据挖掘最新章节_马仪亮著

第三节
旅游流研究依赖的核心技术定义

一、游客技术定义的基本要件

如前所言，本书主要研究游客流，而不是旅客流和访客流。从理论上来说，游客、旅客和访客三者有交际，但也存在明显差异。国际研究的共识是，游客（Tourist）、旅客（Traveler）和访客（Visitor）三者中，Traveler对动机和停留时间没有严格要求。Visitor一般不包含短时过境者，强调异地性。Tourist则要求满足离开惯常环境达到一定的时空要求，并满足旅游动机、不形成雇佣关系等游客技术定义的要求。本书研究的旅游流，是符合游客身份的游客汇聚而成的人流。

作为旅游学科最为基础的定义和概念，游客的概念性或学术性定义可以有社会学、地理学、经济学等不同的理解，甚至将活动类型、方式以及动机等非本质性问题用胡塞尔的现象学方法“悬置”（epoche）起来 ^［47］，鼓励争鸣。但游客的技术性或操作性定义，则容不得半点“悬置”，否则旅游统计无法进行，或者各自统计各自认为的旅游，旅游统计陷入混乱境地。目前，以联合国世界旅游组织为代表的多数游客技术定义至少包含三个要件：离开惯常环境、具有旅游动机、满足一定的时空标准。各国对三个要件的规定不尽相同，美国规定旅游需出于商务和休闲目的，不包括希望在目的地获得报酬，且需离开其惯常环境超过50英里（约80公里）和不超过一年的活动 ^［48］。加拿大规定旅游需基于休闲、商务和其他与获得报酬无关的目的，游客需离开个人生活、工作或学习，以及经常到访的地方80公里范围外连续不超过一年 ^［49］。法国规定旅游是以休闲、商务为目的离开惯常环境100公里旅行或短暂停留不超过一年，且不在停留地获得报酬的活动，并直接将惯常环境定义为住所 ^［50］。英国在旅游统计中，认定游客必须离开其居所至返回超过3小时，且参与的活动为非定期举行的活动，目的地为非日常生活、工作活动所在的镇或者乡村 ^［51］。西班牙视一个人到惯常居住环境之外的目的地进行的游览活动，且持续时间少于一年，其主要动机包括商务、休闲或其他个人原因（不包含在目的地公司工作或从事货运或客运工作）为旅游，并规定游客必须出行3小时以上，但必须出行至行政边界以外 ^［52］。我国视离开惯常居住环境超过10公里、6小时，但不足12个月，观光游览、休闲度假、探亲访友、保健疗养、购物娱乐、学习交流、会议培训或开展经济、文化、体育、宗教等活动为旅游，其出游的目的不是通过所从事的活动谋取报酬，并与目的地不形成雇佣关系。

可以看出，三个要件当中后两项要件虽然规定不同，但各自明确。美国和法国局限于商务和休闲动机，中国、加拿大、英国和西班牙等放宽到除获取报酬外的其他目的。时空要件上，北美规定80公里和一年内，法国要求100公里且一年内，英国和西班牙都要求3小时以上，但是英国要求离开游客所在镇或者乡村，西班牙则要求出行政边界。另外，日本在两个要件上的要求分别是离家80公里和大于8小时。澳大利亚对于过夜游客的空间要求是离家40公里以上，对于一日游则是离家50公里和4小时以上。然而，第一个要件各方表达极为相似，但鲜有明确阐述。也就是基本都要求离开惯常环境，但惯常环境是什么，是一个点还是一个区域？如果是一个区域，那是多大的区域？

二、惯常环境定义

（一）应遵循的基本原则

要发挥旅游统计数据的透视作用，就得对惯常进行尽可能简单、最容易理解的技术规定。第一，遵循共性认知原则，也就是符合尽可能多的人的直觉或经验判断。比如怎样频率的抵达或驻足才能称为惯常，不用坐班的人工作地算不算，一周只有很少几天有课的老师工作地算不算，如果算，那去单位几天才算，每次去要不要达到一定的时间标准。外卖员、快递员、货车司机、出租车司机等，白天要不要有惯常环境，有的话又需要怎样的标准。对这些问题的规定，要尽可能符合大众的常识性认知。第二，遵循最小理解障碍原则，不能过于繁琐、晦涩。比如将惯常环境界定为居住地、居住环境、常住地、定居地等，读者并不能快速据此确定空间范围。第三，遵循最少特例原则，就是不能针对很多不同的人群或情境设置不同的规则，随着社会发展，人群和情境划分越来越多样，无法穷尽。第四，遵循统计手段高适配要求，就是既有的统计抽样或大数据等手段能操作。

（二）定义表达

游客的技术定义源于学术定义，其中惯常环境的出现也经历了数十年演变，“非定居地”“离开自己的住地”“离开定居地点较远的地方”“离家”“离开日常生活圈”等表述都出现过（见表1-1），直到1995年被世界旅游组织采用成为相对普遍的共识和表述。新世纪以来我国官方颁布的《全国假日旅游统计调查制度》使用惯常环境概念，但从来没有对惯常环境进行过界定。《全国文化文物和旅游统计调查制度》中出现了“惯常环境”“惯常生活环境”“惯常居住地”“惯常居住环境”等多种表述，且没有对惯常环境进行完整定义，给业界造成了很大困扰。

表1-1　“惯常环境”概念演变 ^［53］

各国对惯常环境的界定可以分为三种，第一种是整圆说，法国、日本和澳大利亚等将惯常环境明确为住所或家周边一定公里范围，呈圆圈状。第二种是不规则生活地说，英国限定为游客所在镇或者乡村，西班牙为行政边界内。第三种是含糊其词，中国、美国和加拿大等都对惯常环境进行模糊处理。按照点状说，游客就只有一个惯常环境，旅游学术定义当中的工作和学习惯常环境怎么处理呢？按照面状说，如果游客工作地不在镇、乡村等空间范围内，是不是需要有第二个惯常环境？以及游客不清楚惯常环境定义的行政边界，怎么知道近程旅游时自己是不是游客呢？至于含糊其词的处理，游客拦访调查时访谈者和游客都会无所适从。技术定义要力求简单明了，可操作性强，既要在抽样调查时不容易造成认知困难，也不能在今后利用大数据进行居民惯常环境识别时难以执行。

用排除法，含糊其词不可取，行政区划说与我国现行的旅游统计调查制度不兼容，只能是整圆说。需要进一步确定的，是居民应该有几个整圆的惯常环境，每个惯常环境一样大吗？张凌云从学术上将惯常环境归纳为日常工作或学习（职场或学校）环境、日常居住（社区）环境和日常人际交往环境三类 ^［47］。是应该给每位居民定义3个类多个惯常环境吗？这不符合最小理解障碍和最少特例原则，更不利于未来大数据的技术处理。如出租车司机驱车全城游走，难道要把整座城都界定为惯常环境？法国、日本和澳大利亚的做法值得借鉴，即从技术层面将住所周边一定范围内定为居民的唯一惯常环境，可以称之为生活性惯常环境。至于工作地和学习地，可以定义为该用户的职学环境。对于外卖骑手、司机等工作场所不固定群体，只需定义其生活性惯常环境。职学环境还有一些特例，比如有人一周内几天在A地上班，另外几天在B地上班，可以定义多个职学环境，但不能超过2个，否则属于工作场所不固定群体。职学环境只在游客识别中起到排除作用，也就是各惯常环境之间的移动（如通勤）不属于旅游。游客惯常环境，不特指的情况下，就指住所周边的生活性惯常环境。对于频繁更换居所的群体，最多定义两个生活性惯常环境，如每周有几天住A地，另外几天住B地，且A与B地相距超过游客技术定义要求的空间标准，在我国为10公里。如果多于两个，则取居住时间最多的为生活性惯常环境，其余可根据情况视为度假居所。对于居无定所者，一方面这类人极少，另一方面往往缺乏旅游的资金，暂可不予考虑。综上，惯常环境可定义为居民常住居所周边一定空间范围内。根据《全国文化文物和旅游统计调查制度》，我国居民惯常环境为居民常住居所周边10公里范围内。职学环境只做游客识别时排除用，但不能是一个点，也不应是10公里范围的区域，毕竟绝大多数情况下人们在工作和学习地周边活动空间远不如住所周边大，这个空间范围可以另行规定，如2公里范围或规定大小的网格。如此，居民离开其惯常环境，到工作场所及其周边2公里范围或指定网格都不是旅游。

三、惯常环境的大数据识别

以移动通信运营商、大型地图商或SDK服务商（以下统称位置数据商）活跃用户作为样本，识别用户晚上10点至第二天早晨5点期间密集位置区域，通过空间聚类确定活跃用户的惯常居所（表现为该点经纬度），惯常居所周边10公里范围既为游客生活性惯常环境，每位用户的生活性惯常环境不超过两个，可以为零。同理，用空间聚类法聚类用户白天自上午10点至下午5点之间的密集位置区域的聚类簇点，以该簇点所在网格（1.2KM*609.4M大小）为中心，上下左右共增加8个网格，形成3.6KM*1.8282KM区域为职学环境，每位用户的职学环境不超过两个，可以为零。以下对比两种空间聚类方法。

（一）通八达基于K-Means聚类的惯常环境识别

K-Means聚类又称k均值聚类算法（k-means clustering algorithm），是一种迭代求解的聚类分析算法。其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了，每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。

图1-1　2022年6月南京电信某用户1位置点分布

该算法旨在选择一个质心，能够最小化惯性或簇内平方和的标准。以南京电信用户为例，随机选取用户1，该用户在1个月内被监测到1188次位置（每半小时监测一次），位置点如图1-1所示。

先进行白天和夜晚无差别聚类，观察用户白天和夜晚的行为差异。设置K值（聚为几个簇点）分别等于2、3、4和5，结果见图1-2。

图1-2　2022年6月南京电信某用户1位置点K-Means聚类对照

由图1-2可以看出，K-Means可以将位置点聚类成任意数量的簇点，但K值设置越大，会出现越来越多的簇点与用户的真实惯常环境偏离，甚至在一个生活性惯常环境要求的10公里范围内，会聚类出多个簇点。当K=2时，可以看出该用户出现两个位置属性迥异的簇点，一个指向工作场所，即南京师范大学随园小区，该簇点由周边436个（36.7%）位置点聚类而成。一个指向居所，即万山庭院附近，该簇点由周边265个（22.3%）位置点聚类而成，具体如图1-4所示。进一步分析两个簇点周边位置点的时间信息，前者85%以上为白天10点到傍晚5点之间，后者超过9成为夜晚10点至次日早晨5点之间。反过来，只是工作日白天10点到傍晚5点和夜晚10点至次日早晨5点进行聚类，簇点与图1-3所示略有差异，但非常接近。本书旨在探讨技术可行性及其特点，不在于对具体用户的精确簇点进行校准研究，毕竟惯常环境为半径数公里的面状空间，中心点位置微小偏差对整个惯常环境的识别影响不大，此处不再赘述。

图1-3　2022年6月南京电信某用户1位置点2簇点聚类

图1-4　2022年6月南京电信某用户1簇点聚类经纬度

再选取用户2，该用户2022年6月被监测到的位置点为961个（每半小时监测一次）。

如图1-5所示，该用户高频位置点涉及南京和马鞍山两地，同样设置K值（聚为几个簇点）分别等于2、3、4和5，通过K-Means聚类结果如图1-6所示。

图1-5　2022年6月南京电信某用户2位置点分布

图1-6　2022年6月南京电信某用户2位置点K-Means聚类对照

可以看出，该用户位置点可以总体分为南京簇和马鞍山簇，南京位置点非常集中，如果将南京簇进一步聚类成多个簇，其相互间距较短，出现惯常环境重叠现象，如图1-7所示。因此K=2较为理想。当K=2时，可以看出该用户两个位置簇点，一个位于南京，该簇点由周边716个（74.5%）位置点聚类而成，一个位于马鞍山，该簇点由周边20个（2.1%）位置点聚类而成。具体如图1-7所示。从位置点数量来看，图1-6右下角蓝色簇点周边位置点数仅为20次，可能是该用户6月去往该地一两次，但停留时间不短所致，不符合职住地标准，应被判断为异常点。南京簇点代表性极强，该用户可能职住场所重合，即居住在工作单位非常近的位置（如图1-8所示），可以将该点定义为该用户的惯常环境。K-Means只根据参数K值强制聚类簇点，对最少需要出现多少个点不做要求，从而造成判定上的奇异点问题，这也是K-Means的缺点之一。

图1-7　2022年6月南京电信某用户2簇点聚类经纬度

图1-8　2022年6月南京电信某用户2职住重合

（二）基于DBSCAN聚类的惯常环境识别

基于密度的空间聚类算法（简称DBSCAN，Density-Based Spatial Clustering of Applications with Noise）是一个比较有代表性的基于密度的聚类算法，与划分和层次聚类方法不同，该方法将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。聚类过程中需要提前设定两个参数：扫描半径（eps）和最小包含点数（minPts）。任选一个未被访问（unvisited）的点开始，找出与其距离在eps之内（包括eps）的所有附近点。如果附近点的数量大于等于 minPts，则当前点与其附近点形成一个簇，并且出发点被标记为已访问（visited）。然后递归，以相同的方法处理该簇内所有未被标记为已访问（visited）的点，从而对簇进行扩展。如果附近点的数量小于 minPts，则该点暂时被标记作为噪声点。如果簇充分地被扩展，即簇内的所有点被标记为已访问，然后用同样的算法去处理未被访问的点。

先以上述用户1为例，设置eps=2000，minPts=100，即扫描半径为2公里，簇内月最小位置点数为100。如图1-9所示，聚类结果与图1-3类似，虽然具体位置点存在经纬度细小的差异，但展开为特定半径范围内的惯常环境后，对于游客识别影响太小。

图1-9　2022年6月南京电信某用户1位置点DBSCAN聚类

而对于用户2，在eps=2000和minPts=100参数值下，马鞍山附近的点位已经被自动去除，聚类结果为一个簇点（该点与基于K-means聚类结果相聚约四百米），即用户晚上居住和白天工作的场景重合，如图1-10所示。

图1-10　2022年6月南京电信某用户2位置点DBSCAN聚类

对比两种经典空间聚类方法可以发现，K-Means操作简单，迭代速度快，可以任意制定聚类数量，但也存在容易受异常点干扰的缺点。DBSCAN方法操作性和迭代速度没有优势，但有利于去除异常点干扰。由于不同居民的惯常环境数量不确定，有的多有的少，在不确定数量的情况下进行空间聚类，DBSCAN方法更有优势。本书涉及的旅游流监测所需的用户惯常环境识别，均采用DBSCAN方法。随机选取南京150个用户，针对其2022年2—7月位置点数据进行聚类，发现全部用户都可以从夜晚10点至次日5点聚类出1个簇点。上午10点至下午5点之间，111个用于聚类出1个簇点，38个用户聚类出2个簇点，1个用户没有明显的簇点，见表1-2所示。

表1-2　150个实验用户夜晚和白天位置簇点聚类结果

注：白天聚类簇点置于1.2KM*609.4M网格中，网格用GEOhash编码，表中第三列为网格码。

第三节 旅游流研究依赖的核心技术定义