一直以來,肯德基、麥當勞都是毫無疑問的快餐業巨頭,那民族快餐呢?
老美有蘋果,咱們有華為,韓國有現代,咱們有紅旗,日本有小電影,咱們有爛劇……為啥在中國人最驕傲的吃上面沒有交出一份滿意的成績單呢?
刷微博看到一個老段子:找出中國的餐飲業的四大巨頭,不服就撕!
評論裡那是一個熱鬧啊,唇槍舌戰,水深火熱、熱火朝天,紅紅火火,恭賀新年…好像哪裡有些不對,反正大家各執己詞,說出自己心目中的餐飲業巨頭。但是幾個版本下來,蘭州拉麵和沙縣小吃是毫無疑問的當選。
那麼:
中國的快餐業情況到底是什麼樣的呢?
我帶著疑問進行了探究。
首先對找到了一份全國小吃餐飲店的
txt格式
的資料,
部分
一共有‘門店名稱,省,市,區縣,分類’這五個欄位
然後我
使用pandas,matplotlib,pyechart和powerbi
等對資料進行處理和視覺化展示:
1。啟動
jupyter
2。
匯入模組
(有部分模組是做其他專案時使用,此次專案未使用)
import numpy as np
import pandas as pd
import matplotlib。pyplot as plt
from pandas import DataFrame,Series
from pylab import *
import re
from wordcloud import WordCloud
import numpy as np
import jieba
from PIL import Image
from pyecharts import Bar,Line,Overlap,EffectScatter,Map
plt。rcParams[‘font。sans-serif’]=[‘SimHei’]
plt。rcParams[‘axes。unicode_minus’]=False
3。
讀取資料
f = open(“小吃門店列表。txt”,“r”) #設定檔案物件
data = f。readlines() #直接將檔案中按行讀到list裡
f。close() #關閉檔案
data
ps:因為資料量有些大,使用常規方法讀取會報錯讀取中斷
轉換成DataFrame
data=pd。DataFrame(data)
data
4。
資料清洗
a=data[0]。str。split(‘\t’)。apply(pd。Series)
a。columns=[‘門店名稱’,‘省’,‘市’,‘區縣’,‘分類’]
a=a[1:]
a[‘分類’]=a[‘分類’]。str。replace(‘\n’,‘ ’)
a。head(10)
重新命名列明,原先的列明不要,從第二條資料開始取
對欄位裡的\t 和\n 進行替換
b=a。groupby(a[‘分類’])。size()
plt。bar(b。index,b。values,label=‘各小吃門店數量’,color=‘m’)
plt。xlabel(‘數量’)
plt。ylabel(‘小吃品牌’)
plt。legend()
plt。show()
各快餐門店數量條形圖
plt。pie(b。values,labels=b。index,startangle=90,shadow=True,explode=(0。1,0,0,0,0,0,0,0),autopct=‘%。1f%%’)
plt。show()
各快餐店門店數量佔比圖
powebi 繪圖
b=a。groupby(a[‘分類’])。size()。sort_values(ascending=False)
b
從以上視覺化圖形我們可以明顯的觀察到,蘭州拉麵以約39000家的數量成為中式快餐的No。1
前八名分別是蘭州拉麵、沙縣小吃 、黃燜雞米飯、灌湯包、重慶小面、臘汁肉夾饃 、桂林米粉、鴨血粉絲湯
接下來,我們來探究下各個城市快餐的數量問題
b1=a。groupby(a[‘省’])。size()
b1=b1[b1。values>200]
b1
b1=b1。sort_values()。tail(12)
b1
因為澳門、香港的此類中式快餐數量很少,所以我直接忽略
plt。scatter(b1。index,b1。values,label=‘各個城市小吃店數量’,s=b1。values/50,color=‘g’)
plt。xticks(np。arange(12), (‘上海’,‘安徽’,‘山東 ’,‘廣東’,‘廣西’,‘江蘇’,‘河北’,‘河南’,‘浙江’,‘湖北’,‘福建’,‘陝西’), rotation=40)#rotation控制傾斜角度
plt。xlabel(‘區域’)
plt。ylabel(‘數量’)
plt。legend()
plt。show()
使用matplotlib畫了一份關於各省快餐店數量的散點圖
從圖中,我們很明顯的發現,
廣東省的快餐店數量是最多的。這也間接的證明了廣東人在“吃“這個天賦的上的優勢
接下來,本想使用
pyechart的Map,但是發現Pyechart 有個很大的侷限性,它不能識別正式的行政區,such as:可以識別廣西,但是識別不了廣西壯族自治區,可以識別上海,卻不能識別上海市,因為省級行政區有限,所以我對行政區的名字進行了清洗。
b2=a。groupby(a[‘市’])。size()
b2
a[‘省份’]=a[‘省’]
a[‘省份’]=a[‘省份’]。str。replace(‘省’,‘’)
a[‘省份’]=a[‘省份’]。str。replace(‘壯族自治區’,‘’)
a[‘省份’]=a[‘省份’]。str。replace(‘維吾爾自治區’,‘’)
a[‘省份’]=a[‘省份’]。str。replace(‘回族自治區’,‘’)
a[‘省份’]=a[‘省份’]。str。replace(‘自治區’,‘’)
a[‘省份’]=a[‘省份’]。str。replace(‘市’,‘’)
a
b3=a。groupby(a[‘省份’])。size()
b3=b3[b3。values>200]
b3
使用Map
value = list(b3。values)
attr = list(b3。index)
map1 = Map(“全國地圖示例”, width=800, height=600)
map1。add(“”, attr, value, maptype=‘china’,is_visualmap=True,visual_text_color=‘#000’,is_label_show=True,visual_range=[0,22000])
map1
顏色越深,店鋪數量越多
地圖上,
東部沿海省份的顏色明顯區別於內陸,因為東部地區經濟發達且人口密集,更容易做生意賺錢,大家也更喜歡在東部開快餐店
powerbi
各城市快餐店數量
從powerbi上的著色地圖分佈來看,南沙群島亦有分佈,可見
中國餐飲這8大金剛的分佈範圍之廣,覆蓋人群之多。
各城市快餐店數量
廣東省各快餐數量分佈
江蘇省各快餐數量分佈
浙江省各快餐數量分佈
山東省各快餐數量分佈
河南省各快餐數量分佈
因為圖很多,就選放了快餐店數量最多的前五個省份,看看每個快餐品牌在省份的中佔比情況。結果有些出乎我的意料,
一直以為南米北面,但是實際上蘭州在南方各的省份的佔比都是很大,和黃燜雞米飯幾乎評分天下,我以為江南地區愛吃的湯包卻在長江以北,山東等各省份的佔比有明顯的提升。
如果僅以以上資料片面來說,南北飲食習慣已經發生了重大的改變
#FormatImgID_51##FormatImgID_52#各區縣快餐店數量
如果從各個縣區的快餐店數量來看,東部各省內區縣的快餐店數量已經很高,
快餐店數量最多的是蘇州的虎丘區,有259家快餐店,而上海,北京等一線城市的區域佔有量卻不高,說明在一線城市,此類中式快餐並不具有很大的競爭優勢,可能洋快餐更吸引都市上班族。
現在我們可以很明確的告訴大家了:
中國快餐業的扛把子就是推廣了幾十年,風靡中國的“蘭州拉麵”,“沙縣小吃”,“黃燜雞米飯”緊跟其後。
美國家有快餐兩巨頭,中國有小吃三兄弟!!