技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)挖掘技術(shù),具體涉及一種基于用戶位置信息的旅游路線提取系統(tǒng)和方法。
背景技術(shù):
隨著生活水平的不斷提高,度假旅游已經(jīng)成為人們消費(fèi)的一個(gè)重要方向。對(duì)于相當(dāng)一部分的自由旅游者來(lái)說,如何容易地找到一條合適和便捷的路線成為一個(gè)主要問題。
當(dāng)前,很多景區(qū)都發(fā)放了相關(guān)旅游導(dǎo)引手冊(cè),但是它們中的大部分都集中在景點(diǎn)的介紹上,缺少景點(diǎn)間的路線推薦。即使有些導(dǎo)引手冊(cè)提供了推薦路線,這些路線都建立在景區(qū)的初期規(guī)劃階段,信息比較陳舊,不能隨著景區(qū)發(fā)展進(jìn)行及時(shí)的更新。
在當(dāng)前眾多的無(wú)線定位技術(shù)中,全球定位系統(tǒng)(GPS)以其覆蓋范圍廣、定位精度高、定位時(shí)間短和定位依賴性小等優(yōu)勢(shì)逐漸在人們的日常生活中變得普及起來(lái)。各種車載GPS、手持GPS和GPS智能手機(jī)的相繼問世也為人們提供了更加便捷的位置獲取和軌跡記錄方式。
特別地,單個(gè)旅游者的軌跡數(shù)據(jù)可以體現(xiàn)個(gè)人的旅游特征,而眾多旅游者軌跡數(shù)據(jù)的集合則可用來(lái)表達(dá)多個(gè)旅游者的旅游特征,這可以用于判定在景區(qū)內(nèi)符合大部分人要求的旅游導(dǎo)向、旅游熱點(diǎn)等特征。
目前,存在一種時(shí)空景點(diǎn)游覽路線選擇系統(tǒng)和方法,其利用互聯(lián)網(wǎng)數(shù)據(jù)和地理位置數(shù)據(jù)的分析,通過給景點(diǎn)預(yù)設(shè)權(quán)值并采用路徑的優(yōu)化算法得到景點(diǎn)的游覽路線。具體地,該方法主要包括以下步驟:從互聯(lián)網(wǎng)(例如景點(diǎn)網(wǎng)站和社交網(wǎng)絡(luò))收集景點(diǎn)信息數(shù)據(jù)和地理位置數(shù)據(jù);對(duì)數(shù)據(jù)進(jìn)行分析以得到景點(diǎn)評(píng)級(jí),從而確定景點(diǎn)的熱度,并基于此為每個(gè)景點(diǎn)預(yù)設(shè)權(quán)值;根據(jù)預(yù)設(shè)權(quán)值,進(jìn)行景點(diǎn)間不同起點(diǎn)和終點(diǎn)的路線規(guī)劃,得到最短路線;以及將不同起點(diǎn)和終點(diǎn)的最短路線保存到知識(shí)庫(kù)中,從而為旅游者提供條件查詢。
上述方法雖然利用用戶數(shù)據(jù)提取旅游路線,但由于來(lái)自互聯(lián)網(wǎng)的數(shù)據(jù)源存在很多問題(比如無(wú)法鑒定用戶信息的真實(shí)性,無(wú)法判定信息提供的時(shí)效性等),很容易造成景點(diǎn)的預(yù)設(shè)權(quán)值的不正確。進(jìn)一步地,根據(jù)錯(cuò)誤的預(yù)設(shè)權(quán)值的路線規(guī)劃也是不正確的,從而可能向旅游者提供不合適的甚至是錯(cuò)誤的旅游路線。
技術(shù)實(shí)現(xiàn)要素:
因此,需要一種基于用戶位置數(shù)據(jù)的旅游路線提取系統(tǒng)和方法,其能夠針對(duì)用戶在旅游過程中的特定需求進(jìn)行路線提取。例如,可以根據(jù)用戶旅游時(shí)采用的具體交通方式(開車、旅游大巴、步行等)、旅游時(shí)的季節(jié)或天氣等,進(jìn)行更細(xì)化的分析,從而能夠根據(jù)每個(gè)用戶的個(gè)人情況來(lái)提供個(gè)性化的旅游導(dǎo)引服務(wù)。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種旅游路線提取系統(tǒng),包括:用戶數(shù)據(jù)獲取單元,被配置為獲取用戶的歷史位置數(shù)據(jù);用戶數(shù)據(jù)處理單元,被配置為從所獲取的歷史位置數(shù)據(jù)中去除冗余數(shù)據(jù),并將余下的數(shù)據(jù)按照景點(diǎn)和時(shí)間進(jìn)行分組;移動(dòng)方向確定單元,被配置為基于相鄰時(shí)間段的每個(gè)景點(diǎn)及其相鄰景點(diǎn)的用戶位置數(shù)據(jù)來(lái)確定每個(gè)景點(diǎn)的用戶向相鄰景點(diǎn)的主要移動(dòng)方向,并基于各個(gè)主要移動(dòng)方向形成路線網(wǎng)絡(luò);以及路線提取單元,被配置為基于所述路線網(wǎng)絡(luò)來(lái)提取旅游路線。
優(yōu)選地,用戶數(shù)據(jù)獲取單元被配置為獲取具有以下至少一種格式的歷史位置數(shù)據(jù):全球定位系統(tǒng)GPS數(shù)據(jù)、手機(jī)定位數(shù)據(jù)和無(wú)線定位數(shù)據(jù)。
優(yōu)選地,用戶數(shù)據(jù)處理單元被配置為從所獲取的歷史位置數(shù)據(jù)中去除包括以下任意一種或多種的冗余數(shù)據(jù):缺少用戶標(biāo)識(shí)的數(shù)據(jù)、缺少地理位置信息的數(shù)據(jù)以及缺少時(shí)間信息的數(shù)據(jù)。
優(yōu)選地,用戶數(shù)據(jù)處理單元被配置為:從余下的數(shù)據(jù)中選出旅游用戶的數(shù)據(jù)并按照景點(diǎn)和時(shí)間進(jìn)行分組,并對(duì)每一組中的數(shù)據(jù)按照時(shí)間順序進(jìn)行排序。
優(yōu)選地,移動(dòng)方向確定單元被配置為:選擇任意一個(gè)景點(diǎn)作為基準(zhǔn)景點(diǎn),并選擇基準(zhǔn)時(shí)間;在基準(zhǔn)時(shí)間之后的特定時(shí)間,計(jì)算基準(zhǔn)景點(diǎn)與相鄰景點(diǎn)的用戶重合度,并將具有最大用戶重合度的移動(dòng)方向確定為用戶在基準(zhǔn)景點(diǎn)的主要移動(dòng)方向;以及針對(duì)余下的景點(diǎn)重復(fù)上述過程,然后基于各個(gè)主要移動(dòng)方向形成路線網(wǎng)絡(luò)。
優(yōu)選地,旅游路線提取系統(tǒng)還包括:額外信息獲取單元,被配置為獲取額外信息。其中,所述移動(dòng)方向確定單元被配置為基于相鄰時(shí)間段的每個(gè)景點(diǎn)及其相鄰景點(diǎn)的用戶位置數(shù)據(jù)以及所獲取的額外信息來(lái)確定每個(gè)景點(diǎn)的用戶向相鄰景點(diǎn)的主要移動(dòng)方向,并根據(jù)各個(gè)主要移動(dòng)方向形成路線網(wǎng)絡(luò)。
優(yōu)選地,額外信息包括以下任意一種或多種:交通方式、季節(jié)、天氣和景點(diǎn)類型。
根據(jù)本發(fā)明的另一個(gè)方面,提供了一種旅游路線提取方法,包括:獲取用戶的歷史位置數(shù)據(jù);從所獲取的歷史位置數(shù)據(jù)中去除冗余數(shù)據(jù),并將余下的數(shù)據(jù)按照景點(diǎn)和時(shí)間進(jìn)行分組;基于相鄰時(shí)間段的每個(gè)景點(diǎn)及其相鄰景點(diǎn)的用戶位置數(shù)據(jù)來(lái)確定每個(gè)景點(diǎn)的用戶向相鄰景點(diǎn)的主要移動(dòng)方向,并基于各個(gè)主要移動(dòng)方向形成路線網(wǎng)絡(luò);以及基于所述路線網(wǎng)絡(luò)來(lái)提取旅游路線。
優(yōu)選地,從所獲取的歷史位置數(shù)據(jù)中去除包括以下任意一種或多種的冗余數(shù)據(jù):缺少用戶標(biāo)識(shí)的數(shù)據(jù)、缺少地理位置信息的數(shù)據(jù)以及缺少時(shí)間信息的數(shù)據(jù)。
優(yōu)選地,從余下的數(shù)據(jù)中選出旅游用戶的數(shù)據(jù)并按照景點(diǎn)和時(shí)間進(jìn)行分組,并對(duì)每一組中的數(shù)據(jù)按照時(shí)間順序進(jìn)行排序。
優(yōu)選地,確定用戶在每個(gè)景點(diǎn)的主要移動(dòng)方向并根據(jù)各個(gè)主要移動(dòng)方向形成路線網(wǎng)絡(luò)的步驟包括:選擇任意一個(gè)景點(diǎn)作為基準(zhǔn)景點(diǎn),并選擇基準(zhǔn)時(shí)間;在基準(zhǔn)時(shí)間之后的特定時(shí)間,計(jì)算基準(zhǔn)景點(diǎn)與相鄰景點(diǎn)的用戶重合度,并將具有最大用戶重合度的移動(dòng)方向確定為用戶在基準(zhǔn)景點(diǎn)的主要移動(dòng)方向;以及針對(duì)余下的景點(diǎn)重復(fù)上述過程,然后基于各個(gè)主要移動(dòng)方向形成路線網(wǎng)絡(luò)。
優(yōu)選地,旅游路線提取方法還包括:獲取額外信息。其中,基于相鄰時(shí)間段的每個(gè)景點(diǎn)及其相鄰景點(diǎn)的用戶位置數(shù)據(jù)以及所獲取的額外信息來(lái)確定每個(gè)景點(diǎn)的用戶向相鄰景點(diǎn)的主要移動(dòng)方向,并根據(jù)各個(gè)主要移動(dòng)方向形成路線網(wǎng)絡(luò)。
優(yōu)選地,額外信息包括以下任意一種或多種:交通方式、季節(jié)、天氣和景點(diǎn)類型。
本發(fā)明通過對(duì)大量用戶的歷史數(shù)據(jù)進(jìn)行集中處理,能夠客觀地和準(zhǔn)確地獲取旅游者的旅游行為特征,從而提取合適的旅游路線。此外,本發(fā)明還可以結(jié)合每個(gè)用戶的交通方式以及季節(jié)、天氣等其他因素,使得旅游路線的提取更加精確。
附圖說明
通過下文結(jié)合附圖的詳細(xì)描述,本發(fā)明的上述和其它特征將會(huì)變得更加明顯,其中:
圖1是示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的旅游路線提取系統(tǒng)的框圖。
圖2是示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的旅游路線提取系統(tǒng)的框圖。
圖3是示出了應(yīng)用根據(jù)本發(fā)明一個(gè)實(shí)施例的旅游路線提取系統(tǒng)的結(jié)果的示意圖。
圖4是示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的旅游路線提取方法的流程圖。
具體實(shí)施方式
下面,通過結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施例的描述,本發(fā)明的原理和實(shí)現(xiàn)將會(huì)變得明顯。應(yīng)當(dāng)注意的是,本發(fā)明不應(yīng)局限于下文所述的具體實(shí)施例。另外,為了簡(jiǎn)便起見,省略了與本發(fā)明無(wú)關(guān)的公知技術(shù)的詳細(xì)描述。
在本技術(shù)中,提出了一種基于用戶位置信息的旅游路線提取系統(tǒng)和方法。具體地,本技術(shù)首先收集城市內(nèi)大量用戶的歷史位置數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理以去掉冗余和無(wú)效數(shù)據(jù)。然后,將余下的數(shù)據(jù)根據(jù)景點(diǎn)位置區(qū)域進(jìn)行分組。將某一個(gè)景點(diǎn)作為基準(zhǔn)景點(diǎn),并將某一時(shí)間作為基準(zhǔn)時(shí)間,通過對(duì)一定時(shí)間間隔后的相鄰景點(diǎn)之間的用戶位置數(shù)據(jù)進(jìn)行比較,提取出用戶在該景點(diǎn)的主要移動(dòng)方向。對(duì)余下的景點(diǎn)依次執(zhí)行上述過程,從而得到全部景點(diǎn)的移動(dòng)方向。連接這些移動(dòng)方向,形成一個(gè)旅游路線網(wǎng)絡(luò)。可選地,可以額外考慮用戶的交通方式、當(dāng)時(shí)天氣、景點(diǎn)特征等因素。最后,根據(jù)起點(diǎn)和終點(diǎn)以及可能的額外因素將路線保存在數(shù)據(jù)庫(kù)中。這樣,旅游用戶可以通過輸入起點(diǎn)和終點(diǎn)、個(gè)人偏好等,從數(shù)據(jù)庫(kù)中找到最合適該用戶的旅游路線。在本技術(shù)中,采用景點(diǎn)內(nèi)的人口密度大小來(lái)反映該景區(qū)的熱度,這能夠客觀地反映景點(diǎn)的受歡迎程度,從而能夠避免數(shù)據(jù)的主觀性和隨意性。
圖1是示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的旅游路線提取系統(tǒng)10的框圖。如圖1所示,本實(shí)施例中的旅游路線提取系統(tǒng)10包括用戶數(shù)據(jù)獲取單元110、用戶數(shù)據(jù)處理單元120、移動(dòng)方向確定單元130和路線提取單元140。下面,對(duì)旅游路線提取系統(tǒng)10中的各個(gè)單元的結(jié)構(gòu)和操作進(jìn)行詳細(xì)描述。
用戶數(shù)據(jù)獲取單元110被配置為獲取用戶的歷史位置數(shù)據(jù)。例如,用戶數(shù)據(jù)獲取單元110可以獲取來(lái)自各種數(shù)據(jù)源(包括GPS裝置、手機(jī)定位裝置或無(wú)線定位裝置)的大量用戶的歷史位置數(shù)據(jù)。優(yōu)選地,為了獲得更好的精確性,應(yīng)當(dāng)獲取兩年以上的歷史位置數(shù)據(jù)。
用戶數(shù)據(jù)處理單元120被配置為從所獲取的歷史位置數(shù)據(jù)中去除冗余數(shù)據(jù),并將余下的數(shù)據(jù)按照景點(diǎn)進(jìn)行分組。在一個(gè)實(shí)施例中,用戶數(shù)據(jù)處理單元120可以對(duì)來(lái)自各種數(shù)據(jù)源的數(shù)據(jù)進(jìn)行預(yù)處理,即去除缺少用戶標(biāo)識(shí)(例如手機(jī)號(hào)、IP地址等)、缺少地理位置信息(例如緯度坐標(biāo)、經(jīng)度坐標(biāo)等)或者缺少時(shí)間戳的冗余數(shù)據(jù)。
然后,用戶數(shù)據(jù)處理單元120從余下的數(shù)據(jù)中選出旅游用戶的數(shù)據(jù)并按照景點(diǎn)進(jìn)行分組,獲得后續(xù)處理所需要的中間數(shù)據(jù)。在一個(gè)實(shí)施例中,可以根據(jù)距離范圍(例如方圓100米內(nèi))為每個(gè)景點(diǎn)定義相應(yīng)的分布區(qū)域,落入該距離范圍內(nèi)的用戶被判定為旅游用戶,其位置數(shù)據(jù)被保留,刪除未落入該距離范圍內(nèi)的其他用戶數(shù)據(jù)。優(yōu)選地,可以將分組后的每一組中的用戶數(shù)據(jù)按照2天內(nèi)的時(shí)間單位進(jìn)行劃分(假定一個(gè)城市內(nèi)的短途旅游持續(xù)不超過2天),并按照時(shí)間順序重新進(jìn)行排序。本領(lǐng)域的技術(shù)人員可以理解,也可以采用其他的時(shí)間范圍進(jìn)行劃分和排序(例如深度游可能會(huì)持續(xù)5天或甚至更多)。
移動(dòng)方向確定單元130被配置為基于相鄰時(shí)間段的每個(gè)景點(diǎn)及其相鄰景點(diǎn)的用戶位置數(shù)據(jù)來(lái)確定每個(gè)景點(diǎn)的用戶向相鄰景點(diǎn)的主要移動(dòng)方向,并基于各個(gè)主要移動(dòng)方向形成路線網(wǎng)絡(luò)。在一個(gè)實(shí)施例中,移動(dòng)方向確定單元130可以選取任意一個(gè)景點(diǎn)作為基準(zhǔn)景點(diǎn),并選取任意時(shí)間時(shí)間作為基準(zhǔn)時(shí)間。在基準(zhǔn)時(shí)間之后的特定時(shí)間(例如在基準(zhǔn)時(shí)間之后60分鐘),移動(dòng)方向確定單元130計(jì)算基準(zhǔn)景點(diǎn)與相鄰景點(diǎn)的用戶重合度。
在一個(gè)實(shí)施例中,基準(zhǔn)景點(diǎn)與其相鄰景點(diǎn)之間的用戶重合度計(jì)算如下:
首先,移動(dòng)方向確定單元130查找基準(zhǔn)景點(diǎn)a的k個(gè)相鄰景點(diǎn)。例如,移動(dòng)方向確定單元130可以采用近鄰法來(lái)執(zhí)行該過程。
假設(shè)有N個(gè)景點(diǎn)樣本分布到c個(gè)類(ω1,ω2...ωc)中,每個(gè)類有Ni個(gè)樣本,i=1...c。在全部樣本找到k個(gè)最小用戶差別的近鄰,其中k個(gè)近鄰分布在c個(gè)類中,用g(x)表示。判斷基準(zhǔn)景點(diǎn)的k個(gè)相鄰景點(diǎn)的判定函數(shù)為:
gi(x)=mini||x-xik||,k=1...,Nix∈ωi---(1)]]>
其中,x表示基準(zhǔn)景點(diǎn),表示i個(gè)相鄰景點(diǎn)中最重合的k個(gè)景點(diǎn),Ni表示所有相連的景點(diǎn)個(gè)數(shù)(i=1....c)。例如,||...||可表示如下:
d(a,b)=f(a,b)(w1|xa1-xb1|p+w2|xa2-xb2|p+…+wn|xan-xbn|p)1/p(2)
其中,p的取值為1或2。當(dāng)p=1時(shí),等式(2)表示曼哈坦距離。當(dāng)p=2時(shí),等式(2)表示歐幾里得距離。對(duì)每一個(gè)變量根據(jù)其重要性賦予一個(gè)權(quán)重,就得到加權(quán)的明考斯基距離。
在獲得了基準(zhǔn)景點(diǎn)的相鄰景點(diǎn)之后,移動(dòng)方向確定單元130計(jì)算基準(zhǔn)景點(diǎn)與其相鄰景點(diǎn)的用戶重合度。具體地,通過與基準(zhǔn)景點(diǎn)和基準(zhǔn)時(shí)間進(jìn)行比較,在每一個(gè)相鄰景點(diǎn)中查找與基準(zhǔn)景點(diǎn)中相同的用戶(即,這些用戶從基準(zhǔn)景點(diǎn)移動(dòng)到相鄰景點(diǎn))。移動(dòng)方向確定單元130將從基準(zhǔn)景點(diǎn)移動(dòng)到具有最多相同用戶個(gè)數(shù)的相鄰景點(diǎn)的方向確定為用戶在該基準(zhǔn)景點(diǎn)的主要移動(dòng)方向。即,該移動(dòng)方向是具有最大用戶重合度的移動(dòng)方向。
針對(duì)余下的景點(diǎn),移動(dòng)方向確定單元130重復(fù)上述過程以計(jì)算用戶在每一個(gè)后續(xù)景點(diǎn)的主要移動(dòng)方向。最后,移動(dòng)方向確定單元130基于各個(gè)主要移動(dòng)方向形成路線網(wǎng)絡(luò)。在該路線網(wǎng)絡(luò)中,描述了任意景點(diǎn)之間的移動(dòng)方向。
路線提取單元140被配置為基于路線網(wǎng)絡(luò)來(lái)提取旅游路線。例如,路線提取單元140可以根據(jù)起點(diǎn)和終點(diǎn)從路線網(wǎng)絡(luò)中提取路線,并將提取的路線保存在數(shù)據(jù)庫(kù)中。這樣,當(dāng)用戶輸入期望的起點(diǎn)和終點(diǎn)時(shí),可以根據(jù)輸入的起點(diǎn)和終點(diǎn)在數(shù)據(jù)庫(kù)中檢索得到旅游路線。
圖2是示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的旅游路線提取系統(tǒng)20的框圖。如圖2所示,本實(shí)施例中的旅游路線提取系統(tǒng)20包括用戶數(shù)據(jù)獲取單元210、用戶數(shù)據(jù)處理單元220、移動(dòng)方向確定單元230、路線提取單元240和額外信息獲取單元250。其中,用戶數(shù)據(jù)獲取單元210、用戶數(shù)據(jù)處理單元220和路線提取單元240與圖1中所示的用戶數(shù)據(jù)獲取單元110、用戶數(shù)據(jù)處理單元120和路線提取單元140相同。為了簡(jiǎn)便起見,下面僅對(duì)額外信息獲取單元250和移動(dòng)方向確定單元230的結(jié)構(gòu)和操作進(jìn)行詳細(xì)描述。
額外信息獲取單元250被配置為獲取額外信息。例如,額外信息可以包括旅游用戶的交通方式、旅游時(shí)的季節(jié)和天氣、景點(diǎn)特征,等等。通過引入額外信息,能夠?qū)τ脩舻臍v史位置數(shù)據(jù)進(jìn)行更細(xì)化的分析,從而能夠提取更適合的旅游路線。
在本實(shí)施例中,移動(dòng)方向確定單元230從用戶數(shù)據(jù)處理單元220獲得用戶數(shù)據(jù),并通過額外信息獲取單元250獲得額外信息。移動(dòng)方向確定單元230基于相鄰時(shí)間段的每個(gè)景點(diǎn)及其相鄰景點(diǎn)的用戶位置數(shù)據(jù)以及所獲取的額外信息來(lái)確定每個(gè)景點(diǎn)的用戶向相鄰景點(diǎn)的主要移動(dòng)方向,并根據(jù)各個(gè)主要移動(dòng)方向形成路線網(wǎng)絡(luò)。
例如,如果額外信息包括交通方式、季節(jié)和天氣,則上面的等式(2)變?yōu)椋?/p>
d(a,b)=f(a,b)(w1|xa1-xb1|p+w2|xa2-xb2|p+w3|xa3-xb3|p)1/p(3)
其中,w1為交通方式權(quán)重,w2為季節(jié)權(quán)重,而w3為天氣權(quán)重。交通方式的判定方法為間隔時(shí)間的長(zhǎng)短。例如在距離相同的情況下,同一用戶的移動(dòng)時(shí)間為30分鐘則表示該用戶自駕車,60分鐘表示該用戶乘坐公交大巴,而90分鐘表示該用戶步行。季節(jié)和天氣則可以從位置數(shù)據(jù)的時(shí)間戳中獲取到。另外,如果還考慮景點(diǎn)的類型(比如人文、自然或歷史等),則其可以從景點(diǎn)所在城市的公共數(shù)據(jù)中得到。
雖然這里僅列舉了交通方式、天氣、季節(jié)、景點(diǎn)類型等影響因素,然而額外信息不限于這些因素。本領(lǐng)域技術(shù)人員可以理解,根據(jù)實(shí)際情況的需要,可以進(jìn)行有效的擴(kuò)展。
以下結(jié)合附圖3來(lái)描述示例應(yīng)用場(chǎng)景。圖3是示出了應(yīng)用根據(jù)本發(fā)明一個(gè)實(shí)施例的旅游路線提取系統(tǒng)的結(jié)果的示意圖。
如圖3所示,假定交通方式包括:步行、駕車和大巴三種,季節(jié)包括:春、夏、秋、冬。按照交通方式和四個(gè)不同季節(jié)獲得相應(yīng)的數(shù)據(jù)。如圖3上半部分所示,旅游者在步行條件下,在春季的旅游路線為A到D,則認(rèn)定A->D為該條件下的旅游路線R1(步行/春),其中括號(hào)內(nèi)表示相應(yīng)的條件(即額外信息)。而無(wú)論采用哪種交通方式,在夏季和秋季,旅游路線都為A到B再到D,因此認(rèn)定A->B->D為夏季和秋季的旅游路線R2(步行/駕車/大巴,夏/秋)。如圖3B下半部分所示,可以將這些結(jié)果以及相應(yīng)的條件保存在數(shù)據(jù)庫(kù)中,以供之后使用。例如,可以按照以下格式來(lái)保存路由路線:影響條件1(交通方式),影響條件2(季節(jié)),影響條件3(天氣),影響條件4(景點(diǎn)類型)……起點(diǎn)(景點(diǎn)x),途經(jīng)景點(diǎn)(景點(diǎn)x1,..),終點(diǎn)(景點(diǎn)y),旅游路線(x,x1...y)。
圖4是示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的旅游路線提取方法40的流程圖。如圖4所示,方法40在S410處開始。
在步驟S420,從各種數(shù)據(jù)源獲取用戶的歷史位置數(shù)據(jù)。例如,可以獲取具有GPS數(shù)據(jù)、手機(jī)定位數(shù)據(jù)或無(wú)線定位數(shù)據(jù)中至少一種格式的大量用戶的歷史位置數(shù)據(jù)。優(yōu)選地,為了獲得更好的精確性,應(yīng)當(dāng)獲取兩年以上的歷史位置數(shù)據(jù)。
在步驟S430,從所獲取的歷史位置數(shù)據(jù)中去除冗余數(shù)據(jù),并將余下的數(shù)據(jù)按照景點(diǎn)和時(shí)間進(jìn)行分組。例如,可以去除缺少用戶標(biāo)識(shí)(例如手機(jī)號(hào)、IP地址等)、缺少地理位置信息(例如緯度坐標(biāo)、經(jīng)度坐標(biāo)等)或者缺少時(shí)間戳的冗余數(shù)據(jù)。然后,根據(jù)距離范圍(例如方圓100米內(nèi))為每個(gè)景點(diǎn)定義相應(yīng)的分布區(qū)域,落入該距離范圍內(nèi)的用戶被判定為旅游用戶,其位置數(shù)據(jù)被保留,刪除未落入該距離范圍內(nèi)的其他用戶數(shù)據(jù)。進(jìn)一步地,假定一個(gè)城市內(nèi)的短途旅游持續(xù)不超過2天,可以將分組后的每一組中的用戶數(shù)據(jù)按照2天內(nèi)的時(shí)間單位進(jìn)行劃分,并按照時(shí)間順序重新進(jìn)行排序。本領(lǐng)域的技術(shù)人員可以理解,也可以采用其他的時(shí)間范圍(例如5天)進(jìn)行劃分和排序。
在步驟S440,基于相鄰時(shí)間段的每個(gè)景點(diǎn)及其相鄰景點(diǎn)的用戶位置數(shù)據(jù)來(lái)確定每個(gè)景點(diǎn)的用戶向相鄰景點(diǎn)的主要移動(dòng)方向,并基于各個(gè)主要移動(dòng)方向形成路線網(wǎng)絡(luò)。在確定用戶在每個(gè)景點(diǎn)的主要移動(dòng)方向時(shí),先要確定該景點(diǎn)的相鄰景點(diǎn)。例如,可以通過上文描述的臨近法以及公式(1)和(2)加以確定。之后,計(jì)算每一個(gè)景點(diǎn)與其相鄰景點(diǎn)的用戶重合度,將從該景點(diǎn)移動(dòng)到具有最多相同用戶個(gè)數(shù)的相鄰景點(diǎn)的方向確定為用戶在該景點(diǎn)的主要移動(dòng)方向。如上文所述,該移動(dòng)方向是具有最大用戶重合度的移動(dòng)方向。最后,基于各個(gè)主要移動(dòng)方向形成路線網(wǎng)絡(luò),其中該路線網(wǎng)絡(luò)描述了任意景點(diǎn)之間的移動(dòng)方向。
在步驟S450,基于所述路線網(wǎng)絡(luò)來(lái)提取旅游路線。例如,可以根據(jù)起點(diǎn)和終點(diǎn)從路線網(wǎng)絡(luò)中提取路線,并將提取的路線保存在數(shù)據(jù)庫(kù)中。當(dāng)用戶輸入期望的起點(diǎn)和終點(diǎn)時(shí),可以根據(jù)輸入的起點(diǎn)和終點(diǎn)在數(shù)據(jù)庫(kù)中檢索得到旅游路線。
最后,方法40在步驟S460處結(jié)束。
本發(fā)明通過對(duì)大量用戶的歷史數(shù)據(jù)進(jìn)行集中處理,能夠客觀地和準(zhǔn)確地獲取旅游者的旅游行為特征,從而提取合適的旅游路線。此外,本發(fā)明還可以結(jié)合每個(gè)用戶的交通方式以及季節(jié)、天氣等其他因素,使得旅游路線的提取更加精確。
應(yīng)該理解,本發(fā)明的上述實(shí)施例可以通過軟件、硬件或者軟件和硬件兩者的結(jié)合來(lái)實(shí)現(xiàn)。例如,上述實(shí)施例中的旅游路線提取系統(tǒng)及其內(nèi)部的各種組件可以通過多種器件來(lái)實(shí)現(xiàn),這些器件包括但不限于:通用處理器、數(shù)字信號(hào)處理(DSP)電路、可編程處理器、專用集成電路(ASIC)、現(xiàn)場(chǎng)可編程門陣列(FPGA)、可編程邏輯器件(CPLD),等等。
另外,本領(lǐng)域的技術(shù)人員可以理解,本發(fā)明實(shí)施例中描述的旅游路線可以存儲(chǔ)在用戶的本地?cái)?shù)據(jù)庫(kù)中。此外,旅游路線也可以存儲(chǔ)在分布式數(shù)據(jù)庫(kù)中、或者可以存儲(chǔ)在遠(yuǎn)程的專用數(shù)據(jù)庫(kù)中。
此外,這里所公開的本發(fā)明的實(shí)施例可以在計(jì)算機(jī)程序產(chǎn)品上實(shí)現(xiàn)。更具體地,該計(jì)算機(jī)程序產(chǎn)品是如下的一種產(chǎn)品:具有計(jì)算機(jī)可讀介質(zhì),計(jì)算機(jī)可讀介質(zhì)上編碼有計(jì)算機(jī)程序邏輯,當(dāng)在計(jì)算設(shè)備上執(zhí)行時(shí),該計(jì)算機(jī)程序邏輯提供相關(guān)的操作以實(shí)現(xiàn)本發(fā)明的上述技術(shù)方案。當(dāng)在計(jì)算系統(tǒng)的至少一個(gè)處理器上執(zhí)行時(shí),計(jì)算機(jī)程序邏輯使得處理器執(zhí)行本發(fā)明實(shí)施例所述的操作(方法)。本發(fā)明的這種設(shè)置典型地提供為設(shè)置或編碼在例如光介質(zhì)(例如CD-ROM)、軟盤或硬盤等的計(jì)算機(jī)可讀介質(zhì)上的軟件、代碼和/或其他數(shù)據(jù)結(jié)構(gòu)、或者諸如一個(gè)或多個(gè)ROM或RAM或PROM芯片上的固件或微代碼的其他介質(zhì)、或一個(gè)或多個(gè)模塊中的可下載的軟件圖像、共享數(shù)據(jù)庫(kù)等。軟件或固件或這種配置可安裝在計(jì)算設(shè)備上,以使得計(jì)算設(shè)備中的一個(gè)或多個(gè)處理器執(zhí)行本發(fā)明實(shí)施例所描述的技術(shù)方案。
盡管以上已經(jīng)結(jié)合本發(fā)明的優(yōu)選實(shí)施例示出了本發(fā)明,但是本領(lǐng)域的技術(shù)人員將會(huì)理解,在不脫離本發(fā)明的精神和范圍的情況下,可以對(duì)本發(fā)明進(jìn)行各種修改、替換和改變。因此,本發(fā)明不應(yīng)由上述實(shí)施例來(lái)限定,而應(yīng)由所附權(quán)利要求及其等價(jià)物來(lái)限定。