相信每個人在上網時都被各種網絡廣告所困擾,不斷地消耗著我們的流量。如果稍微細心觀察,或許會發現不同網站推送過來的廣告也比較適合自己的偏好,看來其中的技術手段并非簡單之事。涉及到互聯網大數據技術包括:cookie、動態腳本、用戶畫像、用戶行為分析和海量數據存取等。
作為一個互聯網大數據技術研究者,本能反應當然是看看頁面的源代碼,確實可以找到相應的腳本,其中的“-ad-”大概表明了這里嵌入了廣告。
但由于是動態腳本,無法看出廣告具體在哪個網站上。為此,可以通過瀏覽器的設置功能,進入開發者模式(Source),找到廣告條對應的腳本結構。
然后查看這段動態腳本執行完成后對應的URL,從下圖可以看出這個廣告URL指向了googleads.g.doubleclick.net,從域名看就是google的廣告。
沒錯,doubleclick是一家互聯網廣告公司,在2008年被Google收購。它提供了多種廣告管理和廣告投放解決方案,幫助企業購買、制作或銷售在線廣告,允許用戶對網絡廣告活動進行集中策劃、執行、監控和追蹤。由此我們可以畫出Google的網絡廣告技術平臺架構圖。
整個流程按圖中標注的序號1-5。
1 需要做廣告的客戶到doubleclick上進行注冊、登記;
2 加入廣告聯盟的網站從doubleclick獲得嵌入廣告的動態腳本,即類似于圖2所示。并將這些代碼嵌入到頁面中;
3 互聯網用戶大眾通過瀏覽器訪問頁面,動態腳本在用戶瀏覽器上執行,獲得指向doubleclick的URL;
4 連接doubleclick時,doubleclick生成用戶的唯一標識,并寫入到本地cookie文件;
5 以后我們每次訪問含有廣告腳本的頁面時,自動讀取doubleclick的cookie,并由doubleclick抽取合適的廣告。這樣每個人的唯一身份就記錄到它的數據庫中了。而這個步驟,顯然是基于我們點擊廣告、瀏覽頁面的行為數據,是一個海量數據。精準的廣告推送需要進行大數據挖掘、用戶畫像。