(本文作者:國家廣播電視總局廣播電視規劃院鄭冠雯,王幸 )
1 背景
當今是一個數據爆發的時代,也是一個智慧萌芽的時代。2019年10月,第四屆中國-阿拉伯國家廣播電視合作論壇17日在浙江杭州舉行,國家主席習近平致賀信。在賀信中,習近平指出[1],“推動媒體融合發展,打造智慧廣電媒體,發展智慧廣電網絡”,明確提出了智慧廣電的概念,為廣電行業創新發展指明了前進的方向。
面向行業創新發展,國務院多次出臺相關指導意見。國務院出臺的《關于加快發展生產性服務業促進產業結構調整升級的指導意見》[2]明確指出,“推動云計算、大數據、物聯網等在生產性服務業的應用,鼓勵企業開展科技創新、產品創新、管理創新、市場創新和商業模式創新,發展新興生產性服務業態”。國家廣電總局在《關于促進智慧廣電發展的指導意見》等文件中也多次強調大數據的重要性,提出“充分運用和拓展行業大數據資源,進一步增強廣播電視服務能力”。可見,在廣播電視創新發展的道路上,智慧和數據是密不可分的。
2 大數據能力中心在,智慧廣電中的重要地位
工欲善其事、必先利其器。大數據中心是智慧廣電的重要基礎設施,它為智慧廣電提供了重要的數據基礎和能力平臺。智慧廣電基于大數據技術,融合5G網絡、人工智能、知識圖譜多種先進技術,利用數據進行廣電領域的智能分析和智能應用,在大數據、云計算等基礎資源和網絡安全體系的重要保障之上,形成三個中心、建設一個平臺、輸出多種能力,如圖1所示。
三個中心指互聯網能力中心、大數據能力中心、AI算法能力中心。這三個中心并不獨立存在,而是相互支撐、相輔相成的:隨著有線電視雙向化改造進程的持續推進,IPTV、OTT、網絡視聽等已有IP網絡能效的進一步釋放,以及廣電5G 網絡先進技術的探索與應用,互聯網能力中心將從“量”上拓展大數據采集的范圍與規模,從“效”上提高大數據采集的時效性,從“質”上提高大數據采集的維度與質量。大數據中心所采集數據“量”、“效”、“質”的提升,又為AI算法能力中心提供更加豐富、完善的海量算法訓練數據。從長遠的角度看,AI技術的相關需求是未來數據中心需求增長的重要驅動力,而AI技術的發展又能夠幫助數據中心提升運營效率,反向促進數據中心邁向新高度。可見,在智慧廣電體系當中,大數據中心既是承上啟下的重要數據樞紐,也是不可或缺的核心數據資源。
依托互聯網能力中心、大數據能力中心、AI算法能力中心,在此基礎之上形成智慧廣電業務開放平臺,為從現有廣電業務到智慧廣電應用之間的過渡架起一座橋梁。統一、開放的智慧廣電能力共享平臺將在多方面發揮重要作用,將業務智能、精細管理、高效服務進行有機結合,為廣電內部業務效能提升提供支撐,為智慧公共服務能力建設提供抓手,為廣電相關產業轉型升級提供保障,依托海量數據資源提供智能化、定制化、精細化的統一服務。
3 大數據助力智慧廣電,創新發展的關鍵要素
在大數據能力中心的構建過程中,應依托大數據技術組件、標準和算法等關鍵要素,形成一套縱向可挖掘、橫向可擴展的大數據技術體系架構,為智慧廣電頂層應用打牢技術基礎。智慧廣電的相關技術體系包括人工智能技術、大數據技術、音視頻技術、云計算技術等。其中,大數據技術一方面基于新一代智能廣電網絡采集多源異構的用戶行為數據,另一方面為智慧廣電頂層應用提供數據分析、數據挖掘等技術支撐,同時為人工智能技術體系提供海量訓練數據,是智慧廣電技術體系的重要一環。目前,大數據技術體系已經趨于成熟,其關鍵的技術組件主要包括大數據的文件存儲、數據同步、資源管理、集群管理與監控、分布式協調服務、任務調度、日志收集、消息系統、離線計算、流式&實時計算、K-V&NOSQL數據庫、查詢分析、數據挖掘&機器學習等等,各個技術組件代表性的技術實現[4][5]等如表1所示。這些技術組件涵蓋了大數據采集、存儲、清洗、分析、處理,挖掘等全流程各個環節,是大數據支撐頂層業務應用的必要基礎。
智慧廣電數據標準在確保標準一致性、準確性的基礎上,特別應注重標準對于快速迭代新技術的前瞻性,并充分考慮標準對于異構大數據的可操作性。具體的,智慧廣電數據標準可包含業務術語、數據分類、標準數據元、數據質量、安全規則等要素,同時涵蓋兩個模型和兩個體系。兩個模型是指數據模型和算法模型,一個穩固、全面和靈活的數據模型是數據中臺建設的關鍵,是支撐各類應用的基礎;算法模型則是基于廣電業務場景確定的計算邏輯進行設計,是經驗沉淀的載體,是數據業務化的基礎。兩個體系是標簽體系和指標體系,標簽體系規定了各類業務對象的標簽庫,并提供分析和數據共享通道,為精細化、個性化、差異化運營分析提供支撐能力;指標體系根據具體的業務需求規定相關統計指標的計算規則,所輸出指標可直接為智慧廣電相關業務場景提供量化的數據支撐。
智慧廣電算法主要包括面向音視頻識別的算法(如機器視覺、語音識別等)和面向大數據處理的算法。其中,數據壓縮算法、數據檢索算法、數據分類&聚類算法、回歸分析算法、智能推薦算法等是常見的大數據處理與挖掘算法,廣泛應用于內容選題、素材集成、需求組合、分析預測、創作生產等領域。目前,在國內外的各大開源社區中,已經存在大量如用戶畫像、內容推薦等與智慧廣電應用密切相關的開源算法。這些開源算法雖然有著優秀的技術指標(如推薦準確率等),但絕大數的開源算法都是僅以技術指標作為衡量算法優劣的標準,直接使用往往是不可取的;特別是對于國外開源社區的算法,在進行參考時更要慎之又慎。在廣播電視領域算法的應用實踐當中,要堅定不移地使用主流價值導向駕馭算法,從全面提高輿論引導能力出發,充分考慮廣播電視主流價值導向的輿論宣傳需求,建立算法綜合評價體系,對算法進行多角度、全方位的衡量,切忌粗放、盲目地將算法實施后的點擊量、準確率等指標作為評判算法優劣的唯一標準。
4 廣播電視收視大數據的,探索與實踐
實踐出真知,《關于促進智慧廣電發展的指導意見》指出,“開展基于大數據、全樣本、多方位的用戶收視行為深度分析,通過軟件定義、數據驅動、算法重構等多種手段,實現內容選題、素材集成、需求組合、分析預測、創作生產的全流程智能化”。廣播電視規劃院依托廣播電視節目收視綜合評價大數據系統,對基于大數據的智慧廣電應用進行了有益的探索和實踐。該系統堅持以人民為中心的發展理念,助力智慧廣電建設,建立與現代廣播電視傳播特點相適應的新型收視調查技術體系。目前,系統已匯聚超過1.4億用戶規模數據,用數據安全管控機制來確保收視統計的客觀真實、防操縱、防污染。用多維綜合評價方法,來科學評價節目的社會價值、市場價值,引導行業健康發展,推動行業創新發展。目前,廣播電視節目收視綜合評價大數據系統已經探索形成了一套數據匯聚、清洗、轉換、分析、輸出、應用的全鏈運行機制,如圖2所示。
在數據匯聚方面,匯入系統的多源異構收視數據應遵循真實原則、全量原則與保密原則。真實原則指數據提供方應確保提供數據的客觀性和真實性;全量原則指所提供數據應是該數據源全部用戶的全量收視行為數據;保密原則指應確保收視數據交換過程中個人信息得到有效保護。同時,面對海量多源異構數據的接入,為保證數據質量,系統建立了數據的三級稽核機制,對接入系統的多源異構數據源進行深度核查。其中,第一層是數據規范性核查,確保數據符合協議規范,使數據達到基本可用;第二層是數據完整性核查,確保數據不丟失、不重復,使數據達到基本可信;第三層是數據合理性核查,通過對數據的深層次、多維度、規律性分析,使數據達到深度可信。此外,系統對數據鏈路的傳輸連通性和各節點設備性能進行監控,確保數據傳輸的可靠與穩定。
在數據清洗轉換方面,需要對數據進行抽取、清洗、轉換后,將標準化的數據存入平臺的數據倉庫中。在數據的抽取、清洗、轉換、入庫等過程中,大數據標準起到了關鍵的作用。首先,應按照GD/J 074-2018《電視收視數據元素集規范》[5]中的要求提取關鍵字段信息,從數據源中抽取數倉中必要的數據字段;其次,應按照GD/J 076-2018《電視收視數據清洗規范》[6]中的要求,建立統一的收視數據清洗規則配置庫,并在收視數據清洗引擎中對重復數據、不完整數據、噪聲數據、錯誤數據等進行統一清洗處理;最后,基于GD/J 075-2018《電視收視數據交換接口規范》[7]中第5部分“數據交換格式”的要求,從用戶數據、終端設備數據、節目數據、收視行為數據等方面對格式不一致的數據源進行歸一化處理,并將結果存入平臺數倉當中,為后續數據分析提供內容完整、結構規范的基礎數據。
數據分析挖掘方面,系統將大數據技術的優勢與收視分析業務的特點進行深度結合,將收視數據分析中的各個過程拆解為的計數、累加、去重等基本運算操作,充分發揮大數據平臺善于批量處理海量規模數據基本運算操作的優勢,使之能夠在大數據平臺上采用MapReduce等模型進行高效、并行、穩定的運算。在指標計算方面,系統一方面立足大數據先天優勢,形成觀看用戶絕對數、收視絕對時長等大數據指標,數據統計精準到戶、節目分析精確到秒,為客觀、真實評價廣播電視節目收視情況提供了精細化的數據支撐;另一方面深挖數據內在價值,在單指標基礎之上進行多維指標聯合分析,對節目的場景吸引力、節目粘性、平臺效應、收看方式、內容供需關系、播出編排、宣推效果等進行綜合考量,進而分析節目傳播效果及其成因,為綜合評價廣播電視節目的影響力、競爭力提供了有力的數據抓手。
在成果應用方面,系統一方面形成大數據能力平臺,一方面輸出大數據分析服務,以大數據助力智慧廣電創新應用。前文指出,大數據平臺是智慧廣電的關鍵基礎設施,而收視綜合評價大數據系統正是廣電大數據平臺的重要一環。收視數據是廣播電視領域最廣泛、最龐大的用戶行為數據,收視大數據中心的建設既是用戶畫像、智能推薦等智慧廣電應用的基礎數據,也支持面向數據挖掘、數據二次開發等需求提供API接口服務,更能為智慧廣電AI能力中心提供數據資源。同時,系統將提供節目收視大數據分析服務,為智慧廣電創新應用提供強有力的數據支撐。系統所提供的精細化、定制化的數據分析服務,將在以下方面發揮關鍵作用:一是支撐政府決策,為節目內容題材調控、引導提供數據支撐;二是助力政府監管,為遏制行業亂象提供數據抓手;三是服務行業發展,為電視臺與運營商明確定位、業務升級、精準投放提供數據服務,讓好節目進入好平臺、好時段;四是回應社會關注,讓“叫好”與“叫座”并存,為滿足人民群眾精神文化需求提供數據保障。
5 小結
智慧廣電需要大數據作為思考和決策的基礎,大數據也需要智慧廣電作為數據價值體現的載體。在智慧廣電創新發展的道路上,要不斷開放、發掘、利用廣電大數據資源,促進創新鏈和產業鏈深度融合,以大數據支撐廣播電視和視聽媒體供給側改革,助力廣播電視創新發展,用大數據點亮智慧廣電嶄新未來。
海峽廣播電視設備工程有限公司地址:福建省福州市鼓樓區軟件大道89號福州軟件園A區28號樓五層
Copyright ? 1999-2024All Rights Reserved閩ICP備12023208號