操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    特征是人類為了更好地認識、描述、理解世界而抽象出的一種描述事物的方法。我們在現實生活中經常用一些名詞、形容詞來描述一個人的長相、為人處事等方面,比如這個人很靠譜、這個人看起來很奸詐、這個人長得很清秀等等,這都是對人的特性的一種描述和抽象。

    在機器學習中,我們也需要對獲得的信息(數字、文本、圖片、視頻、音頻等)進行類似的抽象,才能讓機器更好地認識、描述、理解、挖掘出數據背后的規律。機器學習本質上是一種數學方法和工具,所以一般來說,機器學習只適合處理與數字相關的信息(例外也是有的,樹模型可以處理非數值數據,很多NLP模型也是直接處理文本的)。所以對信息的理解首先要將信息轉化為數字,這就是特征工程的工作。

    在講特征工程之前,我們需要知道有哪些類別的信息是可以轉化為特征的,這就是特征分類問題。能夠轉化為特征的信息首先是能夠被記錄、被數字化的。目前數字、地理位置、時間、文字、圖片、視頻、聲音是可以被物理設備記錄的,因而都是可以數字化的。這種根據信息本身的特性進行分類是一種非常直觀的方法。

    另外,我們這本書探討的是推薦系統的特征工程,那么肯定也可以從推薦系統維度對特征進行分類,這是這一章對特征的第二種分類方法。

    具體來說,本章我們從信息本身的特性和推薦系統維度來對特征進行分類,并且簡單描述每個類別的特征的一些基本概念、特性和案例,方便讀者更好地理解和進行后續章節的學習。下面我們分別介紹。

    一、從信息本身的特性來劃分

    1. 離散特征

    現實世界中很多事物和現象都是采用自然數來描述和記錄的(最早可以追溯到遠古人類的結繩記事),自然界受制于資源,很多存在的事物(比如馬的數量在地球上是有限的)數量是有限的,這類數量有限的事物是非常普遍的。如果事物的某個維度可以表示為有限集合的形式,那么我們稱這個維度為離散的。如果這個維度還可以作為(機器學習中的)一個特征,那么就稱為離散特征。離散特征是非常常見的一類特征,推薦系統中的用戶屬性數據、物品屬性數據中就包含大量的類別特征,如性別、學歷、商品顏色、尺寸、產地等等。

    2. 連續(數值)特征

    分類好信息系統有哪些_分類信息系統哪個好_分類信息系統開發

    事物的某些維度可以用連續值來表示,如用戶身高、體重,商品的價格、重量等。在機器學習場景下,這類用連續值表示的特征稱為連續特征。連續的數據是機器學習算法直接可以使用的數據。

    3. 時間特征

    時間對于描述事物是非常關鍵的,很多事物是隨著時間而發展變化的,甚至是時間驅動的。所以在機器學習中,時間維度是一個非常重要的描述事物的維度,時間也是一類非常重要的特征。比如用戶在視頻網站上的行為就存在周末跟工作日明顯的差異性。

    4. 空間特征

    對于一些與地理位置相關的服務,比如送外賣、旅游、到店、打車等服務,地理位置對用戶決策非常關鍵,甚至是決定性的。對于這些業務,地址位置就是非常核心的特征。

    5. 文本特征

    人類擁有語言文字是人區別于動物的最重要的本質特征之一。文字具備抽象性,可以描述現實世界中的很多事物,甚至可以描述人的心理狀態和情感。因此文字是非常重要的一類信息,在互聯網產品中,文字無處不在。那么怎么將文字轉化為機器學習可以利用的特征也變得非常必要了,這個過程需要用到很多NLP相關的技術。

    6. 富媒體特征

    圖片、音頻、視頻等富媒體數據,也越來越重要,抖音、快手變得越來越受大家歡迎就可見一斑。這些富媒體數據對于理解用戶的行為、輔助用戶決策非常關鍵。因此,將這些更復雜的數據轉化為機器學習可以利用的特征就顯得特別重要。

    二、從推薦系統維度來劃分

    推薦系統解決的問題可以描述為:推薦系統是基于用戶的歷史行為,挖掘用戶的興趣偏好,并在特定的場景下,將用戶喜歡的物品在合適的時間、地點、場景推薦給用戶的過程。那么從這個角度來說,推薦系統中的特征可以分為如下幾類。

    1. 用戶維度的特征

    這是指與用戶本身相關的一些特征,比如用戶的年齡、性別、學歷、收入等。這些特征有些是穩定不變的,如性別。有些是緩慢變化的,比如居住地。有些是持續(頻繁)變化的,如年齡等。有些產品是很容易收集到用戶的這類信息的(比如淘寶、微信等,他們是需要用戶身份注冊的,所以對用戶的情況一清二楚),有些產品就非常難(比如今日頭條,因為是不需要用戶注冊就可以使用)。在個人信息安全法實施之后,這類數據的收集和使用需要特別注意是否會引起法律風險。

    2. 物品維度的特征

    物品是待推薦給用戶的,物品作為一個實體,是包含很多屬性的,這些屬性就是物品的特征,這些特征包含質地、產地、顏色、等級、尺寸等。不同的物品具有非常不同的屬性,因此特征也是千差萬別的。例如,實物(如手機)與虛擬物品(如短視頻)的特征是差異很大的,手機有重量、顏色、內存、空間等屬性,這是短視頻沒有的,短視頻有創作者、文本長度等屬性,這些又是手機沒有的。

    3. 用戶行為特征

    分類好信息系統有哪些_分類信息系統開發_分類信息系統哪個好

    用戶行為特征是指與用戶在APP上的行為相關的特征。比如用戶訪問的頻次、用戶訪問的時段、用戶是否經??爝M、快退等,這些是一些統計特征,是可以通過簡單的數據分析獲得的。

    另外一些行為特征可能需要借助復雜的數學(機器學習)模型才能獲得,比如可以將用戶的行為矩陣(行是用戶,列是物品,某一行某一列對應的值是用戶對該物品的打分,如果沒有分值體系,那么可以用0和1區分,1代表有操作行為,0代表無操作行為)分解為用戶特征矩陣和物品特征矩陣。那么這里的用戶特征矩陣就可以當做用戶的特征。顯然,通過這種方式獲取的用戶特征是比較復雜的,每個維度的含義是抽象的、不明確的,甚至是沒有意義的,這類特征也叫做隱式特征,不具備現實意義上的可解釋性。

    4. 場景化特征

    給用戶做推薦是在一定的場景下的行為,那么場景相關的信息是可以作為推薦的特征的。比如在家庭場景中看智能電視上的視頻,白天、晚上的行為可能就不一樣,因為面對的用戶不一樣。白天可能是老人在家,看的節目可能抗戰類居多,晚上小孩和上班的父母都回家了,可能會看一些少兒節目、電視劇、電影等。對于像美團外賣這樣的產品,用戶點外賣的送貨地點非常重要。

    5. 交叉特征

    交叉特征是上面幾種特征通過交叉(即非線性的組合,比如相乘等)的方式獲得的新特征。如果兩個特征之間是有一定的聯系的(即耦合的),那么這兩個特征的交叉是非常有價值的。這里舉個例子說明一下,比如性別和年齡就是一個可以非常好地進行交叉的特征。男性和女性在不同年齡段購買的商品是不一樣的,這兩個特征的交叉可以起到提升樣本區分度的效果。

    在本章中我們只是簡單介紹了從推薦系統維度來看,特征可以分為5大類,并沒有對每類特征怎么構建進行詳細講解。這一塊我們放到第三篇「推薦系統中的特征工程」中深入介紹。

    總結

    本章我們從信息本身的特性、推薦系統維度等2個方面對推薦系統中的特征分類進行了簡單介紹。從信息的特性來劃分,特征可以分為離散特征、連續特征、時間特征、空間特征、文本特征和富媒體特征等6類。從推薦系統維度來劃分,特征可以分為用戶維度特征、物品維度特征、用戶行為特征、場景化特征、交叉特征等5類。希望通過本章的梳理,讀者對在推薦系統中可以從哪些維度構建特征有一個更明確的認知,為我們后續章節進行更深入地講解打好基礎。

網站首頁   |    關于我們   |    公司新聞   |    產品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有