免费无码AV污污污在线观看,亚洲成AV人无码综合在线观看,办公室欧美大尺寸SUV

只要是成熟且完成度較高的技術(shù)，慢慢就不會被大家當(dāng)做智能來看待了。

比如我問身邊的老母親老父親老阿姨們，手機(jī)指紋解鎖、手寫輸入、地圖導(dǎo)航、游戲NPC、美顏相機(jī)等等是不是人工智能，他們紛紛流露出了質(zhì)疑的小眼神兒：

這么常見樸素不做作，怎么能是AI呢，最起碼也得挑戰(zhàn)一下那些看起來不可能完成的任務(wù)吧，比如能撒嬌的智能客服，360度旋轉(zhuǎn)跳躍閉著眼的機(jī)器人，掃一眼就能看病的大白，動不動就血虐人類的智能體什么的。

行……吧……如此看來，最“危險”的要數(shù)計算機(jī)視覺了。

估計再過不久，人臉識別、看圖識物、假臉生成，就要被“開除”出AI的隊伍了。

近年來，深度神經(jīng)網(wǎng)絡(luò)徹底升級了計算機(jī)視覺模型的表現(xiàn)。在很多領(lǐng)域，比如視覺對象的分類、目標(biāo)檢測、圖像識別等任務(wù)上，深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Network，DNN）完成的比人類還要出色，相關(guān)技術(shù)解決方案也開始頻繁出現(xiàn)在普通人的生活細(xì)節(jié)之中。

這就夠了嘛？并沒有！視覺模型表示自己除了在圖像任務(wù)里很好用，非圖像任務(wù)也是一把好手。

前不久，深度學(xué)習(xí)開發(fā)者，Medium知名博主 Max Pechyonkin在其博客中，介紹了將視覺深度學(xué)習(xí)模型應(yīng)用于非視覺領(lǐng)域的一些創(chuàng)造性應(yīng)用。

咱們就通過一篇文章，來了解一下求生欲極強(qiáng)的視覺模型是如何在其他領(lǐng)域發(fā)光發(fā)熱的吧。

生活不易，DNN賣藝

由于有遷移學(xué)習(xí)和優(yōu)秀的學(xué)習(xí)資源，DNN在計算機(jī)視覺領(lǐng)域的應(yīng)用落地遠(yuǎn)超于其他任務(wù)類型。

加上各種開放平臺和公開的預(yù)訓(xùn)練模型加持，任何人都可以在數(shù)天甚至數(shù)小時內(nèi)，將視覺深度學(xué)習(xí)模型應(yīng)用于其他領(lǐng)域。

兩年前，就有外國農(nóng)民開發(fā)出了自動檢測黃瓜的智能程序，北京平谷的桃農(nóng)也用上了自動檢桃機(jī)。

背后的技術(shù)邏輯也很容易理解：先選用一個簡單的卷積神經(jīng)網(wǎng)絡(luò)（CNN）模型（可以在開放平臺上輕松地找到），將各種帶有標(biāo)簽的圖片扔進(jìn)去，跑出一個baseline，主要是為了確定數(shù)據(jù)集是否合適，圖像質(zhì)量和標(biāo)簽是否正確，需不需要調(diào)試等等。

OK以后，就可以投喂處理過的圖像數(shù)據(jù)集了，一般圖像越多、標(biāo)注質(zhì)量越高，模型的性能和準(zhǔn)確率就越好。

聽起來是不是學(xué)過高中數(shù)學(xué)就能搞定？

既然技術(shù)門檻并不高，其應(yīng)用范圍自然也就被無限延伸。面對很多非視覺類的原始訓(xùn)練數(shù)據(jù)，視覺模型也表示“不慫”。

其中有幾個比較有意思的應(yīng)用案例：

1.幫石油工業(yè)提高生產(chǎn)效率

石油工業(yè)往往依賴于一種名叫“磕頭機(jī)”的設(shè)備開采石油和天然氣，通過游梁活動讓抽油桿像泵一樣將油從地下輸送到表面。高強(qiáng)度的活動也使抽油機(jī)極容易發(fā)生故障。

傳統(tǒng)的故障檢測方式是，邀請非常專業(yè)的技術(shù)人員檢查抽油機(jī)上的測功計，上面記錄了發(fā)動機(jī)旋轉(zhuǎn)周期各部分的負(fù)載。通過卡片上的圖像，判斷出哪個部位出現(xiàn)故障以及需要采取什么措施來修復(fù)它。

這個過程不僅耗時，而且只能“亡羊補(bǔ)牢”，無法預(yù)先排除風(fēng)險。

而石油公司正在試驗，將視覺深度學(xué)習(xí)應(yīng)用到故障檢測中。

貝克休斯（Baker Hughes）公司就將測功計轉(zhuǎn)換成圖像，然后作為數(shù)據(jù)集傳給ImageNet預(yù)訓(xùn)練好的模型中。結(jié)果顯示，只需采用預(yù)訓(xùn)練好的模型并用新數(shù)據(jù)對其進(jìn)行微調(diào)，機(jī)器自動檢測故障的準(zhǔn)確率就達(dá)到了93%，進(jìn)一步優(yōu)化則接近97%！

（左側(cè)是輸入圖像，右側(cè)是故障模式的實時分類。系統(tǒng)在便攜設(shè)備上運(yùn)行，分類時間顯示在右下角）

應(yīng)用了視覺算法訓(xùn)練出來的新模型，不需要等待專業(yè)人員的排期和診斷，就可以自行判斷絕大多數(shù)故障并立即開始修復(fù)。聽起來是不是很棒很奈斯？

2.幫金融網(wǎng)站進(jìn)行在線風(fēng)控

金融網(wǎng)站與欺詐團(tuán)伙的斗智斗勇，往往是一場“道高一尺魔高一丈”的技術(shù)軍備競賽。想要區(qū)分訪問者是普通客戶還是潛在風(fēng)險客戶，僅僅依靠IP過濾、驗證碼等互聯(lián)網(wǎng)技術(shù)顯然不夠了。

但如果金融網(wǎng)站的系統(tǒng)能夠根據(jù)鼠標(biāo)使用模式來識別用戶行為，就能夠預(yù)先規(guī)避欺詐交易的發(fā)生。要知道，欺詐者使用電腦鼠標(biāo)的方式是獨一無二而且非常異常的。

但如何得到一個深度學(xué)習(xí)鑒別模型呢？Splunk就將每個用戶在每個網(wǎng)頁上的鼠標(biāo)活動轉(zhuǎn)換為單個圖像。用不同的顏色編碼代表鼠標(biāo)移動的速度，紅點和綠點則代表使用了鼠標(biāo)鍵。這樣，就得到了大小相同、且能夠應(yīng)用圖像模型的原始數(shù)據(jù)了。

Splunk用了一個由2000張圖片組成的訓(xùn)練集，進(jìn)行了2分鐘的訓(xùn)練后，系統(tǒng)就能識別出普通客戶和非客戶，準(zhǔn)確率達(dá)到80%以上。

對于某個特定用戶，系統(tǒng)還能夠判斷出哪些是用戶自己發(fā)出的，哪些是模仿的。這次只用了360張圖片就訓(xùn)練出了78%左右的準(zhǔn)確率。麻麻再也不用擔(dān)心我的理財賬戶被盜了。

3.通過聲音檢測進(jìn)行動物研究

2018年10月，谷歌的研究人員使用視覺CNN模型對一段錄音進(jìn)行了分析，檢測到了其中座頭鯨的聲音。

他們將音頻數(shù)據(jù)轉(zhuǎn)換成了視頻譜，一種表示音頻頻率特征的圖像。

然后使用了Resnet-50架構(gòu)來訓(xùn)練這個模型。有90%的鯨魚歌聲音頻被系統(tǒng)正確歸類。而如果一首錄音是鯨魚的，也有90%的幾率它會被貼上正確的標(biāo)簽。

這項研究成果可以用來跟蹤單個鯨魚的運(yùn)動、歌曲的特性、鯨魚的數(shù)量等。

同樣的實驗也適用于人類語音、工業(yè)設(shè)備錄音等等。使用類似librosa這樣的音頻分析軟件，就可以用CPU生成時頻譜。

至此，可以總結(jié)一下視覺深度學(xué)習(xí)模型“跨次元”應(yīng)用的基本操作了：

1.將原始數(shù)據(jù)轉(zhuǎn)換成圖像；

2.使用預(yù)訓(xùn)練的CNN模型或從頭訓(xùn)練一個新模型進(jìn)行訓(xùn)練。

由此得到一個能夠解決非視覺問題的新模型。

開腦洞才是最難的

當(dāng)然，上述都是作者分享的一些已經(jīng)在實踐中取得成效的應(yīng)用，我們還可以將其應(yīng)用于很多有趣、有意義的場景之中。前提是，能夠找到一種將非視覺數(shù)據(jù)轉(zhuǎn)換成圖像的方法。

比如兒童餐食的健康問題，僅靠學(xué)校食堂和家長自學(xué)營養(yǎng)學(xué)顯然不是一個足夠效率、且能大規(guī)模推廣的辦法。

利用視覺模型，可以對餐盤的自動掃描與檢測，對圖像中的餐食特征和瑕疵點進(jìn)行提取，以此推測出餐盤和飲食的潔凈度是否合格，營養(yǎng)搭配是否符合基本要求。

再比如，通過智能攝像頭將零售商超中的人群分布和動線轉(zhuǎn)化為圖像，進(jìn)行分析和檢測，可以判斷出不同社區(qū)的需求和消費特征，從而有針對性地進(jìn)行選品和陳設(shè)，進(jìn)一步提升坪效。或者是通過汽車行駛軌跡來預(yù)測和優(yōu)化不同時段的路況及定價。

總而言之，目前計算機(jī)視覺模型早已從實驗室和科學(xué)家案頭，幫助越來越多的現(xiàn)實問題尋找解決方案。

由此也可以看出，在AI落地中并不缺成熟、可落地的算法，大開腦洞的創(chuàng)造力才是最難的。

當(dāng)然也有隱患

作為一個負(fù)責(zé)任的“AI吹”，故事顯然不能在“AI好AI妙A(yù)I呱呱叫”中戛然而止。

雖然計算機(jī)視覺表現(xiàn)出了極大的適應(yīng)性，但在實際應(yīng)用時，有一些缺點是其本身也沒有解決的，這也導(dǎo)致很長一段時間內(nèi)，圖像識別、生成等應(yīng)用還能被當(dāng)做展示人工智能的神奇能力而被夸耀著。

首先，是視覺神經(jīng)網(wǎng)絡(luò)對于圖像變化和背景過于敏感。無論是轉(zhuǎn)換非視數(shù)據(jù)，還是直接訓(xùn)練原始圖片，機(jī)器視覺的處理邏輯都是將圖像轉(zhuǎn)換為系統(tǒng)可理解的“數(shù)字”，再進(jìn)行對比和識別。因此，將背景和變化等噪音識別成其他物體也就不足為奇了。

（在照片中增加不同的物體，會影響照片中原有的猴子的識別結(jié)果）

既然是通過視覺模型進(jìn)行訓(xùn)練，那就需要大量有標(biāo)注的高質(zhì)量數(shù)據(jù)，而在現(xiàn)實應(yīng)用中，一些非圖像的原始數(shù)據(jù)，比如用戶鼠標(biāo)習(xí)慣、零售店動向等等，包含了多個維度、不同數(shù)量的數(shù)據(jù)點，不僅標(biāo)記數(shù)據(jù)集的工作耗時耗力，而且訓(xùn)練這些龐大的數(shù)據(jù)也需要大量的GPU資源。

但遺憾的是，受標(biāo)注質(zhì)量、模型準(zhǔn)確率、專業(yè)領(lǐng)域知識等影響，最終的成果在真實世界中的體驗也可能非常糟糕。想要讓商業(yè)機(jī)構(gòu)冒著投資打水漂的風(fēng)險進(jìn)行嘗試，恐怕還有很多工作要做。

更何況，視覺深度模型并不是一種放之四海而皆準(zhǔn)的解決方案，有些任務(wù)是難以進(jìn)行視覺化標(biāo)注，或者實現(xiàn)成本很高的，短時期內(nèi)也只能望AI興嘆了。

總而言之，視覺深度學(xué)習(xí)模型的成熟和非視覺場景的試探，給AI開發(fā)帶來了新的故事和想象力，比起千箱一面的智能語音、人手一個的人臉識別，更令人驚喜，實用性也值得期待。

不過本質(zhì)上講，一切技術(shù)問題最后都是經(jīng)濟(jì)學(xué)問題。只要不計成本，總能搞得出來?！度w》中，秦始皇不也用三千萬大軍搞出了能計算太陽運(yùn)行軌道的人形計算機(jī)隊列嗎？

這也和如今的人工智能產(chǎn)業(yè)現(xiàn)狀悄然重合，技術(shù)不是關(guān)鍵性問題，沒錢又不會搞工程的項目，就別讓AI背鍋了吧……

免責(zé)聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章，所有文字和圖片版權(quán)歸作者所有，且僅代表作者個人觀點，與極客網(wǎng)無關(guān)。文章僅供讀者參考，并請自行核實相關(guān)內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

為了不被踢出AI的隊伍，視覺深度模型都開始接私活了？

下一篇

為了不被踢出AI的隊伍，視覺深度模型都開始接私活了？

下一篇

為了不被踢出AI的隊伍，視覺深度模型都開始接私活了？