久久精品国产亚,日韩va无码中文字幕不卡免费,性一交一乱一乱一视频

機(jī)器看到圖像或視頻就能像人類一樣進(jìn)行精準(zhǔn)地表述，這看似不可能，但已在深蘭科學(xué)院誕生的“智慧交通協(xié)管員”，已把它變?yōu)榱爽F(xiàn)實(shí)。

這段視頻的場(chǎng)景就是在城市繁忙的十字路口，尤其上下班高峰，行人違章現(xiàn)象非常多，即使有交警在路口執(zhí)勤也很難做到面面俱到，此時(shí)“智慧交通協(xié)管員”將大大發(fā)揮作用。

利用自主研發(fā)的圖像語義識(shí)別算法，“智慧交通協(xié)管員”可以實(shí)時(shí)識(shí)別行人和非機(jī)動(dòng)車違章行為，可識(shí)別的行為包括：

1．行人闖紅燈； 2．非機(jī)動(dòng)車闖紅燈； 3．非機(jī)動(dòng)車在逆行； 4．非機(jī)動(dòng)車在斑馬線騎行； 5．非機(jī)動(dòng)車在人行道騎行；

還可精確描述違章者特征，進(jìn)行語音播報(bào)提醒，識(shí)別率可達(dá)80％以上。同時(shí)，支持個(gè)性化語音定制，可以利用現(xiàn)有的視頻攝像頭資源進(jìn)行人臉識(shí)別違章抓拍，方便處罰，還可輔助對(duì)接車路協(xié)同系統(tǒng)。

其中涉及到的技術(shù)比較多，概括起來就是視覺理解、認(rèn)知推理、自然語言生成和語音合成。接下來，我們會(huì)對(duì)其中的關(guān)鍵技術(shù)視覺理解和認(rèn)知推理進(jìn)行展開。

視覺理解＋認(rèn)知推理

一、認(rèn)知智能概述

人工智能的發(fā)展可以粗略劃分為三個(gè)階段：計(jì)算智能、感知智能和認(rèn)知智能。

計(jì)算智能通俗來說就是計(jì)算機(jī)能存儲(chǔ)、記憶會(huì)運(yùn)算，這方面，計(jì)算機(jī)的智能水平早已經(jīng)遠(yuǎn)遠(yuǎn)超過人類。

感知智能就是計(jì)算機(jī)具備類似于人類的視覺和聽覺等方面的能力，比如，聽到了什么，對(duì)應(yīng)語音識(shí)別；看到了什么，對(duì)應(yīng)圖像的分類檢測(cè)和語義分割。其中人臉識(shí)別就是包含感知智能技術(shù)的一種人工智能應(yīng)用，近年來，隨著深度學(xué)習(xí)技術(shù)在視覺感知領(lǐng)域的蓬勃發(fā)展，目前機(jī)器感知智能的性能已經(jīng)可與人類媲美，甚至在許多場(chǎng)景下已經(jīng)超過人類。

認(rèn)知智能強(qiáng)調(diào)知識(shí)、推理等技能，要求機(jī)器能理解、會(huì)思考，目前機(jī)器遠(yuǎn)不及人類。從計(jì)算智能到感知智能，標(biāo)志著人工智能走向成熟；從感知智能到認(rèn)知智能，是人工智能質(zhì)的飛躍。認(rèn)知智能，與人的語言、知識(shí)、邏輯相關(guān)，是人工智能的更高階段，涉及到語義理解、知識(shí)表示、小樣本學(xué)習(xí)甚至零樣本學(xué)習(xí)、聯(lián)想推理和自主學(xué)習(xí)等等。相比于計(jì)算智能和感知智能，認(rèn)知智能是更復(fù)雜和更困難的任務(wù)，也是未來數(shù)十年最重要的任務(wù)。

二、視覺理解與推理

Image captioning的發(fā)展歷程

1996－2000年符號(hào)規(guī)則方法

追溯到1996年，Gerber發(fā)表了一篇知識(shí)表示的論文，限定于交通場(chǎng)景，在圖像序列中用知識(shí)表示來進(jìn)行自然語言描述的問題。2010年時(shí)，朱松純（S．－C．Zhu）教授團(tuán)隊(duì)首次提出與或圖（And－Or Graph）的模型。進(jìn)一步與 D． Mumford 合作進(jìn)行了框架的完善，融入隨機(jī)上下文相關(guān)語法（Stochastic Context Sensitive Grammar），能對(duì)復(fù)雜物體的多層次構(gòu)造特性（Hierarchical Compositionality）建模，完全表示圖像語法（Image Grammar）。

與或圖表示突破了傳統(tǒng)單一模板（Template）的表示方法，對(duì)每類物體用多個(gè)圖結(jié)構(gòu)表示，該結(jié)構(gòu)可以通過語法（Grammar）、產(chǎn)生規(guī)則（Production Rule）進(jìn)行動(dòng)態(tài)調(diào)制，從而可以用相對(duì)小的視覺字典（Visual Vocabulary），表達(dá)大量類間結(jié)構(gòu)變化很大的物體的圖像表現(xiàn)形式（Configuration）。

這些方法實(shí)際上都基于邏輯體系和規(guī)則的系統(tǒng)，對(duì)圖像的內(nèi)容設(shè)計(jì)很多規(guī)則，繼而產(chǎn)生自然語言描述。由于強(qiáng)依賴于手工定制，人工特征工程的工作量就非常大，這也是當(dāng)時(shí)亟待改善的問題。

2011－2013年無明顯進(jìn)展

2014年至今深度學(xué)習(xí)方法等

2014年，谷歌的Oriol Vinyals 等人公開論文《Show and Tell： A Neural Image Caption Generator》，并發(fā)表于2015年CVPR，開了深度學(xué)習(xí)在Image captioning中使用的先河。該方法來源于以前的機(jī)器翻譯。

輸入圖形后，深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖形特征進(jìn)行提取，通過固定長(zhǎng)度矢量形成輸入（Input）進(jìn)入循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN），經(jīng)過一系列訓(xùn)練后，輸出一段描述性的自然語言文字。按照時(shí)間序列的順序，逐個(gè)詞進(jìn)行輸出，條件依附于之前的詞。

使用如下公式最大化給定圖像的正確描述概率：

Encoding－Decoding 靈感來源于翻譯模型。

基于更復(fù)雜的視覺特征提取模型的Image Captioning。其中利用人的常識(shí)構(gòu)建了一個(gè)知識(shí)庫（ConceptNet），然后把它加入Encoding－Decoding模型里，賦予模型一定程度的常識(shí)能力。我們一直希望機(jī)器能有所謂的認(rèn)知智能，實(shí)際上就是希望機(jī)器能夠像人一樣具有常識(shí)。

123下一頁>

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）