雷鋒網(wǎng)AI科技評(píng)論按:每天,谷歌地圖都為成千上百萬的人們提供方位指示,實(shí)時(shí)路況信息以及商業(yè)信息。為了提供最佳的用戶體驗(yàn),地圖信息需要不斷的根據(jù)現(xiàn)實(shí)世界的變化做出調(diào)整。街景車每天收集數(shù)百萬張圖片,如果用人工分析每天超過800億張高清晰圖片來找出其中的新變化或者更新地圖信息,顯然是不可能的。因此,谷歌地面實(shí)況團(tuán)隊(duì)(Ground Truth team)的目標(biāo)之一,就是從地理位置圖像自動(dòng)提取信息來升級(jí)谷歌地圖。
雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))了解到,在“從街景圖像中提取基于注意機(jī)制的結(jié)構(gòu)化信息”(Attention-based Extraction of Structured Information from Street View Imagery)一文中,谷歌描述了所采用的方法——怎樣在街景視圖中使用深度神經(jīng)網(wǎng)絡(luò)自動(dòng)且準(zhǔn)確無誤地讀出街道名稱。我們的算法系統(tǒng)在挑戰(zhàn)“法國(guó)街道名稱識(shí)別數(shù)據(jù)集”(French Street Name Signs (FSNS) dataset)中達(dá)到了84.2%的正確率,明顯優(yōu)于之前的最優(yōu)系統(tǒng)。重要的是,谷歌的系統(tǒng)在提取其他類型信息也是很容易擴(kuò)展的。比如現(xiàn)在幫助谷歌自動(dòng)提取商店前面的商戶名稱。目前該模型已經(jīng)開源。
圖中為法國(guó)街道名稱標(biāo)識(shí)數(shù)據(jù)集中的一個(gè)例子,被谷歌的系統(tǒng)正確識(shí)別。上圖為同一標(biāo)識(shí)的四種不同視角
自然環(huán)境中的文本識(shí)別在計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)上是一個(gè)非常具有挑戰(zhàn)性的問題。傳統(tǒng)的光學(xué)字符識(shí)別(OCR)系統(tǒng)主要側(cè)重于從掃描的文檔中提取文本。在自然場(chǎng)景中由于視覺偽影,如失真、閉塞、定向模糊、雜亂的背景或不同的角度給提取文本提升了難度。谷歌從2008年開始致力于解決這一問題,使用神經(jīng)網(wǎng)絡(luò)模糊了街景圖像中的臉和車牌,以保護(hù)谷歌用戶的隱私。從最初的研究中,團(tuán)隊(duì)意識(shí)到經(jīng)過足夠的標(biāo)記數(shù)據(jù)訓(xùn)練后,機(jī)器學(xué)習(xí)不僅能保護(hù)用戶的隱私,而且還可以自動(dòng)升級(jí)谷歌地圖相關(guān)的最新信息。
2014年谷歌地面實(shí)況團(tuán)隊(duì)在街景門牌號(hào)數(shù)據(jù)集(SVHN)上公布了讀取街道號(hào)碼的方法,隨后暑期實(shí)習(xí)生Ian Goodfellow(現(xiàn)為谷歌員工)進(jìn)行了運(yùn)用。這個(gè)工作不僅是出于對(duì)學(xué)術(shù)的興趣,而且也是使谷歌地圖更為精確的關(guān)鍵。如今得益于這個(gè)系統(tǒng),超過三分之一的全球地址已經(jīng)在谷歌地圖上有了自己的位置。在一些國(guó)家,如巴西,這個(gè)算法增加了超過90%的谷歌地圖地址,大大提高了谷歌地圖的可用性。
下一步是將這些技術(shù)擴(kuò)展到街道名稱。為了解決這個(gè)問題,谷歌創(chuàng)建和發(fā)布了法國(guó)街道名稱標(biāo)志(French Street Name Signs,F(xiàn)SNS),有超過100萬的街道名稱訓(xùn)練數(shù)據(jù)集,旨在提高人們對(duì)OCR模型在實(shí)際使用情況下的認(rèn)識(shí)。FSNS是谷歌經(jīng)過多年的努力而構(gòu)建的,它比SVHN數(shù)據(jù)集更加龐大,也更具挑戰(zhàn)性,因?yàn)槿绻獪?zhǔn)確識(shí)別某個(gè)街道標(biāo)識(shí),可能需要對(duì)各個(gè)角度所拍攝的圖片進(jìn)行整合處理。
上圖是識(shí)別起來很有難度的一些標(biāo)識(shí),也被谷歌系統(tǒng)通過對(duì)圖像的理解而正確判斷了。尤其是第二個(gè),不過這個(gè)模型在之前學(xué)習(xí)了語(yǔ)言模型,使其能夠消除歧義,并正確識(shí)別出街道名。值得一提的是,在FSNS數(shù)據(jù)集中,同一路標(biāo)在少于四個(gè)獨(dú)立視圖的情況下會(huì)以增加隨機(jī)噪聲的方式。
谷歌實(shí)習(xí)生Zbigniew Wojnazai在2016年夏天用這個(gè)數(shù)據(jù)集開發(fā)了一個(gè)深度學(xué)習(xí)模型,它能夠自動(dòng)標(biāo)注新的街景視圖。這個(gè)新模型的一個(gè)優(yōu)點(diǎn)是,它可以根據(jù)日常的命名習(xí)慣進(jìn)行文本規(guī)范。
上圖的例子中,可以將"AV."轉(zhuǎn)化為"Avenida","PRES."轉(zhuǎn)化為“Presidente”這是我們期望看到的結(jié)果
在這個(gè)圖中,模型沒有被圖中的兩個(gè)街道名稱迷惑,將"Av"正確轉(zhuǎn)化為"Avenue",同時(shí)也識(shí)別出了數(shù)字"1600"
盡管這個(gè)模型非常精確,它依然有15.8%的序列錯(cuò)誤率。不過,在分析錯(cuò)誤樣本后,團(tuán)隊(duì)發(fā)現(xiàn),其中48%是由于地面實(shí)況錯(cuò)誤,也就是說,模型與標(biāo)記質(zhì)量呈現(xiàn)的準(zhǔn)確度基本一致。(在我們的論文中有詳細(xì)的錯(cuò)誤率分析)
這個(gè)新系統(tǒng)結(jié)合了提取街道號(hào)碼技術(shù),使我們能夠直接從圖像創(chuàng)建新的地址。現(xiàn)在,每當(dāng)一輛街景車在新建的道路上行駛時(shí),我們的系統(tǒng)可以捕捉上千萬張圖像,提取街道名稱和數(shù)字,并自動(dòng)在谷歌地圖上創(chuàng)建和定位新地址。
但自動(dòng)為谷歌地圖創(chuàng)建地址是不夠的。此外,我們還希望能夠?yàn)樯虡I(yè)提供導(dǎo)航。在2015,我們發(fā)表了“從街景圖像中進(jìn)行大規(guī)模的商業(yè)發(fā)現(xiàn)”(Large Scale Business Discovery from Street View Imagery)一文,文中提出了一種方法可以準(zhǔn)確地檢測(cè)商店外墻的標(biāo)志。然而,檢測(cè)到商店外墻,仍然需要準(zhǔn)確地提取它的有用名稱。模型必須找出哪個(gè)文本是商戶名稱,哪些文本是不相關(guān)的。谷歌稱這種提取為“結(jié)構(gòu)化文本”信息的提取。它不只是文字,而是具有語(yǔ)義意義的文本。
使用不同的訓(xùn)練數(shù)據(jù),我們用來讀取街道名稱的模型結(jié)構(gòu)也可以用來準(zhǔn)確地提取商業(yè)名稱。在這種特殊情況下,如果我們已經(jīng)知道這個(gè)商戶在谷歌地圖的位置,可以只提取商業(yè)名稱來進(jìn)行驗(yàn)證,使之能夠更準(zhǔn)確地更新商業(yè)列表。
如上圖所示,雖然沒有從圖片中獲得任何有關(guān)真實(shí)地址的信息,但系統(tǒng)還是正確識(shí)別出了商戶的名字Zelina Pneus,而且沒有被旁邊的輪胎品牌所騙。
模型需要處理800多億個(gè)街景圖像,需要強(qiáng)大的計(jì)算能力。這就是為什么谷歌地面實(shí)況團(tuán)隊(duì)采用TPU,可以大幅減少我們的推理計(jì)算成本。
人們依賴于谷歌地圖的精準(zhǔn)性來協(xié)助他們工作和生活。同時(shí),在景觀、道路和商業(yè)不斷變化的情況下,谷歌地圖的更新所面臨的技術(shù)挑戰(zhàn),遠(yuǎn)遠(yuǎn)還沒有解決。為超過十億的谷歌地圖用戶創(chuàng)造更好的用戶體驗(yàn),一直是谷歌地面實(shí)況團(tuán)隊(duì)追求的目標(biāo)。
雷鋒網(wǎng)AI科技評(píng)論按:每天,谷歌地圖都為成千上百萬的人們提供方位指示,實(shí)時(shí)路況信息以及商業(yè)信息。為了提供最佳的用戶體驗(yàn),地圖信息需要不斷的根據(jù)現(xiàn)實(shí)世界的變化做出調(diào)整。街景車每天收集數(shù)百萬張圖片,如果用人工分析每天超過800億張高清晰圖片來找出其中的新變化或者更新地圖信息,顯然是不可能的。因此,谷歌地面實(shí)況團(tuán)隊(duì)(Ground Truth team)的目標(biāo)之一,就是從地理位置圖像自動(dòng)提取信息來升級(jí)谷歌地圖。
雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))了解到,在“從街景圖像中提取基于注意機(jī)制的結(jié)構(gòu)化信息”(Attention-based Extraction of Structured Information from Street View Imagery)一文中,谷歌描述了所采用的方法——怎樣在街景視圖中使用深度神經(jīng)網(wǎng)絡(luò)自動(dòng)且準(zhǔn)確無誤地讀出街道名稱。我們的算法系統(tǒng)在挑戰(zhàn)“法國(guó)街道名稱識(shí)別數(shù)據(jù)集”(French Street Name Signs (FSNS) dataset)中達(dá)到了84.2%的正確率,明顯優(yōu)于之前的最優(yōu)系統(tǒng)。重要的是,谷歌的系統(tǒng)在提取其他類型信息也是很容易擴(kuò)展的。比如現(xiàn)在幫助谷歌自動(dòng)提取商店前面的商戶名稱。目前該模型已經(jīng)開源。
圖中為法國(guó)街道名稱標(biāo)識(shí)數(shù)據(jù)集中的一個(gè)例子,被谷歌的系統(tǒng)正確識(shí)別。上圖為同一標(biāo)識(shí)的四種不同視角
自然環(huán)境中的文本識(shí)別在計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)上是一個(gè)非常具有挑戰(zhàn)性的問題。傳統(tǒng)的光學(xué)字符識(shí)別(OCR)系統(tǒng)主要側(cè)重于從掃描的文檔中提取文本。在自然場(chǎng)景中由于視覺偽影,如失真、閉塞、定向模糊、雜亂的背景或不同的角度給提取文本提升了難度。谷歌從2008年開始致力于解決這一問題,使用神經(jīng)網(wǎng)絡(luò)模糊了街景圖像中的臉和車牌,以保護(hù)谷歌用戶的隱私。從最初的研究中,團(tuán)隊(duì)意識(shí)到經(jīng)過足夠的標(biāo)記數(shù)據(jù)訓(xùn)練后,機(jī)器學(xué)習(xí)不僅能保護(hù)用戶的隱私,而且還可以自動(dòng)升級(jí)谷歌地圖相關(guān)的最新信息。
2014年谷歌地面實(shí)況團(tuán)隊(duì)在街景門牌號(hào)數(shù)據(jù)集(SVHN)上公布了讀取街道號(hào)碼的方法,隨后暑期實(shí)習(xí)生Ian Goodfellow(現(xiàn)為谷歌員工)進(jìn)行了運(yùn)用。這個(gè)工作不僅是出于對(duì)學(xué)術(shù)的興趣,而且也是使谷歌地圖更為精確的關(guān)鍵。如今得益于這個(gè)系統(tǒng),超過三分之一的全球地址已經(jīng)在谷歌地圖上有了自己的位置。在一些國(guó)家,如巴西,這個(gè)算法增加了超過90%的谷歌地圖地址,大大提高了谷歌地圖的可用性。
下一步是將這些技術(shù)擴(kuò)展到街道名稱。為了解決這個(gè)問題,谷歌創(chuàng)建和發(fā)布了法國(guó)街道名稱標(biāo)志(French Street Name Signs,F(xiàn)SNS),有超過100萬的街道名稱訓(xùn)練數(shù)據(jù)集,旨在提高人們對(duì)OCR模型在實(shí)際使用情況下的認(rèn)識(shí)。FSNS是谷歌經(jīng)過多年的努力而構(gòu)建的,它比SVHN數(shù)據(jù)集更加龐大,也更具挑戰(zhàn)性,因?yàn)槿绻獪?zhǔn)確識(shí)別某個(gè)街道標(biāo)識(shí),可能需要對(duì)各個(gè)角度所拍攝的圖片進(jìn)行整合處理。
上圖是識(shí)別起來很有難度的一些標(biāo)識(shí),也被谷歌系統(tǒng)通過對(duì)圖像的理解而正確判斷了。尤其是第二個(gè),不過這個(gè)模型在之前學(xué)習(xí)了語(yǔ)言模型,使其能夠消除歧義,并正確識(shí)別出街道名。值得一提的是,在FSNS數(shù)據(jù)集中,同一路標(biāo)在少于四個(gè)獨(dú)立視圖的情況下會(huì)以增加隨機(jī)噪聲的方式。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 美國(guó)ITC裁定聯(lián)想智能手機(jī)侵犯愛立信專利
- 英特爾高通隔空叫陣:兩大巨頭在較什么勁?
- IDC最新預(yù)測(cè):2024年P(guān)C和平板電腦市場(chǎng)將增長(zhǎng)3.8%至4.035億臺(tái)
- 蘋果Vision Pro頭顯即將登陸中國(guó)臺(tái)灣,12月17日正式發(fā)售
- 全球折疊屏手機(jī)出貨量首次遭遇季度下滑,三星旗艦機(jī)型表現(xiàn)不佳是主因
- HUAWEI Mate X6 震撼登場(chǎng),折疊引領(lǐng)者,巔峰再跨越
- 五年持續(xù)領(lǐng)跑,華為折疊屏一步領(lǐng)先,一路領(lǐng)先
- 全新HUAWEI MatePad Pro 13.2 英寸首發(fā)亮相,鴻蒙專業(yè)生產(chǎn)力體驗(yàn)再升級(jí)
- 華為凌霄子母路由 Q7 網(wǎng)線版推出,讓每個(gè)房間都有滿格信號(hào)
- 華為發(fā)布HUAWEI WATCH D2,開啟腕上血壓管理新篇章
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。