計算機視覺(CV)和自然語言處理(NLP)早先是兩個較為d立的研究L域。CV 重點關注如何用計算機代替人眼對目標完成識別、跟蹤、測量等任務,對圖像進行處理;NLP 則研究計算機如何處理、運用自然語言,包括語言生成、問答、對話等任務。近年來,以深度神經網絡為代表的機器學習和模式識別技術被廣泛應用于 CV 和 NLP L域,取得了目前先進的效果。
近年來,研究者們試圖將動作控制也引入到「視覺-語言」任務的框架中。吳琦將此類任務命名為 V3A(Vision, Ask, Answer, Act),在給定視覺輸入后,我們希望機器能夠提出問題、回答問題、并通過和人以及機器之間的語言交流執行某些動作。
例如,「Vision+Ask」的任務包含視覺問題生成、根據問題生成查詢、圖像描述等;「Vision+Answer」的任務包含視覺問答、視覺對話等;「Vision+Act」的任務包含指稱表達、視覺對齊(visual grounding)、語言引導的視覺導航、具身視覺問答、具身指稱表達等。
| 資料獲取 | |
| 服務機器人在展館迎賓講解 |
|
| 新聞資訊 | |
| == 資訊 == | |
| » 智能機器人是多傳感器信息融合系統,使用位 | |
| » 機器人的視覺傳感技術,從二維圖像中理解和 | |
| » 機器人的工件識別傳感器:接觸識別、采樣式 | |
| » 機器人的柔性腕力傳感器:檢測末端執行器所 | |
| » 機器人位姿傳感器:6個電渦流傳感器組成的 | |
| » 裝配機器人的系統組成:主體、驅動系統和控 | |
| » 焊接機器人的傳感器系統,測出焊口的位置和 | |
| » 點焊機器人的規格:持重100kg,最高速 | |
| » 機器人軌跡規劃的基本原理 | |
| » 機器人操作臂動力學方程系數的簡化 | |
| » 觸覺傳感器行業首次覆蓋:無觸不成手,觸覺 | |
| » 2025人形機器人產業鏈市場洞察及方案介 | |
| » 把 AI 放到指數位—2025新思維 | |
| » 機器人如何鎖定目標說話人:聲紋識別,空間 | |
| » 機器人語音交互的智能打斷的方式:發聲即打 | |
| == 機器人推薦 == | |
服務機器人(迎賓、講解、導診...) |
|
智能消毒機器人 |
|
機器人底盤 |
![]() |