视觉语音大模型 AI 开发套件( CSK6-MIX,如图1)是围绕 CSK6011A 芯片设计的具备丰富语音图像功能与硬件外设的开发板,采用具备丰富组件生态的 Zephyr RTOS作为操作系统,官方提供了十几种开源SDK,包含大模型语音交互、大模型拍照识图、文生图、人脸识别、头肩追踪、手势识别、坐姿提醒等。
聆思科技还提供了模型训练推理工具将自己的算法模型部署至芯片上,也可以配合这个工具构建自己的 AI 应用。
语音交互与识图功能介绍SDK主要包含以下功能:
●语音交互:支持按键录音或唤醒后通过语音与大模型进行对话
●拍照识图:支持通过摄像头拍摄图像并上传给大模型进行识别,支持依据识图内容进行提问
●图片生成:支持通过语音交互描述画面内容,令大模型生成图片并显示至套件屏幕上
语音交互模式支持的语音交互模式多模态SDK支持三种交互方式,其特点如下:
模式 | 唤醒方式 | 交互方式 |
按键交互 | 按下屏幕麦克风图标或开发板K3按键 | 按住按键说话,松开提交 |
语音唤醒(单轮) | 唤醒词 “小美小美” | 听到提示音 “在呢” 后进行提问,每次提问均需要唤醒 |
语音唤醒(多轮) | 唤醒词 “小美小美” | 听到提示音 “在呢” 后进行提问,可持续对话,当超过20秒无语音输入时自动结束本次交互 |
语音唤醒模式当设置为语音唤醒(单轮)或语音唤醒(多轮),可通过唤醒词 —— “小美小美” 对设备进行唤醒,当听到 “在呢” 的提示音后,即可正常进行语音输入。
拍照识图在待机页,点击拍照按钮即可进入取景页面,对准要拍照的物体,点击右侧中间的拍照键完成抓拍,确认画面抓拍正常后(无晃动模糊的情况),点击右侧的 √ 进行提交识别。
文生图在设备进入语音交互状态后,可以通过带有绘画意图的提示词让大模型进行作画,比如:
● “画一个人正在使用电脑”
● 结果如图2所示
图片生成与设备控制功能介绍本示例主要包含以下功能:
● 可通过“小聆小聆”对设备进行唤醒
● 可通过语音交互与大模型进行对话
● 可通过语音交互使用大模型绘制图片并显示在屏幕上
● 可通过语音交互通过大模型控制屏幕显示的颜色
● 支持通过LSPlatfrom接入自己的大模型应用
大模型语音对话功能● 我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒
● 套件被正常唤醒时,会播放应答语 —— "在呢"
● 此时我们可以接着对开发套件说出我们的问题,比如:“什么是大模型?”
● 稍等片刻后,开发套件将播放返回的答案
大模型作画● 我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒
● 套件被正常唤醒时,会播放应答语 —— "在呢"
● 此时我们可以接着对开发套件以 “画xx” 的句式说出我们希望它绘制的图像,比如:“画一只大熊猫”(结果如图3所示)
● 稍等片刻后,开发套件将在显示屏上显示大模型根据我们需求生成的图片
大模型控制设备● 我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒
● 套件被正常唤醒时,会播放应答语 —— "在呢"
● 此时我们可以接着对开发套件件以 “把屏幕设置成xx” 的句式说出希望屏幕显示的颜色,比如:“把屏幕设置成大海一样的颜色”
● 稍等片刻后,开发套件将把屏幕设置成理解了我们描述后的颜色
● 结果如图4所示
智能问答与坐姿检测功能介绍本示例功能包含:
● 坐姿检测:通过摄像头检测人员坐姿,并在出现不良坐姿时进行提醒(红灯闪烁)
● 语音识别:支持离线识别指定唤醒词并进行录音
● 网络:通过 WIFI 芯片接入网络,对接聆思大模型平台,支持与大模型进行对话
● 屏显:通过显示屏展示应用相关动画界面
体验大模型语音对话功能● 我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒
● 套件被正常唤醒时,会播放应答语 —— "在呢"
● 此时我们可以接着对开发套件说出我们的问题,比如:“什么是大模型?”
● 稍等片刻后,开发套件将播放返回的答案
体验坐姿检测本示例工程中默认启用了坐姿检测功能,当摄像头识别到不良坐姿时,开发板上也将闪烁红色 LED 进行提醒,同时,我们也可通过 PC 工具查看实时拍摄的图像与坐姿检测结果。
本示例运行时,摄像头将持续拍摄图像并并送入坐姿检测算法进行处理,当检测到画面中出现不良坐姿(如趴桌、手托脸等)时,将闪烁红色 LED 进行提醒。
借助串口连接即可看到预览图和识别结果,如图5所示。
相关资料