GenAI Weekly|第3期:2月5日-2月18日

Bruce
2024-02-18 / 2 评论 / 50 阅读 / 正在检测是否收录...
温馨提示:
本文最后更新于2024年02月23日,已超过87天没有更新,若内容或图片失效,请留言反馈。
AI摘要:本期GenAI Weekly的资讯热点包括中美AI差距扩大和OpenAI超大芯片计划。数据显示,美国AI领域初创公司的融资额达310亿美元,占据全球交易的近一半。相比之下,中国AI领域的投融资数量和总额都出现下降。此外,OpenAI发布了文本到视频生成模型Sora,可以根据用户的文字提示生成类似电影的视频。另外,还有关于利用多模态Agent实现AI操作手机、大语言模型理解传感器信号的研究以及对LLM可信度进行全面分析的统一框架等内容。此外,还介绍了英伟达的AI聊天机器人Chat with RTX、AI笔记APP reor和AI文章编辑器Jenni等应用。最后,推荐了一篇关于领域大模型应用建设流程的论文和微软推出的大语言模型入门课程。

一、资讯热点(InfoBuzz)

1. 中美 AI 差距扩大
CB Insights数据显示,2023年美国 AI 领域初创公司总融资额达310亿美元,不仅同比增长14%,而且吸引了全球所有 AI 领域交易的近一半(46%),占据主导地位,其次则是亚洲(占25%)和欧洲(占24%)。其中生成式 AI 领域融资规模占所有 AI 领域的48%,占据主导地位。

相对于美国市场,2023年,中国 AI 领域投融资领域处于“下滑”状态。AI 领域投融资数量约为232笔,同比下降38%;融资总额约为20亿美元(约合142.45亿元),同比下降70%。特别是2023年第一季度,融资额和融资量都创下了5年来最低。

整体来说,过去一年,尽管国内 AI 大模型市场表面“狂热”,但实质上与美国 AI 市场环境存在差距。如果谈原因,既有宏观方面的问题,也有算力、基础技术等方面的差距等。

(图片来源:文心一格/钛媒体App编辑)

2. OpenAI超大芯片计划
Sam Altman近日正筹措一个旨在提高全球芯片制造能力的项目,计划筹集 5 万亿至 7 万亿美元。他表示,世界需要比目前人们计划更多的人工智能基础设施 —— 包括晶圆厂产能、能源、数据中心等。建立大规模的人工智能基础设施和有韧性的供应链对于经济竞争力至关重要。

image-20240218225247569

二、技术前沿(TechVerse)

3. OpenAI 正式发布文本到视频生成模型 Sora
Sora 建立在过去 DALL・E 和 GPT 模型的研究基础之上,采用了 DALL・E 3 中的重述技术,即为视觉训练数据生成高度描述性的字幕。因此,该模型能够在生成的视频中更忠实地遵循用户的文字提示。用户给定一段简短或详细的描述或一张静态图片,Sora 就能生成类似电影的 1080p 场景,其中包含多个角色、不同类型的动作和背景细节,视频长度可达1min。
(openai官方视频demo截图)

4.最新研究利用多模态 Agent 实现 AI 操作手机
Mobile-Agent 有以下三个能力:

(1)操作定位。对于需要点击特定图标文本的操作,Mobile-Agent 能够准确点击到对应的位置。
(2)自我规划。根据用户指令和当前屏幕截图,Mobile-Agent 能够自动规划每一步的任务,直到任务完成。
(3)自我反思。如果出现了错误操作或者无效操作,Mobile-Agent 能够及时发现问题并进行补救。
论文地址:https://arxiv.org/abs/2401.16158v1
项目地址:https://github.com/X-PLUG/MobileAgent

Refer to caption

5.大语言模型可理解传感器信号进而完成物理世界中的任务
研究发现,大型语言模型存在理解温度、气压、加速度及电磁波信号强度等物理量的可能性,通过大语言模型处理物理信号的能力进而理解世界,并基于此提出了渗透式人工智能(Penetrative AI)的概念:利用大语言模型内嵌的世界知识来理解和处理广泛部署的物联网(IoT)传感器或控制器信号,来为物理信息系统(Cyber–Physical System,CPS)完成感知与决策任务。

与传统范式相比,渗透式人工智能的独特之处在于利用大语言模型中的通用知识,通过与额外观察或专家模型的协作,为物理信息系统提供更全面的知识支持。开发者可通过编辑文本进行操作,相比传统的编程方式降低了开发的难度和成本。该范式也可以利用文本这一通用表征,将不同传感器信号文本化再整合,呈现新的多模态融合方式。

图片

6. TrustLLM :对 LLM 的可信度进行全面分析的统一框架
TrustLLM是一个统一的框架,用于对 LLM 可信度的全面分析,定义 LLMs 可信度的⼋个关键方面,即真实性、安全性、公平性、鲁棒性、隐私性、机器伦理、透明度和可问责。此外,作者开源了用于快速评估 LLMs 的 toolkit,并且维护了一个 leaderboard 来展示 LLMs 的可信赖的表现。

img

三、应用专栏(AppliTech)

7. 英伟达官宣AI聊天机器人Chat with RTX
Chat With RTX 是英伟达推出的一个 Demo,利用检索增强生成 (RAG)、TensorRT-LLM 和 RTX 加速,可以与自定义聊天机器人对话。支持本地运行,可检索、分析保存在电脑上的文件(支持文本、PDF、.doc、.docx 和 .xml 等格式),相比与微软的Copilot,在扫描 PDF 文件和核对数据时更有优势;提供网址即可实现分析、总结 Youtube 上的视频。

image-20240218235947443

8. AI 笔记APP reor
一款基于本地大模型的笔记APP,可进行知识问答。内置 Llama.cpp,使用前需下载模型。
项目网站:https://github.com/reorproject/reor

image-20240219003326527

9. AI文章编辑器Jenni
一款基于大预言模型的网页端学术写作APP。输入Prompt后会按句输出文章,用户根据实际情况选择是否采纳。主要功能包括:
(1)上传参考文献,自动输出参考文献基本信息,并支持修改;
(2)选择文本后,可搜索相关参考文献进行引用;
(3)AI Commands功能支持润色/扩写/缩写/总结/翻译文本,还可以针对所选文本,提供更有深度的论述/对立观点
(4)检查剽窃
(5)提供APA、MLA、Chicago等5种主流格式的文献自动引用

image-20240219003258295

四、学习专区(LearnLink)

10. 领域大模型应用建设流程指南论文
检索增强生成(RAG)和微调(Fine-tuning)是提升大语言模型性能的两种常用方法,本论文提出应用这两种方法的流程,以及如何根据模型选择最适合的方法。

11. 18 Lessons teaching everything you need to know to start building Generative AI applications
微软官方推出的18节大语言模型入门课程。

image-20240219003258295

五、几点感悟

中美AI发展差距客观存在,且不仅仅是技术层面的差距。OpenAI拥有技术先发优势且人才密度极高,英伟达提供算力支持,AI实力雄厚,发展迅猛。国内AI厂商虽然百花齐放,但在模型层面和落地的产品层面依旧没有特别大的突破,心态相对比较浮躁,逐利性明显。中美AI发展的差距不是一天拉大的,但缩小差距却需要持久努力,基础设施和经济等各个方面得到社会、政府的全力支持。大模型的发展受制于算力基础设施,算力基础设施也是极富有盈利点的方向。

OpenAI的芯片计划指向的正是这两个方面,但背后的附加价值和影响肯定不仅限于此,因此有一点点担忧,不过这既是机遇也是挑战,过去我们面对挑战未曾被打倒,相信面对机遇我们也有信心和实力抓住。

大模型在朝着多模态发展的进展愈发迅猛,视频生成的突破是在原有深厚技术、人才积淀的基础上的颠覆性创新。震惊不是因为它来了,大家都知道它会来,但却未想到它来的如此之快。颠覆式创新的背后是找到了一条让模型理解客观世界的可能方式,未来可期!

除了从图文等层面描述客观世界外,大模型还能够从温度、气压、加速度及电磁波信号强度等物理量来感知世界(渗透式人工智能),借助内嵌的已有知识进而理解世界。显然,这也为具身智能的发展奠定了初步的基础。

大模型在多模态方面的应用充满了想象,尤其是和已有的手机、电脑、IOT设备结合,用户和设备之间交互的数据将在大语言模型这个超级大脑的组织下产生更绝妙的效果。

可这一切要怎么实现呢?

未来产品形态的演变趋势会是如何?除了渐变外,会不会也会像寒武纪生命大爆发一样突变且衍生出无数新的形态?

多模态的广泛应用背景下,未来的人机交互的模态改变会如何发展?

这些问题的答案现在看来仍然很模糊,但未来十年呢?

Reference

  1. 中美 AI 差距扩大:美国96%的亿万富豪财富来自AI,中国 AI 融资衰退,https://www.tmtpost.com/6937210.html
  2. OpenAI超大芯片计划,https://mp.weixin.qq.com/s/GA-q9JpceKi2pUdoyxLZQw
  3. OpenAI 正式发布文本到视频生成模型 Sora,https://mp.weixin.qq.com/s/H2SDgcm08edUHXn4ETFzKA
  4. 最新研究利用多模态 agent 实现 AI 操作手机,https://github.com/X-PLUG/MobileAgent
  5. 大语言模型可理解传感器信号进而完成物理世界中的任务,https://mp.weixin.qq.com/s/C_ATcOuuLvltcZiFM2ySPQ
  6. TrustLLM :对 LLM 的可信度进行全面分析的统一框架,https://mp.weixin.qq.com/s/iah6Wz0VsMsJx_wCtgirBw
  7. 英伟达官宣AI聊天机器人Chat with RTX,https://mp.weixin.qq.com/s/DmRe3pa2xhEL_yxdGbxUJg
  8. AI笔记APP reor,https://github.com/reorproject/reor
  9. AI文章编辑器Jenni,https://jenni.ai/about
  10. 领域大模型应用建设流程指南论文,https://mp.weixin.qq.com/s/G8nKz4H3QSKBibSMYAzRvA
  11. 18 Lessons teaching everything you need to know to start building Generative AI applications,https://microsoft.github.io/generative-ai-for-beginners
1

评论 (2)

取消
  1. 头像
    慧行说
    MacOS · Google Chrome · 广东省深圳市 电信

    中国不具备AI发展的土壤,在这块想超车感觉基本上没有可能了

    回复
    1. 头像
      Bruce 作者
      Windows 10 · Google Chrome · 北京市 联通
      @ 慧行说

      很难不赞同,超车确实很难了

      回复