GenAI Weekly｜第3期：2月5日-2月18日

一、资讯热点（InfoBuzz）

1. 中美 AI 差距扩大
CB Insights数据显示，2023年美国 AI 领域初创公司总融资额达310亿美元，不仅同比增长14%，而且吸引了全球所有 AI 领域交易的近一半（46％），占据主导地位，其次则是亚洲（占25％）和欧洲（占24％）。其中生成式 AI 领域融资规模占所有 AI 领域的48%，占据主导地位。

相对于美国市场，2023年，中国 AI 领域投融资领域处于“下滑”状态。AI 领域投融资数量约为232笔，同比下降38%；融资总额约为20亿美元（约合142.45亿元），同比下降70%。特别是2023年第一季度，融资额和融资量都创下了5年来最低。

整体来说，过去一年，尽管国内 AI 大模型市场表面“狂热”，但实质上与美国 AI 市场环境存在差距。如果谈原因，既有宏观方面的问题，也有算力、基础技术等方面的差距等。

（图片来源：文心一格/钛媒体App编辑）

2. OpenAI超大芯片计划
Sam Altman近日正筹措一个旨在提高全球芯片制造能力的项目，计划筹集 5 万亿至 7 万亿美元。他表示，世界需要比目前人们计划更多的人工智能基础设施 —— 包括晶圆厂产能、能源、数据中心等。建立大规模的人工智能基础设施和有韧性的供应链对于经济竞争力至关重要。

二、技术前沿（TechVerse）

3. OpenAI 正式发布文本到视频生成模型 Sora
Sora 建立在过去 DALL・E 和 GPT 模型的研究基础之上，采用了 DALL・E 3 中的重述技术，即为视觉训练数据生成高度描述性的字幕。因此，该模型能够在生成的视频中更忠实地遵循用户的文字提示。用户给定一段简短或详细的描述或一张静态图片，Sora 就能生成类似电影的 1080p 场景，其中包含多个角色、不同类型的动作和背景细节，视频长度可达1min。
（openai官方视频demo截图）

官网介绍：https://openai.com/sora
技术报告：https://openai.com/research/video-generation-models-as-world-simulators

4.最新研究利用多模态 Agent 实现 AI 操作手机
Mobile-Agent 有以下三个能力：

（1）操作定位。对于需要点击特定图标和文本的操作，Mobile-Agent 能够准确点击到对应的位置。
（2）自我规划。根据用户指令和当前屏幕截图，Mobile-Agent 能够自动规划每一步的任务，直到任务完成。
（3）自我反思。如果出现了错误操作或者无效操作，Mobile-Agent 能够及时发现问题并进行补救。
论文地址：https://arxiv.org/abs/2401.16158v1
项目地址：https://github.com/X-PLUG/MobileAgent

Refer to caption

5.大语言模型可理解传感器信号进而完成物理世界中的任务
研究发现，大型语言模型存在理解温度、气压、加速度及电磁波信号强度等物理量的可能性，通过大语言模型处理物理信号的能力进而理解世界，并基于此提出了渗透式人工智能（Penetrative AI）的概念：利用大语言模型内嵌的世界知识来理解和处理广泛部署的物联网（IoT）传感器或控制器信号，来为物理信息系统（Cyber–Physical System，CPS）完成感知与决策任务。

与传统范式相比，渗透式人工智能的独特之处在于利用大语言模型中的通用知识，通过与额外观察或专家模型的协作，为物理信息系统提供更全面的知识支持。开发者可通过编辑文本进行操作，相比传统的编程方式降低了开发的难度和成本。该范式也可以利用文本这一通用表征，将不同传感器信号文本化再整合，呈现新的多模态融合方式。

论文标题：Penetrative AI: Making LLMs Comprehend the Physical World
论文地址：https://arxiv.org/abs/2310.09605
项目网站：https://dapowan.github.io/wands_penetrative-ai/

6. TrustLLM ：对 LLM 的可信度进行全面分析的统一框架
TrustLLM是一个统一的框架，用于对 LLM 可信度的全面分析，定义 LLMs 可信度的⼋个关键方面，即真实性、安全性、公平性、鲁棒性、隐私性、机器伦理、透明度和可问责。此外，作者开源了用于快速评估 LLMs 的 toolkit，并且维护了一个 leaderboard 来展示 LLMs 的可信赖的表现。

论文标题：TrustLLM: Trustworthiness in Large Language Models
论文链接：https://arxiv.org/abs/2401.05561
项目网站：https://trustllmbenchmark.github.io/TrustLLM-Website/
用于快速评估的 toolkit：https://github.com/HowieHwong/TrustLLM

三、应用专栏（AppliTech）

7. 英伟达官宣AI聊天机器人Chat with RTX
Chat With RTX 是英伟达推出的一个 Demo，利用检索增强生成 (RAG)、TensorRT-LLM 和 RTX 加速，可以与自定义聊天机器人对话。支持本地运行，可检索、分析保存在电脑上的文件（支持文本、PDF、.doc、.docx 和 .xml 等格式），相比与微软的Copilot，在扫描 PDF 文件和核对数据时更有优势；提供网址即可实现分析、总结 Youtube 上的视频。

下载地址：https://www.nvidia.com/en-us/ai-on-rtx/chat-with-rtx-generative-ai/
推荐RAG本地部署项目：https://github.com/NVIDIA/trt-llm-rag-windows

8. AI 笔记APP reor
一款基于本地大模型的笔记APP，可进行知识问答。内置 Llama.cpp，使用前需下载模型。
项目网站：https://github.com/reorproject/reor

9. AI文章编辑器Jenni
一款基于大预言模型的网页端学术写作APP。输入Prompt后会按句输出文章，用户根据实际情况选择是否采纳。主要功能包括：
（1）上传参考文献，自动输出参考文献基本信息，并支持修改；
（2）选择文本后，可搜索相关参考文献进行引用；
（3）AI Commands功能支持润色/扩写/缩写/总结/翻译文本，还可以针对所选文本，提供更有深度的论述/对立观点
（4）检查剽窃
（5）提供APA、MLA、Chicago等5种主流格式的文献自动引用

项目网站：https://app.jenni.ai/

四、学习专区（LearnLink）

10. 领域大模型应用建设流程指南论文
检索增强生成（RAG）和微调（Fine-tuning）是提升大语言模型性能的两种常用方法，本论文提出应用这两种方法的流程，以及如何根据模型选择最适合的方法。

论文标题：RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture
论文地址：https://arxiv.org/pdf/2401.08406.pdf

11. 18 Lessons teaching everything you need to know to start building Generative AI applications
微软官方推出的18节大语言模型入门课程。

官网地址：https://microsoft.github.io/generative-ai-for-beginners
github地址：https://github.com/Microsoft/generative-ai-for-beginners

五、几点感悟

中美AI发展差距客观存在，且不仅仅是技术层面的差距。OpenAI拥有技术先发优势且人才密度极高，英伟达提供算力支持，AI实力雄厚，发展迅猛。国内AI厂商虽然百花齐放，但在模型层面和落地的产品层面依旧没有特别大的突破，心态相对比较浮躁，逐利性明显。中美AI发展的差距不是一天拉大的，但缩小差距却需要持久努力，基础设施和经济等各个方面得到社会、政府的全力支持。大模型的发展受制于算力基础设施，算力基础设施也是极富有盈利点的方向。

OpenAI的芯片计划指向的正是这两个方面，但背后的附加价值和影响肯定不仅限于此，因此有一点点担忧，不过这既是机遇也是挑战，过去我们面对挑战未曾被打倒，相信面对机遇我们也有信心和实力抓住。

大模型在朝着多模态发展的进展愈发迅猛，视频生成的突破是在原有深厚技术、人才积淀的基础上的颠覆性创新。震惊不是因为它来了，大家都知道它会来，但却未想到它来的如此之快。颠覆式创新的背后是找到了一条让模型理解客观世界的可能方式，未来可期！

除了从图文等层面描述客观世界外，大模型还能够从温度、气压、加速度及电磁波信号强度等物理量来感知世界（渗透式人工智能），借助内嵌的已有知识进而理解世界。显然，这也为具身智能的发展奠定了初步的基础。

大模型在多模态方面的应用充满了想象，尤其是和已有的手机、电脑、IOT设备结合，用户和设备之间交互的数据将在大语言模型这个超级大脑的组织下产生更绝妙的效果。

可这一切要怎么实现呢？

未来产品形态的演变趋势会是如何？除了渐变外，会不会也会像寒武纪生命大爆发一样突变且衍生出无数新的形态？

多模态的广泛应用背景下，未来的人机交互的模态改变会如何发展？

这些问题的答案现在看来仍然很模糊，但未来十年呢？

Reference

中美 AI 差距扩大：美国96%的亿万富豪财富来自AI，中国 AI 融资衰退，https://www.tmtpost.com/6937210.html
OpenAI超大芯片计划，https://mp.weixin.qq.com/s/GA-q9JpceKi2pUdoyxLZQw
OpenAI 正式发布文本到视频生成模型 Sora，https://mp.weixin.qq.com/s/H2SDgcm08edUHXn4ETFzKA
最新研究利用多模态 agent 实现 AI 操作手机，https://github.com/X-PLUG/MobileAgent
大语言模型可理解传感器信号进而完成物理世界中的任务，https://mp.weixin.qq.com/s/C_ATcOuuLvltcZiFM2ySPQ
TrustLLM ：对 LLM 的可信度进行全面分析的统一框架，https://mp.weixin.qq.com/s/iah6Wz0VsMsJx_wCtgirBw
英伟达官宣AI聊天机器人Chat with RTX，https://mp.weixin.qq.com/s/DmRe3pa2xhEL_yxdGbxUJg
AI笔记APP reor，https://github.com/reorproject/reor
AI文章编辑器Jenni，https://jenni.ai/about
领域大模型应用建设流程指南论文，https://mp.weixin.qq.com/s/G8nKz4H3QSKBibSMYAzRvA
18 Lessons teaching everything you need to know to start building Generative AI applications，https://microsoft.github.io/generative-ai-for-beginners

GenAI Weekly｜第3期：2月5日-2月18日

一、资讯热点（InfoBuzz）

二、技术前沿（TechVerse）

三、应用专栏（AppliTech）

四、学习专区（LearnLink）

五、几点感悟

Reference

GenAI Weekly｜第2期：1月29日-2月4日如何成为更有趣的人

GenAI Weekly｜第1期：1月22日-28日大模型未来发展趋势：多模态

评论 (2)

GenAI Weekly｜第3期：2月5日-2月18日

一、资讯热点（InfoBuzz）

二、技术前沿（TechVerse）

三、应用专栏（AppliTech）

四、学习专区（LearnLink）

五、几点感悟

Reference

GenAI Weekly｜第2期：1月29日-2月4日 如何成为更有趣的人

GenAI Weekly｜第1期：1月22日-28日 大模型未来发展趋势：多模态

评论 (2)

GenAI Weekly｜第2期：1月29日-2月4日如何成为更有趣的人

GenAI Weekly｜第1期：1月22日-28日大模型未来发展趋势：多模态