购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.7 思考题

(1)请描述如何使用venv创建并激活一个Python虚拟环境,解释为什么在项目开发中建议使用虚拟环境。

(2)请简述Pandas库中的DataFrame结构,并列举至少3个常用的DataFrame操作(例如去重、缺失值处理、分组统计等),说明其应用场景。

(3)试编写一个Python函数,利用Pandas库将一组包含重复值的用户数据去重,并填充缺失值。假设数据包含用户ID、姓名和分数列,要求填充缺失的分数列为平均分,并展示清洗后的数据。

(4)请使用NumPy创建一个形状为(5,5)的随机浮点数数组,使用L2标准化方式对数组进行归一化处理,并输出归一化结果。

(5)使用NLTK库对以下句子进行分词、去除停用词和词形还原处理:

"RAG models integrate retrieval and generation for robust answers."

(6)请解释spaCy中的命名实体识别(NER)功能,并简述如何利用该功能提取出用户输入中的重要信息,以提升RAG系统的检索准确性。

(7)使用spaCy库对以下文本进行命名实体识别,输出所有识别的实体及其标签:

"OpenAI developed the GPT-4 model, which transformed AI research worldwide."

(8)在RAG系统开发中,FAISS的作用是什么?请简述FAISS的索引创建和向量检索的基本流程。

(9)编写代码,使用FAISS创建一个L2距离索引,并添加一组高维向量(例如5个随机生成的10维向量)。然后模拟一个查询向量,输出与该查询向量最相似的向量索引及其距离。

(10)使用Transformers库加载一个BERT模型和分词器,对以下文本进行向量化:

"Retrieval-Augmented Generation is a powerful technique in NLP."

然后输出文本的句向量。

(11)使用Transformers库中的GPT-2模型生成一个简短的回答。提示词为:The future of AI technology is。要求生成不超过50个字的内容,并设置top_k和temperature参数控制生成效果,输出生成的文本。 CUyC1WZ4TaugclqumQMJ7WZTbLkPIgeFEF14pbM3p9Li78xaheVhzjvZz8slChcU

点击中间区域
呼出菜单
上一章
目录
下一章
×